Метад максімальнай праўдападобнасці
Метад максімальнай праўдападобнасці (ММП) — метад ацэньвання параметраў меркаванага размеркавання імавернасцей на аснове выбаркі назіранняў. Ацэнка дасягаецца максімізацыяй функцыі праўдападобнасці такім чынам, каб згодна з меркаванай статыстычнай мадэллю назіранні былі найбольш праўдабадобнымі. Пункт у прасторы параметраў, які максімізуе функцыю праўдападобнасці, называецца ацэнкай максімальнай праўдападобнасці[1]. Логіка метаду адначасова інтуіцыйная і гнуткая, таму ён стаў дамінуючым сродкам статыстычнага высноўвання[2][3][4].
Калі функцыя праўдападобнасці дыферэнцавальная, можна прымяніць метад вытворнай для знаходжання яе максімумаў. У некаторых выпадках максімум функцыі праўдападобнасці можна знайсці аналітычна; напрыклад, ацэнка звычайным метадам найменшых квадратаў для мадэлі лінейнай рэгрэсіі максімізуе праўдападобнасць, калі мяркуецца, што ўсе назіранні маюць нармальнае размеркаванне з роўнай дысперсіяй[5].
З пункту гледжання баесаўскага высноўвання, ацэнка максімальнай праўдападобнасці, як правіла, эквівалентная ацэнцы апастэрыёрнага максімуму з раўнамерным апрыёрным размеркаваннем (або нармальным апрыёрным размеркаваннем з бесканечным стандартным адхіленнем). У частотным высноўванні метад максімальнай праўдападобнасці — асаблівы выпадак экстрэмальнай ацэнкі з мэтавай функцыяй роўнай праўдападобнасці.
Прынцыпы
[правіць | правіць зыходнік]Набор назіранняў мадэлюецца як выпадковая выбарка з невядомага супольнага размеркавання, якое задаецца наборам параметраў. Мэта метаду максімальнай праўдападобнасці — знайсці параметры, для якіх назіранні маюць найбольшую супольную імавернасць. Параметры, якія задаюць супольнае размеркаванне, запісваюцца як вектар , таму кажуць, што гэтае размеркаванне адносяцца да параметрычнага сямейства , дзе — прастора параметраў, канечнамернае падмноства Еўклідавай прасторы. Падстаўляючы назіранні у функцыю шчыльнасці супольнага размеркавання, атрымліваем рэчаісназначную функцыю
якая называецца функцыяй праўдападобнасці. Для незалежных і аднолькава размеркаваных выпадковых велічынь, можна запісаць як здабытак аднамерных функцый шчыльнасці імавернасці:
Мэта метаду максімальнай праўдападобнасці — знайсці такія значэнні параметраў мадэлі з прасторы параметраў, для якіх функцыя праўдападобнасці будзе максімальнай[6]:
Інтуітыўна, знойдзенае такім чынам значэнне параметраў робіць назіранні найбольш імавернымі. Значэнне , якое максімізуе функцыю праўдападобнасці , называецца значэннем ацэнкі максімальнай праўдападобнасці. Калі існуе вымерная функцыя , то такая функцыя называецца функцыяй ацэнкі максімальнай праўдападобнасці. Звычайна гэтая функцыя задаецца на прасторы элементарных падзей і яе аргументам выступае пэўная выбарка. Дастатковая, але не неабходная ўмова яе існавання — непарыўнасць функцыі праўдападобнасці на кампактнай прасторы параметраў[7]. Для адкрытага мноства , функцыя праўдападобнасці можа павялічвацца не дасягаючы супрэмуму.
На практыцы часта бывае зручна працаваць з натуральным лагарыфмам функцыі праўдападобнасці, які называецца лагарыфмам праўдападобнасці:
Праз тое што лагарыфм — манатонная функцыя, максімум дасягаецца пры тым самым значэнні , што і максімум [8]. Калі — дыферэнцавальная функцыя на , то неабходныя для максімуму (мінімуму) умовы
называюцца раўнаннямі праўдападобнасці. Для некаторых мадэляў удаецца знайсці іх аналітычныя развязкі , але агульнага аналітычнага развязка задачы максімізацыі не існуе, і ацэнка максімальнай праўдападобнасці можа быць знойдзена толькі з дапамогай лікавай аптымізацыі. Іншая праблема ў тым, што для канечных выбарак можа існаваць некалькі каранёў раўнанняў праўдападобнасці[9]. Гесіян, матрыца частковых вытворных другога парадку, можа выкарыстоўвацца каб зразумець ці з’яўляецца знойдзены максімум лакальным:
Калі гесіян адмоўна паўвызначаны ў , то функцыя лакальна ўвагнутая. Зручна тое, што найбольш вядомыя размеркаванні — у прыватнасці экспанентавае сямейства — лагарыфмічна ўвагнутыя[10][11].
Абмежаваная прастора параметраў
[правіць | правіць зыходнік]Хаця звычайна абсяг вызначэння функцыі праўдападобнасці (прастора параметраў) — канечнамернае падмноства Еўклідавай прасторы, часам на яго могуць накладацца дадатковыя абмежаванні. У такім выпадку прастору параметраў можна запісаць як
дзе — вектар-функцыя з у . Тады знайсці ацэнку максімальнай праўдападобнасці параметра з мноства значыць знайсці , для якога дасягаецца максімум функцыі праўдападобнасці пры выкананні ўмоў .
Тэарэтычна, самы натуральны падыход да гэтай задачы ўмоўнай аптымізацыі — метад падстаноўкі. Гэта значыць дапаўненне ўмоў да мноства такім чынам, што — ін’екцыя з у , і рэпараметрызацыя функцыі праўдападобнасці ўвядзеннем [12]. Праз эквіварыянтнасць функцыі ацэнкі максімальнай праўдападобнасці, уласцівасці распаўсюджваюцца і на абмежаваныя ацэнкі[13]. Напрыклад, для многавымернага нармальнага размеркавання матрыца каварыяцыі мусіць быць дадатна вызначанай матрыцай; гэта абмежаванне можна выканаць падстаноўкай , дзе — рэчаісная верхнетрохвугольная матрыца, а — транспанаваная (гл. раскладанне Халецкага для доказу ін’ектыўнасці)[14].
На практыцы ўмовы звычайна накладаюцца метадам множнікаў Лагранжа, які прыводзіць да раўнанняў абмежаванай праўдападобнасці:
- і
дзе — вектар-слупок множнікаў Лагранжа, а — матрыца Якобі частковых вытворных памеру k × r [12]. Натуральна, калі абмежаванні не ўплываюць на максімум, множнікі Лагранжа маюць быць роўнымі нулю[15]. Гэта, у сваю чаргу, дазваляе правесці статыстычную праверку валіднасці абмежавання, вядомую як тэст множнікаў Лагранжа.
Уласцівасці
[правіць | правіць зыходнік]Ацэнка максімальнай праўдападобнасці — ацэнка экстрэмуму, якая максімізуе па θ мэтавую функцыю . Калі назіранні незалежныя і аднолькава размеркаваныя, маем
што ёсць выбаркавым аналагам матэматычнага спадзявання лагарыфму праўдападобнасці , узятага па сапраўднай шчыльнасці.
Ацэнка максімальнай праўдападобнасці не мае аптымальных уласцівасцей для канечных выбарак у тым сэнсе, што іншыя ацэнкі на канечных выбарках могуць мець большую канцэнтрацыю вакол сапраўднага значэння параметру[16]. Аднак, як і іншыя метады ацэнкі, ацэнка максімальнай праўдападобнасці мае шэраг прывабных абмежавальных уласцівасцей: калі памер выбаркі павялічваецца да бясконцасці, паслядоўнасць ацэнак максімальнай праўдападобнасці мае наступныя ўласцівасці:
- Слушнасць: паслядоўнасць ацэнак максімальнай праўдападобнасці збягаецца паводле імавернасці да ацэньваемага значэння.
- Функцыянальная інварыянтнасць: Калі — ацэнка максімальнай праўдападобнасці для , а — адвольнае пераўтварэнне над , то ацэнка максімальнай праўдападобнасці для роўная .
- Эфектыўнасць: ацэнка дасягае ніжняй мяжы Крамера-Раа, калі памер выбаркі імкнецца к бесканечнасці. Гэта значыць, што ніводная слушная ацэнка не мае меншай асімптатычнай сярэднеквадратычнай памылкі, чым ацэнка максімальнай праўдападобнасці (або іншыя ацэнкі, якія дасягаюць гэтай мяжы). Гэта таксама значыць, што для ацэнкі максімальнай праўдападобнасці ўласцівая асімптатычная нармальнасць.
- Эфектыўнасць другога парадку пасля карэкцыі ўхілу.
Слушнасць
[правіць | правіць зыходнік]Пры выкананні прыведзеных ніжэй умоў, ацэнка максімальнай праўдападобнасці слушная. Гэта значыць, што калі даныя былі ўтвораны функцыяй і мы маем дастаткова вялікую колькасць назіранняў , то магчыма знайсці значэнне з адвольнай дакладнасцю. У матэматычных тэрмінах гэта значыць, што калі імкнецца да бесканечнасці, ацэнка збягаецца паводле імавернасці да сапраўднага значэння:
Пры трохі стражэйшых умовах, ацэнка збягаецца амаль напэўна (або моцна):
На практыцы, даныя ніколі не ўтвараюцца . Наадварот, — гэта мадэль, часта ў ідэалізаванай форме, працэсу, які ўтварае даныя. Паводле распаўсюджанага ў статыстыцы афарызму, усе мадэлі хібныя. Такім чынам, сапраўдная слушнасць ніколі не дасягаецца на практыцы. Тым не менш, слушнасць часта ўважаецца пажаданай уласцівасцю для ацэнак.
Для слушнасці дастаткова наступных умоў.[17]
- Ідэнтыфікавальнасць мадэлі: Іншымі словамі, розным параметрам адпавядаюць розныя размеркаванні мадэлі. Калі гэтая ўмова не выконваецца, існуе пэўнае значэнне , такое што і утвараюць роўныя размеркаванні даных. Тады немагчыма адрозніць гэтыя параметры нават з бясконцай колькасцю даных. Такія параметры называюцца назіральна эквівалентнымі.
Ідэнтыфікавальнасць неабходная для слушнасці ацэнкі максімальнай праўдападобнасці. Калі гэтая ўмова выконваецца, абмежаваная функцыя лагарыфму праўдападобнасці мае адзіны глабальны максімум у . - Кампактнасць: прастора параметраў мадэлі кампактная.

Умова ідэнтыфікавальнасці гарантуе, што ў лагарыфма праўдападобнасці існуе адзіны глабальны максімум. Кампактнасць азначае, што праўдападобнасць не можа імкнуцца к максімальнаму значэнню ў нейкім іншым месцы (напрыклад як паказана на рысунку справа).
Кампактнасць — толькі дастатковая, але не неабходная ўмова. Яна можа быць заменена некаторымі іншымі ўмовамі, такімі як:- адначасовая ўвагнутасць функцыі лагарыфму праўдападобнасці і кампактнасць некаторага з яе непустых мностваў узроўню, або
- існаванне кампактнага наваколля для , такога што па-за наваколлем функцыя лагарыфму праўдападобнасці меншая за максімум прынамсі на некаторы .
- Непарыўнасць: функцыя непарыўная ў для амаль усіх значэнняў : Непарыўнасць можа быць замененая слабейшай умовай верхняй паўнепарыўнасці.
- Дамінантнасць: існуе інтэгравальная па размеркаванні функцыя , такая што Паводле раўнамернага закона вялікіх лікаў, умова дамінантнасці разам з непарыўнасцю гарантуе раўнамерную збежнасць паводле імавернасці лагарыфма праўдападобнасці: Умова дамінантнасці можа быць выкарыстана ў выпадку незалежных аднолькава размеркаваных велічынь. Інакш, раўнамерная збежнасць паводле імавернасці можа быць забяспечана тым, што стахастычна роўнаступенна непарыўная.
Калі неабходна прадэманстраваць, што ацэнка максімальнай праўдападобнасці збягаецца да амаль напэўна, то мае выконвацца стражэйшая ўмова непарыўнай збежнасці амаль напэўна:
Акрамя таго, у дапушчэнні што даныя былі ўтвораны функцыяй , пры пэўных умовах можна паказаць, што ацэнка максімальнай праўдападобнасці збягаецца паводле размеркавання к нармальнаму размеркаванню[18]
- ,
дзе — матрыца інфармацыі Фішэра.
Функцыянальная інварыянтнасць
[правіць | правіць зыходнік]Калі — ацэнка максімальнай праўдападобнасці для , а — трансфармацыя над , то ацэнка максімальнай праўдападобнасці для роўная[19]
Яна максімізуе так званую профільную праўдападобнасць:
Акрамя таго, ацэнка максімальнай праўдападобнасці інварыянтная ў дачыненні некаторых трансфармацый даных. Калі , дзе — біекцыя, якая не залежыць ад ацэньваемых параметраў, то функцыя шчыльнасці адпавядае
і функцыі праўдападобнасці для і адрозніваюцца толькі множнікам, які не залежыць ад параметраў мадэлі.
Напрыклад, ацэнка максімальнай праўдападобнасці параметраў лог-нармальнага размеркавання такая самая як і ў нармальнага размеркавання, атрыманая на лагарыфмаваных даных.
Крыніцы
[правіць | правіць зыходнік]- ↑ Rossi, Richard J. (2018). Mathematical Statistics : An Introduction to Likelihood Based Inference. New York: John Wiley & Sons. p. 227. ISBN 978-1-118-77104-4.
- ↑ Hendry, David F.; Nielsen, Bent (2007). Econometric Modeling: A Likelihood Approach. Princeton: Princeton University Press. ISBN 978-0-691-13128-3.
- ↑ Chambers, Raymond L.; Steel, David G.; Wang, Suojin; Welsh, Alan (2012). Maximum Likelihood Estimation for Sample Surveys. Boca Raton: CRC Press. ISBN 978-1-58488-632-7.
- ↑ Ward, Michael Don; Ahlquist, John S. (2018). Maximum Likelihood for Social Science : Strategies for Analysis. New York: Cambridge University Press. ISBN 978-1-107-18582-1.
- ↑ Press, W.H.; Flannery, B.P.; Teukolsky, S.A.; Vetterling, W.T. (1992). Least Squares as a Maximum Likelihood Estimator. Numerical Recipes in FORTRAN: The Art of Scientific Computing (2nd ed.). Cambridge: Cambridge University Press. pp. 651–655. ISBN 0-521-43064-X.
- ↑ Myung, I.J. (2003). Tutorial on maximum likelihood Estimation. Journal of Mathematical Psychology. 47 (1): 90–100. doi:10.1016/S0022-2496(02)00028-7.
- ↑ Gourieroux, Christian; Monfort, Alain (1995). Statistics and Econometrics Models. Cambridge University Press. p. 161. ISBN 0-521-40551-3.
- ↑ Kane, Edward J. (1968). Economic Statistics and Econometrics. New York, NY: Harper & Row. p. 179.
- ↑ Small, Christoper G.; Wang, Jinfang (2003). Working with roots. Numerical Methods for Nonlinear Estimating Equations. Oxford University Press. pp. 74–124. ISBN 0-19-850688-0.
- ↑ Kass, Robert E.; Vos, Paul W. (1997). Geometrical Foundations of Asymptotic Inference. New York, NY: John Wiley & Sons. p. 14. ISBN 0-471-82668-5.
- ↑ Papadopoulos, Alecos. Why we always put log() before the joint pdf when we use MLE (Maximum likelihood Estimation)?. Stack Exchange (25 верасня 2013).
- ↑ а б Silvey, S. D. (1975). Statistical Inference. London, UK: Chapman and Hall. p. 79. ISBN 0-412-13820-4.
- ↑ Olive, David (2004). Does the MLE maximize the likelihood? (Document).
{{cite document}}: Невядомы параметр|url=ігнараваны (даведка); Шаблон цытавання document патрабуе|publisher=(даведка) - ↑ Schwallie, Daniel P. (1985). Positive definite maximum likelihood covariance estimators. Economics Letters. 17 (1–2): 115–117. doi:10.1016/0165-1765(85)90139-9.
- ↑ Magnus, Jan R. (2017). Introduction to the Theory of Econometrics. Amsterdam: VU University Press. pp. 64–65. ISBN 978-90-8659-766-6.
- ↑ Pfanzagl 1994, p. 206.
- ↑ Тэарэма 2.5 у Newey, Whitney K.; McFadden, Daniel (1994). Chapter 36: Large sample estimation and hypothesis testing. In Engle, Robert; McFadden, Dan (рэд-ры). Handbook of Econometrics, Vol.4. Elsevier Science. pp. 2111–2245. ISBN 978-0-444-88766-5.
- ↑ Тэарэма 3.3 у Newey, Whitney K.; McFadden, Daniel (1994). Chapter 36: Large sample estimation and hypothesis testing. In Engle, Robert; McFadden, Dan (рэд-ры). Handbook of Econometrics, Vol.4. Elsevier Science. pp. 2111–2245. ISBN 978-0-444-88766-5.
- ↑ Zacks, Shelemyahu (1971). The Theory of Statistical Inference. New York: John Wiley & Sons. p. 223. ISBN 0-471-98103-6.
Літаратура
[правіць | правіць зыходнік]- Pfanzagl, Johann (1994). Parametric Statistical Theory(англ.). Walter de Gruyter. pp. 207–208. doi:10.1515/9783110889765. ISBN 978-3-11-013863-4. MR 1291393.