Lemat Neymana-Pearsona

Lemat Neymana-Pearsona – twierdzenie z obszaru statystyki opublikowane przez Jerzego Neymana i Egona Pearsona w 1933. Stanowi – w amalgamacie z wcześniejszą propozycją Ronalda Fishera – jedną z podstaw procedury weryfikacji hipotez w podejściu częstościowym^[1]^[2]^[3].

Kontekst i motywacja

Główny artykuł: Wnioskowanie częstościowe.

Procedura testowa zaproponowana przez Fishera w 1925 miała następującą postać^[1]:

Wybierz hipotezę zerową $H_{0}.$ Nie musi ona zakładać zerowego efektu, tylko taki jaki chcesz sfalsyfikować.
Wykonaj obserwację i przedstaw jej surową wartość $p.$ Oceń na tej podstawie wartość dowodową danych według własnych kryteriów.
Korzystaj z tej procedury tylko jeśli badasz słabo znany obszar i nie masz lepszych narzędzi.

Neyman i Pearson uznali tę propozycję za niesatysfakcjonującą z szeregu powodów, i pracowali nad przedstawionym poniżej alternatywnym podejściem:

Wybierz dwie hipotezy, które chcesz porównać: $H_{1}$ i $H_{2},$ oraz dostosowane do konkretnego problemu dopuszczalne ryzyko błędów pierwszego rodzaju $\alpha$ i drugiego rodzaju $\beta .$ Wykonaj na ich podstawie analizę kosztów w celu wybrania optymalnego testu i wielkości próby dla rozstrzygania pomiędzy hipotezami na wybranym poziomie błędów.
Jeśli zaobserwowane dane spełniają kryterium odrzucenia $H_{1},$ postępuj tak jakby $H_{2}$ była prawdziwa; w przeciwnym razie postępuj tak, jakby prawdziwa była $H_{1}.$
Procedura ta nie rozstrzyga o prawdziwości hipotez, ale pozwala w długim horyzoncie czasowym utrzymywać ryzyko błędów w założonych granicach. Jest odpowiednia tylko do zastosowań, w których można jasno określić $\alpha$ i $\beta ,$ a $H_{1}$ i $H_{2}$ dają rozbieżne przewidywania.

Lemat Neymana-Pearsona jest matematyczną formalizacją i dookreśleniem pierwszego punktu, opisując metodę konstrukcji optymalnego warunku krytycznego dla przyjętych $\alpha$ i $\beta .$

Autorzy obu procedur dopracowywali je z biegiem lat i pozostawali w sporze o ich filozoficzne i praktyczne aspekty do końca życia. Po 1940 r. oba podejścia zaczęły być, wbrew wypowiedziom ich twórców, łączone w podręcznikach w coraz bardziej hybrydową i uproszczoną postać, i przedstawiane przy pomocy języka sugerującego, że pojedyncze wyniki mogą być używane do wyciągania wniosków o subiektywnym prawdopodobieństwie hipotez^[1]^[3]^[4]^[5]. Ma ona następującą formę – w krytycznym omówieniu Gigerenzera^[1]:

Przyjmij hipotezę zerową $H_{0},$ która zakłada zerowy efekt (brak różnic lub korelacji). Nie potrzebujesz określać żadnych szczegółów własnej hipotezy badawczej.
Przyjmij ryzyko błędów pierwszego rodzaju $\alpha$ na poziomie istotności 5% i wykonaj test $H_{0}.$ Jeśli wartość p przekroczy $\alpha ,$ uznaj swoją hipotezę badawczą za potwierdzoną. Zależnie od wartości $p,$ możesz przedstawić wyniki jako „istotne” na poziomie $p<0{,}05,$ $p<0{,}01$ lub $p<0{,}001.$
Stosuj tę procedurę do wszystkich zastosowań.

Ta ostatnia metoda stała się w drugiej połowie XX wieku stosowaną powszechnie, i jest w ocenie m.in. Gigerenzera czy Cohena, „bezmyślnym rytuałem”, używanym zbyt często do celów, do których nie została nigdy przeznaczona ani uprawomocniona^[1]^[6]^[7]^[8].

Intuicja

Rozkłady prawdopodobieństwa dla statystyki testowej w hipotezie zerowej i alternatywnej, w teście t dla dwóch grup niezależnych, przy N=100, d=0,5 i dwustronnym α=0,05, co oznacza poziom β≈0,3 (moc statystyczną ok. 70%).

Neyman i Pearson jasno odcięli się od kwestii bezpośredniej oceny hipotez, stwierdzając że „żaden test oparty na teorii prawdopodobieństwa nie może sam w sobie stanowić wartościowego dowodu prawdziwości lub fałszywości hipotez”. Uznali, że są natomiast w stanie formalnie opisać reguły decyzyjne, które pozwalają przynajmniej na długoterminowe unikanie błędów^[2].

Ich propozycja opiera się na założeniu, że $H_{1}$ i $H_{2}$ prognozują różne rozkłady badanego parametru w populacji, oraz że próby mogą być z niej pobierane wielokrotnie. Reguły prawdopodobieństwa uzasadniają wówczas oczekiwanie, że w długim okresie próby odzwierciedlą leżący u ich podłoża prawdziwy rozkład. Definiują następnie test statystyczny jako regułę rozstrzygającą pomiędzy hipotezami na podstawie tego, czy próba leży w krytycznym regionie rozkładu który jest zdecydowanie bardziej prawdopodobny dla jednej z nich. To, co badacz uzna za krytyczny region, zależy w ujęciu Neymana i Pearsona od konieczności balansowania ryzyka błędów $\alpha$ i $\beta$ ^[2].

Ujęcie to wyznacza cztery podstawowe możliwości – dwa trafne rozpoznania i dwa błędy – odpowiadające przyjęciu^[2]:

prawdziwej hipotezy $H_{1},$
fałszywej hipotezy $H_{1}$ (błąd pierwszego rodzaju, którego ryzyko to $\alpha$ ),
prawdziwej hipotezy $H_{2},$
fałszywej hipotezy $H_{2}$ (błąd drugiego rodzaju, którego ryzyko to $\beta$ ).

W tym zakresie w jakim rozkłady pokrywają się, istnieje niebezpieczeństwo że próba pochodząca z jednego z nich może zostać omyłkowo przypisana drugiemu. Lemat dowodzi, że sensowny („najlepszy”) region krytyczny leży na tym zakresie, „na skraju” rozkładów. Ceteris paribus, $\alpha$ i $\beta$ wykluczają się – zmiana regionu krytycznego która zwiększa jedno z nich, musi zmniejszać drugie. Najlepszy obszar krytyczny można więc określić jako $\alpha$ szerokości o minimalnym prawdopodobieństwie z jednego rozkładu, który wyznacza jednocześnie analogiczne $\beta$ szerokości drugiego – niezależnie od tego jakie konkretnie $\alpha$ zostało wybrane^[2].

Powyższa konstrukcja regionu krytycznego stanowi podstawę testu statystycznego o najwyższej mocy. Można go zrealizować ilorazem funkcji wiarygodności danych przy założeniu obu rozkładów, rozstrzygającym na korzyść jednego z nich zależnie od tego, czy plasuje próbę w obszarze krytycznym. Jeśli przyjęto trafny model statystyczny do określania wiarygodności, a próby są losowe, to decyzje oparte na rezultatach takiego testu asymptotycznie (w liczbie prób zmierzającej do nieskończoności) prowadzą do błędów jedynie z przyjętymi nominalnymi poziomami ryzyka^[2].

W uproszczeniu, lemat sprowadza się do tego, że region krytyczny testu powinien leżeć „na skraju” rozkładów. Jego historyczne znaczenie polega też na ogólnym przedstawieniu podejścia Neymana i Pearsona do testów, oraz opracowaniu zagadnienia mocy testu we wnioskowaniu statystycznym^[2]^[3].

Lemat

Poniższa ekspozycja lematu Neymana-Pearsona oparta jest na jego prezentacji w podręczniku Mooda, Graybilla i Boesa^[9].

Niech $X$ będzie próbą losową z funkcji $f(x;\theta )$ na mierze prawdopodobieństwa $\mu ,$ gdzie hipotetyczny parametr $\theta$ przyjmuje jedną z dwóch znanych wartości $\theta _{0}$ lub $\theta _{1},$ a $\alpha$ stałą z przedziału $0<\alpha <1.$ Niech $k^{*}$ będzie dodatnią stałą, a region krytyczny $C^{*}$ podzbiorem całej przestrzeni probabilistycznej $\chi ,$ które spełniają warunki:

$P_{\theta _{0}}{\big [}X\in C^{*}{\big ]}=\alpha ,$
$\lambda ={\frac {L(\theta _{0};X)}{L(\theta _{1};X)}}={\frac {L_{0}}{L_{1}}}\leqslant k^{*}$ jeśli $X\in C^{*}$ oraz $\lambda \geqslant k^{*}$ jeśli $X\in {\overline {C}}^{*}.$

Wówczas test $\mathrm {T} ^{*}$ odpowiadający regionowi krytycznemu $C^{*}$ jest testem hipotez $H_{0}:\theta =\theta _{0}$ i $H_{1}:\theta =\theta _{1}$ o największej mocy $(1-\beta )$ przy danym $\alpha .$

Dla przypomnienia, wiarygodność to w tym przypadku całkowite prawdopodobieństwo danych obserwacji przy prawdziwości konkretnego parametru: $L_{j}=L(\theta _{j};X)=\prod _{i=1}^{n}f(x_{i};\theta _{j})$ dla $j\in (0,1),$ a ${\overline {C}}^{*}$ to dopełnienie zbioru: ${\overline {C}}^{*}=\chi -C^{*}.$

Dowód

Przyjmijmy, że $k^{*}$ i $C^{*}$ spełniające warunki 1 i 2 istnieją. Jeśli nie ma żadnego innego testu o istotności $\alpha$ lub niższej, $\mathrm {T} ^{*}$ jest automatycznie testem o najwyższej mocy. Załóżmy, że istnieje alternatywny test $\mathrm {T}$ o takiej istotności istnieje, z regionem krytycznym $C{:}$ $P_{\theta _{0}}{\big [}X\in C{\big ]}\leqslant \alpha .$ Dowód wymaga wykazania, że nie ma wyższej mocy, $\pi _{\mathrm {T} ^{*}}\geqslant \pi _{\mathrm {T} }.$

Kroki dowodu wykorzystują wiele wzajemnych relacji zbiorów $C^{*}$ i $C,$ w związku z czym w podążaniu za nim może być pomocne odwoływanie się do ich prostego diagramu Venna.

Przyjmijmy, że dla każdego podzbioru $R\in \chi$ oraz $j\in (0,1)$ będziemy zapisywać następujące całki wielokrotne dla skrótu w następujący sposób:

\int \limits _{R}\dots \int \left[\prod _{i=1}^{n}f(x_{i};\theta _{j})\right]=\int _{R}L_{j}.

Udowodnienie że $\pi _{\mathrm {T} ^{*}}\geqslant \pi _{\mathrm {T} }$ jest równoważne wykazaniu, że $\int _{C^{*}}L_{1}\geqslant \int _{C}L_{1}.$ Następnie:

\int _{C^{*}}L_{1}-\int _{C}L_{1}=\int _{C^{*}{\overline {C}}}L_{1}-\int _{C{\overline {C}}^{*}}L_{1}\geqslant {\frac {1}{k^{*}}}\int _{C^{*}{\overline {C}}}L_{1}-{\frac {1}{k^{*}}}\int _{C{\overline {C}}^{*}}L_{1},

ponieważ dla regionu krytycznego $C^{*},$ i stąd także dla $C^{*}{\overline {C}}{:}$

L_{1}\geqslant {\frac {L_{0}}{k^{*}}},

a dla dopełnienia regionu, ${\overline {C}}^{*},$ czyli także dla $C{\overline {C}}^{*}{:}$

L_{1}\leqslant {\frac {L_{0}}{k^{*}}}

oraz

-L_{1}\geqslant -{\frac {L_{0}}{k^{*}}}.

Jednakże:

{\begin{aligned}&{\frac {1}{k^{*}}}\left(\int _{C^{*}{\overline {C}}}L_{0}-\int _{C{\overline {C}}^{*}}L_{0}\right)\\={}&{\frac {1}{k^{*}}}\left(\int _{C^{*}{\overline {C}}}L_{0}+\int _{C^{*}C}L_{0}-\int _{C^{*}C}L_{0}-\int _{C{\overline {C}}^{*}}L_{0}\right)\\={}&{\frac {1}{k^{*}}}\left(\int _{C^{*}}L_{0}-\int _{C}L_{0}\right)\\={}&{\frac {1}{k^{*}}}(\alpha -\alpha _{\mathrm {T} ^{*}})\geqslant 0\end{aligned}}

co pozwala na konkludowanie dowodu:

\int _{C^{*}}L_{1}-\int _{C}L_{1}\geqslant 0.

Przypisy

↑ ^a ^b ^c ^d ^e GerdG. Gigerenzer GerdG., Mindless statistics, „The Journal of Socio-Economics”, 33 (5), 2004, s. 587–606, DOI: 10.1016/j.socec.2004.09.033 [dostęp 2019-03-31] (ang.).
↑ ^a ^b ^c ^d ^e ^f ^g J.J. Neyman J.J., E.S.E.S. Pearson E.S.E.S., On the Problem of the Most Efficient Tests of Statistical Hypotheses, „Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences”, 231 (694–706), 1933, s. 289–337, DOI: 10.1098/rsta.1933.0009, ISSN 1364-503X [dostęp 2019-03-31] (ang.).
↑ ^a ^b ^c JohannesJ. Lenhard JohannesJ., Models and Statistical Inference: The Controversy between Fisher and Neyman-Pearson, „The British Journal for the Philosophy of Science”, 57 (1), 2006, s. 69–91, DOI: 10.1093/bjps/axi152, ISSN 1464-3537 [dostęp 2019-03-31] [zarchiwizowane z adresu 2018-06-04] (ang.).
↑ GerdG. Gigerenzer GerdG., The superego, the ego, and the id in statistical reasoning, [w:] GideonG. Keren, CharlesCh. Lewis, A Handbook for Data Analysis in the Behaviorial Sciences: Volume 1: Methodological Issues Volume 2: Statistical Issues, Psychology Press, 14 stycznia 2014, ISBN 978-1-317-75998-0 [dostęp 2017-01-15] (ang.).
↑ E.L.E.L. Lehmann E.L.E.L., The Fisher, Neyman-Peerson Theories of Testing Hypotheses: One Theory or Two? JavierJ. Rojo (red.), Boston, MA: Springer US, 2012, s. 201–208, DOI: 10.1007/978-1-4614-1412-4_19, ISBN 978-1-4614-1411-7 [dostęp 2019-03-31] (ang.).
↑ JacobJ. Cohen JacobJ., The earth is round (p <.05)., „American Psychologist”, 49 (12), 1994, s. 997–1003, DOI: 10.1037/0003-066X.49.12.997, ISSN 1935-990X [dostęp 2019-03-31] (ang.).
↑ Jesper W.J.W. Schneider Jesper W.J.W., Null hypothesis significance tests. A mix-up of two different theories: the basis for widespread confusion and numerous misinterpretations, „Scientometrics”, 102 (1), 2014, s. 411–432, DOI: 10.1007/s11192-014-1251-5, ISSN 0138-9130 [dostęp 2017-01-14] (ang.).
↑ RaymondR. Hubbard RaymondR. i inni, Confusion over Measures of Evidence (p’s) versus Errors (α's) in Classical Statistical Testing, „The American Statistician”, 57 (3), 2003, s. 171–182, JSTOR: 30037265 [dostęp 2017-01-15] .
↑ IX: Tests of hypotheses, [w:] Alexander M.A.M. Mood Alexander M.A.M., Duane C.D.C. Boes Duane C.D.C., Franklin A.F.A. Graybill Franklin A.F.A., Introduction to the Theory of Statistics, wyd. 3rd ed, New York: McGraw-Hill, 1974, 410 i następne, ISBN 0-07-042864-6, OCLC 813585341 [dostęp 2019-03-31] .

[:1-1] GerdG. Gigerenzer GerdG., Mindless statistics, „The Journal of Socio-Economics”, 33 (5), 2004, s. 587–606, DOI: 10.1016/j.socec.2004.09.033 [dostęp 2019-03-31] (ang.).

[:3-2] ↑ ^a ^b ^c ^d ^e ^f ^g J.J. Neyman J.J., E.S.E.S. Pearson E.S.E.S., On the Problem of the Most Efficient Tests of Statistical Hypotheses, „Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences”, 231 (694–706), 1933, s. 289–337, DOI: 10.1098/rsta.1933.0009, ISSN 1364-503X [dostęp 2019-03-31] (ang.).

[:4-3] JohannesJ. Lenhard JohannesJ., Models and Statistical Inference: The Controversy between Fisher and Neyman-Pearson, „The British Journal for the Philosophy of Science”, 57 (1), 2006, s. 69–91, DOI: 10.1093/bjps/axi152, ISSN 1464-3537 [dostęp 2019-03-31] [zarchiwizowane z adresu 2018-06-04] (ang.).

[4] GerdG. Gigerenzer GerdG., The superego, the ego, and the id in statistical reasoning, [w:] GideonG. Keren, CharlesCh. Lewis, A Handbook for Data Analysis in the Behaviorial Sciences: Volume 1: Methodological Issues Volume 2: Statistical Issues, Psychology Press, 14 stycznia 2014, ISBN 978-1-317-75998-0 [dostęp 2017-01-15] (ang.).

[5] E.L.E.L. Lehmann E.L.E.L., The Fisher, Neyman-Peerson Theories of Testing Hypotheses: One Theory or Two? JavierJ. Rojo (red.), Boston, MA: Springer US, 2012, s. 201–208, DOI: 10.1007/978-1-4614-1412-4_19, ISBN 978-1-4614-1411-7 [dostęp 2019-03-31] (ang.).

[6] JacobJ. Cohen JacobJ., The earth is round (p <.05)., „American Psychologist”, 49 (12), 1994, s. 997–1003, DOI: 10.1037/0003-066X.49.12.997, ISSN 1935-990X [dostęp 2019-03-31] (ang.).

[:0-7] Jesper W.J.W. Schneider Jesper W.J.W., Null hypothesis significance tests. A mix-up of two different theories: the basis for widespread confusion and numerous misinterpretations, „Scientometrics”, 102 (1), 2014, s. 411–432, DOI: 10.1007/s11192-014-1251-5, ISSN 0138-9130 [dostęp 2017-01-14] (ang.).

[:2-8] RaymondR. Hubbard RaymondR. i inni, Confusion over Measures of Evidence (p’s) versus Errors (α's) in Classical Statistical Testing, „The American Statistician”, 57 (3), 2003, s. 171–182, JSTOR: 30037265 [dostęp 2017-01-15] .

[9] IX: Tests of hypotheses, [w:] Alexander M.A.M. Mood Alexander M.A.M., Duane C.D.C. Boes Duane C.D.C., Franklin A.F.A. Graybill Franklin A.F.A., Introduction to the Theory of Statistics, wyd. 3rd ed, New York: McGraw-Hill, 1974, 410 i następne, ISBN 0-07-042864-6, OCLC 813585341 [dostęp 2019-03-31] .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]