Wartość p

Wartość p, p-wartość, prawdopodobieństwo testowe (ang. p-value, probability value) – prawdopodobieństwo uzyskania wyników testu co najmniej tak samo skrajnych, jak te zaobserwowane w rzeczywistości (w próbie losowej z populacji), obliczone przy założeniu, że hipoteza zerowa jest prawdziwa. Może być interpretowana jako miara niezgodności danych z założonym modelem, wyrażonym w hipotezie zerowej. Wyniki testów statystycznych sugerujące istnienie poszukiwanych zależności mogą być obserwowane wskutek losowej zmienności prób, choć w populacji wcale nie występują, dlatego błąd losowy powinien być kontrolowany, na przykład przy pomocy wartości $p$ . Jest to jednak narzędzie, które świadczy o wartości dowodowej danych jedynie pośrednio. Według wielu przeglądów i komentarzy błędne interpretacje wartości $p$ są w naukach powszechne^[2].

Wartość $p$ jest używana we wnioskowaniu częstościowym przy weryfikacji hipotez statystycznych jako narzędzie kontroli błędów pierwszego rodzaju, polegających na uznawaniu fałszywych hipotez za prawdziwe. Jeśli wartość $p$ jest niższa, niż przyjęty z góry poziom istotności statystycznej (oraz jeśli model jest trafny, a jego założenia spełnione) można postępować tak, jakby hipoteza zerowa została odrzucona^[3]^[4].

Wartość $p$ to prawdopodobieństwo skrajnych danych przy założeniu hipotezy zerowej: $P(D^{+}|H_{0}).$ Można je rozumieć jako stopień, w jakim dane są zaskakujące, jeśli nie spodziewaliśmy się wykryć w danych niczego odbiegającego od założonej hipotezy zerowej (często jest nią brak efektu). Wartości $p$ nie należy mylić z prawdopodobieństwem danych przy założeniu alternatywnej hipotezy badawczej ani z prawdopodobieństwem hipotez w świetle danych; mogą mieć one zupełnie inne wartości:

P(D^{+}|H_{0})\neq P(D|H_{1})\neq P(H_{0}|D)\neq P(H_{1}|D).

Według oryginalnej propozycji Ronalda Fishera wartość $p$ może być używana do oceny wartości dowodowej danych, jednak jest to interpretacja obarczona licznymi zastrzeżeniami. Współtwórcy podejścia częstościowego, Spława-Neyman i Pearson, uważali, że takie oceny są nieuprawnione^[3]^[4]. W realistycznych sytuacjach wartość $p$ nie musi silnie korelować z prawdziwością hipotezy zerowej^[5]. Prawidłowo stosowana metodologia częstościowa nie służy do decydowania wprost o prawdziwości hipotez, zwłaszcza na podstawie pojedynczych badań, ale do unikania błędów decyzyjnych przy wielokrotnym powtarzaniu testów.

Istnieją sytuacje, w których wniosek, do którego prowadzi obliczanie wartości $p$ , jest błędny lub wręcz absurdalny, przede wszystkim jeśli badacz popełni błędy metodologiczne lub oszustwa (tzw. P-hacking): np. nie zastosuje poprawki na porównania wielokrotne. Autorzy postera konferencyjnego z 2009 r. zilustrowali to, wykonując badanie fMRI na martwym łososiu. Próby, w których nieżywej rybie pokazywano fotografie ludzi, wiązały się z istotną statystycznie zmianą aktywacji obszarów w jej mózgu (przed poprawkami)^[6]^[7].

Definicja

W modelu wnioskowania częstościowego przed wykonaniem eksperymentu wybiera się krytyczny poziom istotności odpowiadający dopuszczalnemu w ocenie badacza ryzyku popełniania błędu pierwszego rodzaju oraz model statystyczny odpowiadający hipotezie zerowej $H_{0},$ tj. zakładający brak istnienia jakiegokolwiek efektu w populacji. W praktyce z reguły stosowany jest poziom istotności $\alpha =0{,}05.$ Wartość $p$ to obliczone na podstawie danych prawdopodobieństwo uzyskania takich lub bardziej skrajnych obserwacji w modelu hipotezy zerowej $P(D^{+}|H_{0}).$ Odczytuje się ją zależnie od testu i tego, czy zakładamy jedno-, czy dwustronną hipotezę alternatywną – z jednej lub obu stron dystrybuanty właściwego dla niego rozkładu. Przed rozpowszechnieniem komputerów korzystano z tablic statystycznych, co było zaletą podejścia częstościowego, zapewniającego w ten sposób gotowe rozwiązania dla najczęściej spotykanych postaci problemów. Jeśli wartość $p$ jest mniejsza od przyjętego poziomu istotności, wynik uważa się za zaskakujący w świetle $H_{0}$ i określa się go jako istotny statystycznie. Jest to rozstrzygnięcie zero-jedynkowe – wynik jest albo istotny na przyjętym poziomie, albo nie^[8]^[9]. Jeśli eksperyment uwzględnia wielokrotne wykonywanie testów statystycznych, poziom istotności powinien uwzględniać poprawkę przeciwdziałającą problemowi porównań wielokrotnych, np. Bonferroniego.

Użycie unormowanej wielkości, w przeciwieństwie do różnorodnych statystyk testowych (z, F, t, chi-kwadrat, D Kołmogorowa-Smirnowa itp.), pozwala bezpośrednio porównywać to, na ile dane z różnych eksperymentów są zaskakujące – przy założeniu hipotezy zerowej.

Interpretacja

Wartość $p$ niższa od krytycznego poziomu istotności $(p<0{,}05)$ w podejściu częstościowym uprawnia jedynie do postępowania doraźnie tak, jakby hipoteza zerowa została odrzucona. Jest parametrem konkretnych obserwacji (próby statystycznej), a nie hipotezy badawczej. Nie wyraża wprost prawdopodobieństwa hipotezy alternatywnej: $P(D^{+}|H_{0})\neq P(H_{1}|D).$ Nie wyraża też ryzyka popełnienia błędu pierwszego rodzaju (wynosi ono zawsze tyle, jaki przyjęto poziom istotności, najczęściej $\alpha =0{,}05$ ). Nie wyraża również istotności praktycznej badanego zjawiska – niską wartość $p$ można uzyskać przy mikroskopijnych różnicach międzygrupowych (wielkości efektu), jeśli wielkość próby (moc statystyczna) jest bardzo duża. Jacob Cohen zwraca uwagę, że w naturze nie istnieją efekty idealnie zerowe, i w każdej parze zmiennych można oczekiwać jakiejś współzmienności, choćby mikroskopijnej. Miarą istotności praktycznej wyniku jest wielkość efektu z jej przedziałem ufności^[2]^[10].

Wartość $p$ wyższa od poziomu istotności $(p>0{,}05)$ jest nieinformacyjna – nie świadczy ani za, ani przeciwko hipotezie zerowej. Wartość taka może oznaczać, że badanie miało zbyt niską moc statystyczną – w takim przypadku przedział ufności rezultatu będzie obejmować zarówno zero, jak i wyniki odległe od zera. Aby rzetelnie stwierdzić, czy zaobserwowane dane rzeczywiście świadczą na rzecz braku efektu praktycznie różnego od zera, a nie wynikają np. z niskiej mocy, można na przykład wykonać test równoważności (taki jak TOST – od ang. two one sided tests)^[11]. Możliwe jest też na przykład, że badane zjawisko jest powierzchownie podobne do hipotezy zerowej – jak np. niektóre mechanizmy doboru naturalnego w biologii ewolucyjnej – i hipoteza badawcza musi być wyrażona w postaci bardziej szczegółowego modelu^[12].

To, czy badanie może być uważane za przekonujące, zależy od jego konstrukcji i powtarzalności, a nie surowej wartości $p$ pojedynczego badania czy alternatywnych odpowiedników takich jak czynnik Bayesa^[2]^[9].

Rozkład wartości $p$

Rozkład wartości

p

dla H₀ i H₁ przy mocy testu ~90%. W takiej sytuacji znaczna część wartości

p

poniżej progu istotności 0,05, pomimo przekroczenia wartości krytycznej, pozostaje bardziej prawdopodobna dla hipotezy zerowej niż alternatywnej.

Przy bardzo wysokiej mocy statystycznej testów, wyniki, które leżą poniżej, ale blisko progu istotności statystycznej $\alpha =0{,}05$ (np. o wartości $p$ z przedziału 0,02–0,05), mogą świadczyć wbrew konwencjonalnym interpretacjom procedury bardziej na rzecz hipotezy zerowej. Jest to wariant paradoksu Lindleya.

Gdy różnica, której istnienie testujemy, jest w rzeczywistości nieobecna (hipoteza zerowa jest prawdziwa), rozkład oczekiwanych wartości $p$ jest jednostajny – każda wartość jest identycznie prawdopodobna. Spodziewamy się, że 5% wyników przypadkowo znajdzie się w każdym 5% rozkładu istotności, także w 0–0,05.

Gdy testujemy faktycznie istniejącą różnicę (hipoteza zerowa jest fałszywa), rozkład wartości $p$ jest silnie prawoskośny – w stopniu zależącym od mocy statystycznej badania. Przy bardzo wysokiej mocy statystycznej większość testów fałszywej hipotezy zerowej powinna osiągać wartości $p$ bliskie zeru. Wartości tylko trochę bardziej odległe – już np. w przedziale 0,02–0,05 – mogą wbrew spełniania kryterium „istotności statystycznej” świadczyć bardziej na rzecz prawdziwości hipotezy zerowej^[13]^[14].

Jeśli zbiór badań tego samego zjawiska, szczególnie pochodzących z jednej publikacji lub od jednego autora, nie jest w pełni zgodny z oczekiwanym rozkładem – nie jest jednostajnie prawoskośny – można podejrzewać, że ma miejsce tendencyjność publikacji, błąd lub oszustwo naukowe (P-hacking). Narzędziem służącym do sprawdzania tego podejrzenia jest na przykład $P$ -curve^[15].

Przykład

Wyobraźmy sobie eksperyment sprawdzający, czy moneta jest symetryczna (jednakowa jest szansa otrzymania orła, jak i reszki). Hipoteza zerowa jest więc taka, że moneta jest symetryczna i każde odchylenie liczby otrzymanych orłów od liczby reszek jest tylko przypadkiem. Przypuśćmy, że wyniki eksperymentu to wyrzucenie 14 orłów z 20 rzutów. Wartość $p$ takiego wyniku jest szansą na to, żeby uczciwa moneta dała przynajmniej 14 orłów na 20 rzutów lub najwyżej 6 reszek na 20 rzutów. Prawdopodobieństwo tego, że na 20 rzutów symetrycznej monety otrzymamy co najmniej 14 orłów wynosi:

p=\sum _{k=14}^{n}P_{n}(k)=\sum _{k=14}^{n}{\binom {n}{k}}\,p_{\psi }^{k}(1-p_{\psi })^{n-k}=0{,}0577\;\;{\textrm {gdzie}}\;\;n=20,\,p_{\psi }={\frac {1}{2}}

Otrzymujemy zatem wartość $p$ większą od konwencjonalnego poziomu istotności 0,05, tak więc nie ma podstaw do podważania hipotezy o tym, że moneta jest symetryczna.

Zobacz też

test istotności

Przypisy

↑ LeonhardL. Held LeonhardL., A nomogram for Pvalues, „BMC Medical Research Methodology”, 10, 2010, s. 21, DOI: 10.1186/1471-2288-10-21, ISSN 1471-2288, PMID: 20233437, PMCID: PMC2851703 [dostęp 2017-01-30] .
↑ ^a ^b ^c SanderS. Greenland SanderS. i inni, Statistical tests, P values, confidence intervals, and power: a guide to misinterpretations, „European Journal of Epidemiology”, 31 (4), 2016, s. 337–350, DOI: 10.1007/s10654-016-0149-3, ISSN 0393-2990, PMID: 27209009, PMCID: PMC4877414 [dostęp 2017-02-09] (ang.).
↑ ^a ^b Jesper W.J.W. Schneider Jesper W.J.W., Null hypothesis significance tests. A mix-up of two different theories: the basis for widespread confusion and numerous misinterpretations, „Scientometrics”, 102 (1), 2014, s. 411–432, DOI: 10.1007/s11192-014-1251-5, ISSN 0138-9130 [dostęp 2017-01-15] (ang.).
↑ ^a ^b RaymondR. Hubbard RaymondR. i inni, Confusion over Measures of Evidence (p’s) versus Errors (α's) in Classical Statistical Testing, „The American Statistician”, 57 (3), 2003, s. 171–182, JSTOR: 30037265 [dostęp 2017-01-15] .
↑ DavidD. Trafimow DavidD., StephenS. Rice StephenS., A Test of the Null Hypothesis Significance Testing Procedure Correlation Argument, „The Journal of General Psychology”, 136 (3), 2009, s. 261–270, DOI: 10.3200/GENP.136.3.261-270, ISSN 0022-1309, PMID: 19650521 [dostęp 2017-01-15] .
↑ CharlesCh. Seife CharlesCh., The Mind-Reading Salmon, „Scientific American”, 305 (2), Polskie tłumaczenie: Łosoś telepata. „Świat Nauki”. nr. 10 (242), s. 14, październik 2011. Prószyński Media. ISSN 0867-6380., s. 30–30, DOI: 10.1038/scientificamerican0811-30a [dostęp 2017-01-15] .
↑ Craig M.C.M. Bennett Craig M.C.M., MBM. Miller MBM., GLG. Wolford GLG., Neural correlates of interspecies perspective taking in the post-mortem Atlantic Salmon: an argument for multiple comparisons correction, „ResearchGate”, 47 (1), 2009, DOI: 10.1016/S1053-8119(09)71202-9, ISSN 1053-8119 [dostęp 2017-01-15] .
↑ GerdG. Gigerenzer GerdG., Mindless statistics, „The Journal of Socio-Economics”, 33 (5), Statistical Significance, 2004, s. 587–606, DOI: 10.1016/j.socec.2004.09.033 [dostęp 2017-01-15] .
↑ ^a ^b Ronald L.R.L. Wasserstein Ronald L.R.L., Nicole A.N.A. Lazar Nicole A.N.A., The ASA’s Statement on p-Values: Context, Process, and Purpose, „The American Statistician”, 70 (2), 2016, s. 129–133, DOI: 10.1080/00031305.2016.1154108, ISSN 0003-1305 [dostęp 2017-01-15] .
↑ JacobJ. Cohen JacobJ., The earth is round (p < .05): Rejoinder., „APA PsycNET”, 50 (12), 1995, DOI: 10.1037/0003-066X.50.12.1103, ISSN 1935-990X [dostęp 2017-01-15] .
↑ DanielD. Lakens DanielD., Equivalence Tests: A Practical Primer for t-Tests, Correlations, and Meta-Analyses, „Social Psychological and Personality Science, in press”, 2017 .
↑ Jerald B.J.B. Johnson Jerald B.J.B., Kristian S.K.S. Omland Kristian S.K.S., Model selection in ecology and evolution, „Trends in Ecology & Evolution”, 19 (2), 2004, s. 101–108, DOI: 10.1016/j.tree.2003.10.013 [dostęp 2019-03-30] (ang.).
↑ ThomasT. Sellke ThomasT., M.J.M.J. Bayarri M.J.M.J., James O.J.O. Berger James O.J.O., Calibration of ρ Values for Testing Precise Null Hypotheses, „The American Statistician”, 55 (1), 2001, s. 62–71, DOI: 10.1198/000313001300339950, ISSN 0003-1305 [dostęp 2019-03-14] .
↑ DaniëlD. Lakens DaniëlD., On the challenges of drawing conclusions from p-values just below 0.05, „PeerJ”, 3, 2015, e1142, DOI: 10.7717/peerj.1142, ISSN 2167-8359, PMID: 26246976, PMCID: PMC4525697 [dostęp 2017-01-08] .
↑ UriU. Simonsohn UriU., Joseph P.J.P. Simmons Joseph P.J.P., Leif D.L.D. Nelson Leif D.L.D., Better P-curves: Making P-curve analysis more robust to errors, fraud, and ambitious P-hacking, a Reply to Ulrich and Miller (2015), „Journal of Experimental Psychology. General”, 144 (6), 2015, s. 1146–1152, DOI: 10.1037/xge0000104, ISSN 1939-2222, PMID: 26595842 [dostęp 2017-01-08] .

[1] LeonhardL. Held LeonhardL., A nomogram for Pvalues, „BMC Medical Research Methodology”, 10, 2010, s. 21, DOI: 10.1186/1471-2288-10-21, ISSN 1471-2288, PMID: 20233437, PMCID: PMC2851703 [dostęp 2017-01-30] .

[:3-2] SanderS. Greenland SanderS. i inni, Statistical tests, P values, confidence intervals, and power: a guide to misinterpretations, „European Journal of Epidemiology”, 31 (4), 2016, s. 337–350, DOI: 10.1007/s10654-016-0149-3, ISSN 0393-2990, PMID: 27209009, PMCID: PMC4877414 [dostęp 2017-02-09] (ang.).

[:0-3] Jesper W.J.W. Schneider Jesper W.J.W., Null hypothesis significance tests. A mix-up of two different theories: the basis for widespread confusion and numerous misinterpretations, „Scientometrics”, 102 (1), 2014, s. 411–432, DOI: 10.1007/s11192-014-1251-5, ISSN 0138-9130 [dostęp 2017-01-15] (ang.).

[:1-4] RaymondR. Hubbard RaymondR. i inni, Confusion over Measures of Evidence (p’s) versus Errors (α's) in Classical Statistical Testing, „The American Statistician”, 57 (3), 2003, s. 171–182, JSTOR: 30037265 [dostęp 2017-01-15] .

[5] DavidD. Trafimow DavidD., StephenS. Rice StephenS., A Test of the Null Hypothesis Significance Testing Procedure Correlation Argument, „The Journal of General Psychology”, 136 (3), 2009, s. 261–270, DOI: 10.3200/GENP.136.3.261-270, ISSN 0022-1309, PMID: 19650521 [dostęp 2017-01-15] .

[6] CharlesCh. Seife CharlesCh., The Mind-Reading Salmon, „Scientific American”, 305 (2), Polskie tłumaczenie: Łosoś telepata. „Świat Nauki”. nr. 10 (242), s. 14, październik 2011. Prószyński Media. ISSN 0867-6380., s. 30–30, DOI: 10.1038/scientificamerican0811-30a [dostęp 2017-01-15] .

[7] Craig M.C.M. Bennett Craig M.C.M., MBM. Miller MBM., GLG. Wolford GLG., Neural correlates of interspecies perspective taking in the post-mortem Atlantic Salmon: an argument for multiple comparisons correction, „ResearchGate”, 47 (1), 2009, DOI: 10.1016/S1053-8119(09)71202-9, ISSN 1053-8119 [dostęp 2017-01-15] .

[8] GerdG. Gigerenzer GerdG., Mindless statistics, „The Journal of Socio-Economics”, 33 (5), Statistical Significance, 2004, s. 587–606, DOI: 10.1016/j.socec.2004.09.033 [dostęp 2017-01-15] .

[:2-9] Ronald L.R.L. Wasserstein Ronald L.R.L., Nicole A.N.A. Lazar Nicole A.N.A., The ASA’s Statement on p-Values: Context, Process, and Purpose, „The American Statistician”, 70 (2), 2016, s. 129–133, DOI: 10.1080/00031305.2016.1154108, ISSN 0003-1305 [dostęp 2017-01-15] .

[10] JacobJ. Cohen JacobJ., The earth is round (p < .05): Rejoinder., „APA PsycNET”, 50 (12), 1995, DOI: 10.1037/0003-066X.50.12.1103, ISSN 1935-990X [dostęp 2017-01-15] .

[11] DanielD. Lakens DanielD., Equivalence Tests: A Practical Primer for t-Tests, Correlations, and Meta-Analyses, „Social Psychological and Personality Science, in press”, 2017 .

[12] Jerald B.J.B. Johnson Jerald B.J.B., Kristian S.K.S. Omland Kristian S.K.S., Model selection in ecology and evolution, „Trends in Ecology & Evolution”, 19 (2), 2004, s. 101–108, DOI: 10.1016/j.tree.2003.10.013 [dostęp 2019-03-30] (ang.).

[13] ThomasT. Sellke ThomasT., M.J.M.J. Bayarri M.J.M.J., James O.J.O. Berger James O.J.O., Calibration of ρ Values for Testing Precise Null Hypotheses, „The American Statistician”, 55 (1), 2001, s. 62–71, DOI: 10.1198/000313001300339950, ISSN 0003-1305 [dostęp 2019-03-14] .

[14] DaniëlD. Lakens DaniëlD., On the challenges of drawing conclusions from p-values just below 0.05, „PeerJ”, 3, 2015, e1142, DOI: 10.7717/peerj.1142, ISSN 2167-8359, PMID: 26246976, PMCID: PMC4525697 [dostęp 2017-01-08] .

[15] UriU. Simonsohn UriU., Joseph P.J.P. Simmons Joseph P.J.P., Leif D.L.D. Nelson Leif D.L.D., Better P-curves: Making P-curve analysis more robust to errors, fraud, and ambitious P-hacking, a Reply to Ulrich and Miller (2015), „Journal of Experimental Psychology. General”, 144 (6), 2015, s. 1146–1152, DOI: 10.1037/xge0000104, ISSN 1939-2222, PMID: 26595842 [dostęp 2017-01-08] .

[2]

[1]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]