Wartość p
Wartość p, p-wartość, prawdopodobieństwo testowe (ang. p-value, probability value) – prawdopodobieństwo uzyskania wyników testu co najmniej tak samo skrajnych, jak te zaobserwowane w rzeczywistości (w próbie losowej z populacji), obliczone przy założeniu, że hipoteza zerowa jest prawdziwa. Może być interpretowana jako miara niezgodności danych z założonym modelem, wyrażonym w hipotezie zerowej. Wyniki testów statystycznych sugerujące istnienie poszukiwanych zależności mogą być obserwowane wskutek losowej zmienności prób, choć w populacji wcale nie występują, dlatego błąd losowy powinien być kontrolowany, na przykład przy pomocy wartości . Jest to jednak narzędzie, które świadczy o wartości dowodowej danych jedynie pośrednio. Według wielu przeglądów i komentarzy błędne interpretacje wartości są w naukach powszechne[2].
Wartość jest używana we wnioskowaniu częstościowym przy weryfikacji hipotez statystycznych jako narzędzie kontroli błędów pierwszego rodzaju, polegających na uznawaniu fałszywych hipotez za prawdziwe. Jeśli wartość jest niższa, niż przyjęty z góry poziom istotności statystycznej (oraz jeśli model jest trafny, a jego założenia spełnione) można postępować tak, jakby hipoteza zerowa została odrzucona[3][4].
Wartość to prawdopodobieństwo skrajnych danych przy założeniu hipotezy zerowej: Można je rozumieć jako stopień, w jakim dane są zaskakujące, jeśli nie spodziewaliśmy się wykryć w danych niczego odbiegającego od założonej hipotezy zerowej (często jest nią brak efektu). Wartości nie należy mylić z prawdopodobieństwem danych przy założeniu alternatywnej hipotezy badawczej ani z prawdopodobieństwem hipotez w świetle danych; mogą mieć one zupełnie inne wartości:
Według oryginalnej propozycji Ronalda Fishera wartość może być używana do oceny wartości dowodowej danych, jednak jest to interpretacja obarczona licznymi zastrzeżeniami. Współtwórcy podejścia częstościowego, Spława-Neyman i Pearson, uważali, że takie oceny są nieuprawnione[3][4]. W realistycznych sytuacjach wartość nie musi silnie korelować z prawdziwością hipotezy zerowej[5]. Prawidłowo stosowana metodologia częstościowa nie służy do decydowania wprost o prawdziwości hipotez, zwłaszcza na podstawie pojedynczych badań, ale do unikania błędów decyzyjnych przy wielokrotnym powtarzaniu testów.
Istnieją sytuacje, w których wniosek, do którego prowadzi obliczanie wartości , jest błędny lub wręcz absurdalny, przede wszystkim jeśli badacz popełni błędy metodologiczne lub oszustwa (tzw. P-hacking): np. nie zastosuje poprawki na porównania wielokrotne. Autorzy postera konferencyjnego z 2009 r. zilustrowali to, wykonując badanie fMRI na martwym łososiu. Próby, w których nieżywej rybie pokazywano fotografie ludzi, wiązały się z istotną statystycznie zmianą aktywacji obszarów w jej mózgu (przed poprawkami)[6][7].
Definicja
edytujW modelu wnioskowania częstościowego przed wykonaniem eksperymentu wybiera się krytyczny poziom istotności odpowiadający dopuszczalnemu w ocenie badacza ryzyku popełniania błędu pierwszego rodzaju oraz model statystyczny odpowiadający hipotezie zerowej tj. zakładający brak istnienia jakiegokolwiek efektu w populacji. W praktyce z reguły stosowany jest poziom istotności Wartość to obliczone na podstawie danych prawdopodobieństwo uzyskania takich lub bardziej skrajnych obserwacji w modelu hipotezy zerowej Odczytuje się ją zależnie od testu i tego, czy zakładamy jedno-, czy dwustronną hipotezę alternatywną – z jednej lub obu stron dystrybuanty właściwego dla niego rozkładu. Przed rozpowszechnieniem komputerów korzystano z tablic statystycznych, co było zaletą podejścia częstościowego, zapewniającego w ten sposób gotowe rozwiązania dla najczęściej spotykanych postaci problemów. Jeśli wartość jest mniejsza od przyjętego poziomu istotności, wynik uważa się za zaskakujący w świetle i określa się go jako istotny statystycznie. Jest to rozstrzygnięcie zero-jedynkowe – wynik jest albo istotny na przyjętym poziomie, albo nie[8][9]. Jeśli eksperyment uwzględnia wielokrotne wykonywanie testów statystycznych, poziom istotności powinien uwzględniać poprawkę przeciwdziałającą problemowi porównań wielokrotnych, np. Bonferroniego.
Użycie unormowanej wielkości, w przeciwieństwie do różnorodnych statystyk testowych (z, F, t, chi-kwadrat, D Kołmogorowa-Smirnowa itp.), pozwala bezpośrednio porównywać to, na ile dane z różnych eksperymentów są zaskakujące – przy założeniu hipotezy zerowej.
Interpretacja
edytujWartość niższa od krytycznego poziomu istotności w podejściu częstościowym uprawnia jedynie do postępowania doraźnie tak, jakby hipoteza zerowa została odrzucona. Jest parametrem konkretnych obserwacji (próby statystycznej), a nie hipotezy badawczej. Nie wyraża wprost prawdopodobieństwa hipotezy alternatywnej: Nie wyraża też ryzyka popełnienia błędu pierwszego rodzaju (wynosi ono zawsze tyle, jaki przyjęto poziom istotności, najczęściej ). Nie wyraża również istotności praktycznej badanego zjawiska – niską wartość można uzyskać przy mikroskopijnych różnicach międzygrupowych (wielkości efektu), jeśli wielkość próby (moc statystyczna) jest bardzo duża. Jacob Cohen zwraca uwagę, że w naturze nie istnieją efekty idealnie zerowe, i w każdej parze zmiennych można oczekiwać jakiejś współzmienności, choćby mikroskopijnej. Miarą istotności praktycznej wyniku jest wielkość efektu z jej przedziałem ufności[2][10].
Wartość wyższa od poziomu istotności jest nieinformacyjna – nie świadczy ani za, ani przeciwko hipotezie zerowej. Wartość taka może oznaczać, że badanie miało zbyt niską moc statystyczną – w takim przypadku przedział ufności rezultatu będzie obejmować zarówno zero, jak i wyniki odległe od zera. Aby rzetelnie stwierdzić, czy zaobserwowane dane rzeczywiście świadczą na rzecz braku efektu praktycznie różnego od zera, a nie wynikają np. z niskiej mocy, można na przykład wykonać test równoważności (taki jak TOST – od ang. two one sided tests)[11]. Możliwe jest też na przykład, że badane zjawisko jest powierzchownie podobne do hipotezy zerowej – jak np. niektóre mechanizmy doboru naturalnego w biologii ewolucyjnej – i hipoteza badawcza musi być wyrażona w postaci bardziej szczegółowego modelu[12].
To, czy badanie może być uważane za przekonujące, zależy od jego konstrukcji i powtarzalności, a nie surowej wartości pojedynczego badania czy alternatywnych odpowiedników takich jak czynnik Bayesa[2][9].
Rozkład wartości
edytujPrzy bardzo wysokiej mocy statystycznej testów, wyniki, które leżą poniżej, ale blisko progu istotności statystycznej (np. o wartości z przedziału 0,02–0,05), mogą świadczyć wbrew konwencjonalnym interpretacjom procedury bardziej na rzecz hipotezy zerowej. Jest to wariant paradoksu Lindleya.
Gdy różnica, której istnienie testujemy, jest w rzeczywistości nieobecna (hipoteza zerowa jest prawdziwa), rozkład oczekiwanych wartości jest jednostajny – każda wartość jest identycznie prawdopodobna. Spodziewamy się, że 5% wyników przypadkowo znajdzie się w każdym 5% rozkładu istotności, także w 0–0,05.
Gdy testujemy faktycznie istniejącą różnicę (hipoteza zerowa jest fałszywa), rozkład wartości jest silnie prawoskośny – w stopniu zależącym od mocy statystycznej badania. Przy bardzo wysokiej mocy statystycznej większość testów fałszywej hipotezy zerowej powinna osiągać wartości bliskie zeru. Wartości tylko trochę bardziej odległe – już np. w przedziale 0,02–0,05 – mogą wbrew spełniania kryterium „istotności statystycznej” świadczyć bardziej na rzecz prawdziwości hipotezy zerowej[13][14].
Jeśli zbiór badań tego samego zjawiska, szczególnie pochodzących z jednej publikacji lub od jednego autora, nie jest w pełni zgodny z oczekiwanym rozkładem – nie jest jednostajnie prawoskośny – można podejrzewać, że ma miejsce tendencyjność publikacji, błąd lub oszustwo naukowe (P-hacking). Narzędziem służącym do sprawdzania tego podejrzenia jest na przykład -curve[15].
Przykład
edytujWyobraźmy sobie eksperyment sprawdzający, czy moneta jest symetryczna (jednakowa jest szansa otrzymania orła, jak i reszki). Hipoteza zerowa jest więc taka, że moneta jest symetryczna i każde odchylenie liczby otrzymanych orłów od liczby reszek jest tylko przypadkiem. Przypuśćmy, że wyniki eksperymentu to wyrzucenie 14 orłów z 20 rzutów. Wartość takiego wyniku jest szansą na to, żeby uczciwa moneta dała przynajmniej 14 orłów na 20 rzutów lub najwyżej 6 reszek na 20 rzutów. Prawdopodobieństwo tego, że na 20 rzutów symetrycznej monety otrzymamy co najmniej 14 orłów wynosi:
Otrzymujemy zatem wartość większą od konwencjonalnego poziomu istotności 0,05, tak więc nie ma podstaw do podważania hipotezy o tym, że moneta jest symetryczna.
Zobacz też
edytujPrzypisy
edytuj- ↑ Leonhard Held , A nomogram for Pvalues, „BMC Medical Research Methodology”, 10, 2010, s. 21, DOI: 10.1186/1471-2288-10-21, ISSN 1471-2288, PMID: 20233437, PMCID: PMC2851703 [dostęp 2017-01-30] .
- ↑ a b c Sander Greenland i inni, Statistical tests, P values, confidence intervals, and power: a guide to misinterpretations, „European Journal of Epidemiology”, 31 (4), 2016, s. 337–350, DOI: 10.1007/s10654-016-0149-3, ISSN 0393-2990, PMID: 27209009, PMCID: PMC4877414 [dostęp 2017-02-09] (ang.).
- ↑ a b Jesper W. Schneider , Null hypothesis significance tests. A mix-up of two different theories: the basis for widespread confusion and numerous misinterpretations, „Scientometrics”, 102 (1), 2014, s. 411–432, DOI: 10.1007/s11192-014-1251-5, ISSN 0138-9130 [dostęp 2017-01-15] (ang.).
- ↑ a b Raymond Hubbard i inni, Confusion over Measures of Evidence (p’s) versus Errors (α's) in Classical Statistical Testing, „The American Statistician”, 57 (3), 2003, s. 171–182, JSTOR: 30037265 [dostęp 2017-01-15] .
- ↑ David Trafimow , Stephen Rice , A Test of the Null Hypothesis Significance Testing Procedure Correlation Argument, „The Journal of General Psychology”, 136 (3), 2009, s. 261–270, DOI: 10.3200/GENP.136.3.261-270, ISSN 0022-1309, PMID: 19650521 [dostęp 2017-01-15] .
- ↑ Charles Seife , The Mind-Reading Salmon, „Scientific American”, 305 (2), Polskie tłumaczenie: Łosoś telepata. „Świat Nauki”. nr. 10 (242), s. 14, październik 2011. Prószyński Media. ISSN 0867-6380., s. 30–30, DOI: 10.1038/scientificamerican0811-30a [dostęp 2017-01-15] .
- ↑ Craig M. Bennett , MB Miller , GL Wolford , Neural correlates of interspecies perspective taking in the post-mortem Atlantic Salmon: an argument for multiple comparisons correction, „ResearchGate”, 47 (1), 2009, DOI: 10.1016/S1053-8119(09)71202-9, ISSN 1053-8119 [dostęp 2017-01-15] .
- ↑ Gerd Gigerenzer , Mindless statistics, „The Journal of Socio-Economics”, 33 (5), Statistical Significance, 2004, s. 587–606, DOI: 10.1016/j.socec.2004.09.033 [dostęp 2017-01-15] .
- ↑ a b Ronald L. Wasserstein , Nicole A. Lazar , The ASA’s Statement on p-Values: Context, Process, and Purpose, „The American Statistician”, 70 (2), 2016, s. 129–133, DOI: 10.1080/00031305.2016.1154108, ISSN 0003-1305 [dostęp 2017-01-15] .
- ↑ Jacob Cohen , The earth is round (p < .05): Rejoinder., „APA PsycNET”, 50 (12), 1995, DOI: 10.1037/0003-066X.50.12.1103, ISSN 1935-990X [dostęp 2017-01-15] .
- ↑ Daniel Lakens , Equivalence Tests: A Practical Primer for t-Tests, Correlations, and Meta-Analyses, „Social Psychological and Personality Science, in press”, 2017 .
- ↑ Jerald B. Johnson , Kristian S. Omland , Model selection in ecology and evolution, „Trends in Ecology & Evolution”, 19 (2), 2004, s. 101–108, DOI: 10.1016/j.tree.2003.10.013 [dostęp 2019-03-30] (ang.).
- ↑ Thomas Sellke , M.J. Bayarri , James O. Berger , Calibration of ρ Values for Testing Precise Null Hypotheses, „The American Statistician”, 55 (1), 2001, s. 62–71, DOI: 10.1198/000313001300339950, ISSN 0003-1305 [dostęp 2019-03-14] .
- ↑ Daniël Lakens , On the challenges of drawing conclusions from p-values just below 0.05, „PeerJ”, 3, 2015, e1142, DOI: 10.7717/peerj.1142, ISSN 2167-8359, PMID: 26246976, PMCID: PMC4525697 [dostęp 2017-01-08] .
- ↑ Uri Simonsohn , Joseph P. Simmons , Leif D. Nelson , Better P-curves: Making P-curve analysis more robust to errors, fraud, and ambitious P-hacking, a Reply to Ulrich and Miller (2015), „Journal of Experimental Psychology. General”, 144 (6), 2015, s. 1146–1152, DOI: 10.1037/xge0000104, ISSN 1939-2222, PMID: 26595842 [dostęp 2017-01-08] .