Test dla proporcji
Testy dla proporcji – testy parametryczne służące do weryfikacji hipotez dotyczących wartości proporcji w populacji generalnej lub też do porównania wartości proporcji w kilku populacjach – na podstawie znajomości wartości tej proporcji w losowej próbie (czy też dwóch lub kilku próbach) pobranych z populacji.
Proporcją w statystyce nazywamy liczbę (ułamek, procent) wyrażający, jaka część elementów pewnego zbioru spełnia określony warunek. Inne równoważnie stosowane określenia to: frakcja, wskaźnik struktury. Na przykład jeśli w grupie osób jest palących, to proporcja osób palących w tej grupie jest równa
Struktura i podział testów
edytujHipotezy dotyczące proporcji testuje się zgodnie z ogólnymi zasadami testowania hipotez statystycznych: formułujemy hipotezy, zakładamy poziom istotności – dopuszczalną wartość błędu pierwszego rodzaju, następnie na podstawie danych z próby wyznaczamy wartość statystyki testowej, po czym porównujemy ją z wartościami krytycznymi odczytanymi z tablic odpowiedniego rozkładu teoretycznego.
Postać stosowanej statystyki testowej zależy od następujących czynników:
- czy badamy hipotezę dotyczącą jednej, dwóch, czy wielu proporcji,
- jaka jest liczebność próby (prób) występujących w danym zagadnieniu,
- w przypadku dwu lub więcej prób – czy próby są niezależne, czy zależne (powiązane).
Poniżej przedstawiono w skrócie kilka testów najczęściej wykorzystywanych w poszczególnych sytuacjach.
Testy dla jednej proporcji (test dla prób dużych)
edytujW próbie losowej o liczebności jest elementów spełniających pewien warunek. Wówczas proporcja w próbie Chcemy sprawdzić, czy taki wynik losowania pozwala przyjąć, że w całej populacji proporcja ta ma zadaną z góry wartość Hipotezy mają postać:
- postać hipotezy alternatywnej zależy od sformułowania zagadnienia:
(1) |
(2) |
(3) |
Założenia: próba musi być dostatecznie duża, to znaczy jej liczebność musi spełniać warunek a otrzymana wartość proporcji z próby powinna spełniać warunek: Można wtedy zastosować statystykę o rozkładzie normalnym.
Obliczamy:
gdzie Jeśli hipoteza zerowa jest prawdziwa, to statystyka ma w przybliżeniu standardowy rozkład normalny – wynika to z Centralnego Twierdzenia Granicznego.
Wartość tak obliczonej statystyki porównujemy z wartością krytyczną (lub dwiema wartościami krytycznymi) wyznaczonymi na podstawie poziomu istotności dla zmiennej losowej o rozkładzie normalnym.
Wartości krytyczne znajdujemy z tablic dystrybuanty rozkładu normalnego. Jeżeli jest dystrybuantą standardowego rozkładu normalnego, a – funkcją odwrotną do dystrybuanty, natomiast – założonym poziomem istotności – to odczytujemy:
- dla przypadku (1):
- w przypadku (2):
- zaś w przypadku (3) mamy 2 wartości graniczne:
Przedział krytyczny:
Testy dla dwóch proporcji
edytujDwie próby niezależne
edytujPoniżej omówiono dwa testy – jeden dla dużych liczebności prób, oparty na statystyce o rozkładzie normalnym, analogiczny do omówionego powyżej dla jednej próby, drugi, możliwy do zastosowania przy nieco mniejszych liczebnościach prób, oparty na statystyce o rozkładzie chi-kwadrat.
Test dla dwóch prób dużych
edytujLiczebności prób powinny spełniać relacje: i Jeżeli spośród elementów pierwszej próby spełnia określony warunek, to proporcja z próby jest równa
Analogicznie dla drugiej próby:
Wyznaczamy proporcję dla „próby połączonej”:
oraz a następnie wyznaczamy wartość statystyki
Statystyka ta ma rozkład normalny i wartości krytyczne oraz obszary krytyczne wyznaczamy dla tego testu tak samo, jak to opisano wcześniej w teście dla jednej proporcji.
Test dla dwóch prób o mniejszych liczebnościach (oparty na statystyce chi-kwadrat)
edytujTutaj liczebności muszą spełniać warunek
Liczby elementów spełniających lub nie spełniających zadanego warunku w poszczególnych populacjach można zapisać w tabeli 2×2:
Liczba elementów | Próba 1 | Próba 2 | Suma |
---|---|---|---|
spełniających warunek (TAK) | a | b | a + b |
nie spełniających warunku (NIE) | c | d | c + d |
Suma | n1=a+c | n2=b+d | n=a+b+c+d |
Na podstawie tabeli obliczamy wartość statystyki z poprawką Yatesa[1]:
gdzie:
Jeżeli liczebności prób są na tyle duże, że – można wówczas pominąć w liczniku składnik w nawiasie. Wartości krytyczne wyznacza się z tablic rozkładu chi-kwadrat o 1 stopniu swobody.
Dwie próby zależne
edytujTen przypadek występuje na przykład wtedy, gdy te same obiekty czy osoby stanowiące próbę są badane dwukrotnie w różnych warunkach. Wtedy zwykle liczebności obu prób są jednakowe:
Wynikiem takiego eksperymentu są 4 liczby, stwierdzające, ile obiektów w każdej z prób spełnia lub nie spełnia warunku. Wyniki takie można zestawić w tabelce 2×2:
Liczebności | Próba 2: TAK | Próba 2: NIE |
---|---|---|
Próba 1:TAK | a | b |
Próba 1: NIE | c | d |
Te same wyniki można też zaprezentować w postaci tabelki proporcji zamiast liczebności (gdzie np. itd.)
Proporcje: | Próba 2: TAK | Próba 2: NIE |
---|---|---|
Próba 1:TAK | ||
Próba 1: NIE |
W zależności od liczebności prób możliwe są różne odmiany testu.
Liczebność duża
edytujJeżeli to wyznaczamy statystykę o rozkładzie normalnym z jednego ze wzorów:
(Stosujemy dowolny z powyższych wzorów, zależnie od dostępnych danych).
Wartość statystyki porównujemy z wartością wyznaczoną z tablic rozkładu normalnego, przy czym postępowanie jest takie samo, jak opisane powyżej dla testu dla jednej proporcji.
Liczebność mała (test McNemara)
edytujW tym przypadku hipotezy mają postać:
- (proporcje w obu doświadczeniach są równe),
- (proporcje w obu przypadkach różnią się istotnie).
Jeżeli oraz zarówno jak i to można wykorzystać statystykę
Jeżeli natomiast liczebności są jeszcze mniejsze, tak, że ale lub należy wykorzystać nieco zmodyfikowany wzór:
Wartość krytyczną odczytujemy z tablic rozkładu chi-kwadrat dla danego poziomu istotności i stopnia swobody. Obszar krytyczny testu jest prawostronny (odrzucamy gdy ).
Testy dla wielu proporcji
edytujMamy tu prób o liczebnościach W i-tej próbie elementów spełnia zadany warunek, zatem proporcja w i-tej próbie jest równa
Testujemy hipotezy:
- (wszystkie proporcje w populacjach są jednakowe),
- (proporcje w poszczególnych populacjach różnią się).
Próby niezależne
edytujTest Fishera-Snedecora
edytujJeżeli wszystkie liczebności to można wyznaczyć statystykę o rozkładzie Fishera-Snedecora. Obliczamy najpierw „średnią proporcję”
oraz
Otrzymaną wartość statystyki F porównujemy z wartością krytyczną odczytaną z tablic rozkładu Fishera-Snedecora dla założonego poziomu istotności oraz liczby stopni swobody i Obszar krytyczny jest prawostronny, czyli gdy – odrzucamy hipotezę
Próby zależne
edytujJeżeli mamy do czynienia z zależnymi próbami (seriami wyników) o jednakowej liczebności każda (np. osób jest poddawanych razy badaniu, którego wynik klasyfikujemy w kategoriach: tak, nie), przy czym liczebności są możemy wykorzystać test Cochrana do stwierdzenia, czy wyniki w poszczególnych doświadczeniach różnią się istotnie:
- wyniki poszczególnych serii nie różnią się istotnie,
- wyniki różnią się (zmiana warunków eksperymentu wpływa na wyniki).
Niech:
- oznacza, jak poprzednio, liczbę obiektów w i-tej próbie, które spełniają warunek (wynik Tak), to znaczy zaś
- oznacza liczbę prób, w których j-ty obiekt uzyskał wynik Tak – to znaczy oraz
Obliczamy statystykę
którą porównujemy z wartością krytyczną odczytaną z tablic rozkładu chi-kwadrat dla poziomu istotności i stopni swobody. Obszar krytyczny testu jest prawostronny.
Przypisy
edytuj- ↑ Piotr Sulewski , Wyznaczanie obszaru krytycznego przy testowaniu niezależności w tablicach wielodzielczych, „Wiadomości Statystyczne” (3), 2015, s. 1–18, ISSN 0043-518X [dostęp 2019-06-03] (pol.).
Bibliografia
edytuj- Fisher R.A., Yates F., Statistical tables for biological, agricultural and medical research, Oliver and Boyd, Edinburgh 1963.
- Zieliński R., Tablice statystyczne, PWN, Warszawa 1972.
Linki zewnętrzne
edytuj- Distribution Calculator Kalkulator obliczający prawdopodobieństwa i wartości krytyczne dla rozkładów: normalnego, Studenta, chi-kwadrat oraz F (Fishera-Snedeccora)