Testy dla proporcjitesty parametryczne służące do weryfikacji hipotez dotyczących wartości proporcji w populacji generalnej lub też do porównania wartości proporcji w kilku populacjach – na podstawie znajomości wartości tej proporcji w losowej próbie (czy też dwóch lub kilku próbach) pobranych z populacji.

Proporcją w statystyce nazywamy liczbę (ułamek, procent) wyrażający, jaka część elementów pewnego zbioru spełnia określony warunek. Inne równoważnie stosowane określenia to: frakcja, wskaźnik struktury. Na przykład jeśli w grupie osób jest palących, to proporcja osób palących w tej grupie jest równa

Struktura i podział testów

edytuj

Hipotezy dotyczące proporcji testuje się zgodnie z ogólnymi zasadami testowania hipotez statystycznych: formułujemy hipotezy, zakładamy poziom istotności   – dopuszczalną wartość błędu pierwszego rodzaju, następnie na podstawie danych z próby wyznaczamy wartość statystyki testowej, po czym porównujemy ją z wartościami krytycznymi odczytanymi z tablic odpowiedniego rozkładu teoretycznego.

Postać stosowanej statystyki testowej zależy od następujących czynników:

  • czy badamy hipotezę dotyczącą jednej, dwóch, czy wielu proporcji,
  • jaka jest liczebność próby (prób) występujących w danym zagadnieniu,
  • w przypadku dwu lub więcej prób – czy próby są niezależne, czy zależne (powiązane).

Poniżej przedstawiono w skrócie kilka testów najczęściej wykorzystywanych w poszczególnych sytuacjach.

Testy dla jednej proporcji (test dla prób dużych)

edytuj

W próbie losowej o liczebności   jest   elementów spełniających pewien warunek. Wówczas proporcja w próbie   Chcemy sprawdzić, czy taki wynik losowania pozwala przyjąć, że w całej populacji proporcja ta ma zadaną z góry wartość   Hipotezy mają postać:

 
  postać hipotezy alternatywnej zależy od sformułowania zagadnienia:
 
(1)
 
(2)
 
(3)

Założenia: próba musi być dostatecznie duża, to znaczy jej liczebność musi spełniać warunek   a otrzymana wartość proporcji z próby powinna spełniać warunek:   Można wtedy zastosować statystykę o rozkładzie normalnym.

Obliczamy:

 

gdzie   Jeśli hipoteza zerowa   jest prawdziwa, to statystyka   ma w przybliżeniu standardowy rozkład normalny – wynika to z Centralnego Twierdzenia Granicznego.

Wartość tak obliczonej statystyki porównujemy z wartością krytyczną (lub dwiema wartościami krytycznymi) wyznaczonymi na podstawie poziomu istotności   dla zmiennej losowej o rozkładzie normalnym.

Wartości krytyczne znajdujemy z tablic dystrybuanty rozkładu normalnego. Jeżeli   jest dystrybuantą standardowego rozkładu normalnego, a   – funkcją odwrotną do dystrybuanty, natomiast   – założonym poziomem istotności – to odczytujemy:

  • dla przypadku (1):
 
  • w przypadku (2):
 
  • zaś w przypadku (3) mamy 2 wartości graniczne:
 
 

Przedział krytyczny:

  • w przypadku (1) jest prawostronny, czyli gdy   – odrzucamy   w przypadku przeciwnym – nie ma podstaw do jej odrzucenia,
  • w przypadku (2) przedział krytyczny jest lewostronny (dla   odrzucamy  ),
  • w przypadku (3) przedział krytyczny jest obustronny (dla   i dla   odrzucamy  ).

Testy dla dwóch proporcji

edytuj

Dwie próby niezależne

edytuj

Poniżej omówiono dwa testy – jeden dla dużych liczebności prób, oparty na statystyce   o rozkładzie normalnym, analogiczny do omówionego powyżej dla jednej próby, drugi, możliwy do zastosowania przy nieco mniejszych liczebnościach prób, oparty na statystyce o rozkładzie chi-kwadrat.

Test dla dwóch prób dużych

edytuj

Liczebności prób powinny spełniać relacje:   i   Jeżeli spośród   elementów pierwszej próby   spełnia określony warunek, to proporcja z próby jest równa

 

Analogicznie dla drugiej próby:

 

Wyznaczamy proporcję dla „próby połączonej”:

 

oraz   a następnie wyznaczamy wartość statystyki  

 

Statystyka ta ma rozkład normalny i wartości krytyczne oraz obszary krytyczne wyznaczamy dla tego testu tak samo, jak to opisano wcześniej w teście dla jednej proporcji.

Test dla dwóch prób o mniejszych liczebnościach (oparty na statystyce chi-kwadrat)

edytuj

Tutaj liczebności muszą spełniać warunek  

Liczby elementów spełniających lub nie spełniających zadanego warunku w poszczególnych populacjach można zapisać w tabeli 2×2:

Liczba elementów Próba 1 Próba 2 Suma
spełniających warunek (TAK) a b a + b
nie spełniających warunku (NIE) c d c + d
Suma n1=a+c n2=b+d n=a+b+c+d

Na podstawie tabeli obliczamy wartość statystyki z poprawką Yatesa[1]:

 

gdzie:

 

Jeżeli liczebności prób są na tyle duże, że   – można wówczas pominąć w liczniku składnik   w nawiasie. Wartości krytyczne wyznacza się z tablic rozkładu chi-kwadrat o 1 stopniu swobody.

Dwie próby zależne

edytuj

Ten przypadek występuje na przykład wtedy, gdy te same obiekty czy osoby stanowiące próbę są badane dwukrotnie w różnych warunkach. Wtedy zwykle liczebności obu prób są jednakowe:  

Wynikiem takiego eksperymentu są 4 liczby, stwierdzające, ile obiektów w każdej z prób spełnia lub nie spełnia warunku. Wyniki takie można zestawić w tabelce 2×2:

Liczebności Próba 2: TAK Próba 2: NIE
Próba 1:TAK a b
Próba 1: NIE c d

Te same wyniki można też zaprezentować w postaci tabelki proporcji zamiast liczebności (gdzie np.   itd.)

Proporcje: Próba 2: TAK Próba 2: NIE
Próba 1:TAK    
Próba 1: NIE    

W zależności od liczebności prób możliwe są różne odmiany testu.

Liczebność duża

edytuj

Jeżeli   to wyznaczamy statystykę   o rozkładzie normalnym z jednego ze wzorów:

 
 
 
 

(Stosujemy dowolny z powyższych wzorów, zależnie od dostępnych danych).

Wartość statystyki   porównujemy z wartością   wyznaczoną z tablic rozkładu normalnego, przy czym postępowanie jest takie samo, jak opisane powyżej dla testu dla jednej proporcji.

Liczebność mała (test McNemara)

edytuj

W tym przypadku hipotezy mają postać:

  (proporcje w obu doświadczeniach są równe),
  (proporcje w obu przypadkach różnią się istotnie).

Jeżeli   oraz zarówno   jak i   to można wykorzystać statystykę

 

Jeżeli natomiast liczebności są jeszcze mniejsze, tak, że   ale   lub   należy wykorzystać nieco zmodyfikowany wzór:

 

Wartość krytyczną odczytujemy z tablic rozkładu chi-kwadrat dla danego poziomu istotności   i   stopnia swobody. Obszar krytyczny testu jest prawostronny (odrzucamy   gdy  ).

Testy dla wielu proporcji

edytuj

Mamy tu   prób o liczebnościach   W i-tej próbie   elementów spełnia zadany warunek, zatem proporcja w i-tej próbie jest równa  

Testujemy hipotezy:

  (wszystkie proporcje w populacjach są jednakowe),
  (proporcje w poszczególnych populacjach różnią się).

Próby niezależne

edytuj

Test Fishera-Snedecora

edytuj

Jeżeli wszystkie liczebności   to można wyznaczyć statystykę o rozkładzie Fishera-Snedecora. Obliczamy najpierw „średnią proporcję”

 

oraz

 

Otrzymaną wartość statystyki F porównujemy z wartością krytyczną odczytaną z tablic rozkładu Fishera-Snedecora dla założonego poziomu istotności   oraz liczby stopni swobody   i   Obszar krytyczny jest prawostronny, czyli gdy   – odrzucamy hipotezę  

Próby zależne

edytuj

Jeżeli mamy do czynienia z   zależnymi próbami (seriami wyników) o jednakowej liczebności   każda (np.   osób jest poddawanych   razy badaniu, którego wynik klasyfikujemy w kategoriach: tak, nie), przy czym liczebności są   możemy wykorzystać test Cochrana do stwierdzenia, czy wyniki w poszczególnych doświadczeniach różnią się istotnie:

  wyniki poszczególnych serii nie różnią się istotnie,
  wyniki różnią się (zmiana warunków eksperymentu wpływa na wyniki).

Niech:

  •   oznacza, jak poprzednio, liczbę obiektów w i-tej próbie, które spełniają warunek (wynik Tak), to znaczy   zaś  
  •   oznacza liczbę prób, w których j-ty obiekt uzyskał wynik Tak – to znaczy   oraz  

Obliczamy statystykę

 

którą porównujemy z wartością krytyczną odczytaną z tablic rozkładu chi-kwadrat dla poziomu istotności   i   stopni swobody. Obszar krytyczny testu jest prawostronny.

Przypisy

edytuj
  1. Piotr Sulewski, Wyznaczanie obszaru krytycznego przy testowaniu niezależności w tablicach wielodzielczych, „Wiadomości Statystyczne” (3), 2015, s. 1–18, ISSN 0043-518X [dostęp 2019-06-03] (pol.).

Bibliografia

edytuj
  • Fisher R.A., Yates F., Statistical tables for biological, agricultural and medical research, Oliver and Boyd, Edinburgh 1963.
  • Zieliński R., Tablice statystyczne, PWN, Warszawa 1972.

Linki zewnętrzne

edytuj
  • Distribution Calculator Kalkulator obliczający prawdopodobieństwa i wartości krytyczne dla rozkładów: normalnego, Studenta, chi-kwadrat oraz F (Fishera-Snedeccora)