Odchylenie standardowe

Odchylenie standardowe – klasyczna miara zmienności, obok średniej arytmetycznej najczęściej stosowane pojęcie statystyczne.

Intuicyjnie rzecz ujmując, odchylenie standardowe mówi, jak szeroko wartości jakiejś wielkości (na przykład wieku, inflacji, kursu walutowego) są rozrzucone wokół jej średniej^[a]. Im mniejsza wartość odchylenia tym obserwacje są bardziej skupione wokół średniej.

Odchylenie standardowe jest pierwiastkiem kwadratowym z wariancji^[1]. Pojęcie odchylenia zostało wprowadzone przez pioniera statystyki, Karla Pearsona, w 1894 roku^[b]. Wyróżnia się:

odchylenie standardowe zmiennej losowej, będące właściwością badanego zjawiska. Daje się ono obliczyć na podstawie ścisłych informacji o rozkładzie zmiennej losowej^[c]. Rozkład ten w praktycznych badaniach nie jest zwykle znany.
odchylenie standardowe w populacji, które jest liczbą dającą się obliczyć dokładnie, jeśli znane byłyby wartości zmiennej dla wszystkich obiektów populacji; odpowiada odchyleniu zmiennej losowej, której rozkład jest identyczny z rozkładem w populacji.
odchylenie standardowe z próby, które jest oszacowaniem odchylenia standardowego w populacji na podstawie znajomości wyłącznie części jej obiektów, czyli właśnie próby losowej. Stosowane do tego celu wzory nazywane są estymatorami odchylenia standardowego.

Odchylenie standardowe zmiennej losowej

Odchylenie standardowe zmiennej losowej oznacza się tradycyjnie przez σ (małe greckie sigma) i definiuje jako pierwiastek kwadratowy z wariancji.

Jest ono dane wzorem:

\sigma ={\sqrt {\operatorname {E} ((X-\operatorname {E} (X))^{2})}}={\sqrt {\operatorname {E} (X^{2})-(\operatorname {E} (X))^{2}}},

(1)

gdzie $E(X)$ jest wartością oczekiwaną $X$ (dowód w przypisie^[d]).

Zmienna losowa dyskretna

Dla dyskretnej zmiennej losowej, przyjmującej $n$ różnych wartości $x_{1},x_{2},\dots ,x_{n}$ z prawdopodobieństwami odpowiednio $p_{1},p_{2},\dots ,p_{n}$ odchylenie standardowe można obliczyć ze wzoru:

\sigma ={\sqrt {\sum \limits _{i=1}^{n}{(x_{i}-\mu )^{2}p_{i}}}}={\sqrt {\left(\sum \limits _{i=1}^{n}{x_{i}^{2}p_{i}}\right)-\mu ^{2}}},

gdzie:

\mu =\sum \limits _{i=1}^{n}x_{i}p_{i}.

Zmienna losowa ciągła

Dla zmiennych ciągłych:

\sigma ={\sqrt {\int _{-\infty }^{\infty }(x-\mu )^{2}\,f(x)\,dx}},

gdzie:

\mu =\int _{-\infty }^{\infty }xf(x)dx,

a $f(x)$ jest funkcją gęstości prawdopodobieństwa.

Odchylenie standardowe można zdefiniować dla niemal każdego rozkładu prawdopodobieństwa. Istnieją jednak rozkłady (np. rozkład Cauchy’ego), dla których jest ono nieskończone lub nie istnieje.

W przypadku rozkładu normalnego, odchylenie posiada oczywistą interpretację, gdyż jest jednym z parametrów rozkładu, występuje jako $\sigma$ we wzorze na gęstość prawdopodobieństwa w tym rozkładzie:

f(x)={\frac {1}{\sigma {\sqrt {2\pi }}}}e^{\frac {-(x-\mu )^{2}}{2\sigma ^{2}}}.

W przypadku innych rozkładów, choć zwykle można podać ścisły wzór wiążący parametry rozkładu z odchyleniem, interpretacja jego wartości jest już znacznie mniej naturalna, o ile w ogóle możliwa.

Dla zmiennych o rozkładach mieszanych dyskretno-ciągłych można zastosować wzór (1).

Odchylenie standardowe w populacji

Dla skończonych populacji odchylenie jest średnią kwadratową z różnic między wartościami zmiennej a ich średnią arytmetyczną. Odchylenie standardowe można obliczyć ze wzoru:

\sigma ={\sqrt {\frac {\sum \limits _{i=1}^{N}{(x_{i}-\mu )^{2}}}{N}}}={\sqrt {{\frac {\sum \limits _{i=1}^{N}{x_{i}^{2}}}{N}}-\mu ^{2}}},

(2)

gdzie $x_{i}$ to kolejne wartości cechy w populacji, $\mu$ to wartość oczekiwana, $N$ to liczba obserwacji w populacji (dowód drugiej równości w przypisie^[e]).

Uwaga: druga równość zachodzi tylko dla skończonej populacji, nie jest prawdziwa w przypadku odchylenia standardowego z próby, gdzie zamiast $\mu$ trzeba wziąć ${\overline {x}}.$

Dla populacji z $N=1$ mamy $x_{1}=\mu ,$ więc $\sigma =0.$

Odchylenie standardowe z próby

Odchylenie standardowe w populacji można estymować (przybliżać) odchyleniem standardowym z próby, oznaczanym przez $s.$ Ponieważ próba niesie informację tylko o części obserwacji z populacji, wynik ten nigdy nie jest dokładny. Wszystkie podane niżej wzory są przybliżeniami, pozwalającymi oszacować odchylenie standardowe zmiennej losowej w populacji (w przypadku rozkładu normalnego jest to również parametr rozkładu σ) na podstawie wartości z próby. Różnice we wzorach biorą się z innych założeń co do pożądanych ich właściwości.

Pierwiastek estymatora nieobciążonego wariancji

Najczęściej używany estymator odchylenia standardowego (błędnie nazywany estymatorem nieobciążonym^[f], o czym mowa dalej) ma postać^[g]

s={\sqrt {\frac {\sum \limits _{i=1}^{n}{(x_{i}-{\overline {x}})^{2}}}{n-1}}}={\sqrt {{\frac {n}{n-1}}\left({\overline {x^{2}}}-({\overline {x}})^{2}\right)}},

(3)

gdzie:

x_{i}

– kolejne wartości danej zmiennej losowej w próbie,

{\overline {x}}

– średnia arytmetyczna z próby,

{\overline {x^{2}}}

– średnia arytmetyczna kwadratów wartości z próby,

n

– liczba elementów w próbie.

Zaletą tego estymatora jest prostota wzoru, bezpośredni związek z estymatorem nieobciążonym wariancji i relatywnie niewielkie błędy estymacji. Dokładniejszy jest estymator nieobciążony odchylenia (podany dalej), jest jednak trudniejszy w obliczaniu i w związku z tym bardzo rzadko stosowany.

W mianowniku wzoru (3) występuje $n-1.$ Wydaje się zupełnie nieintuicyjne, że w przypadku populacji powinno się używać wzoru (2) z $n$ w mianowniku, a dla próby wzoru z $n-1.$

Te dwa przypadki różnią się jednak bardzo istotną rzeczą: w przypadku całej populacji znamy dokładną wartość średniej $\mu ,$ używanej we wzorze (2). W przypadku próby trzeba ją dodatkowo przybliżać średnią z próby ${\overline {x}}.$ Załóżmy, że próba wylosowała się akurat w ten sposób, że w którymś miejscu byłoby drobne zagęszczenie obserwacji w próbce w stosunku do gęstości w całej populacji. Spowoduje to przesunięcie średniej z próby ${\overline {x}}$ w stronę tego zagęszczenia. Można udowodnić, że suma postaci $\sum \limits _{i=1}^{n}\,(x_{i}-a)^{2}$ (czyli taka jak licznik wzorów na odchylenie standardowe) jest najmniejsza gdy $a={\overline {x}},$ więc na skutek tego przesunięcia się średniej w próbce od $\mu$ do ${\overline {x}}$ odchylenie zmniejsza się. To zmniejszenie licznika jest kompensowane przez mniejszą wartość mianownika ( $n-1$ zamiast $n$ ). Szczegółowe wyprowadzenie znajduje się w przypisie^[h].

Estymator nieobciążony

Estymator nieobciążony odchylenia standardowego ma tę własność, że gdyby wielokrotnie losować próbę z tej samej populacji i za każdym razem wyliczać odchylenie w próbie i uśredniać otrzymane wartości odchyleń, to wynik dążyłby do prawdziwej wartości odchylenia w populacji.

Statystyka (3) jest często nazywana estymatorem nieobciążonym odchylenia standardowego, jednak nie jest to prawda. To $s^{2}$ jest estymatorem nieobciążonym wariancji, przy założeniu niezależnego losowania ze zwracaniem elementów próby oraz istnienia skończonej wariancji $\sigma ^{2}.$

Estymator (3) daje w większości przypadków zaniżone wyniki w porównaniu z estymowaną wielkością. Różnica ta jednak dąży do zera wraz ze wzrostem liczebności próby, można więc powiedzieć, że jest asymptotycznie nieobciążony.

Estymator nieobciążony odchylenia standardowego, przy założeniu rozkładu normalnego populacji, dostanie się, dzieląc wartość $s$ obliczoną według wzoru (3) przez wielkość:

c_{4}={\sqrt {\frac {2}{n-1}}}{\frac {\Gamma ({\frac {n}{2}})}{\Gamma ({\frac {n-1}{2}})}}\approx 1-{\frac {1}{4n}}-{\frac {7}{32n^{2}}},

(4)

gdzie $\Gamma$ to funkcja gamma^[i]. Wartości $c_{4}$ szybko zbiegają do 1 wraz ze wzrostem $n$ (patrz tabela w Wikiźródłach), korekta jest więc konieczna tylko w przypadku niewielkich prób^[j] i potrzeby bardzo dokładnych wyliczeń. Ze względu na trudności obliczeniowe rzadko dokonuje się tej korekty, stosowana jest niemalże jedynie w statystycznej kontroli jakości i w teorii statystyki. W przypadku gdy rozkład nie jest normalny, powyższy estymator może być (i zwykle jest) obciążony. Estymator nieobciążony w niektórych przypadkach nie istnieje.

Współczynnik $c_{4}$ występuje jeszcze w jednym wzorze – na odchylenie standardowe estymatora odchylenia standardowego $s$ podanego powyżej, również przy założeniu rozkładu normalnego populacji:

\sigma _{s}=\sigma \,{\sqrt {1-c_{4}^{2}}}.

(5)

Estymator największej wiarygodności

Estymator największej wiarygodności jest oparty na innym rozumowaniu: Spośród wszystkich rozkładów normalnych postaci $N({\overline {x}},\sigma ),$ czyli posiadających tę samą średnią, co dana próba, ale różne odchylenia, estymator największej wiarygodności podaje taką wartość odchylenia $\sigma =s,$ dla której najbardziej prawdopodobne byłoby wylosowanie właśnie takich wyników $x_{i}$ do próby jakie faktycznie w niej wystąpiły. „Największa wiarygodność” dotyczy zatem nie tyle jego wyników, co raczej próby, która przy takim właśnie odchyleniu w populacji byłaby najbardziej prawdopodobna jako jej losowa reprezentacja. Estymator ten jest jednak obciążony.

s={\sqrt {\frac {\sum \limits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}}{n}}}\,={\sqrt {{\overline {x^{2}}}-({\overline {x}})^{2}}}.

(6)

Estymator największej wiarygodności stosuje się w zasadzie z kilku powodów:

ze względu na łatwe przedstawienie w postaci średniej ${\overline {x}}$ i średniej kwadratów ${\overline {x^{2}}},$
wzór na estymator największej wiarygodności pokrywa się ze wzorem na odchylenie standardowe w populacji, co pozwala nie przejmować się rozróżnieniem między próbą a populacją,
najczęstszy, choć niechlubny powód: estymator ten daje najmniejsze wartości odchylenia z wymienionych, przydaje się więc, gdy niewielkie wartości są wskazane dla udowodnienia tezy, którą dane obliczenia mają wspierać.

Istnieje jeszcze jedna popularna metoda wyprowadzania estymatorów – tak zwana metoda momentów. Daje ona w przypadku odchylenia standardowego ten sam wzór (6). Estymator największej wiarygodności jest także asymptotycznie nieobciążony, podobnie jak pierwiastek estymatora nieobciążonego wariancji (3).

Przykład

Przykład pokazuje oszacowanie odchylenia standardowego w populacji za pomocą nieobciążonego estymatora. Próbą będzie wiek czworga dzieci, wyrażony w latach: {5, 6, 8, 9}.

Krok 1. Obliczenie średniej arytmetycznej, ${\overline {x}}{:}$

{\overline {x}}={\frac {1}{n}}\sum \limits _{i=1}^{n}x_{i}

$n=4$ ponieważ są cztery obserwacje:

x_{1}=5

x_{2}=6

x_{3}=8

x_{4}=9

{\overline {x}}={\frac {1}{4}}\sum \limits _{i=1}^{4}x_{i}

Podstawienie 4 zamiast

n

{\overline {x}}={\frac {1}{4}}\left(x_{1}+x_{2}+x_{3}+x_{4}\right)

{\overline {x}}={\frac {1}{4}}\left(5+6+8+9\right)

{\overline {x}}=7

Krok 2. Obliczenie przybliżenia odchylenia standardowego według wzoru (3):

s={\sqrt {{\frac {1}{n-1}}\sum \limits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}}}

s={\sqrt {{\frac {1}{4-1}}\sum \limits _{i=1}^{4}(x_{i}-{\overline {x}})^{2}}}

Podstawienie 4 pod

n.

s={\sqrt {{\frac {1}{3}}\sum \limits _{i=1}^{4}(x_{i}-7)^{2}}}

Podstawienie 7 pod

{\overline {x}}

s={\sqrt {{\frac {1}{3}}\left[(x_{1}-7)^{2}+(x_{2}-7)^{2}+(x_{3}-7)^{2}+(x_{4}-7)^{2}\right]}}

s={\sqrt {{\frac {1}{3}}\left[(5-7)^{2}+(6-7)^{2}+(8-7)^{2}+(9-7)^{2}\right]}}

s={\sqrt {{\frac {1}{3}}\left((-2)^{2}+(-1)^{2}+1^{2}+2^{2}\right)}}

s={\sqrt {{\frac {1}{3}}\,\left(4+1+1+4\right)}}

s={\sqrt {\frac {10}{3}}}={\sqrt {3{,}3333\dots }}\approx 1{,}8257

Większość użytkowników odchylenia standardowego kończy w tym miejscu, nie przejmując się obciążeniem estymatora.

Krok 3. Ponieważ próba jest bardzo mała, należy odczytać z tabeli w Wikiźródłach wartość współczynnika $c_{4}$ dla $n=4.$ Wynosi ona 0,9213. Następnie można obliczyć estymator nieobciążony odchylenia standardowego w populacji:

{\hat {\sigma }}={\frac {s}{c_{4}}}\approx \,{\frac {1{,}8257}{0{,}9213}}\approx 1{,}9817.

Gdyby nie zastosować korekty w kroku trzecim, wynikiem byłoby 1,8257. Gdyby zastosować estymator największej wiarygodności (6), wynikiem byłoby 1,5811. Dla tak małej próby wskazany jest jednak estymator nieobciążony. Dla dużych prób^[j] wszystkie podane estymatory dają wyniki zbliżone do odchylenia w populacji, można więc stosować dowolny z nich. Takie estymatory zwane są asymptotycznie nieobciążonymi.

Podane oszacowanie nie jest tym samym, co odchylenie standardowe w populacji złożonej z takich czterech obiektów. W tym przypadku ze wzoru (2):

\sigma ={\sqrt {{\frac {1}{n}}\sum \limits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}}}={\sqrt {{\frac {1}{4}}\left(4+1+1+4\right)}}\approx 1{,}5811.

Odchylenie standardowe z próby podzielonej na grupy

Wartość estymatora największej wiarygodności można wyliczyć także w przypadku, gdy próba została podzielona na $k$ grup i znamy tylko liczności $n_{i},$ średnie $m_{i}$ oraz odchylenia standardowe $s_{i}$ dla wszystkich grup:

s={\sqrt {\frac {\sum \limits _{i=1}^{k}\left((s_{i}^{2}+(m_{i}-m)^{2})n_{i}\right)}{\sum \limits _{i=1}^{k}n_{i}}}},

gdzie:

k

– liczba grup,

n_{i}

– liczebność

i

-tej grupy,

m_{i}

– średnia

i

-tej grupy,

s_{i}

– odchylenie standardowe

i

-tej grupy ze wzoru (6),

m

– średnia obserwacji w całej próbie. Można ją wyliczyć za pomocą wzoru na średnią ważoną:

m={\frac {\sum \limits _{i=1}^{k}m_{i}n_{i}}{\sum \limits _{i=1}^{k}n_{i}}}.

Dla równych liczności grup $(n_{1}=n_{2}=\ldots =n_{k})$ wzór ten sprowadza się do:

s={\sqrt {{\overline {s_{i}^{2}}}+\operatorname {Var} (m_{i})}},

gdzie:

{\overline {s_{i}^{2}}}={\frac {\sum \limits _{i=1}^{k}s_{i}^{2}}{k}}

to średnia z wariancji w poszczególnych grupach,

\operatorname {Var} (m_{i})={\frac {\sum \limits _{i=1}^{k}m_{i}^{2}}{k}}-\left({\frac {\sum \limits _{i=1}^{k}m_{i}}{k}}\right)^{2}

to wariancja ze średnich w poszczególnych grupach.

Podobne wzory (nieco bardziej skomplikowane) istnieją także dla estymatora (3).

Szeregi czasowe

Wszystkie powyższe estymatory były wyprowadzane przy założeniu niezależnego losowania ze zwracaniem elementów próby z populacji statystycznej. Warunek ten nie jest spełniony w przypadku, gdy próbą są kolejne wartości jakiegoś czynnika w różnych chwilach czasowych (tzw. szeregi czasowe), np. kursy walut czy akcji. Wówczas bowiem wartości dla zbliżonych chwil czasowych są zwykle skorelowane ze sobą. W takim przypadku wszystkie powyższe wzory są obciążone i nie podają prawdziwej wartości odchylenia w populacji. Nie przeszkadza to graczom giełdowym stosować odchylenia standardowego dla kursów cen akcji w kolejnych dniach (ang. volatility) i opierać na tym wielu metod analizy technicznej, takich jak wstęga Bollingera.

Porównanie gęstości rozkładu normalnego dla różnych wartości parametrów. Większe wartości na wykresie odpowiadają większemu prawdopodobieństwu znalezienia w tym miejscu obserwacji. Czerwona, zielona i niebieska krzywa odpowiadają tej samej wartości oczekiwanej (średniej), lecz różnym odchyleniom standardowym w populacji. Czerwona odpowiada najmniejszemu, a niebieska największemu odchyleniu standardowemu. Im wyższe odchylenie standardowe, tym mniej obserwacji skupia się wokół średniej a tym więcej jest ich daleko od niej.

Interpretacja

Im większa wartość odchylenia standardowego tym bardziej obserwowane wielkości oddalone są od średniej. Im mniejsza wartość, tym bardziej są skupione wokół średniej.

Na przykład każda z trzech populacji: $\{0,0,14,14\},\{0,6,8,14\},\{6,6,8,8\}$ ma średnią 7. Ich odchylenia standardowe to odpowiednio 7, 5 i 1. Trzecia populacja ma znacznie mniejsze odchylenie standardowe od pozostałych, gdyż wartości jej elementów są zbliżone do 7.

Odchylenie standardowe może służyć jako miara niepewności. W fizycznym sensie odchylenie standardowe dla grupy powtarzanych pomiarów daje obraz precyzji pomiaru. Kiedy trzeba zdecydować, czy pomiary zgadzają się z teoretycznymi przewidywaniami, ich odchylenie standardowe nabiera kluczowej roli: Jeśli średnia z pomiarów jest zbyt daleko od wartości przewidywanej (przy czym odchylenie standardowe służy tu za jednostkę pomiaru tej odległości), uważa się, że pomiary zaprzeczają przewidywaniom. Oznacza to bowiem, że wypadają one poza zakres wartości, który można by zdroworozsądkowo uznać za prawdopodobny, jeśli przewidywania były słuszne.

Odchylenie a obserwacje dalekie od średniej

Dla rozkładu normalnego

Procent populacji wpadający do poszczególnych przedziałów o szerokości jednego odchylenia standardowego, przy założeniu rozkładu normalnego zmiennej. Krzywa przedstawia gęstość prawdopodobieństwa rozkładu normalnego.

W praktyce często zakłada się, że dane mają rozkład normalny. Założenie to nigdy nie jest całkowicie spełnione. Rozkład normalny ma bowiem niezerową gęstość prawdopodobieństwa dla każdej wartości ze zbioru liczb rzeczywistych, a w realnym świecie wartości zmiennych losowych są zawsze ograniczone, na przykład nie istnieją ludzie o ujemnym wzroście. Bardzo często jednak założenie to jest spełnione z wystarczająco dobrym przybliżeniem. Im lepiej jest ono uzasadnione, tym bliższe prawdy mogą być poniższe stwierdzenia:

68% wartości cechy leży w odległości $\leqslant \sigma$ od wartości oczekiwanej,
95,5% wartości cechy leży w odległości $\leqslant 2\sigma$ od wartości oczekiwanej,
99,7% wartości cechy leży w odległości $\leqslant 3\sigma$ od wartości oczekiwanej.

Ostatnie stwierdzenie jest również znane jako reguła trzech sigm.

Odsetek obserwacji jako funkcja maksymalnego oddalenia od średniej

Maksymalne oddalenie od średniej jako funkcja odsetka obserwacji

Wartości dla kilku naturalnych wielokrotności odchylenia przedstawia tabela:

Maksymalne oddalenie od średniej	Odsetek obserwacji
σ	0,68268948
2σ	0,95449989
3σ	0,99730028
4σ	0,99993663
5σ	0,99999942
6σ	0,999999998

Poniższa tabela jest często wykorzystywana do wyliczania tzw. przedziału ufności. Np. wiedząc, że zmienna ma rozkład normalny, średnia wynosi 5, a odchylenie 2, można z prawdopodobieństwem 95% przyjąć, że przedział ufności $\langle 5-1{,}95996\cdot 2;5+1{,}95996\cdot 2\rangle$ zawiera rzeczywistą wartość parametru (tu: wartości oczekiwanej).

Odsetek obserwacji	Maksymalne oddalenie od średniej
0,800	1,28155σ
0,900	1,64485σ
0,950	1,95996σ
0,990	2,57583σ
0,995	2,80703σ
0,999	3,29053σ

Dla dowolnych rozkładów

W ogólnym przypadku, gdy rozkład cech nie jest znany, prawdziwa jest nierówność Czebyszewa: dla danego $k>1$ prawdopodobieństwo, że wartość losowo wybranej cechy różni się od wartości oczekiwanej o więcej niż $\pm k\sigma$ wynosi co najwyżej $1/k^{2}.$ Na przykład poza przedziałem $\langle \mu -2\sigma ,\mu +2\sigma \rangle$ leży co najwyżej 25% wartości cechy. Wartości dla kilku naturalnych wielokrotności odchylenia przedstawia tabela:

Maksymalne oddalenie od średniej	Odsetek obserwacji
2σ	0,75
3σ	0,8888889
4σ	0,9375
5σ	0,96

Przedziały zawierają mniejszy odsetek obserwacji niż identyczne przedziały dla rozkładu normalnego, ponieważ nierówność Czebyszewa stosuje się dla dowolnego rozkładu, dla którego istnieje odchylenie standardowe.

Jeśli $\mu$ to średnia w populacji, $m$ to mediana w populacji, a $\sigma$ to odchylenie standardowe w populacji, to spełniona jest też nierówność:

|\mu -m|\leqslant \sigma .

Nie ma przy tym potrzeby dokonywania jakichkolwiek założeń dotyczących rozkładu, włącznie z założeniem o skończoności wariancji^[k].

Interpretacja geometryczna

Odchylenie standardowe ma ciekawą interpretację geometryczną. Niech populacja składa się z trzech obserwacji: $x_{1},\ x_{2},\ x_{3}.$ Niech punkt $P$ w przestrzeni trójwymiarowej ma współrzędne $(x_{1},\ x_{2},\ x_{3}).$ Jeśli $x_{1}=x_{2}=x_{3}$ wówczas odchylenie standardowe w populacji wynosi zero, a punkt $P$ znajduje się na osi symetrii układu współrzędnych – prostej $x=y=z.$ Okazuje się, że rzut punktu $P$ na prostą $x=y=z$ odpowiada średniej w populacji – ma współrzędne $(\mu ,\mu ,\mu ),$ gdzie $\mu ={\frac {x_{1}+x_{2}+x_{3}}{3}},$ a odległość $l$ punktu $P$ od prostej $x=y=z$ jest wprost proporcjonalna do odchylenia standardowego:

l=\sigma {\sqrt {3}}.

Ogólnie dla populacji z $N$ elementów zachodzi:

l=\sigma {\sqrt {N}},

jednak całe rozumowanie trzeba przeprowadzać w przestrzeni $N$ -wymiarowej.

Własności

Odchylenie standardowe ma szereg własności, które powodują, że jest to miara przydatna w statystyce opisowej.

Skala pomiarowa

Osobny artykuł: Skala pomiarowa.

Wzory na odchylenie standardowe zawierają różnice wartości obserwowanej i średniej lub wartości oczekiwanej, a więc takie różnice powinny mieć sens dla danej zmiennej. Powinna ona zatem znajdować się na skali interwałowej (przedziałowej) lub absolutnej. W teorii nie powinno się więc stosować odchylenia standardowego do zmiennych ilorazowych (jak np. ceny czy bezrobocie), choć jest to częsta praktyka. Niedopuszczalne jest stosowanie odchylenia do zakodowanych liczbowo zmiennych na skali porządkowej i nominalnej.

Jednostka miary

Odchylenie jest wyrażone w tych samych jednostkach co wartości badanej cechy, np. jeśli mierzony jest wzrost ludzi w cm, to odchylenie standardowe również wyraża się w cm. Jest to niezależne od rozkładu zmiennej.

Zakres

Odchylenie standardowe jest zawsze liczbą nieujemną. Wartość zero ma wtedy i tylko wtedy, gdy wszystkie obserwacje mają tę samą wartość. Odchylenie standardowe w skończonej populacji lub próbce jest zawsze skończone.

Odchylenie sumy i różnicy

Również dla każdego rozkładu odchylenie standardowe sumy lub różnicy dwóch zmiennych losowych jest równe:

\sigma _{X\pm Y}={\sqrt {\sigma _{X}^{2}+\sigma _{Y}^{2}\pm 2\sigma _{X}\sigma _{Y}\operatorname {corr} (X,Y)}},

gdzie

\operatorname {corr} (X,Y)

to współczynnik korelacji Pearsona między zmiennymi

X

i

Y.

Ogólnie dla $k$ zmiennych losowych:

\sigma _{X_{1}+X_{2}+\ldots +X_{k}}={\sqrt {\sum \limits _{i=1}^{k}\sum \limits _{j=1}^{k}\sigma _{X_{i}}\sigma _{X_{j}}\operatorname {corr} (X_{i},X_{j})}}={\sqrt {\sum \limits _{i=1}^{k}\sum \limits _{j=1}^{k}\operatorname {cov} (X_{i},X_{j})}},

gdzie $\operatorname {cov} (X_{i},X_{j})$ to kowariancja między zmiennymi $X_{i}$ i $X_{j}.$

W szczególności dla dwóch niezależnych zmiennych losowych:

\sigma _{X+Y}=\sigma _{X-Y}={\sqrt {\sigma _{X}^{2}+\sigma _{Y}^{2}}}.

A dla $k$ niezależnych zmiennych losowych o tym samym odchyleniu $\sigma _{X}{:}$

\sigma _{\pm X_{1}\pm \dots \pm X_{k}}={\sqrt {k}}\cdot \sigma _{X}.

Działania arytmetyczne zmiennej losowej ze stałą

Jeśli wartości zmiennej losowej o dowolnym rozkładzie zostaną pomnożone lub podzielone przez rzeczywistą stałą $c,$ odchylenie standardowe odpowiednio pomnoży lub podzieli się przez wartość bezwzględną tej stałej:

\sigma _{cX}=|c|\sigma _{X},

\sigma _{\frac {X}{c}}={\frac {\sigma _{X}}{|c|}}.

Różnica względem wzoru z poprzedniej sekcji wynika stąd, że teraz (dla naturalnego $c$ ) zmienna $X$ jest dodawana wielokrotnie do niej samej, co odpowiada dodawaniu zmiennych zależnych i skorelowanych na poziomie +1, a poprzednio było dodawane $k$ zmiennych niezależnych.

Dodawanie i odejmowanie stałej nie zmienia wartości odchylenia standardowego:

\sigma _{X+c}=\sigma _{X-c}=\sigma _{X}.

Odchylenie średniej

Z powyższych wzorów na odchylenie sumy $k$ niezależnych zmiennych losowych i iloczynu przez stałą wynika praktyczny estymator błędu oszacowania średniej na podstawie próby. Estymator ten zakłada rozkład normalny średniej, jednak przy uśrednianiu dużej^[j] liczby obserwacji rozkład średniej zawsze dąży do normalnego (tzw. centralne twierdzenie graniczne), przy dużej^[j] liczbie obserwacji można więc stosować ten wzór dla dowolnych rozkładów.

Wzór na średnią w populacji:

{\overline {x}}={\frac {\sum \limits _{i=1}^{n}x_{i}}{n}}.

Można potraktować realizacje $x_{i}$ jako zmienne losowe o identycznym rozkładzie $N(m_{X},\sigma _{X}).$ Jeśli dodatkowo zmienne te są niezależne (co nie zawsze musi być prawdą, jeśli na przykład jeden pomiar wpływa na następny), wówczas odchylenie średniej:

\sigma _{\overline {x}}={\frac {\sqrt {\sum \limits _{i=1}^{n}\sigma _{x_{i}}^{2}}}{n}}.

Ponieważ dla każdego $i$ $\sigma _{x_{i}}=\sigma _{X},$ więc:

\sigma _{\overline {x}}={\frac {\sqrt {n\sigma _{X}^{2}}}{n}}={\frac {\sigma _{X}}{\sqrt {n}}}.

Szacując $\sigma _{X}$ za pomocą przybliżenia estymatora nieobciążonego (3), dostaje się przybliżenie nieobciążonego estymatora odchylenia standardowego średniej:

s_{\overline {X}}={\sqrt {\frac {\sum \limits _{i=1}^{n}{(x_{i}-{\overline {x}})^{2}}}{n(n-1)}}}={\sqrt {\frac {{\overline {x^{2}}}-({\overline {x}})^{2}}{n-1}}}.

Wrażliwość na błędy obserwacji

Estymatory odchylenia standardowego nie zakładają rozkładu normalnego w populacji. Co prawda „estymator nieobciążony” przy innych rozkładach może posiadać obciążenie, ale nadal można go stosować. W przypadku rozkładu normalnego wyniki mają jednak jasną interpretację, gdyż przekładają się bezpośrednio na prawdopodobieństwo znalezienia obserwacji w określonym oddaleniu od średniej. Dla rozkładów różnych od normalnego prawdopodobieństwo to jest inne, dla bardzo^[j] zaburzonych rozkładów z próby odchylenie nic nam o tym prawdpodobieństwie nie powie. W szczególności obecność obserwacji odstających, czyli wartości w próbce bardzo^[j] oddalonych od średniej może spowodować powstanie dużych błędów.

Dla najpopularniejszego estymatora (3):

s={\sqrt {{\frac {n}{n-1}}\left({\overline {x^{2}}}-({\overline {x}})^{2}\right)}}.

Obliczmy jaki wpływ na błąd końcowego wyniku ma błąd pojedynczej obserwacji $x_{i}.$ W tym celu sprawdzimy, jak zmieni się wartość estymacji kiedy do jednej obserwacji dodamy bardzo małą liczbę $\partial x_{i}.$ Odpowiada to obliczeniu pochodnej cząstkowej po $\partial x_{i}{:}$

{\frac {\partial s}{\partial x_{i}}}={\frac {1}{2s}}\cdot {\frac {n}{n-1}}\left({\frac {2x_{i}}{n}}-{\frac {2{\overline {x}}}{n}}\right),

czyli po skróceniu wpływ błędu pojedynczej obserwacji na błąd estymacji wynosi:

\left|{\frac {\partial s}{\partial x_{i}}}\right|={\frac {|x_{i}-{\overline {x}}|}{s(n-1)}}.

Ze wzoru tego wypływa kilka wniosków:

Wpływ błędów wprowadzanych przez pojedynczą obserwację na błąd estymacji jest tym większy, im bardziej dana obserwacja jest oddalona od średniej.
Wpływ błędów pojedynczej obserwacji zmniejsza się, gdy rośnie liczba elementów próby.
W skrajnych sytuacjach jedna obserwacja odstająca ekstremalnie od średniej może zdominować cały wynik. Przykładowo, gdy $x_{i}={\overline {x}}\pm s(n-1),$ wówczas

\left|{\frac {\partial s}{\partial x_{i}}}\right|=1

i dowolny błąd w obserwacji

x_{i}

propaguje się na identyczny błąd w wyniku estymacji.

Nie należy zatem bezkrytycznie stosować odchylenia standardowego jako miary zmienności dla rozkładów z obserwacjami odstającymi lub bardzo^[j] odbiegających od rozkładu normalnego. Wyniki mogą nie mieć wtedy żadnej sensownej interpretacji w praktyce.

Alternatywy dla odchylenia standardowego

Metody rangowe

W przypadku bardzo^[j] zaburzonych rozkładów z obserwacjami odstającymi lepiej zastosować metody nieparametryczne. Miary nieparametryczne dają mniej dokładne wyniki w przypadku niezaburzonego rozkładu normalnego, jednak lepsze w przypadku bardzo zaburzonych danych.

Najczęściej jest tutaj stosowany rozstęp ćwiartkowy (rozstęp kwartylny), czyli różnica pomiędzy trzecim i pierwszym kwartylem z próby. Pierwszy kwartyl to liczba, poniżej której znajduje się 25% obserwacji^[l]. Trzeci kwartyl to liczba powyżej której jest 25% obserwacji^[l]. Pomiędzy nimi znajduje się 50% obserwacji. Połowa rozstępu ćwiartkowego to tzw. odchylenie ćwiartkowe. Miary te są niezależne od rozkładu, dzięki czemu zachowują swoją interpretację w sytuacjach, gdy odchylenie standardowe staje się nieprzydatne.

Ważone odchylenie standardowe

Istnieje też wersja odchylenia standardowego, w której poszczególne obserwacje brane są z różnymi wagami. Odpowiednikiem wzoru (3) jest wówczas:

s={\sqrt {\sum \limits _{i=1}^{n}\left(w_{i}\left(x_{i}-\sum \limits _{i=1}^{n}x_{i}w_{i}\right)^{2}\right)}},

przy czym wagi muszą być znormalizowane do 1:

\sum \limits _{i=1}^{n}w_{i}=1.

Ważone odchylenie standardowe jest najczęściej wykorzystywane do zmniejszenia wrażliwości odchylenia standardowego na obserwacje odstające, co jest osiągane przez nadanie mniejszych wag obserwacjom dalekim od średniej.

Średnie odchylenie bezwzględne

Jeszcze innym podejściem jest obliczanie średniego odchylenia bezwzględnego, czyli wartości:

D={\frac {\sum \limits _{i=1}^{n}|x_{i}-{\overline {x}}|}{n}}.

Miara ta ma tę zaletę, iż błąd każdej obserwacji wchodzi do wyniku z tą samą wagą, jest zatem bardziej odporna na obserwacje odstające.

Odchylenia realne z próby w badaniach społecznych

Realne miary dewiacji i dyspersji rozkładu empirycznego

W badaniach postaw za pomocą Skal Likerta rozkład wyników jest asymetryczny, najczęściej lewostronny. To skutek dążenia wypowiedzi respondentów w kierunku postaw pożądanych, zgodnych z normami uznawanymi za wartości społeczne. Z tego powodu lepszymi miarami rozproszenia są odchylenia realne z próby (Sample Real Deviations), liczone odrębnie dla wyników poniżej przeciętnych $[l]$ i ponadprzeciętnych $[h].$ Odchylenie ujemne $[-d]$ obejmuje rezultaty gorsze od średniej, a odchylenie dodatnie $[+d]$ rezultaty lepsze od średniej:

-d=-{\sqrt {{\frac {1+{\frac {h}{l}}}{n}}\sum \limits _{i:\{X_{i}<Q\}}^{l}(X_{i}-Q)^{2}}}

+d=+{\sqrt {{\frac {1+{\frac {l}{h}}}{n}}\sum \limits _{j:\{X_{j}>Q\}}^{h}(X_{j}-Q)^{2}}},

gdzie:

X_{i}\ \ X_{j}

– wagi nadane wypowiedziom pojedynczych respondentów,

Q

– wartość średnia z wypowiedzi wszystkich respondentów,

l\ \ \ h

– liczebności podzbiorów

\{i\}

oraz

\{j\}

w próbie

n

-elementowej.

W obu wzorach występują sumy warunkowe z indeksami selekcyjnymi. Zapis $i:\{X_{i}<Q\}$ nakazuje sumowanie tylko tych składników $X_{i},$ które są mniejsze od średniej $Q.$ Analogicznie zapis $j:\{X_{j}>Q\}$ wytycza składniki $X_{j}$ o wartości wyższej od $Q.$ ^[2]

Zobacz też

Uwagi

↑ Ściślej: wokół wartości oczekiwanej.
↑ Pierwszy raz użyto w: Karl Pearson: Contributions to the Mathematical Theory of Evolution. Philosophical Transactions of the Royal Society of London, 1894. Ser. A, 185, s. 71–110. (praca dostępna tutaj) Na stronie 80 Pearson napisał „Then σ will be termed its standard-deviation (error of mean square)”. Kiedy Ronald Fisher wprowadzał wariancję w 1918, nie wymyślał już nowego symbolu, lecz użył $\sigma ^{2}.$
↑ Przy założeniu, że w ogóle odchylenie standardowe dla danego rozkładu istnieje, gdyż zdarzają się (w teorii statystyki) rozkłady, dla których odpowiedni wzór nie jest całkowalny, oraz takie, dla których odchylenie jest nieskończone.
↑ Dowód drugiej równości
${\sqrt {\operatorname {E} ((X-\operatorname {E} (X))^{2})}}={\sqrt {\operatorname {E} (X^{2})-2\operatorname {E} (X)\operatorname {E} (X)+(\operatorname {E} (X))^{2}}}={\sqrt {\operatorname {E} (X^{2})-(\operatorname {E} (X))^{2}}}.$
↑ Dowód:
$\sigma ={\sqrt {\frac {\sum \limits _{i=1}^{N}{(x_{i}-\mu )^{2}}}{N}}}={\sqrt {\frac {\sum \limits _{i=1}^{N}{(x_{i}^{2}-2x_{i}\mu +\mu ^{2})}}{N}}}$

$={\sqrt {\sum \limits _{i=1}^{N}{\frac {x_{i}^{2}}{N}}-2\mu \sum \limits _{i=1}^{N}{\frac {x_{i}}{N}}+\sum \limits _{i=1}^{N}{\frac {\mu ^{2}}{N}}}}$

$={\sqrt {{\frac {\sum \limits _{i=1}^{N}{x_{i}^{2}}}{N}}-2\mu \sum \limits _{i=1}^{N}{\frac {x_{i}}{N}}+N{\frac {\mu ^{2}}{N}}}}={\sqrt {{\frac {\sum \limits _{i=1}^{N}{x_{i}^{2}}}{N}}-2\mu \sum \limits _{i=1}^{N}{\frac {x_{i}}{N}}+\mu ^{2}}}$
ale dla populacji
$\sum \limits _{i=1}^{N}{\frac {x_{i}}{N}}=\mu$
(nie jest to już prawda dla próby), więc:
$\sigma ={\sqrt {{\frac {\sum \limits _{i=1}^{N}{x_{i}^{2}}}{N}}-2\mu ^{2}+\mu ^{2}}}={\sqrt {{\frac {\sum \limits _{i=1}^{N}{x_{i}^{2}}}{N}}-\mu ^{2}}}.$
↑ Jest nieobciążony asymptotycznie, o czym mowa dalej, jednak „estymator nieobciążony asymptotycznie” i „estymator nieobciążony” to dwa różne pojęcia. Nie każdy estymator nieobciążony asymptotycznie jest estymatorem nieobciążonym i ten akurat nie jest. Istnieją też inne estymatory nieobciążone asymptotycznie odchylenia standardowego.
↑ Wyprowadzenie drugiej części wzoru (3):
$s={\sqrt {\frac {\sum \limits _{i=1}^{n}{(x_{i}-{\overline {x}})^{2}}}{n-1}}}$

$s={\sqrt {\frac {\sum \limits _{i=1}^{n}x_{i}^{2}-2\sum \limits _{i=1}^{n}x_{i}{\overline {x}}+\sum \limits _{i=1}^{n}{\overline {x}}^{2}}{n-1}}}$

$s={\sqrt {\frac {n{\overline {x^{2}}}-2n{\overline {x}}^{2}+n{\overline {x}}^{2}}{n-1}}}$

$s={\sqrt {\frac {n{\overline {x^{2}}}-n{\overline {x}}^{2}}{n-1}}}$

$s={\sqrt {{\frac {n}{n-1}}\left({\overline {x^{2}}}-({\overline {x}})^{2}\right)}}.$
↑ Estymator wariancji z $n$ w mianowniku:
$s_{n}^{2}={\frac {\sum \limits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}}{n}}.$
Wartość oczekiwana tego estymatora:
$E(s_{n}^{2})={\frac {1}{n}}E\left[\sum \limits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}\right].$
Po odjęciu i dodaniu $\mu {:}$
$E(s_{n}^{2})={\frac {1}{n}}E\left[\sum \limits _{i=1}^{n}\left((x_{i}-\mu )+(\mu -{\overline {x}})\right)^{2}\right].$
Ze wzoru na kwadrat sumy:
$E(s_{n}^{2})={\frac {1}{n}}\sum \limits _{i=1}^{n}\left[E\left((x_{i}-\mu )^{2}\right)+2E\left((x_{i}-\mu )(\mu -{\overline {x}})\right)+E\left((\mu -{\overline {x}})^{2}\right)\right].$
Drugi składnik:
$E\left((x_{i}-\mu )(\mu -{\overline {x}})\right)$
$=-E\left((\mu -x_{i})(\mu -{\overline {x}})\right)$

$=-E\left(\mu ^{2}-x_{i}\mu -\mu {\overline {x}}+x_{i}{\overline {x}}\right)$

$=-E\left(\mu ^{2}-{\overline {x}}\mu -\mu {\overline {x}}+{\overline {x}}^{2}\right)$

$=-E\left((\mu -{\overline {x}})^{2}\right),$
stąd:
$E(s_{n}^{2})={\frac {1}{n}}\sum \limits _{i=1}^{n}\left[E\left((x_{i}-\mu )^{2}\right)-E\left((\mu -{\overline {x}})^{2}\right)\right].$
Jednak:
$E\left((x_{i}-\mu )^{2}\right)=\sigma ^{2}$ (z definicji)

$E\left((\mu -{\overline {x}})^{2}\right)=\operatorname {var} ({\overline {x}})=\operatorname {var} \left({\frac {1}{n}}\sum \limits _{i=1}^{n}x_{i}\right)$
$={\frac {\operatorname {var} (x_{1})+\operatorname {var} (x_{2})+\ldots +\operatorname {var} (x_{n})}{n^{2}}}$

$={\frac {1}{n}}\sigma ^{2}$
(gdyż $\operatorname {var} (x_{i})=\sigma ^{2}$ ).
Stąd:
$E(s_{n}^{2})={\frac {1}{n}}n\left(\sigma ^{2}-{\frac {1}{n}}\sigma ^{2}\right)={\frac {n-1}{n}}\sigma ^{2}.$
A więc:
$\sigma ^{2}={\frac {n}{n-1}}E(s_{n}^{2})=E\left[{\frac {n}{n-1}}{\frac {1}{n}}\sum \limits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}\right]$
i
$\sigma ^{2}=E\left[{\frac {\sum \limits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}}{n-1}}\right].$
A więc wzór z $n-1$ w mianowniku jest nieobciążonym estymatorem wariancji.
↑ Wzór na $c_{4}$ wynika z twierdzenia Cochrana. Zgodnie z nim ${\sqrt {n-1}}s/\sigma$ ma rozkład chi z $n-1$ stopniami swobody.
↑ ^a ^b ^c ^d ^e ^f ^g ^h W tym artykule, jak w wielu miejscach w statystyce pojawiają się określenia „duża próba”, „rozkład zbliżony do normalnego” itp. Nie są to określenie ścisłe i być nie mogą. Zwykle mówi się w ten sposób, że pewna własność jest spełniona z tym mniejszym błędem im próba jest większa lub rozkład bardziej zbliżony do normalnego. Statystyka jest nauką ścisłą w tym sensie, że przy spełnionych ściśle założeniach istnieje gwarancja używania najdokładniejszych wzorów. Ponieważ jednak założenia nigdy ściśle spełnione nie są, więc właściwy dobór metod jest swego rodzaju sztuką, nie dającą się ściśle sformalizować. Niektórzy ze względów praktycznych zakładają, że „duża próba” ma np. co najmniej 50 obserwacji. Nie ma to jednak żadnych podstaw merytorycznych – ten próg zależy zwykle nie tylko od wielkości próby, ale i od dopuszczalnego błędu i od kształtu rozkładu. Dla jednych prób wystarczy 20 obserwacji, żeby dany wzór można było z sensem stosować, dla innych trzeba 2000.
↑ Dowód dwukrotnie wykorzystuje nierówność Jensena:
${\begin{aligned}\left|\mu -m\right|&=\left|\mathrm {E} (X-m)\right|\\&\leqslant \mathrm {E} \left(\left|X-m\right|\right)\\&\leqslant \mathrm {E} \left(\left|X-\mu \right|\right)\\&=\mathrm {E} \left({\sqrt {(X-\mu )^{2}}}\right)\\&\leqslant {\sqrt {\mathrm {E} ((X-\mu )^{2})}}=\sigma .\end{aligned}}.$
↑ ^a ^b W praktyce ta definicja wymaga pewnego uściślenia, zobacz kwantyl.

Przypisy

↑ odchylenie standardowe, [w:] Encyklopedia PWN [online], Wydawnictwo Naukowe PWN [dostęp 2023-03-18] .
↑ Stanisław Ubermanowicz, Ewaluacja splotowa InfoKultury. Skala dwuważonych ocen, Wydawnictwo Naukowe UAM, Poznań 2005, s. 162–164 ISBN 83-232-1608-8.

Bibliografia

L. Devroye: A Course in Density Estimation. Birkhäuser, 1987.
Jacek Koronacki, Jan Mielniczuk: Statystyka dla studentów kierunków technicznych i przyrodniczych. Warszawa: WNT, 2006. ISBN 83-204-3242-1.
W.J. Krzanowski: Principles of Multivariate Analysis. Nowy Jork: Oxford University Press, 2003, seria: Oxford Statistical Science. ISBN 0-19-850708-9.
Adam Łomnicki: Wprowadzenie do statystyki dla przyrodników. Wydawnictwo Naukowe PWN, 2005. ISBN 83-01-13979-X.
Jan Oderfeld, Elżbieta Pleszczyńska: Liniowa estymacja średniego odchylenia w populacji normalnej. Instytut Matematyczny PAN, 1961. Zastosow. Mat. VI, 111–117.
J. Wawrzynek: Metody opisu i wnioskowania statystycznego. Wrocław: Wydawnictwo Akademii Ekonomicznej im. Oskara Langego we Wrocławiu, 2007, s. 34. ISBN 978-83-7011-859-4.

[wo-1] Ściślej: wokół wartości oczekiwanej.

[pea-3] Pierwszy raz użyto w: Karl Pearson: Contributions to the Mathematical Theory of Evolution. Philosophical Transactions of the Royal Society of London, 1894. Ser. A, 185, s. 71–110. (praca dostępna tutaj) Na stronie 80 Pearson napisał „Then σ will be termed its standard-deviation (error of mean square)”. Kiedy Ronald Fisher wprowadzał wariancję w 1918, nie wymyślał już nowego symbolu, lecz użył $\sigma ^{2}.$

[istn-4] Przy założeniu, że w ogóle odchylenie standardowe dla danego rozkładu istnieje, gdyż zdarzają się (w teorii statystyki) rozkłady, dla których odpowiedni wzór nie jest całkowalny, oraz takie, dla których odchylenie jest nieskończone.

[dow2r-5] Dowód drugiej równości
${\sqrt {\operatorname {E} ((X-\operatorname {E} (X))^{2})}}={\sqrt {\operatorname {E} (X^{2})-2\operatorname {E} (X)\operatorname {E} (X)+(\operatorname {E} (X))^{2}}}={\sqrt {\operatorname {E} (X^{2})-(\operatorname {E} (X))^{2}}}.$

[dow-6] Dowód:
$\sigma ={\sqrt {\frac {\sum \limits _{i=1}^{N}{(x_{i}-\mu )^{2}}}{N}}}={\sqrt {\frac {\sum \limits _{i=1}^{N}{(x_{i}^{2}-2x_{i}\mu +\mu ^{2})}}{N}}}$

$={\sqrt {\sum \limits _{i=1}^{N}{\frac {x_{i}^{2}}{N}}-2\mu \sum \limits _{i=1}^{N}{\frac {x_{i}}{N}}+\sum \limits _{i=1}^{N}{\frac {\mu ^{2}}{N}}}}$

$={\sqrt {{\frac {\sum \limits _{i=1}^{N}{x_{i}^{2}}}{N}}-2\mu \sum \limits _{i=1}^{N}{\frac {x_{i}}{N}}+N{\frac {\mu ^{2}}{N}}}}={\sqrt {{\frac {\sum \limits _{i=1}^{N}{x_{i}^{2}}}{N}}-2\mu \sum \limits _{i=1}^{N}{\frac {x_{i}}{N}}+\mu ^{2}}}$
ale dla populacji
$\sum \limits _{i=1}^{N}{\frac {x_{i}}{N}}=\mu$
(nie jest to już prawda dla próby), więc:
$\sigma ={\sqrt {{\frac {\sum \limits _{i=1}^{N}{x_{i}^{2}}}{N}}-2\mu ^{2}+\mu ^{2}}}={\sqrt {{\frac {\sum \limits _{i=1}^{N}{x_{i}^{2}}}{N}}-\mu ^{2}}}.$

[asy-7] Jest nieobciążony asymptotycznie, o czym mowa dalej, jednak „estymator nieobciążony asymptotycznie” i „estymator nieobciążony” to dwa różne pojęcia. Nie każdy estymator nieobciążony asymptotycznie jest estymatorem nieobciążonym i ten akurat nie jest. Istnieją też inne estymatory nieobciążone asymptotycznie odchylenia standardowego.

[wypr-8] Wyprowadzenie drugiej części wzoru (3):
$s={\sqrt {\frac {\sum \limits _{i=1}^{n}{(x_{i}-{\overline {x}})^{2}}}{n-1}}}$

$s={\sqrt {\frac {\sum \limits _{i=1}^{n}x_{i}^{2}-2\sum \limits _{i=1}^{n}x_{i}{\overline {x}}+\sum \limits _{i=1}^{n}{\overline {x}}^{2}}{n-1}}}$

$s={\sqrt {\frac {n{\overline {x^{2}}}-2n{\overline {x}}^{2}+n{\overline {x}}^{2}}{n-1}}}$

$s={\sqrt {\frac {n{\overline {x^{2}}}-n{\overline {x}}^{2}}{n-1}}}$

$s={\sqrt {{\frac {n}{n-1}}\left({\overline {x^{2}}}-({\overline {x}})^{2}\right)}}.$

[n-1-9] Estymator wariancji z $n$ w mianowniku:
$s_{n}^{2}={\frac {\sum \limits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}}{n}}.$
Wartość oczekiwana tego estymatora:
$E(s_{n}^{2})={\frac {1}{n}}E\left[\sum \limits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}\right].$
Po odjęciu i dodaniu $\mu {:}$
$E(s_{n}^{2})={\frac {1}{n}}E\left[\sum \limits _{i=1}^{n}\left((x_{i}-\mu )+(\mu -{\overline {x}})\right)^{2}\right].$
Ze wzoru na kwadrat sumy:
$E(s_{n}^{2})={\frac {1}{n}}\sum \limits _{i=1}^{n}\left[E\left((x_{i}-\mu )^{2}\right)+2E\left((x_{i}-\mu )(\mu -{\overline {x}})\right)+E\left((\mu -{\overline {x}})^{2}\right)\right].$
Drugi składnik:
$E\left((x_{i}-\mu )(\mu -{\overline {x}})\right)$
$=-E\left((\mu -x_{i})(\mu -{\overline {x}})\right)$

$=-E\left(\mu ^{2}-x_{i}\mu -\mu {\overline {x}}+x_{i}{\overline {x}}\right)$

$=-E\left(\mu ^{2}-{\overline {x}}\mu -\mu {\overline {x}}+{\overline {x}}^{2}\right)$

$=-E\left((\mu -{\overline {x}})^{2}\right),$
stąd:
$E(s_{n}^{2})={\frac {1}{n}}\sum \limits _{i=1}^{n}\left[E\left((x_{i}-\mu )^{2}\right)-E\left((\mu -{\overline {x}})^{2}\right)\right].$
Jednak:
$E\left((x_{i}-\mu )^{2}\right)=\sigma ^{2}$ (z definicji)

$E\left((\mu -{\overline {x}})^{2}\right)=\operatorname {var} ({\overline {x}})=\operatorname {var} \left({\frac {1}{n}}\sum \limits _{i=1}^{n}x_{i}\right)$
$={\frac {\operatorname {var} (x_{1})+\operatorname {var} (x_{2})+\ldots +\operatorname {var} (x_{n})}{n^{2}}}$

$={\frac {1}{n}}\sigma ^{2}$
(gdyż $\operatorname {var} (x_{i})=\sigma ^{2}$ ).
Stąd:
$E(s_{n}^{2})={\frac {1}{n}}n\left(\sigma ^{2}-{\frac {1}{n}}\sigma ^{2}\right)={\frac {n-1}{n}}\sigma ^{2}.$
A więc:
$\sigma ^{2}={\frac {n}{n-1}}E(s_{n}^{2})=E\left[{\frac {n}{n-1}}{\frac {1}{n}}\sum \limits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}\right]$
i
$\sigma ^{2}=E\left[{\frac {\sum \limits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}}{n-1}}\right].$
A więc wzór z $n-1$ w mianowniku jest nieobciążonym estymatorem wariancji.

[c4-10] Wzór na $c_{4}$ wynika z twierdzenia Cochrana. Zgodnie z nim ${\sqrt {n-1}}s/\sigma$ ma rozkład chi z $n-1$ stopniami swobody.

[weasel-11] ↑ ^a ^b ^c ^d ^e ^f ^g ^h W tym artykule, jak w wielu miejscach w statystyce pojawiają się określenia „duża próba”, „rozkład zbliżony do normalnego” itp. Nie są to określenie ścisłe i być nie mogą. Zwykle mówi się w ten sposób, że pewna własność jest spełniona z tym mniejszym błędem im próba jest większa lub rozkład bardziej zbliżony do normalnego. Statystyka jest nauką ścisłą w tym sensie, że przy spełnionych ściśle założeniach istnieje gwarancja używania najdokładniejszych wzorów. Ponieważ jednak założenia nigdy ściśle spełnione nie są, więc właściwy dobór metod jest swego rodzaju sztuką, nie dającą się ściśle sformalizować. Niektórzy ze względów praktycznych zakładają, że „duża próba” ma np. co najmniej 50 obserwacji. Nie ma to jednak żadnych podstaw merytorycznych – ten próg zależy zwykle nie tylko od wielkości próby, ale i od dopuszczalnego błędu i od kształtu rozkładu. Dla jednych prób wystarczy 20 obserwacji, żeby dany wzór można było z sensem stosować, dla innych trzeba 2000.

[jen-12] Dowód dwukrotnie wykorzystuje nierówność Jensena:
${\begin{aligned}\left|\mu -m\right|&=\left|\mathrm {E} (X-m)\right|\\&\leqslant \mathrm {E} \left(\left|X-m\right|\right)\\&\leqslant \mathrm {E} \left(\left|X-\mu \right|\right)\\&=\mathrm {E} \left({\sqrt {(X-\mu )^{2}}}\right)\\&\leqslant {\sqrt {\mathrm {E} ((X-\mu )^{2})}}=\sigma .\end{aligned}}.$

[kwantyl-13] W praktyce ta definicja wymaga pewnego uściślenia, zobacz kwantyl.

[epwn-2] odchylenie standardowe, [w:] Encyklopedia PWN [online], Wydawnictwo Naukowe PWN [dostęp 2023-03-18] .

[14] Stanisław Ubermanowicz, Ewaluacja splotowa InfoKultury. Skala dwuważonych ocen, Wydawnictwo Naukowe UAM, Poznań 2005, s. 162–164 ISBN 83-232-1608-8.

[a]

[1]

[b]

[c]

[d]

[e]

[f]

[g]

[h]

[i]

[j]

[k]

[l]

[2]