Směrodatná odchylka (druhá odmocnina rozptylu) je jednou ze základních měr variability. Vyjadřuje průměrnou vzdálenost hodnot od středu souboru (typicky od aritmetického průměru). Hraje mj. důležitou roli v interpretaci statistických výsledků.
Platí, že čím vyšší je hodnota směrodatné odchylky, tím rozptýlenější data v souboru budou (při normálním rozdělení dat):
Rozlišujeme populační a výběrovou směrodatnou odchylku.
Populační směrodatná odchylka (σ) je druhá odmocnina populačního rozptylu. Ten počítáme jako průměr kvadrátů rozdílů mezi každou hodnotou ve statistické populaci (statistickém souboru) a průměrem (střední hodnotou) této populace (viz příklad níže):
\( N \) značí počet hodnot v daném souboru (populaci), \( x_i \) označuje i-tou hodnotu v souboru a \( \bar{x} \) aritmetický průměr datové sady.
Výběrová směrodatná odchylka (s) se používá např. při vyhodnocení hodnot naměřených při experimentu. Počítá se jako druhá odmocnina z populačního rozptylu a využívá tzv. Besselovu opravu, kdy namísto dělení počtem hodnot n dělíme počtem hodnot minus jedna (viz příklad níže):
Zakupte si balíček 2 nebo více vybraných kurzů a ušetřete
(\( n \) se standardně využívá pro označení počtu hodnot ve výběrovém souboru.)
Besselova oprava snižuje zkreslení způsobené například extrémními hodnotami v malých datových souborech. Její použití přispívá k přesnějšímu odhadu směrodatné odchylky celé populace na základě výběrového souboru.
Jaký typ směrodatné odchylky použít?
Jestliže pracujete s daty zahrnujícími celou populaci (např. výška žáků 7. třídy na konkrétní základní škole), zvolte populační směrodatnou odchylku.
Pokud ale studujete výšku žáků 7. třídy na základních školách v celé ČR a k dispozici máte naměřené hodnoty omezeného vzorku (např. 100 chlapců), použijete výběrovou směrodatnou odchylku.
Využití směrodatné odchylky
Směrodatná odchylka hraje roli při hodnocení vlastností datového souboru. Používá totiž stejné jednotky jako naměřená data (naopak rozptyl popisujeme v jejich druhé mocnině).
Své místo má také v identifikaci odlehlých hodnot. U souboru dat s normálním rozdělením můžete využít tzv. pravidlo tří sigma (3s kritérium).
Za odlehlé pak považujeme ty hodnoty, které leží dále než tři směrodatné odchylky od průměru. (To přibližně odpovídá hodnotám pod 0,15. percentilem a nad 99,85. percentilem – využití pravidla se odvíjí od kontextu měření.)
Směrodatnou odchylku využijete také pro:
- testování normality rozložení dat – směrodatná odchylka má svou roli v konstrukci Q-Q grafu a P-P grafu (slouží k vizuálnímu posouzení normality dat) nebo při určování šikmosti a špičatosti (popisují tvar rozdělení – viz míry tvaru),
- stanovení intervalu spolehlivosti (na toto téma pro vás připravujeme článek),
- testování alternativních hypotéz (např. v regresní či korelační analýze).
Podobně jako další míry variability a míry polohy je směrodatná odchylka citlivá na extrémní hodnoty.
Příklad výpočtu populační směrodatné odchylky
Vaším úkolem je spočítat směrodatnou odchylku výšky žáků 7. třídy ve vybrané malé základní škole. Naměřili jste tyto hodnoty: 158, 145, 165, 150 a 157 cm.
Na této škole se vám podařilo změřit výšku všech žáků (celé populace). Použijeme tedy vzorec pro populační směrodatnou odchylku, která vychází ze vzorce pro populační rozptyl:
Nejprve proto musíme spočítat aritmetický průměr výšky:
Získanou průměrnou výšku (155 cm) nyní dosadíme do vzorce pro populační rozptyl:
Rozptyl výšky zkoumané populace je 47,6 cm2. Pro získání směrodatné odchylky stačí získanou hodnotu odmocnit:
Populační směrodatná odchylka má hodnotu 6,9 cm. To znamená, že hodnoty výšky zkoumané populace žáků 7. třídy jsou od středu (155 cm) v průměru rozptýlené o 6,9 cm.
Výpočet populační směrodatné odchylky v Excelu
# buňky A1 až A100 obsahují naměřené hodnoty
# funkce pro výpočet populační směrodatné odchylky
=STDEV.P(A1:A100)
Výpočet populační směrodatné odchylky v jazyce R
# naměřené hodnoty
data <- c(3, 5, 6, 7, 8)
# funkce pro výpočet populační směrodatné odchylky
sqrt(var(data) * (length(data)-1)/length(data))
Příklad výpočtu výběrového směrodatné odchylky
Vaším úkolem je spočítat směrodatnou odchylku výšky žáků 7. třídy v menší obci (populace). K dispozici máte ale pouze hodnoty výšky pěti žáků z různých základních škol (výběr). Pro snazší srovnání použijeme stejné hodnoty jako v předchozím příkladu, tedy 158, 145, 165, 150 a 157 cm.
Proto zvolíme vzorec pro výběrovou směrodatnou odchylku:
(\( n \) se standardně využívá pro označení počtu hodnot ve výběrovém souboru.)
Nejprve spočítáme výběrový rozptyl, do kterého dosadíme naměřené hodnoty a průměrnou výšku (155 cm):
Výběrový rozptyl výšky studovaného vzorku žáků je 59,5 cm2. Pro spočítání výběrové směrodatné odchylky získaný výsledek odmocníme:
Výběrová směrodatná odchylka má hodnotu 7,7 cm. Z toho usuzujeme, že data (výška žáků ve vzorku) jsou kolem průměrné výšky 155 cm v průměru rozptýlena o 7,7 cm.
Výpočet výběrové směrodatné odchylky v Excelu
# buňky A1 až A100 obsahují naměřené hodnoty
# funkce pro výpočet výběrové směrodatné odchylky
=STDEV.S(A1:A100)
Výpočet výběrové směrodatné odchylky v jazyce R
# naměřené hodnoty
data <- c(3, 5, 6, 7, 8)
# funkce pro výpočet výběrové směrodatné odchylky
sd(data)