Rozptyl je základní míra variability, která udává míru rozptýlení (variabilitu) hodnot v datovém souboru okolo jeho střední hodnoty (zpravidla průměru). Často se využívá jako veličina v různých statistických testech (např. v analýze rozptylu). Rozlišujeme populační a výběrový rozptyl.
Populační rozptyl (σ2) počítáme jako průměr rozdílů druhých mocnin mezi každou hodnotou ve statistické populaci (statistickém souboru) a průměrem (střední hodnotou) této populace (viz příklad níže):
\( N \) značí počet hodnot v dané populaci, \( x_i \) označuje i-tou hodnotu v souboru a \( \bar{x} \) aritmetický průměr datové sady.
V praxi (např. při vyhodnocení základních statistických charakteristik naměřených hodnot z experimentu), ale využíváme výběrový rozptyl (s2). Počítá se podobně jako populační rozptyl, ale namísto dělení počtem hodnot n dělíme počtem hodnot minus jedna (tzv. Besselovu oprava – viz příklad níže):
(\( n \) se standardně využívá pro označení počtu hodnot ve výběrovém souboru.)
Besselova oprava minimalizuje zkreslení dané např. vlivem extrémních hodnot v malém datovém souboru. Její použití umožňuje získat tzv. nestranný odhad variability v celé populaci na základě výběrového souboru.
Jaký typ rozptylu použít?
Pokud operujete s hodnotami celé populace (např. výškou žáků 7. třídy určité základní školy), použijte populační rozptyl.
Zakupte si balíček 2 nebo více vybraných kurzů a ušetřete
Jestliže zkoumáte výšku žáků 7. třídy na základních školách v celé České republice a k dispozici máte naměřené hodnoty omezeného vzorku (např. 100 chlapců), použijete výběrový rozptyl.
Využití rozptylu
Rozptyl popisuje průměrnou odlišnost hodnot od střední hodnoty. Tím vám umožní:
- porovnat variabilitu dvou a více datových sad (a tedy určit, zda lze např. pro ověření alternativní hypotézy využít metodu ANOVA nebo regresní analýzu),
- identifikovat odlehlé hodnoty – vysoký rozptyl naznačuje jejich přítomnost,
- posoudit spolehlivost průměru – nízký rozptyl naznačuje, že průměr je dobrou reprezentací datového souboru, zatímco vysoký rozptyl značí možné ovlivnění průměru extrémními hodnotami.
Rozptyl hraje důležitou roli v Shapiro-Wilkově testu pro posouzení normality rozložení dat (test je mj. citlivý na rozptyl hodnot).
Je také druhou mocninou směrodatné odchylky, důležitý míry variability používané v řadě statistických analýz.
Hodnota rozptylu se tedy udává ve druhé mocnině měřených proměnných (např. u délky se veličina délky m změní na m2). Rozptyl je proto méně intuitivní na pochopení a nelze jej přímo srovnávat s hodnotami v datovém souboru (k tomu slouží zmíněná směrodatná odchylka).
Příklad výpočtu populačního rozptylu
Vaším úkolem je spočítat rozptyl výšky žáků 7. třídy ve vybrané malé základní škole. Naměřili jste tyto hodnoty: 158, 145, 165, 150 a 157 cm.
Na této škole se vám podařilo změřit výšku všech žáků (celé populace). Použijeme tedy vzorec pro populační rozptyl:
Nejprve spočítáme aritmetický průměr výšky:
Získanou průměrnou výšku (155 cm) nyní dosadíme do vzorce pro populační rozptyl:
Rozptyl výšky zkoumané populace je 47,6 cm2.
Výpočet populačního rozptylu v Excelu
# buňky A1 až A100 obsahují naměřené hodnoty
# funkce pro výpočet populačního rozptylu
=VAR.P(A1:A100)
Výpočet populačního rozptylu v jazyce R
# naměřené hodnoty
data <- c(3, 5, 6, 7, 8)
# funkce pro výpočet populačního rozptylu
var(data) * (length(data)-1)/length(data)
Příklad výpočtu výběrového rozptylu
Vaším úkolem je spočítat rozptyl výšky žáků 7. třídy v menší obci (populace). K dispozici máte ale pouze hodnoty výšky pěti žáků z různých základních škol (výběr). Pro snazší srovnání použijeme stejné hodnoty jako v předchozím příkladu, tedy 158, 145, 165, 150 a 157 cm.
V tomto případě je proto nutné použít vzorec pro výběrový rozptyl, do kterého dosadíme naměřené hodnoty a průměrnou výšku (155 cm):
Výběrový rozptyl výšky studovaného vzorku žáků je 59,5 cm2.
Výpočet výběrového rozptylu v Excelu
# buňky A1 až A100 obsahují naměřené hodnoty
# funkce pro výpočet výběrového rozptylu
=VAR.S(A1:A100)
Výpočet výběrového rozptylu v jazyce R
# naměřené hodnoty
data <- c(3, 5, 6, 7, 8)
# funkce pro výpočet výběrového rozptylu
var(data)