Informační webinář: Úvod do programování v Pythonu (pro úplné začátečníky)

18. 9. 2024 od 14:00


⚠️ Poslední místa – Regresní analýza v TIBCO Statistica

Brno (Mendelova univerzita) – 6. 6. 2024


⚠️ Poslední místa – Analýza rozptylu v TIBCO Statistica

Brno (Mendelova univerzita) – 7. 6. 2024

Obsah

Rozptyl: definice, využití a výpočet


Rozptyl je základní míra variability, která udává míru rozptýlení (variabilitu) hodnot v datovém souboru okolo jeho střední hodnoty (zpravidla průměru). Často se využívá jako veličina v různých statistických testech (např. v analýze rozptylu). Rozlišujeme populační a výběrový rozptyl.

Populační rozptyl (σ2) počítáme jako průměr rozdílů druhých mocnin mezi každou hodnotou ve statistické populaci (statistickém souboru) a průměrem (střední hodnotou) této populace (viz příklad níže):

\[\sigma^2 = \sum_{i=1}^{N} \frac{(x_i – \bar{x})^2}{N} \]

\( N \) značí počet hodnot v dané populaci, \( x_i \) označuje i-tou hodnotu v souboru a \( \bar{x} \) aritmetický průměr datové sady.

V praxi (např. při vyhodnocení základních statistických charakteristik naměřených hodnot z experimentu), ale využíváme výběrový rozptyl (s2). Počítá se podobně jako populační rozptyl, ale namísto dělení počtem hodnot n dělíme počtem hodnot minus jedna (tzv. Besselovu oprava – viz příklad níže):

\[s^2 = \sum_{i=1}^{n} \frac{(x_i – \bar{x})^2}{n-1} \]

(\( n \) se standardně využívá pro označení počtu hodnot ve výběrovém souboru.)

Besselova oprava minimalizuje zkreslení dané např. vlivem extrémních hodnot v malém datovém souboru. Její použití umožňuje získat tzv. nestranný odhad variability v celé populaci na základě výběrového souboru.


Jaký typ rozptylu použít?

Pokud operujete s hodnotami celé populace (např. výškou žáků 7. třídy určité základní školy), použijte populační rozptyl.

Zvýhodněné balíčky kurzů

Zakupte si balíček 2 nebo více vybraných kurzů a ušetřete

Jestliže zkoumáte výšku žáků 7. třídy na základních školách v celé České republice a k dispozici máte naměřené hodnoty omezeného vzorku (např. 100 chlapců), použijete výběrový rozptyl.


Využití rozptylu

Rozptyl popisuje průměrnou odlišnost hodnot od střední hodnoty. Tím vám umožní:

  • porovnat variabilitu dvou a více datových sad (a tedy určit, zda lze např. pro ověření alternativní hypotézy využít metodu ANOVA nebo regresní analýzu),
  • identifikovat odlehlé hodnoty – vysoký rozptyl naznačuje jejich přítomnost,
  • posoudit spolehlivost průměru – nízký rozptyl naznačuje, že průměr je dobrou reprezentací datového souboru, zatímco vysoký rozptyl značí možné ovlivnění průměru extrémními hodnotami.

Rozptyl hraje důležitou roli v Shapiro-Wilkově testu pro posouzení normality rozložení dat (test je mj. citlivý na rozptyl hodnot).

Je také druhou mocninou směrodatné odchylky, důležitý míry variability používané v řadě statistických analýz.

Hodnota rozptylu se tedy udává ve druhé mocnině měřených proměnných (např. u délky se veličina délky m změní na m2). Rozptyl je proto méně intuitivní na pochopení a nelze jej přímo srovnávat s hodnotami v datovém souboru (k tomu slouží zmíněná směrodatná odchylka).


Příklad výpočtu populačního rozptylu

Vaším úkolem je spočítat rozptyl výšky žáků 7. třídy ve vybrané malé základní škole. Naměřili jste tyto hodnoty: 158, 145, 165, 150 a 157 cm.

Na této škole se vám podařilo změřit výšku všech žáků (celé populace). Použijeme tedy vzorec pro populační rozptyl:

\[\sigma^2 = \sum_{i=1}^{N} \frac{(x_i – \bar{x})^2}{N} \]

Nejprve spočítáme aritmetický průměr výšky:

\[\bar{x} = \frac{1}{N} \left( \sum_{i=1}^{N} x_i \right) = \frac{x_1 + x_2 + \ldots + x_N}{N} \] \[\bar{x} = \frac{158 + 145 + 165 + 150 + 157}{5}\] \[\bar{x} = 155\]

Získanou průměrnou výšku (155 cm) nyní dosadíme do vzorce pro populační rozptyl:

\[\sigma^2 = \sum_{i=1}^{N} \frac{(x_i – \bar{x})^2}{N} \] \[\sigma^2 = \frac{(158 – 155)^2 + (145 – 155)^2 + (165 – 155)^2 + (150 – 155)^2 + (157 – 155)^2}{5}\] \[\sigma^2 = 47.6\]

Rozptyl výšky zkoumané populace je 47,6 cm2.


Výpočet populačního rozptylu v Excelu

# buňky A1 až A100 obsahují naměřené hodnoty

# funkce pro výpočet populačního rozptylu
=VAR.P(A1:A100)


Výpočet populačního rozptylu v jazyce R

# naměřené hodnoty
data <- c(3, 5, 6, 7, 8)

# funkce pro výpočet populačního rozptylu
var(data) * (length(data)-1)/length(data)


Příklad výpočtu výběrového rozptylu

Vaším úkolem je spočítat rozptyl výšky žáků 7. třídy v menší obci (populace). K dispozici máte ale pouze hodnoty výšky pěti žáků z různých základních škol (výběr). Pro snazší srovnání použijeme stejné hodnoty jako v předchozím příkladu, tedy 158, 145, 165, 150 a 157 cm.

V tomto případě je proto nutné použít vzorec pro výběrový rozptyl, do kterého dosadíme naměřené hodnoty a průměrnou výšku (155 cm):

\[s^2 = \sum_{i=1}^{n} \frac{(x_i – \bar{x})^2}{n-1} \] \[s^2 = \sum_{i=1}^{n} \frac{(158 – 155)^2 + (145 – 155)^2 + (165 – 155)^2 + (150 – 155)^2 + (157 – 155)^2}{5 – 1} \] \[s^2 = 59.5\]

Výběrový rozptyl výšky studovaného vzorku žáků je 59,5 cm2.



Výpočet výběrového rozptylu v Excelu

# buňky A1 až A100 obsahují naměřené hodnoty

# funkce pro výpočet výběrového rozptylu
=VAR.S(A1:A100)


Výpočet výběrového rozptylu v jazyce R

# naměřené hodnoty
data <- c(3, 5, 6, 7, 8)

# funkce pro výpočet výběrového rozptylu
var(data)


Mohlo by vás zajímat

Články
Analýza dat ve vědě a výzkumu

Statistika je klíčem ke kvalitnějším výsledkům a publikaci v prestižních vědeckých časopisech. Jak ji dělat správně?

Naše kurzy

Ovládání Pythonu pro datovou analýzu

Přihlásit na kurz Lektor: Mgr. Bc. Silvie Bělašková, Ph.D. Trvání kurzu: 2 dny Naučte se ovládat programovací jazyk Python pro účely analýzy analýzy dat –

Data mining v TIBCO Statistica

Přihlásit na kurz Lektor: doc. RNDr. Ing. Marcel Jiřina, Ph.D. Trvání kurzu: 2 dny Naučte se pomocí aplikace Statistica odhalit důležité informace ve svých datech

Zvýhodněné balíčky kurzů

Zakupte si balíček 2 nebo více vybraných kurzů a ušetřete

[24. 4. 2024] Webinář ZDARMA: Jak získat 82% příspěvek na školení statistiky přes MPSV

Pod vedením zakladatele Datové akademie Dávida Tkáče mj. zjistíte: