Rozptyl: definice, využití a výpočet

Rozptyl je základní míra variability, která udává míru rozptýlení (variabilitu) hodnot v datovém souboru okolo jeho střední hodnoty (zpravidla průměru). Často se využívá jako veličina v různých statistických testech (např. v analýze rozptylu). Rozlišujeme populační a výběrový rozptyl.

Populační rozptyl (σ2) počítáme jako průměr rozdílů druhých mocnin mezi každou hodnotou ve statistické populaci (statistickém souboru) a průměrem (střední hodnotou) této populace (viz příklad níže):

\[\sigma^2 = \sum_{i=1}^{N} \frac{(x_i – \bar{x})^2}{N} \]

\( N \) značí počet hodnot v dané populaci, \( x_i \) označuje i-tou hodnotu v souboru a \( \bar{x} \) aritmetický průměr datové sady.

V praxi (např. při vyhodnocení základních statistických charakteristik naměřených hodnot z experimentu), ale využíváme výběrový rozptyl (s²). Počítá se podobně jako populační rozptyl, ale namísto dělení počtem hodnot n dělíme počtem hodnot minus jedna (tzv. Besselovu oprava – viz příklad níže):

\[s^2 = \sum_{i=1}^{n} \frac{(x_i – \bar{x})^2}{n-1} \]

(\( n \) se standardně využívá pro označení počtu hodnot ve výběrovém souboru.)

Besselova oprava minimalizuje zkreslení dané např. vlivem extrémních hodnot v malém datovém souboru. Její použití umožňuje získat tzv. nestranný odhad variability v celé populaci na základě výběrového souboru.

Jaký typ rozptylu použít?

Pokud operujete s hodnotami celé populace (např. výškou žáků 7. třídy určité základní školy), použijte populační rozptyl.

Zvýhodněné balíčky kurzů

Zakupte si balíček 2 nebo více vybraných kurzů a ušetřete

Jestliže zkoumáte výšku žáků 7. třídy na základních školách v celé České republice a k dispozici máte naměřené hodnoty omezeného vzorku (např. 100 chlapců), použijete výběrový rozptyl.

Využití rozptylu

Rozptyl popisuje průměrnou odlišnost hodnot od střední hodnoty. Tím vám umožní:

porovnat variabilitu dvou a více datových sad (a tedy určit, zda lze např. pro ověření alternativní hypotézy využít metodu ANOVA nebo regresní analýzu),
identifikovat odlehlé hodnoty – vysoký rozptyl naznačuje jejich přítomnost,
posoudit spolehlivost průměru – nízký rozptyl naznačuje, že průměr je dobrou reprezentací datového souboru, zatímco vysoký rozptyl značí možné ovlivnění průměru extrémními hodnotami.

Rozptyl hraje důležitou roli v Shapiro-Wilkově testu pro posouzení normality rozložení dat (test je mj. citlivý na rozptyl hodnot).

Je také druhou mocninou směrodatné odchylky, důležitý míry variability používané v řadě statistických analýz.

Hodnota rozptylu se tedy udává ve druhé mocnině měřených proměnných (např. u délky se veličina délky m změní na m²). Rozptyl je proto méně intuitivní na pochopení a nelze jej přímo srovnávat s hodnotami v datovém souboru (k tomu slouží zmíněná směrodatná odchylka).

Příklad výpočtu populačního rozptylu

Vaším úkolem je spočítat rozptyl výšky žáků 7. třídy ve vybrané malé základní škole. Naměřili jste tyto hodnoty: 158, 145, 165, 150 a 157 cm.

Na této škole se vám podařilo změřit výšku všech žáků (celé populace). Použijeme tedy vzorec pro populační rozptyl:

\[\sigma^2 = \sum_{i=1}^{N} \frac{(x_i – \bar{x})^2}{N} \]

Nejprve spočítáme aritmetický průměr výšky:

\[\bar{x} = \frac{1}{N} \left( \sum_{i=1}^{N} x_i \right) = \frac{x_1 + x_2 + \ldots + x_N}{N} \] \[\bar{x} = \frac{158 + 145 + 165 + 150 + 157}{5}\] \[\bar{x} = 155\]

Získanou průměrnou výšku (155 cm) nyní dosadíme do vzorce pro populační rozptyl:

\[\sigma^2 = \sum_{i=1}^{N} \frac{(x_i – \bar{x})^2}{N} \] \[\sigma^2 = \frac{(158 – 155)^2 + (145 – 155)^2 + (165 – 155)^2 + (150 – 155)^2 + (157 – 155)^2}{5}\] \[\sigma^2 = 47.6\]

Rozptyl výšky zkoumané populace je 47,6 cm².

Výpočet populačního rozptylu v Excelu

# buňky A1 až A100 obsahují naměřené hodnoty

# funkce pro výpočet populačního rozptylu
=VAR.P(A1:A100)

Výpočet populačního rozptylu v jazyce R

# naměřené hodnoty
data <- c(3, 5, 6, 7, 8)

# funkce pro výpočet populačního rozptylu
var(data) * (length(data)-1)/length(data)

Příklad výpočtu výběrového rozptylu

Vaším úkolem je spočítat rozptyl výšky žáků 7. třídy v menší obci (populace). K dispozici máte ale pouze hodnoty výšky pěti žáků z různých základních škol (výběr). Pro snazší srovnání použijeme stejné hodnoty jako v předchozím příkladu, tedy 158, 145, 165, 150 a 157 cm.

V tomto případě je proto nutné použít vzorec pro výběrový rozptyl, do kterého dosadíme naměřené hodnoty a průměrnou výšku (155 cm):

\[s^2 = \sum_{i=1}^{n} \frac{(x_i – \bar{x})^2}{n-1} \] \[s^2 = \sum_{i=1}^{n} \frac{(158 – 155)^2 + (145 – 155)^2 + (165 – 155)^2 + (150 – 155)^2 + (157 – 155)^2}{5 – 1} \] \[s^2 = 59.5\]

Výběrový rozptyl výšky studovaného vzorku žáků je 59,5 cm².

Výpočet výběrového rozptylu v Excelu

# buňky A1 až A100 obsahují naměřené hodnoty

# funkce pro výpočet výběrového rozptylu
=VAR.S(A1:A100)

Výpočet výběrového rozptylu v jazyce R

# naměřené hodnoty
data <- c(3, 5, 6, 7, 8)

# funkce pro výpočet výběrového rozptylu
var(data)

Statistická analýza dat bez programování

Přihlásit na kurz Lektor: Ing. et Ing. Aneta Mazouchová, Ph.D. Trvání kurzu: 2 dny Naučte se analyzovat svá výzkumná data v bezplatných statistických programech bez nutnosti programování. Získáte praktické dovednosti pro správnou interpretaci výsledků a jejich prezentaci ve vědeckých publikacích. V kurzu pro výzkumné pracovníky vás provedeme zpracováním dat pomocí uživatelsky přívětivých nástrojů, jako je JASP či Jamovi. Po absolvování školení zvládnete základní i pokročilou statistickou analýzu bez nutnosti psát jediný řádek kódu. 2denním kurzem vás provede Ing. et Ing. Aneta Mazouchová, Ph.D., zkušená lektorka (mj. výuka na Univerzitě Karlově a Soukromé vysoké škole ekonomické v Praze) a konzultantka statistiky a datové analýzy na volné noze (viz profil lektora). Procvičování probíhá na praktických příkladech v aplikaci JASP, resp. Jamovi či v jiném freewaru. Na konkrétním programu se s účastníky dohodneme před konáním kurzu. Počítač vám zapůjčíme na místě, není třeba nosit vlastní. Chci se přihlásit Adresa konání kurzu Délka kurzu Z kurzu budete mít největší užitek, pokud: potřebujete rychle a přehledně analyzovat výzkumná data, ale nechcete se učit programovat, chcete používat statistické metody správně a rozumět jejich podstatě, hledáte alternativu k placeným statistickým programům. Jaké vstupní znalosti jsou potřeba? Pro absolvování kurzu nejsou potřeba žádné specifické znalosti. Jde o kurz pro úplné začátečníky. Co se na kurzu naučíte? jak importovat data do zvoleného freewaru a připravit je pro analýzu, jak správně zvolit a provést základní statistické testy podle typu výzkumné otázky, jak interpretovat výsledky statistických analýz pro vědecké publikace, jak vytvořit přehledné grafy a vizualizace dat, jak používat pokročilé statistické metody včetně faktorové analýzy bez nutnosti programování. Chci vidět podrobný sylabus kurzu Úvod do freewarových programů Představení programů JASP a Jamovi Srovnání s komerčními alternativami (SPSS, SAS) Instalace a základní nastavení programů Orientace v uživatelském rozhraní Úvod do analýzy dat Co je to průzkumová analýza dat Třídění proměnných Popisné statistiky Základní popisné statistiky, charakteristiky polohy a variability Vizualizace dat a jejich použití Analýza vztahu dvou veličin Normální rozdělení a ověření normality dat Testování hypotéz Úvod do teorie testování statistických veličin Úvod do parametrického testování – jednovýběrový t-test, dvouvýběrový t-test, párový t-test, jednoduchá analýza rozptylu Základní neparametrické testy – Wilcoxonovy testy, analýza asociačních tabulek, test nezávislosti dvou kategoriálních znaků Úvod do korelační analýzy Význam korelační analýzy Parametrické vs. neparametrické koeficienty korelace Pearsonův korelační koeficient Úvod do lineární regrese Význam regresní analýzy Jednoduchá lineární regresní analýza Vícerozměrná lineární regrese Názory spokojených účastníků „Přestože s jazykem R pracuji již více jak 11 let, dozvěděl

Ovládání programovacího jazyka R
- webinář ZDARMA -

Obsah

Rozptyl: definice, využití a výpočet

Jaký typ rozptylu použít?

Využití rozptylu

Příklad výpočtu populačního rozptylu

Výpočet populačního rozptylu v Excelu

Výpočet populačního rozptylu v jazyce R

Příklad výpočtu výběrového rozptylu

Výpočet výběrového rozptylu v Excelu

Výpočet výběrového rozptylu v jazyce R

Mohlo by vás zajímat

Zpracování dat v R tidyverse – 3. díl: import dat z aplikací SAS, MATLAB a Stata

[PRŮVODCE] Jak vybrat správný kurz statistiky a datové analýzy?

Popisná statistika: míry tvaru (s příkazy pro Excel, R)

Záznam informačního webináře: Úvod do programování v Pythonu

Naše kurzy

Statistická analýza dat bez programování

Základní statistická analýza v SW Statistica

Kurz biostatistiky II v programovacím jazyce R

Pokročilé modely v biostatistice v TIBCO Statistica

Neparametrická statistika v TIBCO Statistica

Příprava výzkumných dat pro statistické vyhodnocení v MS Excel

Obsah

Rozptyl: definice, využití a výpočet

Jaký typ rozptylu použít?

Využití rozptylu

Příklad výpočtu populačního rozptylu

Výpočet populačního rozptylu v Excelu

Výpočet populačního rozptylu v jazyce R

Příklad výpočtu výběrového rozptylu

Výpočet výběrového rozptylu v Excelu

Výpočet výběrového rozptylu v jazyce R

Mohlo by vás zajímat

Naše kurzy

Zvýhodněné balíčky kurzů

[24. 4. 2024] Webinář ZDARMA: Jak získat 82% příspěvek na školení statistiky přes MPSV