Modus: definice, využití a výpočet

Modus je míra polohy vyjadřující nejčastější hodnotu (frekvenci výskytu) zkoumané proměnné. Při výskytu jednoho modu označujeme datový soubor jako unimodální, u dvou modů jako bimodální a u více modů jako multimodální.

Modus lze spočítat u různých typů proměnných:

nominální data – např. nejčastější vedlejší účinek u experimentálního léku na gliom,
ordinální data – nejčastější stádium gliomu, se kterým pacienti přicházejí k lékaři,
diskrétní proměnné – nejčastější počet léčebných cyklů podaný pacientovi,
spojité proměnné – nejčastější koncentrace experimentálního léku v krvi hodinu po podání.

U nominálních, ordinálních a diskrétních dat jej zjistíte spočítáním četnosti jednotlivých hodnot (viz příklad níže):

Příklad modu u nominální proměnné.

Pro spojité proměnné lze navíc konkrétní hodnotu vypočítat vzorcem tzv. aproximace módu v intervalových datech (viz příklad níže):

\[\text{Mo} = L + \frac{f_1 – f_0}{2f_1 – f_0 – f_2} \times h\]

\(L \) označuje dolní hranici modálního intervalu (intervalu s nejvyšší četností), \(f_1 \) četnost modálního intervalu, \(f_0 \) četnost intervalu před modálním intervalem, \(f_2 \) četnost intervalu za modálním intervalem a \(h \) šířku intervalů.

Pozor – aplikace pro statistickou analýzu, jako je Excel a jazyk R, nevyužívají pro získání výsledku aproximaci v intervalových datech, ale složitější postupy. Výsledky se proto mohou od ručního výpočtu lišit.

Příklad modu u spojité proměnné, která nabývá v určitém rozsahu libovolných hodnot – pro účely vizualizace se proto zobrazuje počet hodnot v rámci určitých intervalů.

V praxi se medián nepočítá ručně, ale s pomocí statistických programů.

Zvýhodněné balíčky kurzů

Zakupte si balíček 2 nebo více vybraných kurzů a ušetřete

Poznámka: pro výpočet modu v jazyce R budete potřebovat knihovny rstatix a DescTools, které nainstalujete následujícím příkazem:

# instalace knihoven
install.packages(c("rstatix", "DescTools"))

Využití modu

Na rozdíl od průměru a mediánu lze modus použít i pro nečíselné proměnné v různých oborech:

zdravotnictví – nejčastější typu určitých příznaků onemocnění nebo vedlejších účinků studovaného léku,
sociologie – nejčastější dosažené vzdělání,
ekonomie – nejvíce kupovaná značka určitého druhu zboží,
geografie – nejčastější typ půdy v oblasti.

Spojité kvantitativní proměnné jsou při určování modu citlivé na šířku intervalu. Je proto třeba zvolit vhodnou metodu pro výpočet této šířky – často se využívá např. Sturgesovo pravidlo (viz níže).

Příklad výpočtu modu – ordinální proměnná

Vaším úkolem je určit modus stádia gliomu, se kterým pacienti poprvé přijdou do ordinace. K dispozici máte vzorek 20 nemocných, u kterých lékař diagnostikoval stádium nádoru:

Pořadí pacienta	1	2	3	4	5	6	7	8	9	10
Stádium gliomu	III	II	IV	II	III	IV	I	II	III	IV
Pořadí pacienta	11	12	13	14	15	16	17	18	19	20
Stádium gliomu	II	I	III	IV	II	I	III	IV	I	II

Nejprve hodnoty seřadíme: I, I, I, I, II, II, II, II, II, II, II, II, III, III, III, III, III, III, IV, IV, IV, IV

Poté určíme jejich četnost výskytu:

Stádium I: 4×,
Stádium II: 8×,
Stádium III: 6×,
Stádium IV: 4×.

Modus datového souboru je stádium II.

Výpočet modu v Excelu

V Excelu můžete pro nalezení modu použít dvě funkce:

Funkce MODE je vhodná v situaci, kdy soubor hodnot obsahuje pouze jeden modus; v opačném případě vrátí pouze první nalezený modus.
Funkce MODE.MULT vrátí všechny nalezené mody; je tedy ideální pro situace, kdy počet očekávaný modů neznáte nebo jich očekáváte více.

# buňky A1 až A100 obsahují naměřené hodnoty

# funkce pro výpočet prvního modu
=MODE(A1:A100)

# funkce pro výpočet všech modů
=MODE.MULT(A1:A100)

Výpočet modu v jazyce R

Pro nalezení modu v jazyce R můžete využít tyto funkce:

get_mode z balíčku rstatix vrátí hodnoty všech modů,
Mode z balíčku DescTools vrátí 1) hodnoty všech modů, 2) početní zastoupení těchto hodnot.

# načtení knihoven
library(rstatix)
library(DescTools)

# naměřené hodnoty
data <- c("Male", "Female", "Female", "Female", "Male")

# funkce pro výpočet modu
get_mode(data)

# funkce pro výpočet modu a početního zastoupení modu
Mode(data)

Příklad výpočtu modu – spojitá proměnná

Máte za úkol vypočítat modus koncentrace nádorových markerů v krvi pacienta s gliomem. Datová sada obsahuje následujících 20 hodnot:

Pořadí pacienta	1	2	3	4	5	6	7	8	9	10
Koncentrace markerů (ng/ml)	5,2	6,9	5,5	6,0	5,9	7,1	6,5	5,8	6,3	7,0
Pořadí pacienta	11	12	13	14	15	16	17	18	19	20
Koncentrace markerů (ng/ml)	5,7	6,6	5,4	6,1	7,2	6,4	5,6	6,7	5,3	6,9

Pracujeme se spojitými proměnnými, proto je nejprve třeba určit počet intervalů a jejich šířku. K tomu slouží Sturgesova pravidlo:

\[ k = 1 + (3.3 \times \log n) \]

\(k \) vyjadřuje počet intervalů a \(n \) počet hodnot (pozorování) v datovém souboru. Pokud hodnota \(k \) není celočíselná, zaokrouhlíme ji nahoru. Po dosazení vychází:

\[ k = 1 + (3.3 \times \log 20) \] \[ k = 5.29 \]

Po zaokrouhlení nahoru se tedy \(k \) rovná 6 – hodnoty našeho souboru zobrazíme v 6 intervalech.

Pro určení šířky intervalu (\(h\)) spočítáme rozpětí hodnot v datovém souboru (\(R\)) a vydělíme jej počtem intervalů (\(k\)).

Víme, že nejnižší hodnota (\(x_{\text{min}}\)) je 5,2 ng/ml a nejvyšší hodnota (\(x_{\text{max}}\)) je 7,2 ng/ml:

\[ R = x_{\text{max}} – x_{\text{min}} \] \[ R = 7.2 – 5.2 \] \[ R = 2.0 \]

Rozpětí (\(R\)) je tedy 2,0 ng/ml. Dosadíme získané hodnoty do vzorce pro výpočet šířky intervalu:

\[ h = \frac{R}{k} \] \[ h = \frac{2.0}{6} \] \[ h = 0.33 \]

Jednotlivé intervaly mají tedy přibližně tento rozsah:

Pořadí intervalu	1	2	3	4	5	6
Rozsah koncentrace (ng/ml)	5,2–5,53	5,53–5,86	5,86–6,19	6,19–6,52	6,52–6,85	6,85–7,2

Nakonec spočítáme četnost výskytu hodnot v jednotlivých intervalech:

1. interval (5,2–5,53 ng/ml) – 5,2 ng/ml, 5,3 ng/ml, 5,4 ng/ml, 5,5 ng/ml (4 hodnoty),
2. interval (5,53–5,86 ng/ml) – 5,6 ng/ml, 5,7 ng/ml, 5,8 ng/ml (3 hodnoty),
3. interval (5,86–6,19 ng/ml) – 5,9 ng/ml, 6,0 ng/ml, 6,1 ng/ml (3 hodnoty),
4. interval (6,19–6,52 ng/ml) – 6,3 ng/ml, 6,4 ng/ml, 6,5 ng/ml (3 hodnoty),
5. interval (6,52–6,85 ng/ml) – 6,6 ng/ml, 6,7 ng/ml (2 hodnoty),
6. interval (6,85–7,2 ng/ml) – 6,9 ng/ml, 6,9 ng/ml, 7,0 ng/ml, 7,1 ng/ml, 7,2 ng/ml (5 hodnot).

Modální interval datového souboru je 6,85–7,2 ng/ml. Datový soubor je tedy unimodální.

Přesnou hodnotu modu spočítáme metodou aproximace (viz výše).

Dolní hranice modálního intervalu (\(L \)) je 6,85 ng/ml, četnost modálního intervalu (\(f_1 \)) je 5, četnost intervalu před modálním intervalem (\(f_0 \)) je 2, četnost intervalu za modálním intervalem (\(f_2 \)) je 0 (za modálním intervalem žádný další interval nemáme) a zmiňovaná intervalu (\(h \)) je 0,33.

Dosadíme tedy do vzorce:

\[\text{Mo} = L + \frac{f_1 – f_0}{2f_1 – f_0 – f_2} \times h\] \[\text{Mo} = 6.85 + \frac{5 – 2}{(2 \times 5) – 2 – 0} \times 0.33\] \[\text{Mo} = 6.97\]

Modus koncentrace nádorových markerů je tedy 6,97 ng/ml.

Výpočet modu spojité proměnné v jazyce R

Modus spojité proměnné v R zjistíte výpočtem maxima tzv. kernelové hustoty:

# naměřené hodnoty
data <- c(5.2, 6.9, 5.5, 6.0, 5.9, 7.1, 6.5, 5.8, 6.3, 7.0)

# funkce pro odhad kernelové hustoty
dens <- density(data)

# funkce pro nalezení maxima kernelové hustoty
mode_value <- dens$x[which.max(dens$y)]

# výstup modu
mode_value

Od dat k publikaci: výstupy, které projdou recenzí

Přihlásit na kurz Lektor: Mgr. Patrik Galeta, PhD. Zpracujte data ze svého výzkumu tak, aby váš článek bez problémů prošel recenzním řízením ve všech vědeckých časopisech. V kurzu pro vědecké pracovníky získáte praktický návod, jak vybrané statistické metody využít a popsat je v odborném článku. Po absolvování školení budete umět připravit podklady (rukopis, tabulky, grafy, dopis editorovi) pro recenzní řízení. Během kurzu pracujeme s praktickými ukázkami ze známých vědeckých periodik. 2denním kurzem vás provede Mgr. Patrik Galeta, PhD., odborný asistent katedry antropologie Západočeské univerzity v Plzni, který se statistice věnuje v rámci demografických studií (viz profil lektora). Procvičování probíhá na příkladech z přírodních a společenských věd v české verzi aplikace Tibco Statistica, popř. RStudio. Počítač vám zapůjčíme na místě, není třeba nosit vlastní. Chci se přihlásit Adresa konání kurzu Délka kurzu Z kurzu budete mít největší užitek, pokud: připravujete tabulky a grafy do rukopisu článku a potřebujete výchozí data správně zpracovat (vědečtí pracovníci), potřebujete porozumět standardům statistické analýzy ve vědeckých periodikách. Jaké vstupní znalosti jsou potřeba? Pro absolvování kurzu nejsou potřeba žádné specifické znalosti. Co se v kurzu naučíte? jak vyhodnotit vztah dvou a více proměnných pomocí t-testů, analýzy rozptylu, kontingenčních tabulek a regrese, co z výsledků analýzy do odborného článku vybrat, jak připravit tabulky s popisnými statistikami, jakým způsobem v odborné literatuře vhodně vizualizovat data, jaká je základní struktura odborného článku (kapitoly úvod, materiál, metody, výsledky, diskuse, závěr), podle jakých vzorových formulací se statistické výsledky píší, jak připravit rukopis do recenzního řízení (a popř. jej upravit na základě zpětné vazby). Chci vidět podrobný sylabus kurzu R a Rstudio Základy ovládání R pomocí knihoven tidyverse Popisná statistika Četnostní tabulky Popisné ukazatele (průměr, medián, rozptyl) Grafy v knihovně ggplot2 Opakování hodnocení vztahu proměnných t-testy, ANOVA Kontingenční tabulky Regrese a korelace Základní struktura odborného článku s analýzou kvantitativních dat Kapitoly Úvod, Materiál, Metody, Výsledky, Diskuze, Závěr Co je obsahem jednotlivých kapitol Jak si vytvořit „vědecký prostor“ Prezentace základních analýz v odborném článku Struktura kapitol Materiál a Metody Strukturované psaní kapitoly Výsledky Očekávaný formát tabulek v rukopisu článku Očekávaný formát grafů, nutné minimum Příklady dobré praxe Vzorové články s prezentací základních analýz Kritický rozbor textu Typy používaných formulací Příprava podkladů pro rukopis článku Text rukopisu, soubory s grafy a tabulky, titulky grafů Dopis editorovi ukázka portálu pro odevzdání u mezinárodního odborného časopisu (např. https://mc.manuscriptcentral.com/) Návrh recenzentů Základy zpracování odpovědi na recenzní řízení Úprava rukopisu Podrobná odpověď na připomínky recenzentů Názory spokojených účastníků Chci

Ředitel Datové akademie představí Letní školu statistiky.

Obsah

Modus: definice, využití a výpočet

Využití modu

Příklad výpočtu modu – ordinální proměnná

Výpočet modu v Excelu

Výpočet modu v jazyce R

Příklad výpočtu modu – spojitá proměnná

Výpočet modu spojité proměnné v jazyce R

Mohlo by vás zajímat

Záznam webináře: Biostatistika v R – bezplatný úvod do kurzu

Zpracování dat v R tidyverse – 1. díl: základní pojmy a funkce

Popisná statistika: míry tvaru (s příkazy pro Excel, R)

Popisná statistika: míry polohy (s příkazy pro Excel a jazyk R)

Naše kurzy

Geodata v R: mapy a prostorové analýzy hromadně

Regresní analýza v R: modely, na které je spoleh

Basic statistical analysis in R programming language

ANOVA v programu Statistica: vliv faktorů na vaše výsledky

Od dat k publikaci: výstupy, které projdou recenzí

Strojové učení v Pythonu: první modely nad vlastními daty

Obsah

Modus: definice, využití a výpočet

Využití modu

Příklad výpočtu modu – ordinální proměnná

Výpočet modu v Excelu

Výpočet modu v jazyce R

Příklad výpočtu modu – spojitá proměnná

Výpočet modu spojité proměnné v jazyce R

Mohlo by vás zajímat

Naše kurzy

Zvýhodněné balíčky kurzů

[24. 4. 2024] Webinář ZDARMA: Jak získat 82% příspěvek na školení statistiky přes MPSV