Nový webinář Biostatistika v R – úvod do kurzu ZDARMA

Objevte nové možnosti využití statistiky v biomedicíně, klinickém výzkumu nebo veřejném zdraví. Investujte hodinu času a posuňte se ve své kariéře.

úterý 18. 11. 2025 od 15:00

Objevte nové možnosti využití statistiky pro svou praxi.

Podívejte se na ZÁZNAM WEBINÁŘE Biostatistika v R – klikněte ZDE.

Objevte nové možnosti využití statistiky pro svou praxi.

Podívejte se na ZÁZNAM WEBINÁŘE Biostatistika v R – klikněte ZDE.

Propásli jste webinář JAK NA STATISTIKU BEZ PROGRAMOVÁNÍ?

Podívejte se na ZÁZNAM ZDE!

Obsah

Medián: definice, využití a výpočet


Medián je důležitým ukazatelem míry polohy. Vyjadřuje prostřední hodnotu ve vzestupně seřazeném souboru dat a dělí jej na dvě poloviny. Odděluje tedy 50 % spodních hodnot od 50 % horních hodnot. Z tohoto pohledu jde o typ kvantilu, někdy označovaný Q0,5.

Spolu s dalšími kvantily spočítáte medián u ordinálních proměnných a kvantitativních proměnných. U druhé skupiny je výpočet možný za předpokladu rovnoměrného rozložení dat a dostatečného počtu pozorování v každé kategorii (např. u školních známek, kde předpokládáme stejný rozdíl mezi jednotlivými stupni známkování).

medián

U normálního rozdělení dat se hodnota mediánu rovná hodnotě aritmetického průměru a modu:

Na rozdíl od aritmetického průměru medián neovlivňují extrémní hodnoty. V jejich přítomnosti se hodnota mediánu, průměru a modu liší:

U lichého počtu hodnot se medián počítá jako prostřední hodnota seřazených dat (viz příklad níže):

\[\tilde{x} = x_{\frac{n+1}{2}} \]

V případě sudého počtu hodnot se medián rovná aritmetickému průměru dvou prostředních hodnot (viz příklad níže):

Zvýhodněné balíčky kurzů

Zakupte si balíček 2 nebo více vybraných kurzů a ušetřete

\[\tilde{x} = \frac{1}{2}(x_{\frac{n}{2}} + x_{\frac{n}{2}+1}) \]

V obou případech vyjadřuje \( n \) počet prvků v souboru dat, zatímco \( x_{i} \) pořadí dané hodnoty při ve vzestupném seřazeném souboru hodnot. V praxi se medián nepočítá ručně, ale s pomocí funkcí statistických programů.


Využití mediánu

Medián je obzvláště užitečný ve výzkumech a analýzách, kde je důležité identifikovat střední hodnotu datové sady, která není ovlivněna extrémními hodnotami. To z něj činí ideální nástroj např. pro hodnocení:

  • příjmu v sociologických studiích, kde extrémní hodnoty (např. velmi vysoké příjmy) mohou zkreslit průměrné výsledky,
  • středových hodnot v environmentálních studiích, jako je kvalita vzduchu nebo vody, kde extrémní hodnoty způsobené neobvyklými událostmi (např. znečištění) nemusí odpovídat obvyklé kvalitě,
  • střední délky přežití v klinických studiích.


Kdy medián nepoužívat?

Přestože je medián užitečný v řadě aplikací, existují situace, kdy jeho použití není ideální. Jde zejména o případy, kdy:

  • je potřeba zohlednit všechny hodnoty v datové sadě, včetně extrémů (např. při studiu maximální možné efektivity nebo odolnosti materiálů),
  • data mají rovnoměrnou distribuci bez extrémních hodnot – střední hodnotu stejně dobře určí aritmetický průměr.
  • chybí některá data (vzorec bere v potaz pořadí hodnot).

Před využitím mediánu je nezbytné určit původ odlehlých hodnot ve vašich datech. Jejich přítomnost může totiž značit i chybu v měření. Použití mediánu by v takovém případě vedlo k mylné interpretaci získaných výsledků a celé vědecké studie.



Příklad výpočtu mediánu – lichý počet hodnot

Při zkoumání průměrné délky přežití pacientů po aplikaci experimentální léčby jste u jednotlivých dobrovolníků naměřili tyto hodnoty: 22, 3, 14, 8, 12, 10, 5, 15 a 17 měsíců.

Abychom medián nalezli, hodnoty vzestupně seřadíme:

Pořadí hodnoty 1 2 3 4 5 6 7 8 9
Hodnota (měsíce) 3 5 8 10 12 14 15 17 22

Máme 9 hodnot, použijeme tedy vzorec pro výpočet mediánu při lichém počtu hodnot. Po dosazení do rovnice vychází:

\[\tilde{x} = x_{\left(\frac{n+1}{2}\right)}\] \[\tilde{x} = x_{\left(\frac{9+1}{2}\right)}\] \[\tilde{x} = x_{5}\] \[\tilde{x} = 12\]

Medián je 5. hodnota v seřazeném souboru dat. Mediánová délka přežití (\(\tilde{x}\)) se tedy rovná 12 měsícům .

Pokud bychom u tohoto soubor spočítali aritmetický průměr, vyjde nám 11,8 měsíce. Data tedy nemají normální rozložení.



Příklad výpočtu mediánu – sudý počet hodnot

Máte za úkol vypočítat medián mzdy u následujícího (již seřazeného) souboru hodnot:

Pořadí hodnoty 1 2 3 4 5 6 7 8 9 10
Měsíční příjem (tisíce Kč) 15 15 20 22 25 33 36 45 58 112
Pořadí hodnoty 1 2 3 4 5 6 7 8 9 10
Měsíční příjem (tisíce Kč) 15 15 20 22 25 33 36 45 58 112

Při sudém počtu hodnot (10) dosadíme jejich počet do následujícího vzorce:

\[\tilde{x} = \frac{x_{\left(\frac{n}{2}\right)} + x_{\left(\frac{n}{2}+1\right)}}{2}\] \[\tilde{x} = \frac{x_{\left(\frac{10}{2}\right)} + x_{\left(\frac{10}{2}+1\right)}}{2}\] \[\tilde{x} = \frac{x_{5} + x_{6}}{2}\] \[\tilde{x} = \frac{25 + 33}{2}\] \[\tilde{x} = \frac{55}{2}\] \[\tilde{x} = 29000\]

Medián mzdy je tedy 29 000 Kč, zatímco její aritmetický průměr 38 100 Kč. Rozložení dat j opět nerovnoměrné – průměr zvyšuje zejména poslední (extrémní) hodnota 112 000 Kč.



Výpočet mediánu v Excelu

# buňky A1 až A100 obsahují naměřené hodnoty

# funkce pro výpočet mediánu
=MEDIAN(A1:A100)


Výpočet mediánu v jazyce R

# naměřené hodnoty
data <- c(3, 5, 6, 7, 8)

# funkce pro výpočet mediánu
median(data)


Pro hromadný výpočet mediánu a dalších charakteristik popisné statistiky v jazyce R slouží příkaz summary(), resp. describe()podrobnosti najdete zde.



Mohlo by vás zajímat

Články
Analýza dat ve vědě a výzkumu

Statistická analýza je klíčem ke kvalitnějším výsledkům a publikaci v prestižních vědeckých časopisech. Jak ji dělat správně?

Naše kurzy

Základní biostatistická analýza v jazyce R

Kurzy Ovládání programovacího jazyka R + Kurz biostatistiky I v jazyce R Přihlásit na kurz Lektoři: Mgr. Patrik Galeta, PhD. a Mgr. Bc. Silvie Bělašková, PhD. Trvání kurzu: 3 dny Naučte se od základů zpracovat a vyhodnotit klinická a biologická data základními statistickými metodami v jazyce R – i když jste s R nikdy nepracovali. Balíček za zvýhodněnou cenu kombinuje: A/ Ovládání programovacího jazyka R (1 den) – orientace v prostředí R a aplikace RStudio, importování dat z Excelu a dalších aplikací, transformace a zpracování proměnných a vytváření grafů. B/ Kurz biostatistiky I v jazyce R (2 dny) – design vědeckého experimentu, testování medicínských a biologických hypotéz pomocí parametrických (t-test, ANOVA, lineární regrese ad.) a neparametrických metod (Wilcoxnovy testy, Kruskal-Wallisova ANOVA), využívání kontingenčních tabulek. Procvičování příkladů probíhá v anglické verzi aplikace RStudio. Počítač vám zapůjčíme na místě, není třeba nosit vlastní. Chci se přihlásit Spokojených absolventů Adresa konání kurzu Délka kurzu Z kurzů budete mít největší užitek, pokud: se chcete naučit ovládat programovací jazyk R pro vyhodnocování dat ze svého klinického či biologického výzkumu, nemáte se zpracováním dat v jazyce R žádné zkušenosti a potřebujete datovou analýzu využívat ve své práci (výzkumní a technologičtí pracovníci, ad.). Jaké vstupní znalosti jsou potřeba? Pro absolvování balíčků kurzů nejsou potřeba žádné specifické znalosti – jde o školení pro úplné začátečníky. Co vše se naučíte? A/ Ovládání programovacího jazyka R jak se orientovat v prostředí aplikace RStudio a balíčku tidyverse , jak lehce importovat data různých formátů do R, proč data zpracovávat pomocí na sebe navazujících algoritmických sekvencí (tzv. pipelines), jak použít knihovnu dplyr pro snadnou úpravu proměnných a práci s nimi, možnosti úprav textových proměnných a faktorů pomocí knihoven stringr a forcats, jak hromadně upravit proměnné, jak vytvořit krásné a přehledné grafy v knihovně ggplot2. Ovládání programovacího jazyka R – podrobný sylabus Prostředí RStudia Jednotná syntax funkcí skupiny knihoven tidyverse Úsporné psaní kódu pomocí „pipeline“ Načtení dat do R z formátu MS Excel (knihovna readxl) a SAS, SPSS, Stata (knihovna haven) Práce s daty (knihovna dplyr) Výběr proměnných a případů Přejmenování proměnných Úprava proměnných (jednotlivě i hromadně) Spojení více tabulek pomocí společné proměnné Práce s daty v rámci skupin Úprava textových proměnných (knihovna stringr) Najít a nahradit řetězec Rozdělit a spojit řetězce Vyčistit řetězce Práce s faktory (knihovna forcats) Nastavit pořadí úrovně faktorů podle různých kritérií Přidat a odstranit úrovně Spojení úrovní více faktorů Práce s formátem datum (knihovna lubridate) Převedení data na formát datum Extrakce orku, měsíce, dne

Geospatial Data Processing in R

Learn how to analyze and interpret geospatial data from scratch using R, with practical functions designed specifically to simplify and accelerate batch processing.

Vyhodnocování dotazníků v TIBCO Statistica

Přihlásit na kurz Lektor: Mgr. Bc. Silvie Bělašková, PhD. Kurz je zaměřen na výuku teorie a praktické procvičování statistických metod používaných při zpracovávaní dotazníkových šetření zahrnujících kategoriální (kvalitativní) data. Všechny probírané metody budou procvičeny na konkrétních příkladech. Důraz je kladen na praktické použití daných metod a na interpretaci výsledků. Kurzem vás provede Mgr. Bc. Silvie Bělašková, Ph.D. – zkušená lektorka, přední česká expertka na klinický výzkum a vedoucí oddělení biometrie mezinárodní společnosti Aixial. Chci se přihlásit Spokojených absolventů Adresa konání kurzu Délka kurzu Pro koho je kurz určen Statistici Datoví analytici Výzkumní pracovníci Vědci Zájemci o rozšíření svých znalostí v oblasti vyhodnocování dotazníků různého zaměření – přírodní vědy, technické obory, biomedicínský výzkum, ekonomické a sociální vědy atd. Jaké vstupní znalosti jsou potřeba? Základní znalost principů statistického uvažování. Pro absolvování tohoto kurzu je vhodné mít znalosti v rozsahu kurzů: Základní kurz statistiky I a Základní kurz statistiky II. Co se na kurzu naučíte? Porozumět základním metodám pro analýzu kategoriálních dat. Jak zpracovávat data z dotazníkových šetření. Jak poznat, že je dotazník vhodně sestaven. Které metody popisné statistiky jsou vhodné a smysluplné pro použití v kontextu kvalitativních a ordinálních dat. Vyhodnocovat a interpretovat výsledky těchto metod. Jak vyhodnotit statistickou odlišnost mezi dvěma či více skupinami vzhledem ke kvalitativní, resp. ordinální odezvě. Jak vyhodnocovat závislosti dvou dichotomických znaků. Jak vyhodnocovat závislosti dvou obecných kategoriálních znaků. Jaké metody jsou vhodné pro vyhodnocování párových kategoriálních dat Jak sestavit dotazník a jaké typy otázek použít. Chci vidět podrobný sylabus kurzu Úvod Popisná statistika Medián Modus Průměr Analýza závislosti dvou dichotomických znaků (kontingenční tabulky 2×2) Fisherův test Chí-kvadrát test Analýza závislosti dvou obecných kategoriálních znaků (kontingenční tabulky IxJ) Podmínky použití jednotlivých testů Slučování polí Samotné testování Statistické metody pro párová kategoriální data Tvorba a návrh dotazníků a dotazníkového šetření Určení velikosti vzorku Skladba a typy otázek Uzavřené Otevřené Polootevřené Loglineární modely pro kontingenční tabulky (nástin) Názory spokojených účastníků Chci vidět další názory účastníků kurzu Jaké školící materiály obdržíte? na kurzu obdržíte tištěné prezentace probírané látky, které vám následně zašleme v elektronické verzi Jak dlouho kurz trvá? 1 pracovní den Kdo vás bude školit? Kurzem vás provede Mgr. Bc. Silvie Bělašková, Ph.D., vedoucí oddělení biometrie mezinárodní společnosti Aixial a přední česká odbornice na klinický výzkum. V minulosti mj. pracovala jako seniorní statistička ve Fakultní nemocnici u sv. Anny v Brně. Silvie Bělašková působila také jako vědecký asistent na Univerzitě Palackého v Olomouci i jako lektor statistiky na Univerzitě

Zvýhodněné balíčky kurzů

Zakupte si balíček 2 nebo více vybraných kurzů a ušetřete

[24. 4. 2024] Webinář ZDARMA: Jak získat 82% příspěvek na školení statistiky přes MPSV

Pod vedením zakladatele Datové akademie Dávida Tkáče mj. zjistíte: