Nový webinář Biostatistika v R – úvod do kurzu ZDARMA

Objevte nové možnosti využití statistiky v biomedicíně, klinickém výzkumu nebo veřejném zdraví. Investujte hodinu času a posuňte se ve své kariéře.

úterý 18. 11. 2025 od 15:00

Objevte nové možnosti využití statistiky pro svou praxi.

Podívejte se na ZÁZNAM WEBINÁŘE Biostatistika v R – klikněte ZDE.

Objevte nové možnosti využití statistiky pro svou praxi.

Podívejte se na ZÁZNAM WEBINÁŘE Biostatistika v R – klikněte ZDE.

Propásli jste webinář JAK NA STATISTIKU BEZ PROGRAMOVÁNÍ?

Podívejte se na ZÁZNAM ZDE!

Obsah

Percentil: definice, využití a výpočet


Percentil je míra polohy, který dělí uspořádaný soubor hodnot na 100 stejně velkých částí. Standardně ukazuje celočíselný podíl (procento) pozorovaní v datové sadě pod určitou hodnotou.

Např. 20. percentil (označovaný jako P20) je hodnota, pod kterou leží 20 % všech pozorování a 80. percentil (P80) je hodnota, pod kterou leží 80 % všech pozorování.

Spolu s dalšími kvantily lze percentil spočítat u ordinálních proměnných a kvantitativních proměnných. U druhé skupiny je výpočet možný za předpokladu rovnoměrného rozložení dat a dostatečného počtu pozorování v každé kategorii (např. u školních známek, kde předpokládáme stejný rozdíl mezi jednotlivými stupni známkování).

Percentil se počítá podle následujícího vzorce (viz příklad níže):

\[ P_k = \frac{(n+1) \cdot k}{100} \]

\(P_k \) označuje pořadí hodnoty k-tého percentilu v souboru vzestupně seřazených dat. \(n \) je počet hodnot v datovém souboru. V praxi se percentily počítáme s pomocí statistických programů.

V případě, že výsledkem není celé číslo, je potřeba výsledek upravit lineární interpolací mezi dvěma sousedními hodnotami v uspořádaném datovém souboru. Její vzorec je následující (viz příklad níže):

\[ y = y_1 + \left( \frac{x – x_1}{x_2 – x_1} \right) \cdot (y_2 – y_1) \]

\( x_1 \) a \( x_2 \) je menší, resp. větší pořadí hodnoty, pro které provádíme interpolaci. \( y_1 \) a \( y_2 \) je pak menší, resp. větší hodnota, které interpolujeme.

Zvýhodněné balíčky kurzů

Zakupte si balíček 2 nebo více vybraných kurzů a ušetřete

Pozor – aplikace pro statistickou analýzu, jako je Excel a jazyk R, nevyužívají pro získání výsledku lineární interpolaci, ale složitější postupy. Výsledky se proto mohou od ručního výpočtu lišit.


Využití percentilů

Percentily jsou dalším z nástrojů pro popis rozložení dat u velkých datových souborů. U normálního rozložení jsou rozestupy mezi percentily od středu podobné (graf výše), zatímco v souborech se zešikmenými daty (viz míry tvaru) se zpravidla výrazně liší – data se koncentrují na jedné straně rozložení:

Spolu s mezikvartilovým rozpětím a dalšími metodami lze percentily použít pro identifikaci odlehlých hodnot. Za extrémní se mohou považovat hodnoty, které leží pod hranicí 5. percentilu (resp. 1. percentilu) a nad hranicí 95. percentilu (resp. 99. percentilu).

Záleží na kontextu – u dat s pravostranným rozložením lze za extrémní brát hodnoty nad 95. percentilem, protože většina dat se nachází napravo od mediánu. Naopak u normálního rozložení je za odlehlé možné považovat hodnoty pod 5. a nad 95. percentilem.

Percentily jsou dobrým ukazatelem pro srovnávání různých datových sad. Předpokladem je:

  • podobné rozdělení (distribuce) datových sad,
  • měření na stejné nebo srovnatelné škále,
  • dostatečná velikost vzorku (za účelem reprezentace dané populace).

Používají se např. pro porovnání znalostí studentů v různých státech nebo míry znečištění v různých regionech. Ve zdravotnictví a dalších oborech slouží percentily pro stanovení norem:

Použití percentilů není vhodné pro:

  • malé datové sady (méně než několik desítek hodnot),
  • výrazně odlišná distribuce srovnávaných datových sad (např. sada hodnot s normálním rozdělením a sada hodnot s výrazně levostrannou distribucí),
  • pro datové sady s vysokým počtem odlehlých hodnot.


Příklad výpočtu percentilů

Vaším úkolem je spočítat 20. a 80. percentil výšky tříletých dívek z následujících dat: 90, 95, 88, 92, 89, 94, 97, 86, 99, 85, 93, 96, 100, 91, 87, 98, 94, 92 a 90 cm. (Jde o ilustrační příklad – pro takto malou datovou sadou není vhodné percentil používat.)

Hodnoty nejprve vzestupně seřadíme:

Pořadí hodnoty 1 2 3 4 5 6 7 8 9 10
Výška (cm) 85 86 87 88 89 90 90 91 92 92
Pořadí hodnoty 11 12 13 14 15 16 17 18 19
Výška (cm) 93 94 94 95 96 97 98 99 100


Pro výpočet 20. percentilu z 19 hodnot dosadíme příslušné hodnoty do výše uvedené rovnice:

\[P_k = \frac{(n+1) \cdot k}{100}\] \[P_{20} = \frac{(19+1) \cdot 20}{100}\] \[P_{20} = 4\]

20. percentil (P20) odpovídá v této sadě 4. hodnotě, tedy výšce 88 cm. V dané datové sadě je tedy 20 % dívek vysokých 88 cm (nebo menších).

Stejným způsobem spočítáme i 80. percentil:

\[P_{80} = \frac{(19+1) \cdot 80}{100}\] \[P_{20} = 16\]

80. percentil (P80) odpovídá 16. hodnotě, výšce 97 cm. V dané sadě dosahuje 80 % dívek výšky maximálně 97 cm.



Příklad výpočtu percentilů s lineární interpolací

Vyjdeme ze stejných dat jako v předchozím příkladu, přidáme pouze navíc jednu hodnotu (106 cm). V datovém souboru bude tedy 20 hodnot:

Pořadí hodnoty 1 2 3 4 5 6 7 8 9 10
Výška (cm) 85 86 87 88 89 90 90 91 92 92
Pořadí hodnoty 11 12 13 14 15 16 17 18 19 20
Výška (cm) 93 94 94 95 96 97 98 99 100 106


Hodnoty dosadíme do vzorce pro výpočet 20. percentilu:

\[P_k = \frac{(n+1) \cdot k}{100}\] \[P_{20} = \frac{(20+1) \cdot 20}{100}\] \[P_{20} = 4.2\]

Pořadí číslo 4,2 (\( x \)) neexistuje. Provedeme proto lineární interpolaci mezi hodnotami na 4. a 5. místě (\( x_1 \) a \( x_2 \)). Tyto hodnoty (88 a 89 cm, tedy \( y_1 \) a \( y_2 \)) dosadíme do příslušného vzorce (viz výše):

\[ y = y_1 + \left( \frac{x – x_1}{x_2 – x_1} \right) \cdot (y_2 – y_1) \] \[ y = 88 + \left( \frac{4.2 – 4}{5 – 4} \right) \cdot (89 – 89) \] \[ y = 88.2 \]

Hodnota 20. percentilu se tedy rovná 88,2 cm. Stejným postupem získáme u 80. percentilu k (neexistujícímu) pořadí 16,8. Po použití lineární interpolace nám vyjde hodnota 80. percentilu 97,8 cm.



Výpočet percentilů v Excelu

# buňky A1 až A100 obsahují naměřené hodnoty

# funkce pro výpočet percentilů
=PERCENTILE.INC(A1:A100, 0.05)  # pro výpočet P5
=PERCENTILE.INC(A1:A100, 0.2)  # pro výpočet P20
=PERCENTILE.INC(A1:A100, 0.8)  # pro výpočet P80
=PERCENTILE.INC(A1:A100, 0.95)  # pro výpočet P95


Výpočet percentilů v jazyce R

# naměřené hodnoty
data <- c(3, 5, 6, 7, 8)

# funkce pro výpočet percentilů P5, P20, P80 a P95
quantile(data, probs = c(0.05, 0.2, 0.8, 0.95))

# funkce pro výpočet percentilů P5, P20, P80 a P95 lineární interpolací
quantile(data, probs = c(0.05, 0.2, 0.8, 0.95), type = 6)


Mohlo by vás zajímat

Články
Analýza dat ve vědě a výzkumu

Statistická analýza je klíčem ke kvalitnějším výsledkům a publikaci v prestižních vědeckých časopisech. Jak ji dělat správně?

Naše kurzy

Základy MS Power BI

Naučte se data z obchodu, financí či logistiky zpracovat do přehledných reportů – a naplánujte podle nich své další kroky.

Kompletní biostatistická analýza v jazyce R

Ovládání jazyka R + Kurz biostatistiky I v jazyce R + Kurz biostatistiky II v jazyce R Přihlásit na kurz Lektoři: Mgr. Patrik Galeta, PhD. a Mgr. Bc. Silvie Bělašková, PhD. Trvání kurzu: 5 dnů Naučte se od úplné nuly vyhodnocovat klinická a biologická data základními a pokročilými metodami v jazyce R – a výrazně zvyšte kvalitu svých výzkumných publikací. Balíček za zvýhodněnou cenu kombinuje: A/ Ovládání programovacího jazyka R (1 den) – orientace v prostředí R a aplikace RStudio, importování dat z Excelu a dalších aplikací, transformace a zpracování proměnných a vytváření grafů. B/ Kurz biostatistiky I v jazyce R (2 dny) – design vědeckého experimentu, testování medicínských a biologických hypotéz pomocí parametrických (t-test, ANOVA, lineární regrese ad.) a neparametrických metod (Wilcoxnovy testy, Kruskal-Wallisova ANOVA), využívání kontingenčních tabulek. C/ Kurz biostatistiky II v jazyce R (2 dny) – vyhodnocení dat pomocí korelační analýzy, logistické regrese a dalších metod, základy vícerozměrných statistických metod a časových řad, metodiky servival a risk analysis. Procvičování příkladů probíhá v anglické verzi aplikace RStudio. Počítač vám zapůjčíme na místě, není třeba nosit vlastní. Chci se přihlásit Spokojených absolventů Adresa konání kurzu Délka kurzu Z kurzů budete mít největší užitek, pokud: nemáte se zpracováním dat v jazyce R žádné zkušenosti a potřebujete datovou analýzu využívat ve své práci (výzkumní a technologičtí pracovníci, ad.). se chcete naučit vyhodnocovat klinická a biologická data základními a pokročilými metodami v programovacím jazyce R, chcete výrazně zvýšit svou šanci na publikování v prestižním periodiku. Jaké vstupní znalosti jsou potřeba? Pro absolvování balíčků kurzů nejsou potřeba žádné specifické znalosti – začneme od základů. Co vše se naučíte? A/ Ovládání programovacího jazyka R jak se orientovat v prostředí aplikace RStudio a balíčku tidyverse , jak lehce importovat data různých formátů do R, proč data zpracovávat pomocí na sebe navazujících algoritmických sekvencí (tzv. pipelines), jak použít knihovnu dplyr pro snadnou úpravu proměnných a práci s nimi, možnosti úprav textových proměnných a faktorů pomocí knihoven stringr a forcats, jak hromadně upravit proměnné, jak vytvořit krásné a přehledné grafy v knihovně ggplot2. Ovládání programovacího jazyka R – podrobný sylabus Prostředí RStudia Jednotná syntax funkcí skupiny knihoven tidyverse Úsporné psaní kódu pomocí „pipeline“ Načtení dat do R z formátu MS Excel (knihovna readxl) a SAS, SPSS, Stata (knihovna haven) Práce s daty (knihovna dplyr) Výběr proměnných a případů Přejmenování proměnných Úprava proměnných (jednotlivě i hromadně) Spojení více tabulek pomocí společné proměnné Práce s daty v rámci skupin Úprava textových proměnných (knihovna

Zpracování geodat v programovacím jazyce R

Přihlásit na kurz Lektor: Mgr. Ondřej Ledvinka, PhD. Trvání kurzu: 2 dny Naučte se od základu vyhodnocovat geoprostorová data (geodata) v programovacím jazyce R pomocí funkcí, které jejich hromadné zpracování zjednodušují a urychlují. V kurzu pro vědecké pracovníky z oblasti geověd vás naučíme, jak geodata zpracovat a transformovat na tzv. tidy formát i jak je analyzovat a vizualizovat (tvořit mapy). Po absolvování školení tak zvládnete rychle vytvořit analytické skripty pro geodata. 2denním kurzem vás provede Mgr. Ondřej Ledvinka, PhD., specialista Oddělení hydrofondu a bilancí ČHMÚ a odborný asistent Katedry fyzické geografie a geoekologie Univerzity Karlovy, který se zpracování geodat věnuje v oblasti hydrologie a klimatologie (viz profil lektora). Procvičování probíhá v anglické verzi aplikace RStudio. Počítač vám zapůjčíme na místě, není třeba nosit vlastní. Po skončení kurzů navíc získáte přes 40 skriptů, které použijete k analýze vlastních dat. Chci se přihlásit Adresa konání kurzu Délka kurzu Z kurzu budete mít největší užitek, pokud: se chcete naučit ovládat programovací jazyk R pro vyhodnocování dat, jejichž nedílnou součástí je geometrie (vektorová geodata, rastrová geodata), nemáte se zpracováním geodat v jazyce R žádné zkušenosti a potřebujete jejich analýzu využívat ve své práci (výzkumní pracovníci z oblasti geografie, geologie, hydrologie, klimatologie, ochrany životního prostředí, dálkového průzkumu Země a dalších geověd), máte s jazykem R zkušenosti, ale potřebujete své znalosti adaptovat pro zpracování geodat, potřebujete zefektivnit analýzu geodat ve své organizaci. Jaké vstupní znalosti jsou potřeba? Pro účast na kurzu je vhodné mít znalosti v rozsahu kurzu Ovládání programovacího jazyka R. Co se na kurzu naučíte? jak se orientovat v prostředí aplikace RStudio (zejm. pokud jde o specifické vlastnosti geodat v prostředí RStudia), jak importovat geodata různých formátů do R z různých zdrojů (souborů, serverových služeb a prostřednictvím specifických funkcí v R balíčcích), jak naopak efektivně ukládat geodata do souborů, aby nedocházelo ke ztrátě pracně vytvořených výsledků nebo meziproduktů, proč geograficky zatížená data zpracovávat pomocí na sebe navazujících algoritmických sekvencí (tzv. pipelines), jak využívat ekosystém balíčků tidyverse vzhledem ke zpracování vektorových geodat (především funkce balíčku sf), jak tvořit nová vektorová a rastrová geodata se specifikací souřadnicového referenčního systému – jak z existujících souřadnic, tak ze zcela nově definovaných souřadnicových párů (funkce balíčků sf, sfheaders) či rozsahu a horizontálního rozlišení (funkce balíčku terra), jak při zpracování geodat pomáhá funkcionální programování v R s definicemi anonymních funkcí, jak v R tvořit statické (tematické) mapy prostřednictvím funkcí balíčku ggplot2 a jemu podobných (např. tidyterra, ggspatial) nebo tmap. jak si v R zobrazit

Analýza rozptylu v TIBCO Statistica

Přihlásit na kurz Lektor: Mgr. Patrik Galeta, Ph.D. Naučte se v TIBCO Statistica správně používat funkce základní a pokročilé analýzy rozptylu a získané výsledky správně interpretovat. Na reálných příkladech vám ukážeme, jak pracovat s post-hoc testy i s různými ANOVA metodami pro porovnávání dvou a více skupin. 1denním kurzem vás provede Mgr. Patrik Galeta, Ph.D., odborný asistent katedry antropologie Západočeské univerzity v Plzni, který se statistice věnuje v rámci demografických studií (viz profil lektora). Procvičování probíhá v české verzi aplikace TIBCO Statistica. Počítač vám zapůjčíme na místě, není třeba nosit vlastní. Chci se přihlásit Adresa konání kurzu Délka kurzu Z kurzu budete mít největší užitek, pokud: chcete zjistit, jaké faktory (a v jaké míře) ovlivňují chování pozorovaných veličin (výzkumní pracovníci, datoví analytici a vědci), potřebujete svá data kvůli přesnosti vyhodnocovat pokročilejšími metodami analýzy rozptylu. Jaké vstupní znalosti jsou potřeba? pro účast na kurzu je vhodné mít znalosti v rozsahu základního kurzu statistiky I v TIBCO Statistica a základního kurzu statistiky II v TIBCO Statistica Co se na kurzu naučíte? jakým způsobem správně ověřovat předpoklady pro použití analýzy rozptylu, jak v TIBCO Statistica vhodně přeskupit data pro analýzu rozptylu, z kterých principů vycházejí metody ANOVA (pro jednofaktorová, vícefaktorová a opakovaná měření), ANCOVA, MANOVA a neparametrické ANOVA (Kruskal-Wallisova a Friedmannova), pochopit specifika jednotlivých metod, jaký typ analýzy pro daný úkol použít a jak výsledky správně interpretovat, jaké jsou rozdíly mezi jednotlivými post-hoc testy a jak je použít. Chci vidět podrobný sylabus kurzu Úvod Úvod do analýzy rozptylu Zopakování principu testování hypotéz Testy pro dva výběry (nepárové, párové a neparametrické) Metody analýzy rozptylu Ověřování předpokladů ANOVA Jednofaktorová ANOVA ANOVA pro opakovaná měření Analýza kovariance Vícerfaktorová ANOVA Vícerozměrná analýza rozptylu (MANOVA) Neparametrické metody analýzy rozptylu Kruskal-Wallisův test Friedmanova ANOVA Post-hoc testy Fisherův, Scheffého, atd. Názory spokojených účastníků Jaké školící materiály obdržíte? na kurzu obdržíte tištěné prezentace probírané látky, které vám následně zašleme v elektronické verzi Po kurzu Vám zašleme elektronickou verzi prezentace včetně příkladů. Jak dlouho kurz trvá? 1 pracovní den Kdo vás bude školit? Kurzem vás provede Mgr. Patrik Galeta, Ph.D., odborný asistent katedry antropologie Západočeské univerzity v Plzni, který se statistice věnuje v rámci demografických studií. Kolik kurz stojí, kde probíhá a jaké jsou možnosti platby? Kurz proběhne v prostorách Mendelovy univerzity v Brně. Cena kurzu je 7 900 Kč bez DPH. Součástí ceny je kromě zajištění pomůcek a školících materiálů také občerstvení v průběhu kurzu a oběd. Platba probíhá převodem oproti vystavené faktuře. Nezávazná přihláška na

Zvýhodněné balíčky kurzů

Zakupte si balíček 2 nebo více vybraných kurzů a ušetřete

[24. 4. 2024] Webinář ZDARMA: Jak získat 82% příspěvek na školení statistiky přes MPSV

Pod vedením zakladatele Datové akademie Dávida Tkáče mj. zjistíte: