Ovládání programovacího jazyka R
- webinář ZDARMA -

Přesvědčte se, že nemusíte mít IT geny, abyste pracovali s datovými podklady, vytvářeli grafy, efektní reporty…

čtvrtek 23. 04. 2026 od 15:00
Prohlédnout

Nový formát vzdělávání: Letní škola statistiky 2026
Za 5 dní ovládnete statistiku v R, JASP, nebo Jamovi. Napořád.

20. - 24. 7. 2026
Prohlédnout

Objevte nové možnosti využití statistiky pro svou praxi.

Podívejte se na ZÁZNAM WEBINÁŘE Biostatistika v R
Prohlédnout

Obsah

Percentil: definice, využití a výpočet


Percentil je míra polohy, který dělí uspořádaný soubor hodnot na 100 stejně velkých částí. Standardně ukazuje celočíselný podíl (procento) pozorovaní v datové sadě pod určitou hodnotou.

Např. 20. percentil (označovaný jako P20) je hodnota, pod kterou leží 20 % všech pozorování a 80. percentil (P80) je hodnota, pod kterou leží 80 % všech pozorování.

Spolu s dalšími kvantily lze percentil spočítat u ordinálních proměnných a kvantitativních proměnných. U druhé skupiny je výpočet možný za předpokladu rovnoměrného rozložení dat a dostatečného počtu pozorování v každé kategorii (např. u školních známek, kde předpokládáme stejný rozdíl mezi jednotlivými stupni známkování).

Percentil se počítá podle následujícího vzorce (viz příklad níže):

\[ P_k = \frac{(n+1) \cdot k}{100} \]

\(P_k \) označuje pořadí hodnoty k-tého percentilu v souboru vzestupně seřazených dat. \(n \) je počet hodnot v datovém souboru. V praxi se percentily počítáme s pomocí statistických programů.

V případě, že výsledkem není celé číslo, je potřeba výsledek upravit lineární interpolací mezi dvěma sousedními hodnotami v uspořádaném datovém souboru. Její vzorec je následující (viz příklad níže):

\[ y = y_1 + \left( \frac{x – x_1}{x_2 – x_1} \right) \cdot (y_2 – y_1) \]

\( x_1 \) a \( x_2 \) je menší, resp. větší pořadí hodnoty, pro které provádíme interpolaci. \( y_1 \) a \( y_2 \) je pak menší, resp. větší hodnota, které interpolujeme.

Zvýhodněné balíčky kurzů

Zakupte si balíček 2 nebo více vybraných kurzů a ušetřete

Pozor – aplikace pro statistickou analýzu, jako je Excel a jazyk R, nevyužívají pro získání výsledku lineární interpolaci, ale složitější postupy. Výsledky se proto mohou od ručního výpočtu lišit.


Využití percentilů

Percentily jsou dalším z nástrojů pro popis rozložení dat u velkých datových souborů. U normálního rozložení jsou rozestupy mezi percentily od středu podobné (graf výše), zatímco v souborech se zešikmenými daty (viz míry tvaru) se zpravidla výrazně liší – data se koncentrují na jedné straně rozložení:

Spolu s mezikvartilovým rozpětím a dalšími metodami lze percentily použít pro identifikaci odlehlých hodnot. Za extrémní se mohou považovat hodnoty, které leží pod hranicí 5. percentilu (resp. 1. percentilu) a nad hranicí 95. percentilu (resp. 99. percentilu).

Záleží na kontextu – u dat s pravostranným rozložením lze za extrémní brát hodnoty nad 95. percentilem, protože většina dat se nachází napravo od mediánu. Naopak u normálního rozložení je za odlehlé možné považovat hodnoty pod 5. a nad 95. percentilem.

Percentily jsou dobrým ukazatelem pro srovnávání různých datových sad. Předpokladem je:

  • podobné rozdělení (distribuce) datových sad,
  • měření na stejné nebo srovnatelné škále,
  • dostatečná velikost vzorku (za účelem reprezentace dané populace).

Používají se např. pro porovnání znalostí studentů v různých státech nebo míry znečištění v různých regionech. Ve zdravotnictví a dalších oborech slouží percentily pro stanovení norem:

Použití percentilů není vhodné pro:

  • malé datové sady (méně než několik desítek hodnot),
  • výrazně odlišná distribuce srovnávaných datových sad (např. sada hodnot s normálním rozdělením a sada hodnot s výrazně levostrannou distribucí),
  • pro datové sady s vysokým počtem odlehlých hodnot.


Příklad výpočtu percentilů

Vaším úkolem je spočítat 20. a 80. percentil výšky tříletých dívek z následujících dat: 90, 95, 88, 92, 89, 94, 97, 86, 99, 85, 93, 96, 100, 91, 87, 98, 94, 92 a 90 cm. (Jde o ilustrační příklad – pro takto malou datovou sadou není vhodné percentil používat.)

Hodnoty nejprve vzestupně seřadíme:

Pořadí hodnoty 1 2 3 4 5 6 7 8 9 10
Výška (cm) 85 86 87 88 89 90 90 91 92 92
Pořadí hodnoty 11 12 13 14 15 16 17 18 19
Výška (cm) 93 94 94 95 96 97 98 99 100


Pro výpočet 20. percentilu z 19 hodnot dosadíme příslušné hodnoty do výše uvedené rovnice:

\[P_k = \frac{(n+1) \cdot k}{100}\] \[P_{20} = \frac{(19+1) \cdot 20}{100}\] \[P_{20} = 4\]

20. percentil (P20) odpovídá v této sadě 4. hodnotě, tedy výšce 88 cm. V dané datové sadě je tedy 20 % dívek vysokých 88 cm (nebo menších).

Stejným způsobem spočítáme i 80. percentil:

\[P_{80} = \frac{(19+1) \cdot 80}{100}\] \[P_{20} = 16\]

80. percentil (P80) odpovídá 16. hodnotě, výšce 97 cm. V dané sadě dosahuje 80 % dívek výšky maximálně 97 cm.



Příklad výpočtu percentilů s lineární interpolací

Vyjdeme ze stejných dat jako v předchozím příkladu, přidáme pouze navíc jednu hodnotu (106 cm). V datovém souboru bude tedy 20 hodnot:

Pořadí hodnoty 1 2 3 4 5 6 7 8 9 10
Výška (cm) 85 86 87 88 89 90 90 91 92 92
Pořadí hodnoty 11 12 13 14 15 16 17 18 19 20
Výška (cm) 93 94 94 95 96 97 98 99 100 106


Hodnoty dosadíme do vzorce pro výpočet 20. percentilu:

\[P_k = \frac{(n+1) \cdot k}{100}\] \[P_{20} = \frac{(20+1) \cdot 20}{100}\] \[P_{20} = 4.2\]

Pořadí číslo 4,2 (\( x \)) neexistuje. Provedeme proto lineární interpolaci mezi hodnotami na 4. a 5. místě (\( x_1 \) a \( x_2 \)). Tyto hodnoty (88 a 89 cm, tedy \( y_1 \) a \( y_2 \)) dosadíme do příslušného vzorce (viz výše):

\[ y = y_1 + \left( \frac{x – x_1}{x_2 – x_1} \right) \cdot (y_2 – y_1) \] \[ y = 88 + \left( \frac{4.2 – 4}{5 – 4} \right) \cdot (89 – 89) \] \[ y = 88.2 \]

Hodnota 20. percentilu se tedy rovná 88,2 cm. Stejným postupem získáme u 80. percentilu k (neexistujícímu) pořadí 16,8. Po použití lineární interpolace nám vyjde hodnota 80. percentilu 97,8 cm.



Výpočet percentilů v Excelu

# buňky A1 až A100 obsahují naměřené hodnoty

# funkce pro výpočet percentilů
=PERCENTILE.INC(A1:A100, 0.05)  # pro výpočet P5
=PERCENTILE.INC(A1:A100, 0.2)  # pro výpočet P20
=PERCENTILE.INC(A1:A100, 0.8)  # pro výpočet P80
=PERCENTILE.INC(A1:A100, 0.95)  # pro výpočet P95


Výpočet percentilů v jazyce R

# naměřené hodnoty
data <- c(3, 5, 6, 7, 8)

# funkce pro výpočet percentilů P5, P20, P80 a P95
quantile(data, probs = c(0.05, 0.2, 0.8, 0.95))

# funkce pro výpočet percentilů P5, P20, P80 a P95 lineární interpolací
quantile(data, probs = c(0.05, 0.2, 0.8, 0.95), type = 6)


Mohlo by vás zajímat

Naše kurzy

Analýza rozptylu v TIBCO Statistica

Přihlásit na kurz Lektor: Mgr. Patrik Galeta, Ph.D. Naučte se v TIBCO Statistica správně používat funkce základní a pokročilé analýzy rozptylu a získané výsledky správně interpretovat. Na reálných příkladech vám ukážeme, jak pracovat s post-hoc testy i s různými ANOVA metodami pro porovnávání dvou a více skupin. 1denním kurzem vás provede Mgr. Patrik Galeta, Ph.D., odborný asistent katedry antropologie Západočeské univerzity v Plzni, který se statistice věnuje v rámci demografických studií (viz profil lektora). Procvičování probíhá v české verzi aplikace TIBCO Statistica. Počítač vám zapůjčíme na místě, není třeba nosit vlastní. Chci se přihlásit Adresa konání kurzu Délka kurzu Z kurzu budete mít největší užitek, pokud: chcete zjistit, jaké faktory (a v jaké míře) ovlivňují chování pozorovaných veličin (výzkumní pracovníci, datoví analytici a vědci), potřebujete svá data kvůli přesnosti vyhodnocovat pokročilejšími metodami analýzy rozptylu. Jaké vstupní znalosti jsou potřeba? pro účast na kurzu je vhodné mít znalosti v rozsahu základního kurzu statistiky I v TIBCO Statistica a základního kurzu statistiky II v TIBCO Statistica Co se na kurzu naučíte? jakým způsobem správně ověřovat předpoklady pro použití analýzy rozptylu, jak v TIBCO Statistica vhodně přeskupit data pro analýzu rozptylu, z kterých principů vycházejí metody ANOVA (pro jednofaktorová, vícefaktorová a opakovaná měření), ANCOVA, MANOVA a neparametrické ANOVA (Kruskal-Wallisova a Friedmannova), pochopit specifika jednotlivých metod, jaký typ analýzy pro daný úkol použít a jak výsledky správně interpretovat, jaké jsou rozdíly mezi jednotlivými post-hoc testy a jak je použít. Chci vidět podrobný sylabus kurzu Úvod Úvod do analýzy rozptylu Zopakování principu testování hypotéz Testy pro dva výběry (nepárové, párové a neparametrické) Metody analýzy rozptylu Ověřování předpokladů ANOVA Jednofaktorová ANOVA ANOVA pro opakovaná měření Analýza kovariance Vícerfaktorová ANOVA Vícerozměrná analýza rozptylu (MANOVA) Neparametrické metody analýzy rozptylu Kruskal-Wallisův test Friedmanova ANOVA Post-hoc testy Fisherův, Scheffého, atd. Názory spokojených účastníků Jaké školící materiály obdržíte? na kurzu obdržíte tištěné prezentace probírané látky, které vám následně zašleme v elektronické verzi Po kurzu Vám zašleme elektronickou verzi prezentace včetně příkladů. Jak dlouho kurz trvá? 1 pracovní den Kdo vás bude školit? Kurzem vás provede Mgr. Patrik Galeta, Ph.D., odborný asistent katedry antropologie Západočeské univerzity v Plzni, který se statistice věnuje v rámci demografických studií. Kolik kurz stojí, kde probíhá a jaké jsou možnosti platby? Kurz proběhne v prostorách Mendelovy univerzity v Brně. Cena kurzu je 7 900 Kč bez DPH. Součástí ceny je kromě zajištění pomůcek a školících materiálů také občerstvení v průběhu kurzu a oběd. Platba probíhá převodem oproti vystavené faktuře. Nezávazná přihláška na

R programming language control

Learn to evaluate research and development data from scratch using R – with functions that significantly simplify working with this powerful coding language.

Úvod do programování v Pythonu (nejen) pro vědce

Online kurz (12 × 2,5 hod ve 12 týdnech) Přihlásit na kurz Lektor: Vít Kuntoš Trvání kurzu: 12 týdnů Naučte se základy nejoblíbenějšího programovacího jazyku Python, i když nemáte s programováním žádné zkušenosti. Po absolvování kurzu porozumíte syntaxu kódu v Pythonu a naučíte se využívat datové typy, řídící struktury, funkce a základní datové struktury. Na získané znalosti navážete např. kurzem statistického vyhodnocování dat v Pythonu. Kurzem s nejvýše 10 účastníky vás provede Vít Kuntoš, programátor s praxí v Pythonu a frameworku Django (viz profil lektora). Všechny prezentované postupy si vyzkoušíte na praktických příkladech v online aplikaci pro psaní kódu v Pythonu. Chci se přihlásit Adresa konání kurzu Délka kurzu Každý čtvrtek 18:00 – 20:30 Výukový čas Z kurzu budete mít největší užitek, pokud: nejste programátor a nikdy jste neprogramovali, ale chcete se naučit úplné základy programovacího jazyku Python, chcete získat základní znalosti pro další rozvoj a využití Pythonu všemi směry – pro vyhodnocování a vizualizaci dat (nejen) z výzkumu nebo tvorbu webových aplikací a automatizací. Jaké vstupní znalosti jsou potřeba? pro absolvování kurzu nejsou potřeba žádné specifické znalosti. Co se na kurzu naučíte? jak se orientovat v prostředí aplikace RStudio, jaké typy proměnných existují a jaké jsou mezi nimi rozdíly, co je průměr, medián, směrodatná odchylka a další popisné statistiky a kdy a jak je použít, jak v programovacím jazyce R vyhodnocovat data a testovat hypotézy pomocí základních statistických metod, jakým způsobem vhodně vizualizovat data, jak mezi sebou porovnávat dva a více datových souborů, jak vyhodnocovat data pomocí kontingenčních tabulek, jak sestavit regresní model a vytvářet modely typu „co se stane, když…“. Chci vidět podrobný sylabus kurzu Program kurzu podle lekcí Součástí každé lekce jsou příklady a úkoly, na kterých si přednášenou látku vyzkoušíte. V závěru kurzu vytvoříte vlastní projekt, na kterém v praxi ukážete, jak Pythonu rozumíte. Úvod do programování – k čemu jej využijete, historie a vlastnosti Pythonu, odkud získávat informace Psaní kódu – jak počítač kód zpracovává, psaní komentářů, typy proměnných, funkce print a input Číselné datové typy a operace – integer, float, complex, aritmetické operace, porovnávání, převody Řetězce – metody pro práci s textem, formátování, indexování, slicing, striding Boolean a podmínky – funkce if, else, elif, true a false, logické operátory, rozhodování v programu Cykly – funkce for a while, opakování bloku kódu, iterace přes sekvence dat Listy a práce s nimi – ukládání více hodnot, přístup k prvkům, metody pro manipulaci Slovníky a práce s

Zvýhodněné balíčky kurzů

Zakupte si balíček 2 nebo více vybraných kurzů a ušetřete

[24. 4. 2024] Webinář ZDARMA: Jak získat 82% příspěvek na školení statistiky přes MPSV

Pod vedením zakladatele Datové akademie Dávida Tkáče mj. zjistíte: