Percentil: definice, využití a výpočet

Percentil je míra polohy, který dělí uspořádaný soubor hodnot na 100 stejně velkých částí. Standardně ukazuje celočíselný podíl (procento) pozorovaní v datové sadě pod určitou hodnotou.

Např. 20. percentil (označovaný jako P20) je hodnota, pod kterou leží 20 % všech pozorování a 80. percentil (P80) je hodnota, pod kterou leží 80 % všech pozorování.

Spolu s dalšími kvantily lze percentil spočítat u ordinálních proměnných a kvantitativních proměnných. U druhé skupiny je výpočet možný za předpokladu rovnoměrného rozložení dat a dostatečného počtu pozorování v každé kategorii (např. u školních známek, kde předpokládáme stejný rozdíl mezi jednotlivými stupni známkování).

Percentil se počítá podle následujícího vzorce (viz příklad níže):

\[ P_k = \frac{(n+1) \cdot k}{100} \]

\(P_k \) označuje pořadí hodnoty k-tého percentilu v souboru vzestupně seřazených dat. \(n \) je počet hodnot v datovém souboru. V praxi se percentily počítáme s pomocí statistických programů.

V případě, že výsledkem není celé číslo, je potřeba výsledek upravit lineární interpolací mezi dvěma sousedními hodnotami v uspořádaném datovém souboru. Její vzorec je následující (viz příklad níže):

\[ y = y_1 + \left( \frac{x – x_1}{x_2 – x_1} \right) \cdot (y_2 – y_1) \]

\( x_1 \) a \( x_2 \) je menší, resp. větší pořadí hodnoty, pro které provádíme interpolaci. \( y_1 \) a \( y_2 \) je pak menší, resp. větší hodnota, které interpolujeme.

Zvýhodněné balíčky kurzů

Zakupte si balíček 2 nebo více vybraných kurzů a ušetřete

Pozor – aplikace pro statistickou analýzu, jako je Excel a jazyk R, nevyužívají pro získání výsledku lineární interpolaci, ale složitější postupy. Výsledky se proto mohou od ručního výpočtu lišit.

Využití percentilů

Percentily jsou dalším z nástrojů pro popis rozložení dat u velkých datových souborů. U normálního rozložení jsou rozestupy mezi percentily od středu podobné (graf výše), zatímco v souborech se zešikmenými daty (viz míry tvaru) se zpravidla výrazně liší – data se koncentrují na jedné straně rozložení:

Spolu s mezikvartilovým rozpětím a dalšími metodami lze percentily použít pro identifikaci odlehlých hodnot. Za extrémní se mohou považovat hodnoty, které leží pod hranicí 5. percentilu (resp. 1. percentilu) a nad hranicí 95. percentilu (resp. 99. percentilu).

Záleží na kontextu – u dat s pravostranným rozložením lze za extrémní brát hodnoty nad 95. percentilem, protože většina dat se nachází napravo od mediánu. Naopak u normálního rozložení je za odlehlé možné považovat hodnoty pod 5. a nad 95. percentilem.

Percentily jsou dobrým ukazatelem pro srovnávání různých datových sad. Předpokladem je:

podobné rozdělení (distribuce) datových sad,
měření na stejné nebo srovnatelné škále,
dostatečná velikost vzorku (za účelem reprezentace dané populace).

Používají se např. pro porovnání znalostí studentů v různých státech nebo míry znečištění v různých regionech. Ve zdravotnictví a dalších oborech slouží percentily pro stanovení norem:

Použití percentilů není vhodné pro:

malé datové sady (méně než několik desítek hodnot),
výrazně odlišná distribuce srovnávaných datových sad (např. sada hodnot s normálním rozdělením a sada hodnot s výrazně levostrannou distribucí),
pro datové sady s vysokým počtem odlehlých hodnot.

Příklad výpočtu percentilů

Vaším úkolem je spočítat 20. a 80. percentil výšky tříletých dívek z následujících dat: 90, 95, 88, 92, 89, 94, 97, 86, 99, 85, 93, 96, 100, 91, 87, 98, 94, 92 a 90 cm. (Jde o ilustrační příklad – pro takto malou datovou sadou není vhodné percentil používat.)

Hodnoty nejprve vzestupně seřadíme:

Pořadí hodnoty	1	2	3	4	5	6	7	8	9	10
Výška (cm)	85	86	87	88	89	90	90	91	92	92
Pořadí hodnoty	11	12	13	14	15	16	17	18	19
Výška (cm)	93	94	94	95	96	97	98	99	100

Pro výpočet 20. percentilu z 19 hodnot dosadíme příslušné hodnoty do výše uvedené rovnice:

\[P_k = \frac{(n+1) \cdot k}{100}\] \[P_{20} = \frac{(19+1) \cdot 20}{100}\] \[P_{20} = 4\]

20. percentil (P20) odpovídá v této sadě 4. hodnotě, tedy výšce 88 cm. V dané datové sadě je tedy 20 % dívek vysokých 88 cm (nebo menších).

Stejným způsobem spočítáme i 80. percentil:

\[P_{80} = \frac{(19+1) \cdot 80}{100}\] \[P_{20} = 16\]

80. percentil (P80) odpovídá 16. hodnotě, výšce 97 cm. V dané sadě dosahuje 80 % dívek výšky maximálně 97 cm.

Příklad výpočtu percentilů s lineární interpolací

Vyjdeme ze stejných dat jako v předchozím příkladu, přidáme pouze navíc jednu hodnotu (106 cm). V datovém souboru bude tedy 20 hodnot:

Pořadí hodnoty	1	2	3	4	5	6	7	8	9	10
Výška (cm)	85	86	87	88	89	90	90	91	92	92
Pořadí hodnoty	11	12	13	14	15	16	17	18	19	20
Výška (cm)	93	94	94	95	96	97	98	99	100	106

Hodnoty dosadíme do vzorce pro výpočet 20. percentilu:

\[P_k = \frac{(n+1) \cdot k}{100}\] \[P_{20} = \frac{(20+1) \cdot 20}{100}\] \[P_{20} = 4.2\]

Pořadí číslo 4,2 (\( x \)) neexistuje. Provedeme proto lineární interpolaci mezi hodnotami na 4. a 5. místě (\( x_1 \) a \( x_2 \)). Tyto hodnoty (88 a 89 cm, tedy \( y_1 \) a \( y_2 \)) dosadíme do příslušného vzorce (viz výše):

\[ y = y_1 + \left( \frac{x – x_1}{x_2 – x_1} \right) \cdot (y_2 – y_1) \] \[ y = 88 + \left( \frac{4.2 – 4}{5 – 4} \right) \cdot (89 – 89) \] \[ y = 88.2 \]

Hodnota 20. percentilu se tedy rovná 88,2 cm. Stejným postupem získáme u 80. percentilu k (neexistujícímu) pořadí 16,8. Po použití lineární interpolace nám vyjde hodnota 80. percentilu 97,8 cm.

Výpočet percentilů v Excelu

# buňky A1 až A100 obsahují naměřené hodnoty

# funkce pro výpočet percentilů
=PERCENTILE.INC(A1:A100, 0.05)  # pro výpočet P5
=PERCENTILE.INC(A1:A100, 0.2)  # pro výpočet P20
=PERCENTILE.INC(A1:A100, 0.8)  # pro výpočet P80
=PERCENTILE.INC(A1:A100, 0.95)  # pro výpočet P95

Výpočet percentilů v jazyce R

# naměřené hodnoty
data <- c(3, 5, 6, 7, 8)

# funkce pro výpočet percentilů P5, P20, P80 a P95
quantile(data, probs = c(0.05, 0.2, 0.8, 0.95))

# funkce pro výpočet percentilů P5, P20, P80 a P95 lineární interpolací
quantile(data, probs = c(0.05, 0.2, 0.8, 0.95), type = 6)

Ovládání programovacího jazyka R
- webinář ZDARMA -

Obsah

Percentil: definice, využití a výpočet

Využití percentilů

Příklad výpočtu percentilů

Příklad výpočtu percentilů s lineární interpolací

Výpočet percentilů v Excelu

Výpočet percentilů v jazyce R

Mohlo by vás zajímat

Popisná statistika: míry tvaru (s příkazy pro Excel, R)

Popisná statistika: míry variability (s příkazy pro Excel, R)

Typy proměnných (a jak je určit)

Záznam webináře – ZPRACOVÁNÍ GEODAT V PROGRAMOVACÍM JAZYCE R

Naše kurzy

Pokročilé modely v biostatistice v TIBCO Statistica

Master of Excel

Ovládání programu TIBCO Statistica

Kurz biostatistiky II v TIBCO Statistica

Základní statistická analýza v SW Statistica

Kurz statistiky I v programovacím jazyce R

Obsah

Percentil: definice, využití a výpočet

Využití percentilů

Příklad výpočtu percentilů

Příklad výpočtu percentilů s lineární interpolací

Výpočet percentilů v Excelu

Výpočet percentilů v jazyce R

Mohlo by vás zajímat

Naše kurzy

Zvýhodněné balíčky kurzů

[24. 4. 2024] Webinář ZDARMA: Jak získat 82% příspěvek na školení statistiky přes MPSV