Kvintily: definice, využití a výpočet

Kvintil je statistická míra polohy (typ kvantilu), jež rozděluje uspořádaný soubor hodnot do pěti stejně velkých částí. Každá část tedy obsahuje 20 % ze všech pozorování. Existují 4 kvintily, označované jako Q1/Q0,2, Q2/Q0,4, Q3/0,6 a Q4/0,8.

Spolu s dalšími kvantily jej můžete spočítat u kvantitativních proměnných a ordinálních proměnných. U druhé skupiny je výpočet možný za předpokladu rovnoměrného rozložení dat a dostatečného počtu pozorování v každé kategorii (např. u školních známek, kde předpokládáme stejný rozdíl mezi jednotlivými stupni známkování).

Kvintily se počítají podle tohoto vzorce (viz příklad níže):

\[ Q_k = \frac{(n+1) \cdot k}{5} \]

\(Q_k \) označuje pořadí hodnoty k-tého kvintilu v souboru vzestupně seřazených dat (k = 1 pro první kvintil, k = 2 pro druhý kvintil, k = 3 pro třetí kvintil a k = 4 pro čtvrtý kvintil).

\(n \) je počet hodnot v datovém souboru. V praxi kvintily počítáme s pomocí statistických programů.

V případě, že výsledkem není celé číslo, upravte výsledek lineární interpolací mezi dvěma sousedními hodnotami v uspořádaném datovém souboru. Její vzorec je následující (viz příklad níže):

\[ y = y_1 + \left( \frac{x – x_1}{x_2 – x_1} \right) \cdot (y_2 – y_1) \]

\( x_1 \) a \( x_2 \) je menší, resp. větší pořadí hodnoty, pro které provádíme interpolaci. \( y_1 \) a \( y_2 \) je pak menší, resp. větší hodnota, které interpolujeme.

Zvýhodněné balíčky kurzů

Zakupte si balíček 2 nebo více vybraných kurzů a ušetřete

Pozor – aplikace pro statistickou analýzu, jako je Excel a jazyk R, nevyužívají pro získání výsledku lineární interpolaci, ale složitější postupy. Výsledky se proto mohou od ručního výpočtu lišit.

Využití kvintilů

Kvintil nachází široké využití v sociálních vědách, zejména v analýze socioekonomických dat. Jeho aplikace je cenná např. pro určení rozdělení příjmové nerovnosti, kde pomáhá identifikovat rozsah příjmů v různých částech populace.

V marketingu a obchodní sféře mohou kvintily pomoci segmentovat trh podle výše příjmů, spotřebitelského chování nebo jiných metrik. V oblasti vzdělání můžeme díky kvintilům porovnávat skupiny studentů podle výsledků zkoušek a odhalovat potenciální nerovnosti.

V přítomnosti odlehlých hodnot je vhodnější využít jiné typy kvantilů – decily nebo percentily, které poskytují ještě detailnější pohled na data.

Kvintily také nejsou nejvhodnější volbou při analýze dat s velmi malým vzorkem (do 10 hodnot), kde by segmentace do pěti částí mohla vést k přílišnému zjednodušení a zkresleným výsledkům – v takovém případě zvolte pro interpretaci dat průměr, medián a rozptyl.

Příklad výpočtu kvintilů

Vaším úkolem je spočítat hodnoty kvintilů pro měsíční příjem domácností. K dispozici máte tato data (v tisících Kč/měsíc): 28, 34, 22, 50, 46, 31, 38, 27, 25, 33, 35, 37, 45, 32, 47, 44, 12, 165, 15.

Prvním krokem je vzestupné seřazení hodnot:

Pořadí hodnoty	1	2	3	4	5	6	7	8	9	10
Měsíční příjem (tis. Kč)	12	15	22	25	27	28	31	32	33	34
Pořadí hodnoty	11	12	13	14	15	16	17	18	19
Měsíční příjem (tis. Kč)	35	37	38	44	45	46	47	50	165

Pro výpočet 1. kvintilu dosadíme tyto hodnoty do výše uvedené rovnice:

\[ Q_k = \frac{(n+1) \cdot k}{5} \] \[ Q_1 = \frac{(19+1) \cdot 1}{5} \] \[ Q_1 = 4 \]

Q1 odpovídá 4. hodnotě, tedy měsíčnímu příjmu 25 000 Kč u domácností ve vzorku.

Stejným způsobem spočítáme i 2., 3. a 4. kvintil:

\[ Q_k = \frac{(n+1) \cdot k}{5} \] \[ Q_2 = \frac{(19+1) \cdot 2}{5} \] \[ Q_2 = 8 \] \[ Q_3 = \frac{(19+1) \cdot 3}{5} \] \[ Q_3 = 12 \] \[ Q_3 = \frac{(19+1) \cdot 4}{5} \] \[ Q_4 = 16 \]

Q2 odpovídá 8. hodnotě (32 000 Kč/měsíc), Q3 odpovídá 12. hodnotě (37 000 Kč/měsíc) a Q4 odpovídá 16. hodnotě (46 000 Kč/měsíc).

Příklad výpočtu kvintilů s lineární interpolací

Vyjdeme ze stejných dat jako v předchozím příkladu, pouze přidáme navíc jednu hodnotu (měsíční příjem domácnosti 78 000 Kč):

Pořadí hodnoty	1	2	3	4	5	6	7	8	9	10
Měsíční příjem (tis. Kč)	12	15	22	25	27	28	31	32	33	34
Pořadí hodnoty	11	12	13	14	15	16	17	18	19	20
Měsíční příjem (tis. Kč)	35	37	38	44	45	46	47	50	78	165

Opět dosadíme hodnoty do vzorce pro výpočet prvního kvintilu:

\[ Q_k = \frac{(n+1) \cdot k}{5} \] \[ Q_1 = \frac{(20+1) \cdot 1}{5} \] \[ Q_1 = 4.2 \]

Pořadí číslo 4,2 (\( x \)) samozřejmě neexistuje. Proto musíme provést lineární interpolaci mezi hodnotami na 4. a 5. místě (\( x_1 \) a \( x_2 \)). Tyto hodnoty (25 000 a 27 000 Kč měsíčně, tedy \( y_1 \) a \( y_2 \)) dosadíme do příslušného vzorce (viz výše):

\[ y = y_1 + \left( \frac{x – x_1}{x_2 – x_1} \right) \cdot (y_2 – y_1) \] \[ y = 25000 + \left( \frac{4.2 – 4}{5 – 4} \right) \cdot (27000 – 25000) \] \[ y = 25400 \]

Hodnota 1. kvintilu se tedy rovná 26 600 Kč/měsíc. Stejným postupem se u 2., 3. a 4. kvintilu dostaneme k následujícímu pořadí hodnot:

\[ Q_2 = 8.4 \] \[ Q_3 = 12.6 \] \[ Q_4 = 16.8 \]

Po použití lineární interpolace pak vychází tyto hodnoty:

2. kvintil = 32 400 Kč/měsíc,
3. kvintil = 37 600 Kč/měsíc,
4. kvintil = 46 800 Kč/měsíc.

Výpočet kvintilů v Excelu

# buňky A1 až A100 obsahují naměřené hodnoty

# funkce pro výpočet kvintilů
=PERCENTILE.INC(A1:A100, 0.2)  # pro výpočet Q0,2/Q1
=PERCENTILE.INC(A1:A100, 0.4)  # pro výpočet Q0,4/Q2
=PERCENTILE.INC(A1:A100, 0.6)  # pro výpočet Q0,6/Q3
=PERCENTILE.INC(A1:A100, 0.8)  # pro výpočet Q0,8/Q4

Výpočet kvintilů v jazyce R

# naměřené hodnoty
data <- c(3, 5, 6, 7, 8)

# funkce pro výpočet kvintilů
quantile(data, probs = c(0.2, 0.4, 0.6, 0.8))

# funkce pro výpočet kvintilů lineární interpolací
quantile(data, probs = c(0.2, 0.4, 0.6, 0.8), type = 6)

Kompletní biostatistická analýza v jazyce R

Ovládání jazyka R + Kurz biostatistiky I v jazyce R + Kurz biostatistiky II v jazyce R Přihlásit na kurz Lektoři: Mgr. Patrik Galeta, PhD. a Mgr. Bc. Silvie Bělašková, PhD. Trvání kurzu: 5 dnů Naučte se od úplné nuly vyhodnocovat klinická a biologická data základními a pokročilými metodami v jazyce R – a výrazně zvyšte kvalitu svých výzkumných publikací. Balíček za zvýhodněnou cenu kombinuje: A/ Ovládání programovacího jazyka R (1 den) – orientace v prostředí R a aplikace RStudio, importování dat z Excelu a dalších aplikací, transformace a zpracování proměnných a vytváření grafů. B/ Kurz biostatistiky I v jazyce R (2 dny) – design vědeckého experimentu, testování medicínských a biologických hypotéz pomocí parametrických (t-test, ANOVA, lineární regrese ad.) a neparametrických metod (Wilcoxnovy testy, Kruskal-Wallisova ANOVA), využívání kontingenčních tabulek. C/ Kurz biostatistiky II v jazyce R (2 dny) – vyhodnocení dat pomocí korelační analýzy, logistické regrese a dalších metod, základy vícerozměrných statistických metod a časových řad, metodiky servival a risk analysis. Procvičování příkladů probíhá v anglické verzi aplikace RStudio. Počítač vám zapůjčíme na místě, není třeba nosit vlastní. Chci se přihlásit Spokojených absolventů Adresa konání kurzu Délka kurzu Z kurzů budete mít největší užitek, pokud: nemáte se zpracováním dat v jazyce R žádné zkušenosti a potřebujete datovou analýzu využívat ve své práci (výzkumní a technologičtí pracovníci, ad.). se chcete naučit vyhodnocovat klinická a biologická data základními a pokročilými metodami v programovacím jazyce R, chcete výrazně zvýšit svou šanci na publikování v prestižním periodiku. Jaké vstupní znalosti jsou potřeba? Pro absolvování balíčků kurzů nejsou potřeba žádné specifické znalosti – začneme od základů. Co vše se naučíte? A/ Ovládání programovacího jazyka R jak se orientovat v prostředí aplikace RStudio a balíčku tidyverse , jak lehce importovat data různých formátů do R, proč data zpracovávat pomocí na sebe navazujících algoritmických sekvencí (tzv. pipelines), jak použít knihovnu dplyr pro snadnou úpravu proměnných a práci s nimi, možnosti úprav textových proměnných a faktorů pomocí knihoven stringr a forcats, jak hromadně upravit proměnné, jak vytvořit krásné a přehledné grafy v knihovně ggplot2. Ovládání programovacího jazyka R – podrobný sylabus Prostředí RStudia Jednotná syntax funkcí skupiny knihoven tidyverse Úsporné psaní kódu pomocí „pipeline“ Načtení dat do R z formátu MS Excel (knihovna readxl) a SAS, SPSS, Stata (knihovna haven) Práce s daty (knihovna dplyr) Výběr proměnných a případů Přejmenování proměnných Úprava proměnných (jednotlivě i hromadně) Spojení více tabulek pomocí společné proměnné Práce s daty v rámci skupin Úprava textových proměnných (knihovna

Ředitel Datové akademie představí Letní školu statistiky.

Obsah

Kvintily: definice, využití a výpočet

Využití kvintilů

Příklad výpočtu kvintilů

Příklad výpočtu kvintilů s lineární interpolací

Výpočet kvintilů v Excelu

Výpočet kvintilů v jazyce R

Mohlo by vás zajímat

Popisná statistika: míry tvaru (s příkazy pro Excel, R)

Zpracování dat v R tidyverse – 3. díl: import dat z aplikací SAS, MATLAB a Stata

Zpracování dat v R tidyverse – 4. díl: základní úpravy struktury dat (v tidyr)

Záznam webináře – Master of Excel

Naše kurzy

Kompletní biostatistická analýza v jazyce R

Vícerozměrné statistické metody v programovacím jazyce R

Pokročilá statistická analýza v programu Statistica

Basic statistical analysis in R programming language

ANOVA v R: co skutečně ovlivňuje vaše výsledky

Statistika v Excelu pro vědce: analýza bez programování

Obsah

Kvintily: definice, využití a výpočet

Využití kvintilů

Příklad výpočtu kvintilů

Příklad výpočtu kvintilů s lineární interpolací

Výpočet kvintilů v Excelu

Výpočet kvintilů v jazyce R

Mohlo by vás zajímat

Naše kurzy

Zvýhodněné balíčky kurzů

[24. 4. 2024] Webinář ZDARMA: Jak získat 82% příspěvek na školení statistiky přes MPSV