Informační webinář: Úvod do programování v Pythonu (pro úplné začátečníky)

18. 9. 2024 od 14:00


⚠️ Poslední místa – Regresní analýza v TIBCO Statistica

Brno (Mendelova univerzita) – 6. 6. 2024


⚠️ Poslední místa – Analýza rozptylu v TIBCO Statistica

Brno (Mendelova univerzita) – 7. 6. 2024

Obsah

Kvintily: definice, využití a výpočet


Kvintil je statistická míra polohy (typ kvantilu), jež rozděluje uspořádaný soubor hodnot do pěti stejně velkých částí. Každá část tedy obsahuje 20 % ze všech pozorování. Existují 4 kvintily, označované jako Q1/Q0,2, Q2/Q0,4, Q3/0,6 a Q4/0,8.

Spolu s dalšími kvantily jej můžete spočítat u kvantitativních proměnných a ordinálních proměnných. U druhé skupiny je výpočet možný za předpokladu rovnoměrného rozložení dat a dostatečného počtu pozorování v každé kategorii (např. u školních známek, kde předpokládáme stejný rozdíl mezi jednotlivými stupni známkování).

Kvintily se počítají podle tohoto vzorce (viz příklad níže):

\[ Q_k = \frac{(n+1) \cdot k}{5} \]

\(Q_k \) označuje pořadí hodnoty k-tého kvintilu v souboru vzestupně seřazených dat (k = 1 pro první kvintil, k = 2 pro druhý kvintil, k = 3 pro třetí kvintil a k = 4 pro čtvrtý kvintil).

\(n \) je počet hodnot v datovém souboru. V praxi kvintily počítáme s pomocí statistických programů.

V případě, že výsledkem není celé číslo, upravte výsledek lineární interpolací mezi dvěma sousedními hodnotami v uspořádaném datovém souboru. Její vzorec je následující (viz příklad níže):

Zvýhodněné balíčky kurzů

Zakupte si balíček 2 nebo více vybraných kurzů a ušetřete

\[ y = y_1 + \left( \frac{x – x_1}{x_2 – x_1} \right) \cdot (y_2 – y_1) \]

\( x_1 \) a \( x_2 \) je menší, resp. větší pořadí hodnoty, pro které provádíme interpolaci. \( y_1 \) a \( y_2 \) je pak menší, resp. větší hodnota, které interpolujeme.

Pozor – aplikace pro statistickou analýzu, jako je Excel a jazyk R, nevyužívají pro získání výsledku lineární interpolaci, ale složitější postupy. Výsledky se proto mohou od ručního výpočtu lišit.


Využití kvintilů

Kvintil nachází široké využití v sociálních vědách, zejména v analýze socioekonomických dat. Jeho aplikace je cenná např. pro určení rozdělení příjmové nerovnosti, kde pomáhá identifikovat rozsah příjmů v různých částech populace.

V marketingu a obchodní sféře mohou kvintily pomoci segmentovat trh podle výše příjmů, spotřebitelského chování nebo jiných metrik. V oblasti vzdělání můžeme díky kvintilům porovnávat skupiny studentů podle výsledků zkoušek a odhalovat potenciální nerovnosti.

V přítomnosti odlehlých hodnot je vhodnější využít jiné typy kvantilů – decily nebo percentily, které poskytují ještě detailnější pohled na data.

Kvintily také nejsou nejvhodnější volbou při analýze dat s velmi malým vzorkem (do 10 hodnot), kde by segmentace do pěti částí mohla vést k přílišnému zjednodušení a zkresleným výsledkům – v takovém případě zvolte pro interpretaci dat průměr, medián a rozptyl.



Příklad výpočtu kvintilů

Vaším úkolem je spočítat hodnoty kvintilů pro měsíční příjem domácností. K dispozici máte tato data (v tisících Kč/měsíc): 28, 34, 22, 50, 46, 31, 38, 27, 25, 33, 35, 37, 45, 32, 47, 44, 12, 165, 15.

Prvním krokem je vzestupné seřazení hodnot:

Pořadí hodnoty 1 2 3 4 5 6 7 8 9 10
Měsíční příjem (tis. Kč) 12 15 22 25 27 28 31 32 33 34
Pořadí hodnoty 11 12 13 14 15 16 17 18 19
Měsíční příjem (tis. Kč) 35 37 38 44 45 46 47 50 165

Pro výpočet 1. kvintilu dosadíme tyto hodnoty do výše uvedené rovnice:

\[ Q_k = \frac{(n+1) \cdot k}{5} \] \[ Q_1 = \frac{(19+1) \cdot 1}{5} \] \[ Q_1 = 4 \]

Q1 odpovídá 4. hodnotě, tedy měsíčnímu příjmu 25 000 Kč u domácností ve vzorku.

Stejným způsobem spočítáme i 2., 3. a 4. kvintil:

\[ Q_k = \frac{(n+1) \cdot k}{5} \] \[ Q_2 = \frac{(19+1) \cdot 2}{5} \] \[ Q_2 = 8 \] \[ Q_3 = \frac{(19+1) \cdot 3}{5} \] \[ Q_3 = 12 \] \[ Q_3 = \frac{(19+1) \cdot 4}{5} \] \[ Q_4 = 16 \]

Q2 odpovídá 8. hodnotě (32 000 Kč/měsíc), Q3 odpovídá 12. hodnotě (37 000 Kč/měsíc) a Q4 odpovídá 16. hodnotě (46 000 Kč/měsíc).



Příklad výpočtu kvintilů s lineární interpolací

Vyjdeme ze stejných dat jako v předchozím příkladu, pouze přidáme navíc jednu hodnotu (měsíční příjem domácnosti 78 000 Kč):

Pořadí hodnoty 1 2 3 4 5 6 7 8 9 10
Měsíční příjem (tis. Kč) 12 15 22 25 27 28 31 32 33 34
Pořadí hodnoty 11 12 13 14 15 16 17 18 19 20
Měsíční příjem (tis. Kč) 35 37 38 44 45 46 47 50 78 165

Opět dosadíme hodnoty do vzorce pro výpočet prvního kvintilu:

\[ Q_k = \frac{(n+1) \cdot k}{5} \] \[ Q_1 = \frac{(20+1) \cdot 1}{5} \] \[ Q_1 = 4.2 \]

Pořadí číslo 4,2 (\( x \)) samozřejmě neexistuje. Proto musíme provést lineární interpolaci mezi hodnotami na 4. a 5. místě (\( x_1 \) a \( x_2 \)). Tyto hodnoty (25 000 a 27 000 Kč měsíčně, tedy \( y_1 \) a \( y_2 \)) dosadíme do příslušného vzorce (viz výše):

\[ y = y_1 + \left( \frac{x – x_1}{x_2 – x_1} \right) \cdot (y_2 – y_1) \] \[ y = 25000 + \left( \frac{4.2 – 4}{5 – 4} \right) \cdot (27000 – 25000) \] \[ y = 25400 \]

Hodnota 1. kvintilu se tedy rovná 26 600 Kč/měsíc. Stejným postupem se u 2., 3. a 4. kvintilu dostaneme k následujícímu pořadí hodnot:

\[ Q_2 = 8.4 \] \[ Q_3 = 12.6 \] \[ Q_4 = 16.8 \]

Po použití lineární interpolace pak vychází tyto hodnoty:

  • 2. kvintil = 32 400 Kč/měsíc,
  • 3. kvintil = 37 600 Kč/měsíc,
  • 4. kvintil = 46 800 Kč/měsíc.


Výpočet kvintilů v Excelu

# buňky A1 až A100 obsahují naměřené hodnoty

# funkce pro výpočet kvintilů
=PERCENTILE.INC(A1:A100, 0.2)  # pro výpočet Q0,2/Q1
=PERCENTILE.INC(A1:A100, 0.4)  # pro výpočet Q0,4/Q2
=PERCENTILE.INC(A1:A100, 0.6)  # pro výpočet Q0,6/Q3
=PERCENTILE.INC(A1:A100, 0.8)  # pro výpočet Q0,8/Q4


Výpočet kvintilů v jazyce R

# naměřené hodnoty
data <- c(3, 5, 6, 7, 8)

# funkce pro výpočet kvintilů
quantile(data, probs = c(0.2, 0.4, 0.6, 0.8))

# funkce pro výpočet kvintilů lineární interpolací
quantile(data, probs = c(0.2, 0.4, 0.6, 0.8), type = 6)


Mohlo by vás zajímat

Naše kurzy

Zvýhodněné balíčky kurzů

Zakupte si balíček 2 nebo více vybraných kurzů a ušetřete

[24. 4. 2024] Webinář ZDARMA: Jak získat 82% příspěvek na školení statistiky přes MPSV

Pod vedením zakladatele Datové akademie Dávida Tkáče mj. zjistíte: