Kvartily: definice, využití a výpočet

Kvartil je statistická míra polohy, která rozděluje uspořádaný datový soubor do čtyř stejně velkých částí. Existují tři kvartily:

první kvartil (Q1, také Q0,25) odděluje první čtvrtinu dat od zbytku souboru,
druhý kvartil (Q2 / Q0,5) rozděluje data na dvě poloviny (v zásadě jde tedy o medián),
třetí kvartil (Q3 / Q0,75) odčleňuje poslední čtvrtinu dat.

Spolu s dalšími kvantily jej můžete spočítat u kvantitativních proměnných a ordinálních proměnných. U druhé skupiny je výpočet možný za předpokladu rovnoměrného rozložení dat a dostatečného počtu pozorování v každé kategorii (např. u školních známek, kde předpokládáme stejný rozdíl mezi jednotlivými stupni známkování).

Kvartily se počítají podle následujícího vzorce (viz příklad níže):

\[ Q_k = \frac{(n+1) \cdot k}{4} \]

\( Q_k \) označuje pořadí hodnoty k-tého kvartilu v souboru vzestupně seřazených dat (k = 1 pro první kvartil, k = 2 pro medián a k = 3 pro třetí kvartil).

\( n \) je počet hodnot v datovém souboru. V praxi se kvartily nepočítají ručně, ale s pomocí statistických programů.

V případě, že výsledkem není celé číslo, je potřeba výsledek upravit lineární interpolací mezi dvěma sousedními hodnotami v uspořádaném datovém souboru. Její vzorec je následující (viz příklad níže):

\[ y = y_1 + \left( \frac{x – x_1}{x_2 – x_1} \right) \cdot (y_2 – y_1) \]

\( x_1 \) a \( x_2 \) je menší, resp. větší pořadí hodnoty, pro které provádíme interpolaci. \( y_1 \) a \( y_2 \) je pak menší, resp. větší hodnota, které interpolujeme.

Zvýhodněné balíčky kurzů

Zakupte si balíček 2 nebo více vybraných kurzů a ušetřete

Pozor – aplikace pro statistickou analýzu, jako je Excel a jazyk R, nevyužívají pro získání výsledku lineární interpolaci, ale složitější postupy. Výsledky se proto mohou od ručního výpočtu lišit.

Využití kvartilů

Kvartily se využívají zejména při vizualizaci dat pomocí boxplotu (krabicového grafu), který poskytuje přehled o rozložení hodnot s ohledem na jejich variabilitu. U datové sady vám pomohou určit střed (medián).

První a třetí kvartil zároveň definuje tzv. mezikvartilové rozpětí (IQR), které udává rozsah prostředních 50 % dat a používá se k detekci odlehlých hodnot.

Existují však situace, kdy kvartily nejsou vhodným nástrojem pro analýzu dat. Zvažte jejich použití, zejména pokud:

jsou data extrémně variabilní, resp. obsahují mnoho odlehlých hodnot (přestože se právě kvartily používají k jejich identifikaci; příliš mnoho extrémních hodnot výrazně zkresluje i rozložení kvartilů) – potom je třeba zvážit odstranění určitého procenta nejnižších a nejvyšších hodnot,
pracujete s malým datovým souborem (10 a méně hodnot) – v takovém případě zvolte pro interpretaci dat průměr, medián a rozptyl,
potřebujete podrobnější informace o rozložení hodnot v datově sadě – zvolte decily či percentily.

Příklad výpočtu kvartilů

Mějme data o dojezdovém čase 19 zaměstnanců do práce (v minutách): 2, 11, 18, 21, 22, 30, 33, 38, 39, 40, 42, 45, 48, 49, 61, 67, 88, 100, 111.

Pro nalezení kvartilů hodnoty nejprve vzestupně seřadíme:

Pořadí hodnoty	1	2	3	4	5	6	7	8	9	10
Dojezdová doba (min)	2	11	18	21	22	30	33	38	39	40
Pořadí hodnoty	11	12	13	14	15	16	17	18	19
Dojezdová doba (min)	42	45	48	49	61	67	88	100	111

Pro výpočet 1. kvartilu dosadíme tyto hodnoty do výše uvedené rovnice:

\[ Q_k = \frac{(n+1) \cdot k}{4} \] \[ Q_1 = \frac{(19+1) \cdot 1}{4} \] \[ Q_1 = 5 \]

Q1 odpovídá 5. hodnotě, tedy 22 minutám.

Stejným způsobem spočítáme i 2., resp. 3. kvartil:

\[ Q_k = \frac{(n+1) \cdot k}{4} \] \[ Q_2 = \frac{(19+1) \cdot 2}{4} \] \[ Q_2 = 10 \] \[ Q_3 = \frac{(19+1) \cdot 3}{4} \] \[ Q_3 = 15 \]

Q2 odpovídá 10. hodnotě (40 min), Q3 odpovídá 15. hodnotě (61 min).

Příklad výpočtu kvartilů s lineární interpolací

Vyjdeme ze stejných dat jako v předchozím příkladu, pouze přidáme navíc jednu hodnotu:

Pořadí hodnoty	1	2	3	4	5	6	7	8	9	10
Dojezdová doba (min)	2	11	18	21	22	30	31	33	38	39
Pořadí hodnoty	11	12	13	14	15	16	17	18	19	20
Dojezdová doba (min)	40	42	45	48	49	61	67	88	100	111

Opět dosadíme hodnoty do vzorce pro výpočet prvního kvartilu:

\[ Q_k = \frac{(n+1) \cdot k}{4} \] \[ Q_1 = \frac{(20+1) \cdot 1}{4} \] \[ Q_1 = 5.25 \]

Pořadí číslo 5,25 (\( x \)) samozřejmě neexistuje. Proto musíme provést lineární interpolaci mezi hodnotami na 5. a 6. místě (\( x_1 \) a \( x_2 \)). Tyto hodnoty (22 a 30 minut, tedy \( y_1 \) a \( y_2 \)) dosadíme do příslušného vzorce (viz výše):

\[ y = y_1 + \left( \frac{x – x_1}{x_2 – x_1} \right) \cdot (y_2 – y_1) \] \[ y = 22 + \left( \frac{5.25 – 5}{6 – 5} \right) \cdot (30 – 22) \] \[ y = 24 \]

Hodnota 1. kvartilu se tedy rovná 24 minutám. Stejným postupem se u 2. a 3. kvartilu dostaneme k následujícímu pořadí hodnot:

\[ Q_2 = 10.5 \] \[ Q_3 = 15.75 \]

Po použití lineární interpolace pak vychází hodnota 2. kvartilu 40 minut a 3. kvartilu 58 minut.

Výpočet kvartilů v Excelu

# buňky A1 až A100 obsahují naměřené hodnoty

# funkce pro výpočet kvartilů
=QUARTILE(A1:A100, 1)  # pro výpočet Q0,25
=QUARTILE(A1:A100, 2)  # pro výpočet Q0,5 (medián)
=QUARTILE(A1:A100, 3)  # pro výpočet Q0,75

Výpočet kvartilů v jazyce R

# naměřené hodnoty
data <- c(3, 5, 6, 7, 8)

# funkce pro výpočet kvartilů
quantile(data, probs = c(0.25, 0.50, 0.75))

# funkce pro výpočet kvartilů lineární interpolací
quantile(data, probs = c(0.25, 0.50, 0.75), type = 6)

Data mining v programu Statistica: vytěžte velká data bez kódu

Přihlásit na kurz Lektor: doc. RNDr. Ing. Marcel Jiřina, Ph.D. Trvání kurzu: 2 dny Naučte se pomocí aplikace Statistica odhalit důležité informace ve svých datech data miningovými metodami. Na kurzu pro vědce, statistiky a datové analytiky vám na praktických příkladech ukážeme, jak data vytěžovat s pomocí pokročilých lineárních (regresních) i nelineárních modelů, neuronových sítí, klasifikačních stromů, metod strojového učení a dalších metod. Probereme také způsoby prezentace získaných výsledků (viz názory spokojených účastníků). 2denním kurzem vás provede vás provede doc. RNDr. Ing. Marcel Jiřina, Ph.D., děkan Fakulty informačních technologií Českého vysokého učení technického, který se věnuje výzkumu data-miningových metod, zejména zpracování textu a obrazu (viz profil lektora). Procvičování probíhá v české verzi aplikace TIBCO Statistica v modulu Data Miner. Počítač vám zapůjčíme na místě, není třeba nosit vlastní. Chci se přihlásit Adresa konání kurzu Délka kurzu Z kurzu budete mít největší užitek, pokud: potřebujete rychle a efektivně zpracovávat velké objemy dat (analytici z oblasti bankovnictví, pojišťovnictví a průmyslu, vědci), se chcete seznámit s modulem Data Miner a prohloubit své znalosti aplikace TIBCO Statistica. Jaké vstupní znalosti jsou potřeba? pro účast na kurzu je vhodné mít znalosti v rozsahu Základního kurzu statistiky I v TIBCO Statistica. Co se v kurzu naučíte? z jakých principů data miningu vychází a jak k němu přistupovat, připravit a zpracovat velké datové balíky pomocí klasifikačních a regresních stromů, lineárních modelů, metody shlukování či strojového učení, využívat techniky vytěžování textu a analýzy nezávislých komponent (ICA), sestavit predikční modely, vyhodnotit jejich kvalitu a získané výsledky správně interpretovat, nasadit modely na reálná data z praxe, automatizovat celý analytický proces, na co si dat při tvorbě modelů pozor a čemu se vyhnout. Chci vidět podrobný sylabus kurzu Úvod Základní informace o softwaru Statistica Výukové zdroje pro software a možnosti nápovědy Úvod do vytěžování dat, produkt Princip, možnosti, využití Práce s Recepty (wizardem) Příprava dat (načtení, výběr proměnných, transformace, vzorkování dat, odstranění duplicitních vzorů, filtrace odlehlých hodnot, oprava chybějících údajů) Detekce a případné odstranění podobných vstupních příznaků (prediktorů) Výběr důležitých prediktorů pro požadovanou úlohu Vytváření klasifikačních a regresních modelů Vyhodnocení kvality vytvořeného modelů Nasazení modelu v praxi Klasifikační a regresní stromy Princip, možnosti, využití CART stromy CHAID stromy Vytváření klasifikačních a regresních stromů v interaktivním režimu (generování stromu, prořezávání stromu, výběr rozhodovacích proměnných, výběr mezí) Generované stromy (Boosted Trees) Náhodné lesy (Random Forests) Lineární modely Princip regrese (Obecné) lineární modely Zobecněné lineární modely Zobecněné aditivní modely MARSplines Metody shlukování K-průměrů (k-means) Hierarchické a EM

Ředitel Datové akademie představí Letní školu statistiky.

Obsah

Kvartily: definice, využití a výpočet

Využití kvartilů

Příklad výpočtu kvartilů

Příklad výpočtu kvartilů s lineární interpolací

Výpočet kvartilů v Excelu

Výpočet kvartilů v jazyce R

Mohlo by vás zajímat

Typy proměnných (a jak je určit)

Záznam webináře – Master of Excel

Popisná statistika: míry polohy (s příkazy pro Excel a jazyk R)

Výzkumné otázky: jak je správně formulovat a jakým chybám se vyhnout

Naše kurzy

Data mining v programu Statistica: vytěžte velká data bez kódu

Vícerozměrné statistické metody v programovacím jazyce R

Statistika I v R: správný test a výsledky, které obhájíte

Časové řady v R: predikce, kterým můžete věřit

Strojové učení v Pythonu: první modely nad vlastními daty

ANOVA v programu Statistica: vliv faktorů na vaše výsledky

Obsah

Kvartily: definice, využití a výpočet

Využití kvartilů

Příklad výpočtu kvartilů

Příklad výpočtu kvartilů s lineární interpolací

Výpočet kvartilů v Excelu

Výpočet kvartilů v jazyce R

Mohlo by vás zajímat

Naše kurzy

Zvýhodněné balíčky kurzů

[24. 4. 2024] Webinář ZDARMA: Jak získat 82% příspěvek na školení statistiky přes MPSV