Hazardní hryStatistika › Histogram

Histogram

Histogram je sloupcový graf, který na vodorovné ose zachycuje intervaly, do kterých jsou nějaká data rozčleněna, a na svislé ose počet výskytů těchto dat v daném intervatu (slovy statistiky: odpovídající absolutní nebo relativní četnosti). Histogram je užitečnou vizuální pomůckou, která přehledně zachycuje rozdělení četností statistických dat. Není třeba se obávat statistických termínů, vše bude jasné z příkladu, obrázku histogramu a vysvětlujících komentářů.

Co je histogram

Histogram je sloupcový graf, který na ose x zachycuje intervaly jako třídy, do kterých jsou data zatříděna, a na ose y jsou zachyceny odpovídající absolutní (mi) nebo relativní (ti) četnosti. Nad každou třídou či intervalem je sestrojen obdélník („sloupec“), jehož výška odpovídá absolutní nebo relativní četnosti třídy.

Histogram používáme především v případě, kdy máme data zatříděna do intervalů (například proto, že jednotlivých hodnot je příliš mnoho). Mohli bychom jej ale uměle vytvořit i pomocí tzv. zástupců intervalů, jinak též označovaných jako třídní znaky zi. Většinou jde o aritmetický průměr dolní a horní hranice intervalu, i když v tomto případě používáme spíše jiný grafický výrazový prostředek – polygon četností.

Vše bude nejlépe patrné z příkladu a obrázku histogramu.

Příklad

Provedeme šetření s cílem zjistit průměrnou spotřebu pohonných hmot (PHM) určitého automobilu (stejný typ, motor, ročník výroby a další konfigurace). Oslovíme 100 náhodně vybraných majitelů těchto automobilů. Spotřeby PHM v litrech na 100 km jsou uvedeny v tabulce níže. Úkol zní: zpracujte data a sestrojte histogram četností.

Data12345678910
18,06,76,57,78,96,86,97,17,19,5
25,56,05,87,26,09,26,89,98,37,2
37,09,58,57,48,96,99,26,25,16,1
47,95,95,57,55,45,05,98,08,09,8
56,15,65,17,27,75,27,26,27,07,6
66,06,66,98,87,46,96,78,57,37,0
77,95,67,06,96,55,27,09,47,28,4
87,57,25,27,65,65,65,05,86,47,3
97,07,07,88,97,88,17,67,86,39,1
108,05,66,87,49,35,57,78,16,65,7

Zatřídění dat

Máme tedy celkem 100 naměřených hodnot spotřeby PHM, z toho je 42 hodnot unikátních. Sestrojit histogram, který by měl 42 sloupců, není kvůli přehlednosti příliš dobrý nápad. Proto data roztřídíme či seskupíme do intervalů (tříd).

Nejnižší hodnota spotřeby je 5 litrů/100 km, nejvyšší 9,9 litrů/100 km. V tomto příkladu se jeví jako účelné a smysluplné data rozdělit do 10 intervalů (tříd) po 0,5 litrech.

Máme-li velmi mnoho dat, existují různá pravidla či doporučení pro stanovení rozumného počtu tříd (intervalů). Jedním z nich je třeba Sturgesovo pravidlo, kde počet tříd k = 1 + 3,32 × log(n) a n je celkový počet hodnot. Podle tohoto pravidla bychom 100 hodnot mohli zatřídit do asi 8 intervalů. Nicméně, jak jsme si řekli, dává smysl spotřeby zatřídit do 10 intervalů s délkou intervalu půl litru – jak ukazuje následující tabulka.

Interval<xi–xi+1)<5–5,5)<5,5–6)<6–6,5)<6,5–7)<7–7,5)<7,5–8)<8–8,5)<8,5–9)<9–9,5)<9,5–10)
Třídní znakzi5,255,756,256,757,257,758,258,759,259,75
Četnostmi81391420138654
Pravděp.pi0,080,130,090,140,20,130,080,060,050,04

Třídní znak. Máme-li interval (třídu) charakterizovat pouze jednou hodnotou (jedním zástupcem), použijeme k tomu třídní znak zi. Třídní znak se obvykle určí jako aritmetický průměr dolní a horní hranice intervalu.

Četnost. Absolutní četnosti mi uvádějí, kolikrát se která spotřeba vyskytla. Nejčastější spotřeba daného automobilu je 7–7,5 litru/100 km, která je zastoupena celkem 20krát. Pravděpodobnost pi v tabulce je synonymem pro relativní četnost (též ti), tj. podíl absolutní četnosti na celkovém počtu hodnot. Vezmeme-li znova nejčastější spotřebu 7–7,5 litru/100 km, tak její podíl (relativní četnost) je 20/100 = 0,2 (neboli 20 %, chcete-li údaj v procentech).

Relativní četnosti totiž můžeme považovat za odhady pravděpodobnosti. Pokud bychom změřili spotřebu u dostatečně velkého počtu aut a získali například relativní četnosti uvedené v tabulce, mohli bychom říci, že koupíme-li si dané auto, tak s největší pravděpodobností (0,2 či 20 %), budeme mít spotřebu mezi 7 a 7,5 litry na 100 km.

Jak vypadá histogram

Četnosti jednotlivých spotřeb, zatříděných do intervalů, přehledně zachycuje právě histogram četností. Jelikož pracujeme s náhodným výběrem (100 automobilů), mluvíme o tom, že histogram zachycuje výběrové rozdělení četností (či pravděpodobností).

Histogram četností (příklad – spotřeba PHM)

V histogramu jsou na svislé ose y zachyceny absolutní četnosti, graf by ale vypadal naprosto stejně, kdyby na ní byly relativní četnosti (odhady pravděpodobnosti).

Využití histogramu

Histogram nám podává rychlou vizuální informaci o výběrovém rozdělení četností. Je jasně zřetelné, že nejčastější (= mající největší četnost) spotřeba se pohybuje v intervalu 7–7,5 litru/100 km. Průměrná spotřeba (střední hodnota) ze všech 100 hodnot – 7,1 litru/100 km – také spadá do tohoto intervalu.

Četnosti nižších a vyšších spotřeb klesají. Histogram tímto velmi připomíná tzv. normální rozdělení pravděpodobností, které má tvar zvonu, Napoleonovy čepice či hory Říp (viz obrázek na stránce charakteristiky polohy a variability). Tvar histogramu proto může velmi dobře posloužit jako první vizuální informace pro odhad rozdělení pravděpodobností. Existují statistické testy, které potom otestují hypotézu o určitém rozdělení pravděpodobností.

Jiným grafickým vyjádřením rozdělení četností, především pokud pracujeme s třídními znaky, je polygon četností (spojnicový diagram).

Statistika – úvod, základy
Absolutní a relativní četnost
Charakteristiky variability a polohy: aritmetický průměr, modus a medián, rozptyl

 
Copyright © 2007–2017 Jindřich Pavelka, Hazardní-Hry.eu – O webu | Reklama | Přístupnost | Podmínky používání | Mapa stránek | EN | FB |