Polygon četností
Polygon četností je spojnicový graf, jehož souřadnice tvoří hodnota statistického znaku a její četnost. Polygon četností je užitečný grafický nástroj, který nám podává rychlou vizuální informaci o rozdělení četností nějakých dat. Hodí se nám zejména v případě, kdy pracujeme s náhodným výběrem dat, pak hovoříme o výběrovém rozdělení (četností).
Co je polygon četností
Řečeno slovy matematiky či statistiky, polygon četností je spojnicový graf, který spojuje body o souřadnicích [xi, mi]
, případně [xi, ti]
, kde xi
je hodnota statistického znaku a mi
je jeho absolutní četnost (kolikrát je která hodnota zastoupena), případně ti
je jeho relativní četnost (podíl na celkovém počtu hodnot); i = 1, 2, …, k, kde k je počet tříd. Podoba polygonu je stejná, ať už použijeme absolutní, nebo relativní četnosti. Ještě trochu nezbytné teorie a vše bude jasné z uvedeného příkladu.
Do polygonu se podle obecně přijaté úmluvy doplňují ještě dva body, a to počáteční bod, který má souřadnice [x0, 0]
, a konečný bod, který má souřadnice [xk+1, 0]
, kde x0 = x1 - h
a xk+1 = xk + h
a h = x2 - x1
. Tyto počáteční a konečné hodnoty jsou přidány uměle, aby graf nevisel „ve vzduchu“. To bude opět patrné z příkladu a obrázků.
Pokud bychom měli spoustu hodnot zatříděným do intervalů, používáme místo hodnot xi zástupce intervalu neboli třídní znak zi
, který se obvykle určí jako prostý aritmetický průměr dolní a horní hranice intervalu.
Příklad
Řekněme, že hrajeme nějakou kostkovou hru se dvěma kostkami, jako třeba Craps. Provedeme 100 hodů a budeme zapisovat četnosti jednotlivých součtů dvou kostek. Úkolem je sestrojit histogram četností součtů dvou kostek.
Se dvěma kostkami můžeme dosáhnout součtů 2 až 12. Četnosti, tj. kolikrát se který součet při házení dvěma kostkami vyskytl, jsou uvedeny v následující tabulce četností. Například nejčastějším součtem (i podle pravděpodobnosti) je součet 7, který se objevil 20krát (absolutní četnost). Součet všech četností dává 100 hodů. Odtud můžeme určit i relativní četnosti, tj. podíly na celkovém počtu hodů. U součtu 7 je to 20/100 = 0,2
. A součet podílů musí dát dohromady 1 (či 100 %).
Součet | xi | x0 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | xk+1 | Součet |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Absolutní četnost | mi | 0 | 2 | 4 | 9 | 12 | 13 | 20 | 12 | 11 | 9 | 7 | 1 | 0 | 100 |
Relativní četnost | ti | 0 | 0,02 | 0,04 | 0,09 | 0,12 | 0,13 | 0,2 | 0,12 | 0,11 | 0,09 | 0,07 | 0,01 | 0 | 1 |
Známe počet tříd, tj. unikátních součtů dvou kostek: 2 až 12 znamená celkem 11 různých součtů (k = 11). x1 je součet 2, x2 = součet 3, …, x11 = součet 12. Chvíli jsme uvažovali, jestli je takový příklad, kde jsou hodnoty „o jedno posunuté“, vhodný, či zdali není spíše matoucí. Domníváme se, že právě naopak. Ne vždy se totiž podaří, aby x1 = 1 atd. Například, pokud byste sledovali, kolik projede aut určitým úsekem v době od 06:00 hod. do 20:00 hod. (spíše by šlo asi o průjezdy v hodinových intervalech), nebo kolik zákazníků k vám zavítá v průběhu otvírací doby 09:00 hod. až 18:00 hod. apod.
Graf: polygon absolutních četností
Vraťme se zpět k našemu příkladu. Počet různých součtů 2 kostek je 11 (k = 11). Doplníme dvě umělé hodnoty: počáteční x0
a konečnou xk+1
. Délka intervalu h = x2 − x1 = 3 − 2 = 1
. Pak x0 = x1 − h = 2 − 1 = 1
a x12 = x11 + h = 12 + 1 = 13
. x0 je tedy jakoby součet 1 a x12 jakoby součet 13, neboť při hodu dvěma kostkami nemohou nastat, mají četnost nula (souřadnice y je nula). Doplňují se proto, aby graf – polygon četností – nevisel ve vzduchu. Vše bude zřejmé z pohledu na následující polygon četností při simulování 100 hodů dvěma kostkami. Graf zachycuje četnosti absolutní – opět například součet 7 padl 20krát.
Graf: polygon relativních četností, srovnání s pravděpodobností
Následující polygon zachycuje četnosti relativní, tj. podíly absolutních četností z celkového počtu 100 hodů. Opět například součet 7 má relativní četnost 20/100 = 0,2. Relativní četnosti mohou sloužit jako odhady pravděpodobnosti, v jazyce statistiky se mluví o výběrovém rozdělení pravděpodobností.
V našem případě by to nebylo třeba, neboť jsme schopni pravděpodobnosti padnutí součtů 2 až 12 spočítat naprosto přesně pomocí klasické definice pravděpodobnosti. Celkový počet možností, který může nastat při hodu dvěma kostkami, je 6 × 6 = 36. Součet 2 může padnout jen jedním způsobem, má tedy pravděpodobnost 1/36 = asi 0,0278. Součet 3 může padnout dvěma způsoby (1+2 nebo 2+1), jeho pravděpodobnost je pak 2/36 = asi 0,0556 atd. Do grafu jsme proto doplnili i druhou (tenkou) řadu, která ukazuje teoretické rozdělení četností přesně podle pravděpodobnosti.
V mnoha případech v životě ale nejsme schopni takto přesně určit pravděpodobnost pomocí klasické definice (počet příznivých případů vydělený celkovým počtem případů). Například, jak bychom určili, po kolika km se nám porouchá určité auto (nebo, zdali přežijeme leteckou nehodu – viz příklad na stránce o četnostech). To můžeme určit jedině na základě zkušenosti/statistik, například po prvních 10 tis. km se porouchá 1000 aut z 100 000 atd.
Proč jsme tedy do grafu polygonu četností přidali druhou řadu? Jednak můžeme srovnat, jestli výběrové rozdělení četností našeho testu na 100 hodů dvěma kostkami odpovídá teoretickému rozdělení četností podle pravděpodobnosti. S dokonale symetrickými a vyváženými kostkami, a se zvětšujícím se počtem pokusů, by se výběrové rozdělení četností mělo přibližovat teoretickému.
Další způsob, jak můžeme využít polygon četností, je k určení rozdělení pravděpodobností celého základního souboru (na to usuzujeme právě z náhodného výběru – výběrového rozdělení četností). Rozdělení pravděpodobností existuje několik, ale většina věcí v životě má tzv. normální rozdělení pravděpodobností (přitom některé jiná rozdělení pravděpodobností se se zvyšujícím se počtem pokusů blíží k normálnímu rozdělení pravděpodobností). Normální rozdělení má tvar zvonu nebo i hory Říp – viz obrázek na stránce charakteristiky polohy a variability.
Dalším grafickým vyjádřením rozdělení četností je histogram (sloupcový graf), který používáme především, pokud pracujeme s daty zatříděnými do intervalů.