Hazardní hryStatistika › Charakteristiky polohy a variability

Charakteristiky polohy a variability

Každý statistický soubor může být charakterizován dvěma údaji: (1) polohou a (2) variabilitou. Jaké jsou charakteristiky polohy a variability a proč je používáme?

Charakteristiky polohy a variability používáme při tzv. statistické indukci, to znamená v případě, kdy z části usuzujeme na celek. Proč? Ne vždy máme k dispozici všechna data, s kterými potřebujeme pracovat nebo ne vždy je časově a finančně únosné všechna data získat. Například pokud bychom chtěli zjistit, jaká je skutečná spotřeba paliva nějakého automobilu určitého konkrétního typu a motoru – například s cílem porovnat tyto údaje se spotřebou uváděnou výrobcem – asi bychom neměli čas a peníze se ptát každého majitele tohoto typu auta.

Při některých statistických měřeních dochází dokonce ke zničení předmětu a dovolit si zničit všechny předměty je taky nemyslitelné. Například se testuje, kolik otevření dveří vydrží nějaká skříňka. Není nutné kontaktovat všechny majitele uvedených aut a testovat dveře všech skříněk, proto se provede tzv. (náhodný) výběr. Snahou je provést výběr tak, aby co nejlépe vystihoval vlastnosti celého statistického souboru.

Informace plynoucí ze statistických dat

Zůstaňme třeba u příkladu s automobily. Provedeme šetření u jistého počtu majitelů (náhodný výběr o rozsahu n) s cílem zjistit, jakou mají dlouhodobou spotřebu paliva. Jak se získanými daty pracovat? První významnou informací je výběrové rozdělení četností neboli zjistíme, kolikrát je která hodnota (spotřeba) zastoupena. Pokud by bylo moc unikátních hodnot, můžeme je zatřídit do intervalů.

Z četností pak můžeme sestavit histogram nebo polygon četností jako vizuální pomůcky pro odhad tzv. rozdělení pravděpodobností. Četnosti mají charakter pravděpodobností. Nejběžnější v životě je tzv. normální rozdělení pravděpodobností, které má tvar hory Říp, kopce či Napoleonovy čepice.

Hora Říp připomínající tvarem normální rozdělení pravděpodobností
Obrázek 1 – Hora Říp připomínající svým tvarem normální rozdělení pravděpodobností

Hora Říp je pěknou ilustrací normálního (Gaussova) rozdělení pravděpodobností – ta jsou však na samostatnou kapitolu, tak jen stručně, abychom si ukázali některé souvislosti. Říp není úplně dokonale symetrický, ale pro představu nám postačí. Pokud si představíme vodorovnou osu, tak na ní by byly naneseny jednotlivé spotřeby paliva, zatímco na svislé ose by byly četnosti, tj. kolikrát je která spotřeba ve výběru zastoupena.

Uprostřed na vodorovné ose x je střední hodnota (poloha, odhadnutá třeba průměrem) a ostatní hodnoty jsou rozptýleny okolo střední hodnoty (variabilita). Více než dvě třetiny všech hodnot (přesně 68,27 %) se nachází ve vzdálenosti +/− jedna směrodatná odchylka od střední hodnoty – více viz níže uvedené pravidlo 3 SIGMA.

Poloha a variabilita jsou dvě hlavní vlastnosti statistického souboru. Aby se zdůraznilo, že případně pracujeme s výběrem, doplňuje se před ně často přívlastek „výběrové“ charakteristiky polohy a „výběrové“ charakteristiky variability.

Charakteristiky polohy

Výběrovou charakteristikou polohy je určitá střední hodnota, nejčastěji aritmetický průměr z těchto hodnot, případě (výběrový) modus či (výběrový) medián – to je na zvážení statistika, který ukazatel vybere, přičemž jde samozřejmě o tom, aby tento ukazatel co nejvýstižněji charakterizoval polohu daného výběry. U normálního rozdělení pravděpodobností má střední hodnota největší četnost (pravděpodobnost) a četnosti (pravděpodobnosti) menších a větších hodnot postupně klesají, jak ukazuje výše uvedený obrázek hory Říp.

Poznámka: pod odkazy naleznete vysvětlení, význam, vzorce a řešené příklady. Například průměrů je hned několik, kromě aritmetického a jeho jiné formy váženého, existují ještě průměry geometrické a harmonické. Dozvíte se také, co jsou a kdy je lépe namísto průměru použít modus či medián.

Charakteristiky variability

Výběrové charakteristiky variability ukazují, jak jsou všechny hodnoty rozptýleny okolo střední hodnoty – typickou charakteristikou variability je právě výběrový rozptyl, jenž se někdy nazývá také výběrová disperze. Všechny naměřené hodnoty si můžeme představit na vodorovné ose. Poloha ukazuje, kde se nachází průměr (modus či medián) a variabilita jak blízko, nebo daleko se jednotlivé hodnoty nachází v okolí průměru (modu, mediánu).

Platí, že čím blíže jsou všechny hodnoty okolo charakteristiky polohy semknuty = čím menší je rozptyl či směrodatná odchylka (jako druhá odmocnina z rozptylu), tím lepší má daný ukazatel polohy (průměr, modus, medián) vypovídací schopnost.

Zmatky v názvosloví

Ve statistice se často hovoří o tom, že statistický znak má (nějaké) rozdělení pravděpodobností s určitou střední hodnotou a směrodatnou odchylkou. Tyto hodnoty se nazývají parametry. Střední hodnota se označuje řeckým písmenem mí (μ) a směrodatná odchylka řeckým písmenem sigma (σ); rozptyl se označuje σ2 (směrodatná odchylka je druhou odmocninou z rozptylu). Tato označení se používají pro charakteristiku celého základního souboru, tj. když máme k dispozici všechna data. Zůstaneme-li u našeho příkladu s automobily, znamenalo by to, že jsme změřili spotřebu paliva u všech automobilů daného typu.

Již jsme si řekli, že v praxi k tomu vždy nemáme možnost nebo je to nereálné. V tomto případě provedeme náhodný výběr a skutečnou střední hodnotu a směrodatnou odchylku se snažíme odhadnout. Protože vycházejí z (náhodného) výběru, označujeme jako výběrové charakteristiky polohy a výběrové charakteristiky variability. Střední hodnotu nejčastěji odhadujeme pomocí aritmetického průměru (Průměr (symbol)), případně modu (Modus (symbol)) či mediánu (Medián (symbol)) a směrodatnou odchylku pomocí výběrové směrodatné odchylky, kterou označujeme písmenem s; výběrový rozptyl se označuje s2.

Pravidlo 3 SIGMA

Sigma (σ), jak jsme si uvedli výše, je řecké písmeno, kterým se označuje směrodatná odchylka. Je ale možné níže uvedeným způsobem pracovat i s výběrovou směrodatnou odchylkou (s), logika je naprosto stejná. A teď, co toto pravidlo znamená. Pravidlo 3 SIGMA nám říká, že:

  • asi 68 % hodnot (přesně 68,27 %), tedy zhruba dvě třetiny všech hodnot, se nachází ve vzdálenosti menší než jedna směrodatná odchylka od střední hodnoty, tzn., že asi 68 % hodnot leží v intervalu (μ − σ; μ + σ),
  • asi 95 % hodnot (přesně 95,45 %) leží v intervalu (μ − 2σ; μ + 2σ),
  • asi 99 % hodnot (přesně 99,73 %) leží v intervalu (μ − 3σ; μ + 3σ).

Máme podrobně komentované příklady, jak využít pravidla 3 SIGMA v praxi. Například jsme hodnotili dvě jednoduché hry s mincí – obě hry mají stejný očekávaný výdělek, ale různý rozptyl (směrodatnou odchylku) – uvidíte, jak se to podepíše na hodnocení her. Podívat se na příklad s mincemi doporučujeme i hráčům pokeru. Pak mohou následovat i využití směrodatné odchylky přímo u miniturnaje pro 9 hráčů. Poznámka: u pokeru se často používá počeštěný název Variance (VAR), což je anglický překlad slova rozptyl a Standard Deviation (SD), což je směrodatná odchylka.

Podobně zaměřený příklad se týká podnikání, kde máme dva výrobky, které mají naprosto stejný průměrný očekávaný výnos, ale jednotlivé výnosy při různě úspěšných scénářích vývoje se značně liší. Jinými slovy, výrobky mají stejný očekávaný výnos, ale různý rozptyl výnosů. Opět se přesvědčíte o praktickém dopadu rozptylu. Obdobný příklad jsme sestavili i pro investování do akcií (→ akcie). Rozptyl (směrodatná odchylka) je v obou případech riziko odchylky od očekávaného stavu.

Statistika – úvod a základy, angličtina
Aritmetický, vážený a geometrický průměr
Modus, medián (alternativy k průměru)
Rozptyl (disperze)

 
Copyright © 2007–2017 Jindřich Pavelka, Hazardní-Hry.eu – O webu | Reklama | Přístupnost | Podmínky používání | Mapa stránek | EN | FB |