Rozptyl
Rozptyl patří mezi tzv. charakteristiky nebo ukazatele variability. O co jde? Běžně jsme zvyklí si spočítat například aritmetický průměr (to je tzv. ukazatel polohy) z nějakých dat jako určitou střední hodnotu, která daný soubor dat charakterizuje. Vedle toho by nás ale mělo také zajímat, jak jsou tato data rozptýlena okolo střední hodnoty. To právě řeší statistika zvaná rozptyl (disperze), která má praktické využití nejen při hraní (například pokeru), ale i v běžném životě.
Rozptyl ukazuje, jak jsou jednotlivé hodnoty „rozptýleny“ okolo střední hodnoty, například průměru. Rozptyl se často používá pro srovnání dvou nebo více souborů dat, resp. statistických znaků. Statistické soubory mohou mít třeba stejné střední hodnoty (průměr), ale data mohou být různě variabilní, proměnlivá, rozptýlená okolo střední hodnoty.
Podívejme se nejprve na následující dva obecné příklady, které ukazují hned na dvojí využití rozptylu. Poté si uvedeme matematickou podstatu rozptylu, vzorce a provedeme konkrétní výpočty. Není se čeho obávat, z příkladu/výpočtů bude vše jasné.
Příklad 1
V následující tabulce jsou uvedeny dva soubory dat A a B, resp. 10 konkrétních hodnot souboru A a B. Úkol je jednoduchý: porovnejte je.
Soubor / p. č. hodnoty | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | průměr | modus | medián |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
A (hodnoty) | 97 | 98 | 98 | 99 | 100 | 100 | 100 | 102 | 103 | 103 | 100 | 100 | 100 |
B (hodnoty) | 10 | 20 | 30 | 50 | 100 | 100 | 100 | 150 | 190 | 250 | 100 | 100 | 100 |
Na první pohled je zřejmé, že se oba soubory dat značně různí, přestože mají stejné střední hodnoty, tj. aritmetický průměr, modus i medián. Takto je příklad záměrně nastaven, ne vždy by nastala taková vzácná shoda. Avšak hodnoty souboru A se od sebe příliš neliší, jsou konzistentní, mají velmi nízkou variabilitu. Všechna data (čísla) se jen málo liší od stovky. Naproti tomu hodnoty souboru B jsou velmi odlišné, proměnlivé, mají vysokou variabilitu.
Ve statistice se často pracuje s náhodnými výběry. Například proto, že nemůžeme změřit spotřebu u všech vyrobených aut (naprosto stejné značky, typu, paliva a objemu motoru atd.), tak provedeme náhodný výběr a z něj se pokusíme usuzovat na celek.
Soubory A a B v tomto příkladu můžeme také považovat za dva náhodné výběry, resp. vzorky nějakých dat. U souboru A, kde je nízká variabilita hodnot (malý rozptyl), můžeme tvrdit, že střední hodnota (třeba průměr) jakožto pouhé jedno číslo velmi dobře charakterizuje celý soubor. Dodejme ještě, že pokud pracujeme s výběrem dat, nikoliv s celým základním souborem, hovoříme o výběrovém rozptylu (podstata výpočtu je ale naprosto stejná).
Představíme-li si všechny hodnoty souboru A na ose, pohybují se v těsné blízkosti průměrné hodnoty. Naproti tomu u souboru B, s velkým rozptylem, bychom nevěděli, co si o takto naměřených hodnotách myslet. To je první význam či využití rozptylu – ukazuje, jak vypovídající je střední hodnota. Rozptyl můžeme využít také jako ukazatel rizika (druhý význam), přičemž platí, že nízká variabilita (rozptyl) = nízké riziko, vysoká variabilita (rozptyl) = vysoké riziko.
Příklad 2
Nyní si náš příklad trochu konkretizujme. Použijeme naprosto stejná data, ale abychom se drželi tématu hraní, řekněme, že jsme byli vylosováni a postoupili do finále nějaké soutěžní hry. V tabulce jsou uvedeny výhry v tis. Kč pro soutěžní hru A a soutěžní hru B. Kdybyste si mohli vybrat, do které hry byste raději byli zařazeni?
Soutěžní hra / p. č. výhry | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | průměr | modus | medián |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
A (výhry v tis. Kč) | 97 | 98 | 98 | 99 | 100 | 100 | 100 | 102 | 103 | 103 | 100 | 100 | 100 |
B (výhry v tis. Kč) | 10 | 20 | 30 | 50 | 100 | 100 | 100 | 150 | 190 | 250 | 100 | 100 | 100 |
Přesná odpověď v tomto případě zní, že záleží na vašem vztahu k riziku. Jste-li konzervativní, tudíž nemáte-li rádi riziko, půjdete zřejmě na jistotu a zvolíte si soutěžní hru A, kde se vaše výhra bude pohybovat v úzkém rozpětí (= malý rozptyl) 97 až 103 tisíc Kč. S jistotou tedy shrábnete zhruba 100 tisíc Kč.
Jste-li ochotni riskovat, možná raději vstoupíte do soutěžní hry B, kde můžete vyhrát až 250 tisíc Kč. Na druhou stranu ale můžete skončit i s pouhými 10 tisíci Kč. To je riziko podnikání. Zde se dokonce uplatňuje pravidlo ze světa financí a investic: vyšší potenciální výnos obvykle znamená nutnost podstoupit vyšší riziko. A naopak: požaduji-li nižší riziko, musím se spokojit s nižším výnosem.
Obecné doporučení ale zní: při stejném očekávaném průměrném výnosu (výhře) preferujeme variantu, která má nižší riziko (měřené rozptylem, resp. směrodatnou odchylkou, jak uvidíme níže). To mluví pro hru A.
Vzorec pro (výběrový) rozptyl
Již máme představu, co je rozptyl a jaký je jeho význam. Nyní si ukážeme a vysvětlíme jeho matematickou podstatu. Nejde o nic složitého či nepochopitelného. Výběrový rozptyl vypočítáme podle následujícího vzorce:
kde s2
je rozptyl, xi
jednotlivé hodnoty a aritmetický průměr.
Poznámka k názvosloví: slovem výběrový opět dáváme najevo, že pracujeme s výběrem dat, nikoliv se všemi daty (tj. s celým základním souborem) – tam bychom namísto s2
použili řecké písmeno sigma σ2
. Blíže je téma názvosloví vysvětleno na stránce charakteristiky polohy a variability v kapitole „Zmatky v názvosloví“ (princip výpočtu rozptylu je stejný, akorát se používá jiná symbolika).
Rozptyl tedy vypočítáme tak, že od každé jednotlivé hodnoty xi
odečteme aritmetický průměr , tento rozdíl umocníme na druhou, všechny takto umocněné rozdíly sečteme a výsledné číslo nakonec podělíme počtem hodnot n
.
Proč odečítáme průměr od všech hodnot asi dává smysl, když nás zajímá, jak se jednotlivé hodnoty odlišují od průměru, jinými slovy, jak jsou rozptýleny okolo průměru. Proč ale rozdíly umocňujeme na druhou? Důvod je prostý, aby se neeliminovaly kladné a záporné hodnoty.
Příklad. Pokud bychom měli například jen dvě hodnoty −1 a 1
, pak průměr je (−1 + 1) / 2 = 0
. A kdybychom chtěli spočítat rozdíl hodnot od průměru bez odmocňování na druhou, získali bychom (−1 − 0) + (1 − 0) = −1 + 1 = 0
, což by naznačovalo, že rozptyl je nulový. To ovšem není pravda. Vidíme, že rozpětí minimální a maximální hodnoty je −1 až 1, čili 2. Shodou okolností suma rozdílů hodnot od průměru v tomto případě vychází stejně (−1)2 + 12 = 2
a rozptyl je 1/2 × 2 = 1
.
Pokud by byly hodnoty zatříděny do tříd, pro výpočet rozptylu použijeme upravený vzorec:
kde k
je počet tříd a mi
absolutní četnost hodnot v dané třídě. Dá se říci, že jde o vážený rozptyl, kde váhami jsou četnosti.
S rozptylem ještě souvisí statistika zvaná směrodatná odchylka, která se vypočte jako druhá odmocnina z rozptylu:
Postřehli jste, že druhou mocninou se ze záporných rozdílů stanou kladné hodnoty? A abychom nyní získali ukazatel variability (směrodatnou odchylku) ve stejných jednotkách jako jednotlivé hodnoty, rozptyl odmocníme.
Konkrétní výpočet rozptylu z příkladu
Použijme data z výše uvedeného příkladu. Abychom nemuseli rolovat obrazovku, tady jsou:
Soutěžní hra / p. č. výhry | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | průměr |
---|---|---|---|---|---|---|---|---|---|---|---|
A (výhry v tis. Kč) | 97 | 98 | 98 | 99 | 100 | 100 | 100 | 102 | 103 | 103 | 100 |
B (výhry v tis. Kč) | 10 | 20 | 30 | 50 | 100 | 100 | 100 | 150 | 190 | 250 | 100 |
Jednoduše dosadíme do vzorce .
Soutěžní hra A:
s2 = (1/10) × [(97 – 100)2 + (98 – 100)2 + (98 – 100)2 + (99 – 100)2 + (100 – 100)2 + (100 – 100)2 + (100 – 100)2 + (102 – 100)2 + (103 – 100)2 + (103 – 100)2]
s2 = (1/10) × [(-3)2 + (-2)2 + (-2)2 + (-1)2 + 02 + 02 + 02 + 22 + 32 + 32]
Ze záporných rozdílů se stanou kladné:
s2 = (1/10) × (9 + 4 + 4 + 1 + 0 + 0 + 0 + 4 + 9 + 9) = (1/10) × 40 = 4
s = druhá odmocnina ze 4 = 2
Soutěžní hra B:
s2 = (1/10) × [(10 – 100)2 + (20 – 100)2 + (30 – 100)2 + (50 – 100)2 + (100 – 100)2 + (100 – 100)2 + (100 – 100)2 + (150 – 100)2 + (190 – 100)2 + (250 – 100)2]
s2 = (1/10) × [(-90)2 + (-80)2 + (-70)2 + (-50)2 + 02 + 02 + 02 + 502 + 902 + 1502]
s2 = (1/10) × (8100 + 6400 + 4900 + 2500 + 0 + 0 + 0 + 2500 + 8100 + 22500) = (1/10) × 55000 = 5500
s = druhá odmocnina z 5500 = 74
Vidíme, že soutěžní hra A má v porovnání s hrou B velmi malý rozptyl a naopak. Směrodatnou odchylku, vypočtenou jako druhou odmocninu z rozptylu, můžeme využít pomocí tak zvaného pravidla 3-SIGMA.
Směrodatná odchylka ukazuje, jak moc se hodnoty liší (nebo mohou lišit) od střední hodnoty, třeba průměru. Směrodatná odchylka působí oběma směry – do plusu i do minusu. Možnost odchylky od očekávaného stavu (třeba průměrného výnosu) je definice rizika. Proto se směrodatná odchylka, především ve světě financí a investic, používá jako ukazatel rizika investice.
Výpočet rozptylu se zatříděnými daty – absolutní četnosti
Ještě si můžeme ukázat použití druhého vzorce pro výpočet rozptylu (který samozřejmě dojde ke stejnému výsledku), kdy máme jednotlivá data zatříděna. Zkusme to jen pro soutěžní hru A. Víme, kolikrát se která výhra vyskytla, tj. známe jejich absolutní četnosti. Například výhra 97 tis. Kč je zastoupena 1krát, výhra 98 tis. Kč dvakrát atd. Údaje se pro přehlednost obvykle zapisují do tzv. tabulky četností:
Soutěžní hra A | ||||||
---|---|---|---|---|---|---|
výhra v tis. Kč (xi) | 97 | 98 | 99 | 100 | 102 | 103 |
absolutní četnost (mi) | 1 | 2 | 1 | 3 | 1 | 2 |
Počet tříd k je počet unikátních výher (97, 98, 99, 100, 102, 103), tedy k = 6. Dosadíme do vzorce:
,
tedy (vyskytuje-li se některá hodnota jen jednou, jedničkou není třeba násobit):
s2 = (1/10) × [(97 – 100)2 + (98 – 100)2 × 2 + (99 – 100)2 + (100 – 100)2 × 3 + (102 – 100)2 + (103 – 100)2 × 2] = 4
s = druhá odmocnina ze 4 = 2
Vidíme, že jsme dospěli ke stejnému výsledku.
Výpočet rozptylu se zatříděnými daty – relativní četnosti
Výpočet rozptylu by šel provést ještě analogickou cestou, a to, že bychom namísto absolutních četností použili četnosti relativní, tedy podíly absolutních třídních četností na celkovém počtu hodnot. Těch je 10. Výhra 97 tis. Kč je zastoupena 1krát a má tedy podíl (1/10) = 0,1, výhra 98 tis. Kč se vyskytuje dvakrát a má tedy podíl (2/10) = 0,2 atd. Poté stačí rozdíly hodnot odmocněné na druhou pouze vynásobit těmito relativními četnosti, sečíst a získáme výsledný rozptyl. Není třeba jej dělit počtem hodnot 10, neboť to je již obsaženo v podílech.
s2 = (97 – 100)2 × 0,1 + (98 – 100)2 × 0,2 + (99 – 100)2 × 0,1 + (100 – 100)2 × 0,3 + (102 – 100)2 × 0,1 + (103 – 100)2 × 0,2 = 4
s = druhá odmocnina ze 4 = 2
Je logické, že součet relativních četností (podílů), musí být roven jedné, resp. stu procent (pokud bychom chtěli podíly vyjádřit v procentech a vynásobili je stem). Relativní četnosti mají charakter pravděpodobností. Proto například pravděpodobnost, že vyhrajeme 98 tis. Kč je 2/10. Na našem webu s pravděpodobností často pracujeme, proto i tento způsob výpočtu rozptylu s relativními četnostmi je nejčastější.
Další příklady na rozptyl
Podrobně komentovaných příkladů, které ukazují na význam a praktické využití rozptylu, máme celou řadu. Například v pokeru se rozptyl označuje jako variance – je to anglický překlad slova rozptyl, který si ale hráči počeštili a slovo variance vyslovují česky tak, jak se píše.
U pokeru pro střední (očekávanou) hodnotu používáme anglickou zkratku EV (Expected Value), pro rozptyl VAR (Variance) a pro směrodatnou odchylku SD (Standard Deviation).
Velmi doporučujeme tento univerzální příklad na výpočet variance (rozptylu), kde jsme hodnotili dvě jednoduché hry s mincí. Příklad názorně ilustruje, jak se dá využít rozptyl, resp. směrodatná odchylka (druhá odmocnina z rozptylu) a tzv. pravidlo 3-SIGMA. To nám umožňuje vymezit intervaly, v kterých se s určitou (vysokou) pravděpodobností bude naše výhra nacházet. Je to velmi užitečný nástroj. Hrajete-li pokerové turnaje, mohl by vás zajímat konkrétní výpočet rozptylu (variance) u turnaje pro 9 hráčů. Opět jde o poučné čtení.
Příklad využití směrodatné odchylky jako rizika naleznete na stránkách Očekávaný výnos a riziko při podnikání a při investování.
Mohlo by vás také zajímat
- Statistika – úvod, základy;
- Absolutní a relativní četnost;
- Charakteristiky polohy: aritmetický průměr, modus a medián.