pátek 10. února 2017

Úžasná statistika: Jak odhalit návštěvnost zoo a optimalizovat šanci na výhru v soutěži?

Když jsem narazil na tipovací otázku u Wedosu, bylo prakticky okamžitě jasné, že je vcelku škoda napsat nějaké číslo jenom tak od boku a bude mnohem moudřejší trochu zapátrat.

Cílem tohoto článku je propagovat myšlenku, že nejlepší nástroj, který může člověk téměř na cokoli použít, je matematika a úvahy, pro které nemusí mít ani vysokou.

Upozornění: Matematika není všemocná

Ať už použijeme jakoukoli statistikou metodu, vždy získáme pouze přibližný odhad výsledku, nikdy nemůžeme najít skutečné řešení, nicméně můžeme své šance aspoň trochu zlepšit.

Zadání otázky

Na oficiálním webu soutěže se píše:


Slovy matematika:

Najděte funkci, co nejlépe popisuje vývoj návštěvnosti v čase na základě dat, co najdete na internetu.

Co lze běžně zjistit

Na internetu se dá zjistit opravdu dost věcí, ale dost z toho nemusí být nutně pravda. Pro zaručení co nejlepší objektivity budeme vždy trvat na použití co největšího množství různých zdrojů a musíme použít nějaký mechanismus pro kontrolu extrémních hodnot.

Třeba ve Výroční zprávě se můžeme dočíst, že v roce 2014 měla zoo přibližně 270 000 návštěvníků. To je přibližně 740 návštěvníků každý den.


Tuto informaci dále potvrzuje Wikipedie, která přidává ještě o tisícovku návštěvníků navíc:



Taky by se mohla hodit informace, že mezi lety 2007 - 2014 byla návštěvnost o něco nižší a pohybovala se v intervalu 230 000 až 270 000 návštěvníků ročně.


Z toho lze s trochou nadsázky odhadnout, že se návštěvnost postupně zvyšuje a v současné době bude zas o trochu vyšší. Ale kdo ví.

Dalším zdrojem je samotný Google ve službě Maps

Velký problém výročních hlášení je, že vychází jen jednou ročně (však se podle toho i jmenují) a na internetu nemusí být k dispozici všechny ročníky. Proto není možné běžným způsobem zjistit aktuální vytížení, nicméně můžeme použít horkou novinku v Google Maps, kterou je nástroj pro sledování aktivity uživatelů.

Snadno se tak můžeme podívat na jednotlivé dny.




Bohužel tímto způsobem nezjistíme absolutní čísla, nicméně nám to může pomoci odhadnout aspoň rozložení návštěvnosti v čase.

Důležité zjištění je, že lidé chodí do zoo zejména v sobotu později odpoledne a v neděli. Obecně tedy o víkendu. To je celkem logické.

Za úvahu také stojí, jak jsou na tom státní svátky. Naštěstí je tato informace přímo na webu:


Nicméně lze očekávat, že například na Nový rok bude návštěvnost řádově nižší. Musíme ji tedy rozpočítat na jednotlivé dny, abychom mohli poté provést celkový odhad.

První vstup náhody / odhadu

Právě teď jsme se dostali do prvního bodu, kde musíme provést odhad, na který nemáme data - a to, jaký podíl návštěvnosti budou mít jednotlivé měsíce.

Pokud by byl podíl rovnoměrný, tak by na každý měsíc připadlo 8.33 % návštěvnosti, nicméně odhaduji, že například v létě bude podíl výrazně vyšší a naopak v prosinci zase výrazně nižší (komu by se chtělo v zimě do zoo?).

V rámci výpočtu použijeme tyto konstanty (záměrně nevolím celá čísla, abychom lépe simulovali reálné hodnoty):

MěsícVnitřní pocityProcentuální podíl
leden - únor
ještě docela zima
5.5 %
březen - duben
hurá, jaro!
11 %
květen - červen
studenti dotahují školu
6 %
červenec - srpen
prázdniny
17.3 %
září - listopad
únava po prázdninách
5.1 %
prosinecvánoce, zima, brr...
5 %

Nyní stačí odhadnout vhodný růst počtu návštěvníků pro aktuální rok (například odhadem předpisu nějakého vhodného polygonu) a dopočítat vhodný výsledek včetně odchylky.

Můj konkrétní výsledek uvádět nebudu, ale můžete si každý vypočítat ten svůj a třeba ještě lépe. :)

Matematika je úžasná věc, co může mít praktické výsledky, ale určitě to není hlavní důvod, proč to děláme.