Jak výběr respondentů při analýzách zkresluje závěry?
Lidská zkušenost je nutně výběrová a selektivní. Může se snadno stát, že navštívíme nějakou turistickou destinaci v době, kdy na místní poměry převládá atypicky dobré počasí. Shodou okolností se může stát, že opakovaně navštívíme typicky deštivou a oblačnou Anglii v době, kdy zde bude vládnout horké a slunečné počasí. Naše závěry na základě výběrové zkušenosti o typickém počasí pak budou špatné. Špatný výběr a data neodpovídající reprezentativní zkušenosti může zkreslit výsledky publikovaných závěrů, analýz i komentářů…
Jak používáme vzorkování v každodenním životě
Nemáme tolik času, energie, sil a jiných zdrojů, abychom mohli pro učinění svého rozhodnutí prozkoumat všechno a udělat vyčerpávající šetření.
Při návštěvě vinného sklípku provádíme degustaci, která nám umožňuje se rozhodnout, které víno budeme pít, popřípadě které si koupíme domů. Sedíme před televizí s dálkovým ovladačem a postupně přepínáme programy, abychom se na základě krátkých vzorků rozhodli, který program budeme sledovat. Kupujeme-li knihu, pomůže nám k rozhodnutí o koupi přečtení několika úryvků, které jsou vzorky z dané knihy.
Provádí-li se výzkum veřejného mínění nebo průzkum názorů spotřebitelů na prováděné služby, rovněž nejsou běžně dotazováni všichni občané či spotřebitelé, ale jen jejich část. Hledáme-li nové bydlení, skutečně si prohlédneme jen výběr nabízených realit, protože jsme limitováni časem.
V takových situacích je z celku (základního souboru, populace) vybírána jen nějaká část (výběr, vzorek), na základě něhož je provedeno rozhodnutí, popřípadě je rozhodnuto o vlastnostech celku. Výběr je běžnou součástí různých analýz, hodnocení bývají podrobeny jen vybrané části celku, o těchto jsou získávány informace a data, a z těchto jsou vytvářeny závěry.
Různé publikované komentáře a analýzy nás zahlcují informacemi o provedených statistických šetřeních, ale skutečnost, že tyto informace a publikované výsledky mohou být zkresleny špatným statistickým výběrem, bývá opomenuta.
REKLAMA
Úplné šetření (census)
Statistické šetření může být buď úplné (vyčerpávající), nebo neúplné (nevyčerpávající). Vyhodnocují-li se všechny populační jednotky, je prováděn census, tedy úplné (vyčerpávající šetření). Příkladem je sčítání lidu, domů a bytů k určitému rozhodnému okamžiku a sledování demografických jevů, jako je úmrtí nebo narození. Takový průzkum informuje o souboru jako celku i každé jednotce zvlášť, poskytuje přesné hodnoty charakteristik pro kompletní soubor.
Takové šetření je nákladné, časově náročné i nemožné, poněvadž celek (základní soubor, populace) bývá velmi rozsáhlý a někdy i nekonečný. Úplné šetření bývá někdy technicky neuskutečnitelné, například v situaci, kdy při sběru dat dochází ke zničení statistické jednotky. Ověřuje-li kvalitu výrobku výrobce destruktivní zkouškou jakosti, nemůže této zkoušce podrobit celou produkci, ale musí provádět výběr (statistickou přejímku). V praxi se tak používá zřídka a dává se přednost šetřením výběrovým.
Neúplné statistické šetření
Při neúplném statistickém zjišťování se sledované vlastnosti zjišťují jen u některých prvků (statistických jednotek). Zjištěny jsou informace pouze o vybrané části celku (populace) a samotný výběr může výsledky průzkumu značně ovlivnit. Takové zjišťování je méně časové náročné a méně nákladné a v některých případech je jediným proveditelným zjišťováním. Při výběrovém šetření se požadované vlastnosti zjišťují pouze u některých prvků populace, tvořících výběr.
Možných výběrů z jednoho základního souboru (populace) může být mnoho a zjištěné výsledky budou nutně vykazovat proměnlivost (variabilitu). Výběrové šetření tak poskytuje přesné charakteristiky pouze za prošetřenou část souboru, z pohledu celého souboru poskytuje jen přibližné charakteristiky celku. Pokud je výběr vytvořen vhodně, například náhodným výběrem, dá se na jeho základě získat určitá představa o celku (základním souboru, populaci). Z výběrového souboru ale nelze určit parametry populace (střední hodnota, směrodatná odchylka), charakterizující celek, ale pouze jejich odhady (výběrový průměr, výběrová směrodatná odchylka). Usuzování o vlastnostech celku (základního souboru, populace) předpokládá, že studovaný výběr je reprezentativní a reprezentuje vlastnosti celku.
Reprezentativní výběr a usuzování o celku
Reprezentativní výběr je věrným a zmenšeným obrazem základního souboru a reprezentuje či odráží jeho vlastnosti. Pozorováním a šetřením reprezentativního výběru pak lze vyvozovat (indukovat) závěry o celku (základním souboru, populaci).
REKLAMA
Pokud chceme koupit přepravku meruněk, ochutnáním jednoho kusu těžko získáme spolehlivou informaci o všech meruňkách v přepravce. Aby informace byla spolehlivější, musíme ochutnat nebo vizuálně zkontrolovat více kusů, pokud možno náhodně vybraných s různých míst přepravky. Výběrem testovaných vzorků meruněk z různých míst se vyvarujeme rizika plynoucí z toho, že prodejce záměrně umístil nejlepší meruňky na povrch bedny. Ochutnáním meruněk umístěných na povrchu by byl proveden selektivní výběr, který celek nereprezentuje, což by znamenalo, že vytvořené závěry mohou být zavádějící. Jsou-li vzorky vybrané náhodně ze všech meruněk vyhovující kvality, můžeme usuzovat (indukovat) o kvalitě meruněk v celé přepravce.
Podobně při finanční kontrole kontrolor nekontroluje všechny účetní operace a účetní položky, ale z mnoha položek vybírá jen některé položky, které podrobuje kontrole. Na základě takových vzorků pak vytváří kontrolní závěry.
Podobná šetření se provádí v řadě oborů, v zemědělství třeba při odhadu úrody. Před žněmi lze na vybraných ploškách posekat obilí, nechat ho doschnout, vymlátit a zvážit. Podle získaných údajů o váze vzorků z vybraných plošek lze usuzovat (indukovat) celkové výnosy. Ve výrobních procesech jsou v průběhu času odebírány vzorky, které jsou podrobovány jakostním zkouškám.
Takové odebírání vzorků v čase je možné přirovnat k proudící vodě v řece, kde mohou být v čase zaznamenávány změny kvality vody. V různých okamžicích může být kvalita různá, pro získání představy o změnách v průběhu času je nutné vzorkovat v různých okamžicích. Výběrem vzorků v průběhu času jsou získávány informace o kvalitě v průběhu času, analýzou těchto dat lze v případě reprezentativnosti výběrů usuzovat o kvalitě všech vyrobených jednotek.
Výběrová šetření v podobě reprezentativních výběrů se používají proto, aby mohly být vytvářeny závěry o celku (celé populaci) na základě lépe zvládnutelného, časově méně náročnějšího a levnějšího výběrového šetření. Toho, aby vzorek reprezentoval celou populaci (základní soubor), bývá dosahováno náhodným výběrem a jinými metodami (systematický nebo stratifikovaný výběr).
REKLAMA
Nereprezentativní, vychýlené a selektivní výběry
Pokud se při uskutečněných analýzách neuplatní vhodné metody výběru, budou sice získána data, mohou být vykreslovány grafy, počítány ukazatelé a vytvářeny závěry, ale všechny tyto informace budou nést riziko zkreslení, vychýlení a chybných závěrů.
V roce 1936 udělal časopis Literacy Digest průzkum mezi 2,4 milióny respondentů o tom, zda budou volit jako prezidenta F. D. Roosevelta nebo A. Landona. Průzkum ovšem vedl k mylným závěrům. I když většina respondentů v průzkumu dávala přednost Landonovi (57 %), volby vyhrál Roosvelt s 62 % odevzdaných hlasů. Chyba vznikla právě chybným úsudkovým výběrem, redaktoři sice oslovili 2,4 miliónu respondentů, ale dotazníky zaslali na kontaktní adresy, které našli v telefonních seznamech a seznamech klubového členství. Takový selektivní výběr bohužel z průzkumu vyřadil respondenty z chudších vrstev, pro které nebylo běžné, aby měli telefon. I velké množství dat, které je získáno selektivním nereprezentativním výběrem, může vést ke špatným závěrům. Podaří-li se vytvořit reprezentativní výběr, stačí pro vytvoření spolehlivých závěrů i malé množství dat.
V případě telefonického průzkumu spokojenosti s poskytovanými službami například postačí dotazování 30 respondentů, kteří jsou náhodně vybráni a tvoří reprezentativní výběr. Pokud ovšem bude telefonický průzkum názorů na poskytované služby prováděn v době dovolených, je možné, že mezi respondenty nakonec nebude zahrnuta část populace, která není díky dovoleným v zahraničí k zastižení. Pro kvalitu a vypovídací schopnost takového průzkumu je bude důležité telefonické kontaktování vybraných respondentů v době, kdy se je podaří zastihnout.
Mnohá rozhodnutí se opírají o data, ovšem data jsou mnohdy nespolehlivá, použité metody vzorkování, výběru, měření i analýz mohou být nevyhovující, což by při interpretaci a výkladu výsledků průzkumů a publikovaných informací mělo být bráno v úvahu.
V oblasti osobních financí jsou mnohdy prováděny různé ankety, při kterých respondenti netvoří reprezentativní výběr populace. Takové závěry nelze zevšeobecňovat, mnohdy jsou takové vzorky tvořeny lidmi, pro které je typický extrémní postoj nebo názor.
Písnička Zdeňka Svěráka říká „statistika nuda je, má však cenné údaje“ a v duchu tohoto pohledu bývají číselné údaje někdy považovány za vrchol něčeho nevyvratitelného. Právě slepá víra v čísla vede k naplnění pravdivosti výroků typu „jsou tři druhy lži: lež prostá, lež odsouzeníhodná a statistika.“
Publikovaný příspěvek byl vytvořen za finanční podpory GA ČR, v rámci řešení projektu GP102/07/P493.