11. ANALÝZA DAT
Z dosavadních poznatků o marketingovém výzkumu je zřejmé, že se v jeho průběhu dostáváme do kontaktu s celou řadou nejrůznějších údajů a informací, které je nutné nějakým způsobme zpracovávat a zpřístupňovat. K tomu nám slouží různé statistické metody. S některými jsme se již seznámili v kurzu statistiky, na některé další upozorníme v této přednášce. O nutnosti statistického zpracování však musíme uvažovat již projektu marketingového výzkumu.
11.1. Kvantilový popis
Vlastnosti statistické řady
- poloha
- rozptýlení
- symetrie
- směs dvou nebo několika homogenních souborů
- cizí pozorování nepatřící do souboru
Charakteristiky uspořádání statistické řady
- minimum a maximum, rozpětí
- medián – prostřední člen řady, resp. průměr mezi dvěma prostředními
- kvartily – oddělují čtvrtinu nejnižších a nevyšších čísel řady
- hradby – oddělují pozorování, která patří k souboru jen s nepatrnou pravděpodobností
- přilehlá pozorování – přiléhají ke vnitřku hradby, ale nepřekročí ji, nevynecháváme je ze souboru
- kvantily – oddělují určité zvolené procento počtu pozorování
- kvantilové rozpětí – rozdíl mezi posledním a prvním kvantilem
Kvantilový graf rozptýlení – box plot
Graf vyjadřuje rozložení dat na svislé ose. Obdélník je shora a zdola ohraničen kvartily, uprostřed obdélníku je značka mediánu. Úsečky jdoucí od kvartilových hodnot končí u přilehlých pozorování.
11.2. Explorační a konfirmační analýza
Explorační analýza je k dispozici datový soubor a výzkumník vychází buď ze zcela obecné otázky a úkolu: „Vyhledat užitečné informace pro nějaký účel“ nebo z otázek specifických, vztažených ke konkrétnímu problému. Podstatnou otázkou je přístup k datům, pátrání v datech, snaha o využití informačního bohatství.
Postup: Data – Otázka – Odpověď – Nová otázka – Odpověď
Typické otázky: Kdo je našim nejsilnějším konkurentem? Které produkty jsou vnímány stejně jako náš? V čem vidí spotřebitel přednosti našeho výrobku? Jak bude reagovat divák na nový spot?...
Metody: pátrání v datech, kvantilová analýza, grafy, tabelace, korelační analýza, faktorová analýza, seskupovací analýza atd.
Konfirmační analýza Jde o ověřování předem stanoveného statistického modelu, hypotézy, teorie. Ze statistických dat chce výzkumník tento model ověřit, zamítnout resp. modifikovat. Lze též formulovat několik alternativních modelů. Modely vznikají z intuitivní představy, z kvalitativního výzkumu, z malých neprůkazných kvantitativních šetření, někdy též převzetí názoru tisku nebo veřejnosti.
Postup: modelová představ – data – přijetí/zamítnutí
Typické modely: Představa, že výrobku něco chybí na základě dotazů několika zákazníků. Hypotéza o překročení pětiprocentní hranice před parlamentními volbami. Pro přijetí nového výrobku je rozhodující absence jeho nových vlastností u konkurence.
Metody: testování hypotéz, konfirmační faktorová analýza, modelování struktury vysvětlujících vztahy, analýza rozptylu, modelování časových řad.
11.3. Individuální a agregované údaje
Individuální údaje jsou záznamem o původních měřeních či o zjišťování faktů, pozorování, o dotazech u jednotek, které definují cílový soubor pro nějž chceme vytvářet závěry.
Př.: odpovědi v dotazníku, charakteristika kvality výrobku, záznam z databáze o denním prodeji atd.
Agregované údaje jsou záznamem o jednotce, která je složena z elementů nebo částí a tyto elementy jsou nositelem primární nebo již agregované informace, která se spojuje jako charakteristika celku
Př.: demografické údaje o okresech, městech, regionech , státech, údaje o domácnostech ze sčítání lidu, příjem za měsíc atd.
11.4. Průměry
je mírou polohy, vyjadřuje střed datové řady ve smyslu těžiště, je nejdůležitější charakteristikou skupiny dat
Výhody:
- je míra široce využívaná
- je vhodná pro statistickou práci
- platí pro ní zákony velkých čísel
- má vhodné vlastnosti pro aplikace
- využívá všech dat
Interval spolehlivosti oboustranný interval spolehlivosti pro průměr je
kde je odhadem směrodatné odchylky a nazývá se standardní chyba
....Studentovo rozdělení s (n-1)stupni volnosti
Příklad znázornění intervalu spolehlivosti pro více proměnných
11.5. Rozložení četnosti
Charakterizuje proměnlivost hodnot a významnost zdroje variability
Variační rozpětí
R = xmax - xmin
Kvartilové rozpětí
Rq = x75 - x25
Rozptyl
s2 = nebo s2 =
Vlastnosti rozptylu:
- rozptyl kolem jiné hodnoty než je průměr je vždy větší
- přičteme-li ke všem hodnotám konstantu, rozptyl se nezmění
- vynásobíme-li všechny hodnoty konstantou a pak rozptyl je a2..s2
- rozptyl lze vyjádřit jako rozdíl aritmetického průměru čtverce hodnot a čtverce aritmetického průměru hodnot
= -
směrodatná odchylka variační koeficient
s = V =
Rozložení četnosti vyjadřujeme v tabulce nebo grafem
Tabulka (i = 1,2,….k)
Interval nebo hodnota Absolutní
četnost Relativní
četnost Kumulativní absolutní četnost Kumulativní relativní četnost
nebo = = =
nebo [ , ]
Polygon četnosti - prosté třídění
Histogram četnosti - intervalové třídění
11.6 Testování statistických hypotéz
Statistická hypotéza – předpoklad o rozdělení parametru náhodné veličiny (např.Θ,μ,σ2) nebo zákona rozdělení této veličiny (např. distribuční funkce, kvantilové funkce, frekvenční funkce).
Testem hypotézy – z náhodného výběru ověřujeme, zda statistická hypotéza je správná
Nulovou hypotézu Ho - je ta, kterou testem přijmeme H0 : Θ = Θ0
Nulová hypotéza H0 tedy předpokládá, že parametr základního souboru Θ se nijak významně neliší od hodnoty Θ0
Alternativní hypotéza HA - to je taková hypotéza, kterou přijmeme, pokud zamítneme H0, lze formulovat jednu ze tří typů alternativních hypotéze
HA: 0> 00 .........pravostranná HA
HA: 0 <00 style="font-weight: bold;">Chyba 1. druhu
- hladina významnosti (přijmeme HA, zatímco H0 bylo správné)
- spolehlivost testu (nezamítneme H0 , když H0 bylo správné)
Chyba 2.druhu
, kdy hodnotu nazýváme sílou testu
Testovací kriterium je náhodná veličina a její konkrétní rozdělení závisí na hypotéze kterou testujeme. Obor možných hodnot testovacího kriteria rozdělíme do dvou množin
- kritický obor je určen tak, aby pravděpodobnost , že hodnota testovacího kriteria leží v kritickém oboru byla malá
(leží-li hodnota testovacího kriteria v kritickém oboru, musíme H0 zamítnout )
- obor přijetí R je určen tak, aby v případě, že hodnota testovacího kriteria leží v oboru přijetí, nebylo H0vyvráceno
(leží-li hodnota testovacího kriteria v oboru přijetí, nezamítneme H0)
Obecný postup při testování hypotéz
- formulujeme H0 a HA
- zvolíme hladinu významnosti α
- předepíšeme testovací kriterium
- vymezíme kritický obor
- z výběrových hodnot vypočteme hodnotu testovacího kriteria
- z hodnoty formulujeme závěr testu
- případně spočítáme sílu testu, je-li text slabý , stanovíme potřebný rozsah výběru
Dělení testů z hlediska náročnosti předpokladů o rozdělení sledovaného statistického znaku:
• parametrické – předpokládáme charakter rozdělení studovaného statistického znaku , zpravidla předpokládáme normální rozdělení, jde o testy náročné, ale silné
• neparametrické testy – nevyžadují splnění téměř žádných předpokladů o charakteru rozdělení statistických¨znaků, mají menší sílu než parametrické testy
11.7. Regresní a korelační analýza
U vícerozměrných statistických souborů nás nezajímají pouze isolované vlastnosti jednotlivých proměnných, ale i jejich vzájemné vztahy.
Závislosti mezi statistickými jevy mohou nabývat různých forem
- náhodná (nepodstatná) - závislost mezi jevy je výrazem nahodilosti
- příčinná (kauzální) - výsledek jednoho jevu vyvolá za určitých podmínek jiný jev, je tu časová vazba mezi příčinou a důsledkem
- koexistence jevů - nevzniká z příčinné souvislosti, ale jen z časové souslednosti, které mají oba jinou obecnou příčinu bez vzájemného vztahu
- jednostranná - příčina působí na účinek , ale účinek zpětně neovlivňuje příčinu
- oboustranná - příčina působí na účinek , a účinek zpětně ovlivňuje příčinu
- jednoduchá příčinná závislost - účinek je závislý na jedné nebo několika málo příčinách (fyzikální a technické vědy)
- složená příčinná závislost - účinek je závislý na větším počtu příčin (biologie, ekonomie), účinek se projeví teprve na průměrné hodnotě, nikoliv na jednotlivých hodnotách, tato závislost se nazývá statistická nebo volná.
Korelační tabulka (pro kvalitativní znaky kontingenční tabulka)
Statistický soubor o rozsahu N sleduje dva kvantitativní statistické znaky x a y.
Obměny statistického znaku x označíme xi ( pro i=1...k) a četnost obměny ni .
Obměny statistického znaku y označíme yi ( pro j=1...h) a četnost obměny nj .
Pak dvourozměrné rozdělení četnosti bude mít ve formě tabulky tvar
Označme nij simultánní četnosti a ni. a n.j marginální četnosti a N celkový rozsah souboru
pak
a
a dále
relativní četnosti
, ,
pak suma přes všechny četnosti je rovna 1.
Bodový graf
Tvary korelačního pole
kruhové pole
pás ve směru osy x pás ve směru osy y elipsa –kladná úhlopříčka elipsa-záporná úhlopříčka
podmíněné rozdělení četnosti
při pevně zvolené hodnotě x můžeme rozdělení četnosti znaku y , což představuje jeden sloupec korelační tabulky
při pevně zvolené hodnotě y můžeme rozdělení četnosti znaku x , což představuje jeden řádek korelační tabulky
jde vlastně o jednorozměrné rozdělení četnosti, pro které můžeme stanovit podmíněné charakteristiky statistického souboru, jako střední hodnotu, rozptyl, medián, šikmost atd.
statistická závislost
proměnnou y budeme považovat za statisticky závislou, jestliže se změnou proměnné x se bude měnit podmíněné rozdělení této proměnné
korelační závislost
proměnnou y budeme považovat za korelační závislou, jestliže se změnou proměnné x se bude měnit podmíněný průměr této proměnné
cíle korelační a regresní analýzy
- stanovit směr korelační závislosti pomocí regresní křivky – regresní analýza
- posouzení těsnosti korelační závislosti (rozptyl hodnot kolem regresní křivky) - korelační analýza
Žádné komentáře:
Okomentovat