BERG-MARKETING.DK
indhold
  index-oversigt
 
Statistisk usikkerhed

 

I markedsanalyser baseret på undersøgelse af et udvalg af populationen (typisk fx indstillings- og valgundersøgelser) er der forbundet en vis usikkerhed for at de udvalgte ikke repræsenterer totalbefolkningen. Og når vi vurderer forskelle mellem talstørrelser i materialet taler vi om resultatet er signifikant eller ikke signifikant.

Samme mulighed
Signifikansberegninger er baseret på tilfældighedsberegninger, altså på materiale, der er udtrukket statistisk tilfældigt. Alle enhedere i populationen skal have samme chance for at blive udtrukket. Hvilket sjældent er tilfældet, men herom senere.

Først lidt teori
Standardafvigelsen udtrykker spredningen i iagttagelsesmaterialet. Den defineres som den positive kvadratrod af fordelingens andet moment omkring middeltallet - der igen er defineret som summen af kvadraterne på afvigelserne mellem de enkelte iagttagelsesresultater og fordelingens middeltal divideret med antallet af iagttagelsesresultater minus 1.
      I algebraisk form får vi:

  statistisk usikkerhed  

Hvor stor er chancen for at det er rigtigt?
I énpuklede og nogenlunde symmetriske fordelinger finder vi at ca. 2/3 af iagttagelsesresultaterne afviger mindre end én gange standardafvigelsen fra middeltallet, og at mindre end 1% af iagttagelserne afviger mindre end 3 gange standardafvigelsen fra middeltallet.
Den teoretiske normalfordeling:
      68,3%
      95,4%
      99,7%
Også ved ikke symmetriske fordelinger kan de statiske middeltal- og signifikansberegninger anvendes, fordi middeltallet af flere udsnit fra det samme univers vil antage en normalfordeling omkring universets middeltal.

  normalkurve  

I den viste kurve er standardafvigelsen betegnet som et lille sigma.

et eksempel på variationen i universet
En ostefabrikant kan ved at foretage en enkelt stikprøve udtale sig om hele ostens kvalitet. Der ikke er nogen variation eller spredning i materialet. Universet er homogent. Så én stikprøve er tilstrækkelig.
Omvendt med en sæk med mange forskelligt farvede kugler. En stikprøve fra dette heterogene materiale kan fortælle os, med en vis usikkerhed, hvor mange røde, gule og blå kugler, der er ved en totaloptælling.
      Parallellen i markedsføringen er fx folks attitude til et eller andet forhold. En stikprøve kan repræsentere universet. Med en eller anden sikkerhedsmargen.
      Hvis alle har forskellige meninger er der kun ét at gøre: totaloptælling. Svarende til individuel behandling af hver enkelt forbruger. Reglerne efter den almindelige normalfordeling er sat ud af kraft.
Når vi ikke kan finde 2 personer med samme komplekse livsstil, hvad så? Her kommer CRM ind i billedet.

Den enkle signifikansberegning
Vi arbejder ofte med proportioner, alternativt varierende observationer, fx ja eller nej, over eller under 40 år og lign, godkendt eller forkastet, altså kun 2 værdier. Her kan standardafvigelsen for proportionen udtrykkes som vist til højre, hvor p + q = 1 og n er antallet af observationer.
Hvis vi beslutter at vi vil arbejde på 95% signifikansniveauet, altså standardafvigelse acceptere at analysens resultat kan være forkert i små 5% af tilfældene (og dermed at vores beslutning i 5% af tilfældene vil være baseret på et forkert grundlag) får vi den til venstre viste formel, som udtrykker standardafvigelsen for populationen.
Hvis vi fx med 50 udtagne prøver har 20% prøver med fejl, er det 95% sikkert at mellem 9 og 31% af samtlige varer har fejl: 2 gange kvadratroden af 20 x 80 : n = ca. 11. 20 - 11=9, og 20+11=31.

Litteratur
Vilstrup har en god og kortfattet - og forståelig - gennemgang af begreber som spredning, fordelinger, fraktiler mm. Og selv om bogen er gammel vil jeg referere til Leif Holbæk-Hansen's Markedsforskning. Jeg har ikke læst en bog senere som mere instruktivt fører læseren gennem sandsynlighedsberegningerne. Men Bruun et al.'s "International handel og markedsføring" (trods titlen) og Blunch's "Indsamling af markedsdata" kan også anbefales.

En næsten kættersk kommentar til usikkerhedsberegninger
Når vi får serveret analysetal med angivelse af hvilke forskelle der er signifikante og hvilke ikke, er usikkerhedsberegningen baseret på at vi har at gøre med statistisk tilfældigt udtrukne respondenter, altså en stikprøve, hvor alle enheder i universet har haft den samme statistiske chance for at blive udtrukket.
      Dette er meget sjældent tilfældet!
      Vi - eller analyseinstituttet - anvender ofte bevidst udvælgelse ved fx kvota-sampling eller går på akkord med kravene til egentlig tilfældighedsudvælgelse. De fx hyppigt rejsende har ikke samme mulighed for at blive udspurgt som dem, der ikke rejser, de unge contra de noget ældre, etc etc.
Men vigtigst af alt betyder enhver svarprocent under 100, at vi i realiteten ikke har en statistisk tilfældig stikprøve. Og ingen undersøgelse baseret på telefonisk, postal eller personlig interviewing har en "nægter interview" eller manglende kontaktmulighed på 0%. Den helt dominerende analyseform (kvantitativt - ikke kvalitativt!) foregår i dag (2013) over internettet. Her vil der aldrig være tale om, at alle vil svare.
      Så vi benytter de statistiske signifikansberegninger på et materiale, hvor vi forventer at det nok ikke gør noget, at det ikke er et helt tilfældigt udsnit. Med følgende muligheder for analysemæssig bias - altså skævheder - som ingen af os kender betydningen af.
      Løsning? Tag højde for usikkerheden ved kun at basere væsentlige markedsføringsmæssige beslutninger på forskelle, der virkelig er tydelige. Virkelig er signifikante. Altså: Glem decimalerne og regn kun med de runde tal. Normalt vil det også være fuldt tilstrækkeligt og forsvarligt.
      Peter Svarre skrev i Berlingske den 20. april 2013 kronikken: Den statistiske løgn. Artiklen burde være obligatorisk lærebogsstof for alle journalister og chefredaktører i en tid, hvor så mange nærmest religiøst ser "big data" som den store sandhed til at beskrive enhvert samfundsmæssigt og forbrugermæssigt forhold. Du kan læse kronikken her.

Systematisk udvælgelse
Systematiske udvalg betyder at man udvælger respondenterne ved at tælle sig frem. Skal der fx udvælges 100 virksomheder fra en liste på 2000 trækkes lod om den første blandt de første 20 og derefter udvælges hver den tyvende herfra. Såfremt virksomhederne er listet efter et forhold (fx geografi eller størrelse) blive den systematiske udvælgelse baseret på dette kriterium. Hvis virksomhederne er tilfældigt listet vil den systematiske udvælgelse være en statistisk tilfældig udvælgelse.

Random dialing
Ved repræsentative private telefoninterviews (random dialing) udvælges den enkelte respondent ofte efter hvilket husstandsmedlem der har den første fødselsdag på året. Tilfældighedskriteriet er stadig tilgodeset og man tager højde for personer, der sjældnere er hjemme (eksempelvis de unge). Forudsat naturligvis at man ved genopringning får fat på det udtrukne husstandsmedlem.

Kvota-sampling
Ved bevidst udvælgelse - typisk kvotaudvælgelse - interviewes indtil man har udfyldt den forud bestemte kvote - fx 700 interviews fordelt i følgende kvota efter alder og geografi:

 
18-29
30-49
50-65
område 1
100
100
50
område 2
100
100
50
område 3
100
50
50

Metoden kan være relevant hvor tilfældig udvælgelse ikke er mulig og hvor man har en velbegrundet idé om at de kriterier, der definerer grupperne, har betydning for det undersøgte (opdelingen kaldes også stratifikation og grupperne strata).
Kvota-sampling karakteriseres undertiden som Convenience-sampling - bekvemmelighedsudvælgelse - som er udtrykket for at man udvælger respondenter, der er nemme at få kontakt med.
Risikoen er at der kan være en sammenhæng mellem kontaktletheden og det, man ønsker at undersøge. Fordelen ligger klart på omkostningssiden.

Tvungen vandring
Når det ikke er muligt at udtrække de enkelte adresser statistisk tilfældigt kan anvendes tvungen vandring (fx baseret på klyngestatistik fra Danmarks Statistik - med en start- og en slutadresse hvor respondenterne vælges fx ved at man tager hver tiende).

Efterstratifikation
Efterstratifikation betegner det forhold at man først udvælger respondenterne statistisk tilfældigt (eller så statistisk tilfældigt, som det er muligt), og efterfølgende opvejer, såfremt der er opnået for få respondenter i et eller flere strata - typisk kvota defineret efter alder eller geografi.

Nonprobability Samples
I mangel af dansk betegnelse citeres udtrykket fra Lamb et al. Betydningen er naturligvis at man arbejder med et udsnit, hvor respondenterne er valgt på en måde, der intet har at gøre med statistisk tilfældighed, og hvor der ikke er gjort noget forsøg herpå. Vi kan kalde det bevidst sampling. Anvendelse finder sted ud fra bekvemmelighed, omkostninger og tid. Eksempelvis benytter man respondenter der er lige for hånden - kolleger, venner og familie (convenience sampling). Det er ikke en analyseform der kan give baggrund for de store beslutninger, men man skal ikke underkende værdien. Ikke sjældent kan vi stå i en situation, hvor vi ønsker nogle "second opinions", her og nu, for at checke om man skal gå videre i arbejdet med fx en produkt- eller kampagneidé, om et reklamebudskab umiddelbart forstås eller lignende.

© Indholdet på disse sider må gengives med kildeangivelse og link. URL: www.berg-marketing.dk