9. Metode statistikk og analyse MEVIT 1310 Mediebruk, makt og samfunn 4. april 2005 Tanja Storsul Disposisjon Datamatrisa Skalanivå Prosentdifferanser/prediksjonseffekter Univariat analyse Bivariat analyse Multivariat analyse Feilkilder Generaliseringer (hypotesetesting)
Figur 7.1 s 160 Datamatrise Variabler (spørsmål osv) V 1 V 2 V 3 V m Enheter (person er osv) E 1 r 11 r 12... r 1m E 2 r 21 r 22... r 2m......... Verdier (svar osv)... E n r n1 r n2... r nm Fastslå likhet/ ulikhet Skalanivå Reelle intervalle r Fra figur 7.2 s 163 Absolutt 0-pkt Eks. Nominal Ja Nei Nei Nei Kjønn Ordinal Ja Ja Nei Nei Utdannin g Intervall Ja Ja Ja Nei Årstall Rangordning Forholdstall Ja Ja Ja JA / alder
Analysetyper Univariat analyse Bivariat analyse Multivariat analyse En variabel: univariat analyse Frekvensfordeling Sentraltendens: Modus (verdien som forekommer hyppigst) Median (verdien som deler en ordnet fordeling i to forutsetter ordinalnivå) Gjennomsnitt (summen av alle enheters verdi dividert med antallet enheter forutsetter forholdstall/intervallnivå)
Univariat analyse forts. Spredningsmål: Modalprosent (andel av enheter i modus) Variasjonsbredde (høyeste- laveste verdi) Kvartilavvik (midterste halvdel) Varians (avvik fra gjennomsnittet kvadreres, adderes og divideres) Standardavvik (kvadratrota av variansen) Kvartilavvik Figur 7.7 Frekvens Kvartilavvik = Q3-Q1 25% 25% 25% 25% Q 1 Q 2 Q 3 =Md Verdi
To variabler: bivariat analyse Uavhengig variabel avhengig variabel Bakgrunnsvariabler Personlighetsvariabler Holdnings- og atferdsvariabler Bivariat analyse datamatrise frekvensfordeling prosentuere likne og finne prosentdifferanse tolke
Tabell 7.8 s 176 Bivariat analyse Unge Voksne Til Lavt (0 1) 98 877 975 Høyt (2 og over) Til 355 502 857 453 1379 1832 Tabell 7.9 s 180 Bivariat analyse Unge Voksne Til Lavt (0 1) 22% 64% 53% Høyt (2 og over) Til 78% 36% 47% (n=453) (n=1379) (n=1832)
Prosentuering Uavhengig variabel Figur 7.8 s 182 Avhen gig variab el verdi1 verdi2 verdi1 verdi2 2. Samm enlikni ng 1. Prosentuering Bivariat analyse Unge Voksne Til Lavt (0 1) 22% 64% 53% Høyt (2 og over) Til 78% 36% 47% (n=453) 64-22=42 36-78=-42 (n=1379) (n=1832)
Flere variabler: multivariat analyse Alder Bosted figur 7.11 og 7.12 s 189 Bosted Alder Tabell 7.17 s 191 Multivariat analyse Tettbygd Spredtbygd Til Unge Voksne Unge Voksne Lavt 64 582 33 289 968 Høyt 269 407 85 94 855 Til 333 989 118 383 1823
Tabell 7.18 s 191 Multivariat analyse Tettbygd Spredtbygd Til Unge Voksne Unge Voksne Lavt 19% 59% 28% 75% 53% Høyt 81% 41% 72% 25% 47% Til (n=333) (n=989) (n=118) (n=383) (n=1823) Tabell 7.20 s 192 Multivariat analyse Tettbygd Spredtbygd (2) Unge Voksne (1) Unge Voksne (1) Andel med lavt 19% p. 59% 28% 75% p 1 p 2 p 12 E 1 (alder) = ((p 1 -p.)+(p 12 -p 2 )) / 2 E 2 (bosted) = ((p 2 -p.)+(p 12 -p 1 )) / 2
Multivariat analyse Tettbygd Spredtbygd (2) Unge Voksne (1) Unge Voksne (1) Andel med lavt kinobes øk 19% p. 59% 28% 75% p 1 p 2 p 12 E 1 (alder) = ((p 1 -p.)+(p 12 -p 2 )) / 2 = ((59-19)+(75-28))/2 = 43,5 Multivariat analyse Tettbygd Spredtbygd (2) Unge Voksne (1) Unge Voksne (1) Andel med lavt kinobes øk 19% p. 59% 28% 75% p 1 p 2 p 12 E 2 (bosted) = ((p 2 -p.)+(p 12 -p 1 )) / 2 = ((28-19)+(75-59))/2 = 12,5
Multivariat analyse Bosted Alder 12,5 43,5 Kinobesøk Figur 7.13 s 193 Korrelasjonsmål Krav til et korrelasjonsmål: Standardisert (0 1, eller -1 1) retning og styrke generalisering differensiert uttrykk for styrke og retning utnytte målenivået Eksempler: gamma, r xy,
Feilslutninger Nivåfeilslutninger Trekker en konklusjoner på personnivå på grunnlag av aggregerte opplysninger på geografisk nivå risikerer man å begå en økologisk feil Tidsfeilslutninger Fra tidspunkt til prosess Kohorter eller alder? Utvalg og generalisering Univers/populasjon Utvalg Generalisere fra utvalg til univers? (forutsatt at undersøkelsen har høy reliabilitet og validitet)
Trekking av utvalg Tilfeldige utvalg: Et utvalg der alle medlemmene i populasjonen har en kjent sannsynlighet (større enn 0) for å komme med i utvalget. Enkelt tilfeldig utvalg (ex. Lotto) Systematisk utvalg (ex. hver 8. dag) Klyngeutvalg (ex. først kommune, d.e. lotto) Stratifisert utvalg (noen overrepr veie resultater) Ikke tilfeldig utvalg: kvoteutvalg Kap 9 Hypotesetest Utregning ikke pensum, men nyttig å vite hva det er Hensikten med en hypotesetest er å se om det er sannsynlig at de henger vi har funnet i utvalget også finnes i universet eller om det er en følge av tilfeldigheter ved utvelgingen. Forutsetningen for å kunne gjennomføre en hypotesetest er at utvalget er trukket tilfeldig.
Framgangsmåten ved hypotesetesting Første skritt: H(1): Det er forskjell mellom kvinner og menns ambisjoner om å lese. H(0): Kvinner og menn har like store leseambisjoner. Gjennom hypotesetesten skal vi se om vi kan forkaste nullhypotesen. Andre skritt: Vi bestemmer sannsynlighetsfordelingen for mulige resultater når det gjelder forskjellen mellom kvinner og menns leseambisjoner i et utvalg gitt at nullhypotesen er sann. forts. hypotesetest Tredje skritt: Fastsette testens signifikansnivå. Signifikansnivået angir sjansen for at testen skal resultere i at vi forkaster en sann nullhypotese. Et signifikansnivå på 1% (0,01) betyr at vi vil forkaste en sann nullhypotese i 1% av et stort antall utvalg. Fjerde skritt: Finne forkastningsområdet som svarer til signifikansnivået. Forkastningsområdet består av de utfallene som er mest usannsynlige dersom nullhypotesen er sann. Grensen settes ved signifikansnivået.
forts. hypotesetest Femte skritt: Undersøke om det faktiske resultatet for utvalget ligger i forkastningsområdet slik at nullhypotesen kan forkastes. Dersom forskjellen mellom kvinner og menns leseambisjoner er så stor at den faller innenfor forkastningsområdet, forkaster vi nullhypotesen om ingen forskjell i universet. Da kan vi anta at H(1) om at det er en heng mellom kjønn og nettspill også har gyldighet for universet. Signifikansnivået angir den usikkerheten som knytter seg til denne generaliseringsslutningen. Seminaroppgaver Begreper og definisjoner: Hvilke ulike mål for sentraltendens finnes? Definér disse. Hva menes med en variabels skalanivå/målenivå? Hvorfor er dette viktig? Hva menes med univariat, bivariat og multivariat analyse? Hvilke krav bør man stille til et utvalg dersom man vil generalisere resultatene? Hvilke typer utvalg oppfyller disse kravene?
Analysér tabellen Tabell A. Daglig tid brukt på fjernsynstitting fordelt på kjønn. Råtall (konstruert tabell) Kvinner Menn Til Lavt (2t el under) 145 109 254 Høyt (over 2t) 287 307 594 Sum 432 416 848 Tips: prosentuér, prosentdifferenser, fortolk Hva slags type analyse er dette og hvilket målenivå er variablene på? Analysér tabellen Tabell B. Daglig tid brukt på fjernsynstitting fordelt på kjønn og utdanning. Råtall (konstruert tabell) Kvinner Menn Til Høy utd (mer enn 12 år) Lav utd (12 år el mindre) Høy utd (mer enn 12 år) Lav utd (12 år el mindre) Lavt (2t el 87 58 42 67 254 under) Høyt (over 98 189 143 164 594 2t) Sum 185 247 185 231 848 Tips: prosentuér, prosentdifferenser, fortolk Hva slags type analyse er dette og hvilket målenivå er variablene på?
Tilleggsoppgave I sin artikkel Gender in Big Brother bygger Liesbet van Zoonen på en kvantitativ analyse av vinnere av BB. Studér tabellen (neste lysark). Hva sier den dere om kjønn i BB? Les artikkelen skrevet på bakgrunn av tabellen; http:// www.media.uio.no/mediert/artikler/2004/2004nr2/ 2004nr2s4.html Country Series One Series Two Series Three Series Four Africa F Australia M M F Argentina M M F Missing Belgium M F M F (all stars) Brasil M M M Missing Colombia F Denmark F M M Ecuador M France M/F M/F (Loft Story) Germany M F F M Greece M M Holland F F F Missing Hungary M F Italy F M F Mexico M F Norway M F F Poland M F M Portugal M M F M Rumania M South Africa M M Spain M F M M Switzerland Missing Missing Sweden F F UK M M F M USA M M F F Kjønn i BB Middle East Russia Cancelled Missing Total 26 winners 17 male 6 female 1 couple 3 missing 21 winners 10 male 9 female 1 couple 1 missing 14 winners 5 male 9 female 8 winners 3 male 2 female 3 missing