Dataanalyse. Hva er en dataanalyse og hvordan gå frem for å gjennomføre en dataanalyse av det innsamlede datagrunnlaget fra en feltundersøkelse?

Like dokumenter
Statistikk og dataanalyse

ÅMA110 Sannsynlighetsregning med statistikk, våren

Innhold. Innledning. Del I

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010 Oppsummering

Forskningsprosessen & metodelære

DEL 1 GRUNNLEGGENDE STATISTIKK

Kapittel 3: Studieopplegg

Statistisk beskrivelse av enkeltvariabler. SOS1120 Kvantitativ metode. Disposisjon. Datamatrisen. Forelesningsnotater 6. forelesning høsten 2005

84 % er fornøyde med det tilbudet de får

ST0202 Statistikk for samfunnsvitere. Bo Lindqvist Institutt for matematiske fag

Sannsynlighetsregning og Statistikk.

Lærebok Robert Johnson og Patricia Kuby: Elementary Statistics, 10. utgave. Pensumoversikt. Forelesninger og øvinger

Formelsamling V-2014 MAT110. Statistikk 1. Per Kristian Rekdal

Statistikk 1. Nico Keilman. ECON 2130 Vår 2014

Loven om total sannsynlighet. Bayes formel. Testing for sykdom. ST0202 Statistikk for samfunnsvitere

Innhold. Innledning. Del I

MULTIPLE CHOICE ST0103 BRUKERKURS I STATISTIKK September 2016

UNIVERSITETET I OSLO

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere. Bo Lindqvist Institutt for matematiske fag

STK Oppsummering

Formelsamling i medisinsk statistikk

1 Sec 3-2: Hvordan beskrive senteret i dataene. 2 Sec 3-3: Hvordan beskrive spredningen i dataene

Forelesning 7 Statistiske beskrivelser av enkeltvariabler. Mål for sentraltendens

Kort overblikk over kurset sålangt

MATEMATIKK 1 (for trinn) Emnebeskrivelser for studieåret 2014/2015

Deskriptiv statistikk., Introduksjon til dataanalyse

Deskriptiv statistikk., Introduksjon til dataanalyse

Oppgaver til Studentveiledning 4 MET 3431 Statistikk

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Kap. 8: Utvalsfordelingar og databeskrivelse

ting å gjøre å prøve å oppsummere informasjonen i Hva som er hensiktsmessig måter å beskrive dataene på en hensiktsmessig måte.

Statistikk er begripelig

UNIVERSITETET I OSLO

Introduksjon til statistikk og dataanalyse. Arild Brandrud Næss TMA4240 Statistikk NTNU, høsten 2013

Forkurs i kvantitative metoder ILP 2019

Kræsjkurs i STAT101. Noen anbefalinger Regn mange(5-10) oppgavesett til eksamen:

Datainnsamling og dataanalyse

Utvalgsfordelinger; utvalg, populasjon, grafiske metoder, X, S 2, t-fordeling, χ 2 -fordeling

Høgskolen i Telemark. Institutt for økonomi og informatikk FORMELSAMLING Statistikk I. Til bruk ved eksamen. Per Chr. Hagen

Lærebok Robert Johnson og Patricia Kuby: Elementary Statistics, 10. utgave. Pensumoversikt. Oversikt. ST0202 Statistikk for samfunnsvitere

Kapittel 2: Sannsynlighet [ ]

Sannsynlighetsregning og Statistikk

Kapittel 2: Hendelser

ST0202 Statistikk for samfunnsvitere

Kapittel 8: Tilfeldige utvalg, databeskrivelse og fordeling til observatorar, Kapittel 9: Estimering

Statistikk. Forkurs 2018

Inferens i regresjon

Kapittel 1: Data og fordelinger

Forelesning 23 og 24 Wilcoxon test, Bivariate Normal fordeling

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

Forslag til endringar

Tema 1: Hendelser, sannsynlighet, kombinatorikk Kapittel ST1101 (Gunnar Taraldsen) :19

Statistikk. Forkurs 2017

Formelsamling V MAT110 Statistikk 1. Per Kristian Rekdal

1 Section 6-2: Standard normalfordelingen. 2 Section 6-3: Anvendelser av normalfordelingen. 3 Section 6-4: Observator fordeling

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

Forelesing 27 Oppsummering. Torstein Fjeldstad Institutt for matematiske fag, NTNU

ST0202 Statistikk for samfunnsvitere

2.3: Kombinatorikk 2.4: Sannsynlighet, og Monte Carlo simulering. Foreleses onsdag 25. august 2010

TMA4240 Statistikk H2010

Last ned Sannsynlighetsregning og statistisk metodelære - Knut Ole Lysø. Last ned

Et lite notat om og rundt normalfordelingen.

MA155 Statistikk TI-nspire cx Kalkulator Guide

Øving 1 TMA Grunnleggende dataanalyse i Matlab

Emnenavn: Eksamenstid: 4 timer. Faglærer: Hans Kristian Bekkevard

OPPGAVESETTET BESTÅR AV 3 OPPGAVER PÅ 6 SIDER MERKNADER: Alle deloppgaver vektlegges likt.

LØSNING: Oppgavesett nr. 1

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

Oppgaver til Studentveiledning 3 MET 3431 Statistikk

ÅMA110 Sannsynlighetsregning med statistikk (5sp), våren 2012 BMF100 Sannsynlighetsregning og statistikk 1 (10sp), våren 2012

Et lite notat om og rundt normalfordelingen. Anta at vi har kontinuerlige data. Hva er likt og ulikt for histogrammer og fordelingskurver?

Situasjonsanlyse. av markedssystemet

Dataens tidsalder. Hvorfor data? Data, data, data. STK1000 Innføring i anvendt statistikk. Tirsdag 24. august 2010

TMA4240 Statistikk H2017 [15]

Statistikk for språk- og musikkvitere 1

Statistikk En måte å beskrive og analysere fenomener kvantitativt Eva Denison

Øving 1 TMA Grunnleggende dataanalyse i Matlab

Et lite notat om og rundt normalfordelingen.

1 10-2: Korrelasjon : Regresjon

UNIVERSITETET I OSLO

MASTER I IDRETTSVITENSKAP 2013/2015 MASTER I IDRETTSFYSIOTERAPI 2013/2015. Individuell skriftlig eksamen. STA 400- Statistikk

Forelesning 7 Statistiske beskrivelser av enkeltvariabler. Mål for sentraltendens

ST0202 Statistikk for samfunnsvitere

Hypotesetesting (kp. 6) ÅMA110 Sannsynlighetsregning med statistikk, våren Tre deler av faget/kurset: 1. Beskrivende statistikk

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

STUDIEÅRET 2016/2017. Individuell skriftlig eksamen i STA 200- Statistikk. Torsdag 27. april 2017 kl

Oppgaver til Studentveiledning I MET 3431 Statistikk

MAT110. Statistikk 1. Kompendium 2018, del 1. Per Kristian Rekdal

Til bruk i metodeundervisningen ved Høyskolen i Oslo

NTNU KOMPiS Studieplan for MATEMATIKK 1 ( trinn) Studieåret 2014/2015

ST0202 Statistikk for samfunnsvitere

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007

Eksamen i. MAT110 Statistikk 1

Innhold. Forord... 15

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

Fordelinger, mer om sentralmål og variasjonsmål. Tron Anders Moger

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007

Kapittel 4.3: Tilfeldige/stokastiske variable

Transkript:

Hva er en dataanalyse og hvordan gå frem for å gjennomføre en dataanalyse av det innsamlede datagrunnlaget fra en feltundersøkelse? Skrevet av: Kjetil Sander Utgitt av: estudie.no Revisjon: 1.0 (Sept. 2017)

Innhold 1 Dataanalyse... 6 1.1 Hva er en dataanalyse?...6 1.2 Faktorer som avgjør analysearbeidet...6 1.2.1 Datainnsamlingmetode...7 1.2.2 Utvalget...7 1.2.3 Målinger...8 1.2.4 Andeler og tellinger...8 1.2.5 Samvariasjon...8 1.2.6 Variablene...8 1.3 Frekventativ statistikk...9 1.3.1 Bayesisk statistikk...11 1.4 Arbeidsmodell for dataanalysen...12 1.4.1 Koding og registrering...13 1.4.2 Tabulering...15 1.4.3 Sammenhenger...15 1.4.4 Statistisk inferens...15 1.4.5 Tolkning og kontroll...15 1.4.6 Kontroll/feilkilder...16 1.5 Den analytiske vitenskaplige metode...18 1.6 Kategorisering, koding og indekseringsspråk...19 1.6.1 Slektskap (generiske forhold)...20 1.6.2 Partitive forhold...20 1.6.3 Kategorier...20 1.7 Inndelingskriverier for dataanalysen...21 1.8 Antall kategorier...23 1.9 Protokoll, ordningsobservatorer og notasjon...24 1.9.1 Ordnet rekkefølge...24 1.10 Synkron- eller diakron analyse?...24 1.10.1 Hva er forskjellen mellom en synkron- og diakron analyse?...25 1.10.2 Synkron analyse...25 1.10.3 Diakron analyse...25 1.10.4 Start med en diakron analyse...26 1.11 Prinsipper for situasjonsanalysen...26 1.11.1 Avslutt med en synkron analyse for å punktbelyse de kritiske suksessfaktorene...27 1.12 Analyseteknikker for dataanalysen...28 2 Univariat analyse og deskriptiv statistikk... 29 2.1 Populasjonens størrelse...30 2.2 Utvalgets størrelse...31 2.3 Fordelingsanalyse...31 2.4 Frekvensfordeling...32 2.5 Datamatriser...34 2.6 Grafiske fremstillinger...34 2.7 Utvalget/stikkprøvens midtpunkt (Median, gjennomsnitt og modus)...35 2.7.1 Median...35 2.7.2 Gjennomsnitt...37 Skrevet av: Kjetil Sander Side 2 av 150 Kopiering ikke tillatt!

2.7.3 Modus (typetall)...39 2.7.4 Forholdet mellom median, snitt og typetall...41 2.8 Variasjonsbredde i utvalget (stikkprøven)...42 2.8.1 Avkortet spredning og interkvartil variasjonsbredde...44 2.8.2 Interkvartil variasjonsbredde...45 2.8.3 Modalprosent...45 2.9 Prosentil og kvartil...45 2.9.1 Nedre kvartil...47 2.9.2 Øvre kvartil...48 2.9.3 Kvartilbredde...49 2.9.4 Kvartilavvik...49 2.9.5 Videoforklaring...49 2.9.6 Eksempler fra Wikipedia...49 2.10 Standardavvik og varians...50 2.10.1 Formler...52 2.10.2 Utvalgsvarians...54 2.11 Populasjonsvarians...54 2.11.1 Standardavviket for utvalget/stikkprøven beregnes slik:...55 2.12 Skjevhet og normalfordeling...56 2.12.1 Høyreskjev fordeling...57 2.12.2 Symetrisk fordeling...58 2.12.3 Venstreskjev fordeling...58 2.12.4 Sentralgrenseteoremet normalfordelt...59 2.12.5 Standard normal distribusjon...61 3 Bivariat analyse... 62 3.1 Krysstabulering og marginalfordeling...63 3.2 Epsilon - et mål for samvariasjonens styrke og retning...64 3.3 Parallell plott og trend...65 3.3.1 Parallelle trender...66 3.3.2 Analoge trender...66 3.3.3 Avhengige trender...66 3.3.4 Serie trender...67 3.3.5 Kryssende trender...67 3.3.6 Motstridende eller sprikende trender...67 3.3.7 Resultattrender...67 3.3.8 Hierarkiske trender Sumtrender...68 3.4 Trender og trendforlengelse (kurvefremskrivning)...68 3.4.1 Metode for trendforlengelse og kurvefremskrivning...69 3.4.2 Beregninger og trendforlengelse...73 3.5 Gruppegjennomsnitt...74 3.6 Mediandifferanse...75 3.7 Mann - Whitney observator...76 3.7.1 Sammenligning av to medianer...78 3.8 Parvise sammenligninger...80 3.8.1 Fortegnstest...81 3.8.2 Wilcoxons tegnrangtest...83 3.9 Korrelasjon og kovarians...87 3.9.1 Kovarians...87 3.9.2 Teoretisk kovarians...87 3.9.3 Empirisk kovarians...88 Skrevet av: Kjetil Sander Side 3 av 150 Kopiering ikke tillatt!

3.9.4 Korrelasjon...89 4 Multivariat analyse... 92 4.1 Multivariate metoder...96 4.1.1 Multippel regresjonsanalyse...96 4.1.2 Conjoint analyse...96 4.1.3 Faktoranalyse...96 4.1.4 Clusteranalyse...97 4.2 Multippel regresjon...98 4.3 Diskriminantanalyse...101 4.4 Clusteranalyse...102 4.5 Faktoranalyse...103 4.5.1 Eksplorerende og konfirmerende faktoranalyse...104 4.5.2 Egenverdi...105 4.5.3 Kommunalitet...105 4.5.4 Ortogonal og oblikk rotasjon...105 5 Sannsynlighet... 106 5.1.1 Subjektiv sannsynlighet...107 5.1.2 Sannsynlighet som populasjonandel...107 5.2 Utfall og utfallsrom...109 5.3 Stokastisk forsøk...109 5.4 Utfallsrom...109 5.4.1 Enkeltutfall...109 5.4.2 Hendelse...109 5.4.3 Diskrete og kontinuerlig utfall...110 5.4.4 Stokastiske variabler...110 5.4.5 Begivenhet...111 5.4.6 Gunstige- og antall mulige utfall...111 5.5 Sannsynlighet som relativ hyppighet (de store talls lov)...114 5.6 Union...115 5.7 Uniform sannsynlighet...115 5.8 Sannsynligheten av et snitt...116 5.9 Venndiagram...117 5.9.1 Krysstabell...118 5.9.2 Komplementære hendelser...118 5.9.3 Union...119 5.9.4 Snitt...120 5.9.5 Disjunkte hendelser...120 5.9.6 Oppsummering...121 5.10 Betinget sannsynlighet...121 5.11 Kombinatorikk...126 5.12 Permutasjoner og kombinasjoner...126 5.12.1 Permutasjoner med repetisjon (tilbakelegging)...128 5.12.2 Permutasjoner uten repetisjon (tilbakelegging)...128 5.12.3 Kombinasjoner uten repetisjon...129 5.12.4 Kombinasjoner med repetisjon...130 5.12.5 Enumerativ kombinatorikk...131 5.13 Aksiomatisk definisjon av sannsynlighet...133 6 Hypoteseprøving... 134 6.1 Teori/problemstilling...136 6.2 Operasjonalisering...136 Skrevet av: Kjetil Sander Side 4 av 150 Kopiering ikke tillatt!

6.3 Signifikansnivå...136 6.4 Metode for hypoteseprøving...137 7 Generalisering... 139 7.1 Tilfeldig variasjon...140 7.2 Estimering...141 7.3 Konfidensintervall...142 7.3.1 Feilsannsynlighet...144 7.3.2 Konfidensnivå...144 7.4 Trangere konfidensintervall...145 7.4.1 Tosidig konfidensintervall...145 7.4.2 Ensidige konfidensintervaller...149 7.4.3 Venstre grense intervall...150 7.4.4 Høyre grense intervall...150 Skrevet av: Kjetil Sander Side 5 av 150 Kopiering ikke tillatt!

1 Dataanalyse Når dataene er samlet inn, kodet og organisert kan vi begynne dataanalysen som skal lede frem til at vi finner svaret på vår problemstilling. 1.1 Hva er en dataanalyse? Dataanalyse kan defineres som: "Systematisk bearbeiding av innsamlet informasjon" Dataanalysens formål er å kategorisere de innsamlede dataene slik at vi kan beskrive og analysere det vi har funnet. Hva karakteriserer dataene? Finnes det mønstre og/eller relasjoner? Kan sammenhengen mellom variabler skyldes mellomliggende årsaksforhold? Dataanalysens mål er å forenkle datamengden slik at det blir mulig å besvare undersøkelsens problemstilling ved å se på det innsamlede datamaterialets bakenforliggende mønster og relasjoner. 1.2 Faktorer som avgjør analysearbeidet Den viktigste enkeltfaktoren som avgjør analysevalget er problemstillingen. Dette fordi analysens formål er å løse problemstillingen forskningsprosjektet bygger på. Deretter vil faktorer som tid, penger, kunnskap og ressurser styre analysevalget i stor grad. Etter at vi har tatt hensyn til overstående faktorer, vil de innsamlede dataene i seg selv avgjøre hvilke analyser vi kan gjøre. Når det gjelder det innsamlede datamaterialet vil datainnsamlingmetoden, utvalget og variabelens egenskaper og målenivå vil være de største begrensningen for hva slags analyse som kan foretas. Skrevet av: Kjetil Sander Side 6 av 150 Kopiering ikke tillatt!