Dataens tidsalder. Hvorfor data? Data, data, data. STK1000 Innføring i anvendt statistikk. Tirsdag 24. august 2010

Like dokumenter
Kapittel 1: Data og fordelinger

STK1000 Innføring i anvendt statistikk

Deskriptiv statistikk., Introduksjon til dataanalyse

Deskriptiv statistikk., Introduksjon til dataanalyse

ting å gjøre å prøve å oppsummere informasjonen i Hva som er hensiktsmessig måter å beskrive dataene på en hensiktsmessig måte.

Eksempel på data: Karakterer i «Stat class» Introduksjon

ØVINGER 2017 Løsninger til oppgaver. Øving 1

UNIVERSITETET I OSLO

Statistikk. Forkurs 2017

Statistikk. Forkurs 2018

Seksjon 1.3 Tetthetskurver og normalfordelingen

Statistikk 1. Nico Keilman. ECON 2130 Vår 2014

Introduksjon. Viktige begreper for å beskrive data: Enheter som er objektene i datasettet. «label» som av og til brukes for å skille enhetene

ECON Statistikk 1 Forelesning 2: Innledning

ST0103 Brukerkurs i statistikk Høst 2014

1 Sec 3-2: Hvordan beskrive senteret i dataene. 2 Sec 3-3: Hvordan beskrive spredningen i dataene

Et lite notat om og rundt normalfordelingen.

ST0202 Statistikk for samfunnsvitere. Bo Lindqvist Institutt for matematiske fag

Et lite notat om og rundt normalfordelingen. Anta at vi har kontinuerlige data. Hva er likt og ulikt for histogrammer og fordelingskurver?

STK1000 Uke 36, Studentene forventes å lese Ch 1.4 ( ) i læreboka (MMC). Tetthetskurver. Eksempel: Drivstofforbruk hos 32 biler

Tema: Deskriptiv statistikk for kontinuerlige data. Av Kathrine Frey Frøslie,

Øving 1 TMA Grunnleggende dataanalyse i Matlab

Statistikk for språk- og musikkvitere 1

Sannsynlighetsregning og Statistikk.

Statistisk beskrivelse av enkeltvariabler. SOS1120 Kvantitativ metode. Disposisjon. Datamatrisen. Forelesningsnotater 6. forelesning høsten 2005

Øving 1 TMA Grunnleggende dataanalyse i Matlab

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Et lite notat om og rundt normalfordelingen.

ST0202 Statistikk for samfunnsvitere. Bo Lindqvist Institutt for matematiske fag

Introduksjon til statistikk og dataanalyse. Arild Brandrud Næss TMA4240 Statistikk NTNU, høsten 2013

Loven om total sannsynlighet. Bayes formel. Testing for sykdom. ST0202 Statistikk for samfunnsvitere

Lærebok Robert Johnson og Patricia Kuby: Elementary Statistics, 10. utgave. Pensumoversikt. Forelesninger og øvinger

Basisoppgaver til 2P kap. 3 Statistikk

Analyseoversikt, Uke 35

Introduksjon til statistikk og dataanalyse

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

2P, Statistikk Quiz. Test, 2 Statistikk

Velkommen til TMA4240. Velkommen til TMA / 18

Akkurat den samme begrunnelsen som vi brukte med variabelen X 2. "Jeg bruker internett mye mer på i-phone nå enn det jeg gjorde før på mobilen.

Forkurs i kvantitative metoder ILP 2019

ST0202 Statistikk for samfunnsvitere

Statistikk og dataanalyse

Kapittel 2. Utforske og beskrive data. Sammenhenger mellom variable

Seksjon 1.3 Tetthetskurver og normalfordelingen

Beskrivende statistikk Litt om SPSS

MATEMATIKK (MAT1005) Sentralmål / Spredningsmål

ST0202 Statistikk for samfunnsvitere

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

MATEMATIKK (MAT1005) Sentralmål / Spredningsmål

Dataanalyse. Hva er en dataanalyse og hvordan gå frem for å gjennomføre en dataanalyse av det innsamlede datagrunnlaget fra en feltundersøkelse?

Når du har arbeidet deg gjennom dette kapittelet, er målet at du skal kunne

UNIVERSITETET I OSLO

Lærebok Robert Johnson og Patricia Kuby: Elementary Statistics, 10. utgave. Pensumoversikt. Oversikt. ST0202 Statistikk for samfunnsvitere

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

Fordelinger, mer om sentralmål og variasjonsmål. Tron Anders Moger

Statistikk Løsninger. Innhold. Statistikk Vg2P

Innhold. Innledning. Del I

Kapittel 3: Studieopplegg

Gruppeoppgave 5.-7.trinn:

Sentralmål og spredningsmål

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010

BEGYNNERKURS I SPSS. Anne Schad Bergsaker 24. november 2017

UNIVERSITETET I OSLO

Kapittel 1: Introduksjon til statistikk og dataanalyse Foreleses tirsdag 9. januar 2007.

STK1000 Obligatorisk oppgave 1 av 2

Analyse av kontinuerlige data. Intro til hypotesetesting. 21. april Seksjon for medisinsk statistikk, UIO. Tron Anders Moger

1 Grafisk framstilling av datamateriale

Oppgaver til Studentveiledning 4 MET 3431 Statistikk

2P kapittel 3 Statistikk Utvalgte løsninger oppgavesamlingen

ST0202 Statistikk for samfunnsvitere

Utvalgsfordelinger. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer.

ST0202 Statistikk for samfunnsvitere

Øving 7: Statistikk for trafikkingeniører

Oppgaver til Studentveiledning 3 MET 3431 Statistikk

TMA 4255 Forsøksplanlegging og anvendte statistiske metoder

Kapittel 2. Utforske og beskrive data. Sammenhenger mellom variable

LØSNING: Oppgavesett nr. 1

Oppfriskning av blokk 1 i TMA4240

2P kapittel 3 Statistikk Løsninger til innlæringsoppgavene

Mål på beliggenhet (2.6) Beregning av kvartilene Q 1, Q 2, Q 3. 5-tallssammendrag. ST0202 Statistikk for samfunnsvitere

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

INNHOLD. Matematikk for ungdomstrinnet

Beskrivende statistikk.

UNIVERSITETET I OSLO

Sentralmål og spredningsmål

Kort overblikk over kurset sålangt

Forelesning 23 og 24 Wilcoxon test, Bivariate Normal fordeling

Inferens i fordelinger

Oppgaven består av 10 delspørsmål som anbefales å veie like mye, Kommentarer og tallsvar er skrevet inn mellom <<, >>, Oppgave 1

UNIVERSITETET I OSLO

ECON Statistikk 1 Forelesning 1: Innledning

Utvalgsfordelinger; utvalg, populasjon, grafiske metoder, X, S 2, t-fordeling, χ 2 -fordeling

ST0202 Statistikk for samfunnsvitere [1]

Utvalgsfordelinger (Kapittel 5)

Despriptiv statistikk

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007

2P kapittel 3 Statistikk Løsninger til innlæringsoppgavene

Kapittel 2. Utforske og beskrive data. Sammenhenger mellom variable Kap. 2.1 om assosiasjon og kryssplott forrige uke. Kap. 2.2, 2.3, 2.

Statistikk 2P, Prøve 1 løsning

Transkript:

STK1000 Innføring i anvendt statistikk Tirsdag 24. august 2010 Geir Storvik (modifisert etter I. Glad s tidligere presentasjon) 1 Data, data, data Genetiske data World Wide Web Overvåkning Medisinske bilder Finansielle data Dataens tidsalder 2 Hvorfor data? Verifisere hypotese Vil klimaet endre seg? Vil en ny behandlingsmetode gi forbedrede effekter? Gjøre prediksjoner Hvor stor blir torskebestanden neste år? Hva blir aksjekursen i morgen? Statistikk: Metoder for å analysere data 3 1

Statistikk hva og hvorfor Hva: Moore og McCabe: Statistikk er vitenskapen om å innsamle, orgainsere, og tolke numeriske fakta, som vi kaller data. Hvorfor: Oppnå større forståelse om problemet fra data 4 Når trenger vi statistisk analyse? Skal en ny type medisin komme på blå resept? Hva skal livsforsikringspremien være for en kvinne på 30 år som røyker? Bør jeg velge en fast strømpris nå? Hva vil forurensningsnivået bli i Oslo i dag? Hvor store kvoter skal vi sette på fangst av fisk? Beslutninger basert på data/modeller om problemet. Statistikk: Metoder for å analysere data 5 I løpet av dette kurset skal dere bli fortrolig med statistisk tenkemåte forstå teori og metoder som ligger bak knappene/menyene i vanlige statistikkpakker få trening i enkel analyse av data vha. dataverktøy lære å tolke statistiske opplysninger (spesielt i faglitteratur) 6 2

Lærebok 7 Innhold i kurset Eksplorativ data analyse (kap 1-3) Sannsynligheter og modeller (kap 4-5) Dataanalyse for ulike problemstillinger Generelle begreper, estimering/testing (Kap 6) Egenskaper ved et datasett (Kap 7.1) Sammenlikning av to datasett (Kap 7.2) Regresjon/sammenheng mellom variable (kap 10) 8 Kapittel 1: Data og fordelinger Beskrive, forstå og utforske data 9 3

Hvordan beskrive og forstå data Kap. 1.1 og 1.2 Grafisk beskrivelse av data Sentralmål Spredningsmål Kap. 1.3 om fordelinger 10 Hva er data? Data kommer fra et sett individer. Kjennetegn som kan knyttes til hvert individ organiseres i variable. Eksempler: Individer: personer, batterier, bananfluer, målestasjoner, tabletter, Variable: kjønn, blodtrykk, levetid, ekspresjon av bestemt gen, lufttemperatur, vekt,... 11 Eksempel på data: 12 4

Innsamling av data Forsøksstudier el. observasjonsstudier Må planlegges (Hvilke spørsmål ønsker man å belyse, hva skal man måle/observere på hvem?) Statistisk forsøksplanlegging Her: litt i kap. 3 13 Eksplorativ dataanalyse Starter med å studere hver variabel for seg (Kap. 1) Deretter sammenhenger mellom variable (Kap. 2) Start med grafiske metoder (Kap. 1.1) Deretter numeriske oppsummeringer (Kap. 1.2) Start alltid statistiske analyser med eksplorativ analyse! 14 To typer variable Kategoriske (ikke-numeriske) data god, middels eller dårlig testresultat (ordnet) røyker eller ikke-røyker (ikke ordnet) kvinne eller mann (ikke ordnet) Kvantitative (numeriske) data antall fødte barn antall pulsslag per minutt Årsinntekt født i 1975 høyde, vekt genekspresjon temperatur 15 5

Fordelingen til en variabel beskriver Hvilke verdier variabelen kan ta Hvor ofte den tar disse verdiene Et datasett er et sett med observerte verdier for en eller flere variable på et antall individer. Fordelingen til en variabel kan utforskes ved hjelp av grafikk og enkle beregninger. 16 Så dette er et datasett: Kategoriske variable? Numeriske variable? 17 1.1 Fordelinger beskrevet med grafikk Skiller mellom kategoriske og numeriske variable 18 6

Antall (av 1100) Diagrammer for kategoriske data 45 40 35 0 41 % A 44% 30 25 20 blodtype 15 10 5 0 0 AB B A AB 5% B 10% Diagrammer for kategoriske data fremstiller antall eller andel i hver kategori Stolpe- og smultringsdiagram over blodtypefordeling 19 200 300 200 100 SOVEVANE Sovevane På magen 100 Vet ikke På ryggen På siden På siden På ryggen 0 Kvinne<40 Mann<40 Vet ikke 0 Kvinne<40 Mann<40 På magen Kvinne>40 Mann>40 Kvinne>40 Mann>40 Kjønn/alder Kjønn/alder Søylediagram og stablet søylediagram for sovevaner. 20 Data kan også være subjektive (i motsetning til objektive målinger): Her er variabelen som er målt på hvert individ subjektiv vurdering av egen helse Andel som betrakter sin helse som god eller svært god 21 7

Grafiske metoder for numeriske variable Eksempel 1.4 Registrering av telefonsamtaler, kundeservice bank 31492 samtaler i løpet av en måned Individer: hver samtale Variabel: lengden av samtalen (i sekunder) 22 De 80 første registreringene: 23 Hva slags figur er dette? Hva ser vi? 24 8

Relativ andel Enkleste metode: Histogrammer 1. Del verdiområdet til variabelen opp i intervaller 2. Tell opp antall individer i hvert intervall 3. Tegn søyler som tilsvarer antall i intervallet Problem: antall intervaller 25 Default intervallbredde i programvare ofte OK 26 Histogram med relative andeler (normert) Antall fødte barn Antall kvinner med så mange fødte barn Relativ frekvens 0 12 0,116 1 34 0,330 2 28 0,272 3 19 0,184 4 5 0,049 5 3 0,029 6 0 0,000 7 1 0,010 8 1 0,010 Totalt 103 1.000 Frekvenstabell for kvinners fruktbarhet.,4,3,2,1 0,0 0 1 2 3 4 5 6 7 8 Antall barn Arealet av hver søyle tilsvarer relativ 27 andel obs. i intervallet søylen dekker 9

Historisk datasett Gjentatte målinger av samme størrelse 28 Papir-og-blyant-alternativ til histogram: Stilk-og-blad-plott: første siffer stilk, siste siffer blad -0 2 0 0 1 1 669 2 0112233344444 2 5555566666777777888888899999 3 0001122222334 3 666679 4 0 (Newcombs målinger) 29 30 10

Hva ser vi etter? Når vi vurderer fordelingen til datasettet ser vi spesielt etter -Form, senter og spredning (en eller flere topper, symmetrisk eller skjev, midtpunkt, minste og største verdi...) -Uteliggere (outliers) (typisk målinger der noe gikk galt, men kan også være reelle, dvs. tegn på skjeve fordelinger el. tunge haler. Forsøk alltid å finne en forklaring!) 31 32 Definisjon høyreskjev: Hale mot høyre, som her Definisjon venstreskjev: Hale mot venstre 33 11

Høyreskjev! Samtaler på 8 timer og 1-2 timer OUTLIERS eller reelle ekstreme tilfeller? 34 Andre typer plott for eksplorativ dataanalyse unit Tidsrekkeplott 25 1 1 128 sec Observasjoner gjort over tid 35 Rekkefølgen forsøkene ble foretatt i Ta hensyn til læring! 36 12

1.2 Fordelinger beskrevet med tall Grafisk fremstilling suppleres med numeriske mål (tall!) som beskriver fordelingen ytterligere Sentralmål (beliggenhet) Spredningsmål 37 Kjønn Høyde (cm) 1 G 178,0 2 G 177,0 3 J 164,0 4 G 185,0 5 J 156,0 6 J 176,0 7 G 152,0 8 G 186,0 9 G 192,0 10 J 181,0 11 J 145,0 12 J 168,0 13 J 174,0 14 G 178,0 15 J 171,0 16 G 184,0 17 G 182,0 18 J 155,0 19 J 167,0 Gjennomsnittlig høyde for alle studentene: x 178 177 164 169 20 Gjennomsnittlig høyde for guttene: x g x j Gjennomsnitt - sentralmål 178 177 185 164 156 176 20 J 169,0 Oversikt over kjønn og høyde for 20 studenter, 9 gutter og 11 jenter 9 11 182 Gjennomsnittlig høyde for jentene: 169 171,95 179,22 166,00 38 39 13

Def. gjennomsnitt (mean) Gjennomsnittet av et sett av variable er summen av variablene delt på antallet: x x 1 x 2 x n 3 x n 40 Kjønn Høyde (cm) 1 J 145 2 G 152 3 J 155 4 J 156 5 J 164 6 J 167 7 J 168 8 J 169 9 J 171 10 J 174 11 J 176 12 G 177 13 G 177 14 G 178 15 J 181 16 G 182 17 G 184 18 G 185 19 G 186 20 G 192 ordne data! Median høyde for alle studentene blir ~ x x 174 176 x (10 ) (11 ) 2 2 Median høyde for (9) guttene: ~ x g x 182 g ( 5 ) Median høyde for (11) jentene: ~ x j x j ( 6 ) 168 Tabell: Oversikt over kjønn og høyde for 20 studenter (sortert etter høyde) Median M - sentralmål: halvparten av observasjonene er mindre enn M, halvparten er større. 41 Def. median M Medianen M i et datasett med n observasjoner er et tall slik at halvparten av observasjonene er mindre enn tallet og den andre halvparten er større n oddetall: n partall: M = midterste observasjon M = gjennomsnitt av de to midterste observasjonene 42 14

Gjennomsnitt vs. Median Forskjellen mellom gjennomsnitt og median, eksempler : (a) 1, 2, 9... median 2.0... gjennomsnitt 4.0 (b) 1, 8, 9... median 8.0... gjennomsnitt 6.0 (c) 1, 2, 8, 9... median 5.0... gjennomsnitt 5.0 (d) 1, 2, 3, 9... median 2.5... gjennomsnitt 3.75 I (c) er de to sentralmålene like. Dette er kun tilfelle når fordelingen er symmetrisk. I skjeve fordelinger ligger gjennomsnittet lenger ut i halen (d). Beregning av begge er nyttig for å vurdere skjevhet. Gjennomsnittet er svært følsomt for ekstreme observasjoner. Medianen er mer robust i forhold til disse. (e) 1, 2, 8, 9, 35... median 8... mean 11 (f) 1, 2, 8, 9, 350... median 8... mean 74 43 Spredningsmål Range: (minimum, maksimum) - spredningsmål» evt. maksimum - minimum IQR, interkvartil avstand: - spredningsmål p% persentil (fraktil): p % av obs. er mindre enn dette tallet. M = median = 50% persentil Q1 = 1. kvartil = 25% persentil Q3 = 3. kvartil = 75% persentil 44 Spredningsmål Range: (minimum, maksimum)» evt. maksimum minimum» Følsom for ekstreme verdier IQR, interkvartil avstand: - Avstand mellom 1. og 3. kvartil 1. kvaril: Verdi som 25% av data ligger nedenfor 2. kvartil: Verdi som 50% av data ligger nedenfor (= median) 3. kvartil: Verdi som 75% av data ligger nedenfor 45 15

Persentiler p% persentil (fraktil): p % av obs. er mindre enn dette tallet. M = median = 50% persentil Q1 = 1. kvartil = 25% persentil Q3 = 3. kvartil = 75% persentil 46 Q1 og Q3 beregner vi lettest som medianen i de obs. som er hhv. mindre og større enn medianen M n partall: 1 2 3 4 5 6 7 8 9 10 Q1 Q3 n oddetall: 1 2 3 4 5 6 7 8 9 IQR = Q3-Q1 = Inter Quartile Range = lengden på det intervallet de midterste 50% av observasjonene ligger i 47 Fem-talls-oppsummering Et datasett oppsummeres ofte med fem størrelser: Min Q1 M Q3 Max Et boxplott er en grafisk fremstilling av disse! 48 16

Min Q1 M Q3 Max 49 Et boksplott er mindre informativt enn et histogram, men egner seg godt til å sammenligne to eller flere datasett! OUTLIERS: 1.5xIQR-kriteriet Hvis en observasjon er større enn Q3+1.5xIQR eller mindre enn Q1-1.5xIQR, så er observasjonen en potensiell uteligger. 50 51 17

Boksplott detaljer 52 53 Boxplott Newcombs data, fra Minitab max Q3 M Q1 nest minste Outlier! 54 18

Spredning: Varians og standardavvik 55 Standardavvik eksempel 56 Standardavvik eksempel Kvinne nr. Varighet i dager av menstruasjonsperioder 1 25 25 26 29 25 24 24 25 29 24 23 22 27 24 27 25 2 26 24 27 29 26 29 28 26 23 29 27 27 23 22 25 23 3 30 35 32 37 34 29 35 35 28 29 30 27 32 27 1 x 1 (25 25 26 16 25 ) 25,25 1 2 2 2 2 s 1 [( 25 25,25 ) ( 25 25,25 ) ( 26 25,25 ) ( 25 25,25 ) ] 15 1,95 x 2 25,88 s 2 2, 33 x 3 31,43 s 3 3, 32 57 19

Kommentarer 58 59 Egenskaper standardavvik 60 20

Oppsummering hva skal vi velge? 61 Endring av skala 62 63 21

Lineær transformasjon 64 Regler for effekten av lineær transformasjon 65 22