Kapittel 1: Data og fordelinger

Like dokumenter
Dataens tidsalder. Hvorfor data? Data, data, data. STK1000 Innføring i anvendt statistikk. Tirsdag 24. august 2010

STK1000 Innføring i anvendt statistikk

ting å gjøre å prøve å oppsummere informasjonen i Hva som er hensiktsmessig måter å beskrive dataene på en hensiktsmessig måte.

Eksempel på data: Karakterer i «Stat class» Introduksjon

Deskriptiv statistikk., Introduksjon til dataanalyse

Deskriptiv statistikk., Introduksjon til dataanalyse

ØVINGER 2017 Løsninger til oppgaver. Øving 1

Seksjon 1.3 Tetthetskurver og normalfordelingen

Statistikk 1. Nico Keilman. ECON 2130 Vår 2014

UNIVERSITETET I OSLO

ST0103 Brukerkurs i statistikk Høst 2014

Introduksjon. Viktige begreper for å beskrive data: Enheter som er objektene i datasettet. «label» som av og til brukes for å skille enhetene

Statistikk. Forkurs 2017

1 Sec 3-2: Hvordan beskrive senteret i dataene. 2 Sec 3-3: Hvordan beskrive spredningen i dataene

Statistikk. Forkurs 2018

ECON Statistikk 1 Forelesning 2: Innledning

STK1000 Uke 36, Studentene forventes å lese Ch 1.4 ( ) i læreboka (MMC). Tetthetskurver. Eksempel: Drivstofforbruk hos 32 biler

Et lite notat om og rundt normalfordelingen.

Et lite notat om og rundt normalfordelingen. Anta at vi har kontinuerlige data. Hva er likt og ulikt for histogrammer og fordelingskurver?

Et lite notat om og rundt normalfordelingen.

Tema: Deskriptiv statistikk for kontinuerlige data. Av Kathrine Frey Frøslie,

Øving 1 TMA Grunnleggende dataanalyse i Matlab

Sannsynlighetsregning og Statistikk.

Akkurat den samme begrunnelsen som vi brukte med variabelen X 2. "Jeg bruker internett mye mer på i-phone nå enn det jeg gjorde før på mobilen.

Øving 1 TMA Grunnleggende dataanalyse i Matlab

Basisoppgaver til 2P kap. 3 Statistikk

ST0202 Statistikk for samfunnsvitere. Bo Lindqvist Institutt for matematiske fag

Analyseoversikt, Uke 35

Introduksjon til statistikk og dataanalyse

Introduksjon til statistikk og dataanalyse. Arild Brandrud Næss TMA4240 Statistikk NTNU, høsten 2013

2P, Statistikk Quiz. Test, 2 Statistikk

Statistikk for språk- og musikkvitere 1

Seksjon 1.3 Tetthetskurver og normalfordelingen

Kapittel 2. Utforske og beskrive data. Sammenhenger mellom variable

Statistisk beskrivelse av enkeltvariabler. SOS1120 Kvantitativ metode. Disposisjon. Datamatrisen. Forelesningsnotater 6. forelesning høsten 2005

Velkommen til TMA4240. Velkommen til TMA / 18

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Statistikk og dataanalyse

ST0202 Statistikk for samfunnsvitere. Bo Lindqvist Institutt for matematiske fag

Lærebok Robert Johnson og Patricia Kuby: Elementary Statistics, 10. utgave. Pensumoversikt. Forelesninger og øvinger

Forkurs i kvantitative metoder ILP 2019

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010

Loven om total sannsynlighet. Bayes formel. Testing for sykdom. ST0202 Statistikk for samfunnsvitere

Beskrivende statistikk Litt om SPSS

MATEMATIKK (MAT1005) Sentralmål / Spredningsmål

Lærebok Robert Johnson og Patricia Kuby: Elementary Statistics, 10. utgave. Pensumoversikt. Oversikt. ST0202 Statistikk for samfunnsvitere

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

MATEMATIKK (MAT1005) Sentralmål / Spredningsmål

ST0202 Statistikk for samfunnsvitere

Fordelinger, mer om sentralmål og variasjonsmål. Tron Anders Moger

UNIVERSITETET I OSLO

Innhold. Innledning. Del I

BEGYNNERKURS I SPSS. Anne Schad Bergsaker 24. november 2017

Dataanalyse. Hva er en dataanalyse og hvordan gå frem for å gjennomføre en dataanalyse av det innsamlede datagrunnlaget fra en feltundersøkelse?

Kapittel 3: Studieopplegg

Statistikk Løsninger. Innhold. Statistikk Vg2P

UNIVERSITETET I OSLO

Når du har arbeidet deg gjennom dette kapittelet, er målet at du skal kunne

ST0202 Statistikk for samfunnsvitere

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Kapittel 2. Utforske og beskrive data. Sammenhenger mellom variable

UNIVERSITETET I OSLO

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007

Øving 7: Statistikk for trafikkingeniører

Utvalgsfordelinger; utvalg, populasjon, grafiske metoder, X, S 2, t-fordeling, χ 2 -fordeling

Kapittel 1: Introduksjon til statistikk og dataanalyse Foreleses tirsdag 9. januar 2007.

Oppgaver til Studentveiledning 4 MET 3431 Statistikk

INNHOLD. Matematikk for ungdomstrinnet

Sentralmål og spredningsmål

Analyse av kontinuerlige data. Intro til hypotesetesting. 21. april Seksjon for medisinsk statistikk, UIO. Tron Anders Moger

Sentralmål og spredningsmål

1 Grafisk framstilling av datamateriale

Oppgaver til Studentveiledning 3 MET 3431 Statistikk

Gruppeoppgave 5.-7.trinn:

STK1000 Obligatorisk oppgave 1 av 2

Oppgaven består av 10 delspørsmål som anbefales å veie like mye, Kommentarer og tallsvar er skrevet inn mellom <<, >>, Oppgave 1

Utvalgsfordelinger. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer.

ECON240 Vår 2018 Oppgaveseminar 1 (uke 6)

ST0202 Statistikk for samfunnsvitere

2P kapittel 3 Statistikk Utvalgte løsninger oppgavesamlingen

UNIVERSITETET I OSLO

MASTER I IDRETTSVITENSKAP 2014/2016. Utsatt individuell skriftlig eksamen. STA 400- Statistikk. Mandag 24. august 2015 kl

Oppfriskning av blokk 1 i TMA4240

Utvalgsfordelinger (Kapittel 5)

Mål på beliggenhet (2.6) Beregning av kvartilene Q 1, Q 2, Q 3. 5-tallssammendrag. ST0202 Statistikk for samfunnsvitere

2P kapittel 3 Statistikk Løsninger til innlæringsoppgavene

Medisinsk statistikk Del I høsten 2009:

Kapittel 2. Utforske og beskrive data. Sammenhenger mellom variable Kap. 2.1 om assosiasjon og kryssplott forrige uke. Kap. 2.2, 2.3, 2.

Tabell 1: Beskrivende statistikker for dataene

UNIVERSITETET I OSLO

ST0202 Statistikk for samfunnsvitere

MASTER I IDRETTSVITENSKAP 2014/2016. Individuell skriftlig eksamen. STA 400- Statistikk. Fredag 13. mars 2015 kl

LØSNING: Oppgavesett nr. 1

Statistikk er begripelig

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

2P kapittel 3 Statistikk Løsninger til innlæringsoppgavene

BEGYNNERKURS I SPSS. Anne Schad Bergsaker 3. mai 2018

Forelesning 23 og 24 Wilcoxon test, Bivariate Normal fordeling

Kort overblikk over kurset sålangt

Transkript:

STK Innføring i anvendt statistikk Mandag 8. august 8 Ingrid K. lad I løpet av dette kurset skal dere bli fortrolig med statistisk tenkemåte forstå teori og metoder som ligger bak knappene/menyene i vanlige statistikkpakker få trening i enkel analyse av data vha. dataverktøy lære å tolke statistiske opplysninger (spesielt i faglitteratur) Hvordan beskrive og forstå data Kapittel : Data og fordelinger Beskrive, forstå og utforske data Kap.. og. rafisk beskrivelse av data Sentralmål Spredningsmål Kap.. om fordelinger neste uke 4 Hva er data? Eksempel på data: Data kommer fra et sett individer. Kjennetegn som kan knyttes til hvert individ organiseres i variable. Eksempler: Individer: personer, batterier, bananfluer, målestasjoner, tabletter, Variable: kjønn, blodtrykk, levetid, ekspresjon av bestemt gen, lufttemperatur, vekt,... 6

Innsamling av data Forsøksstudier el. observasjonsstudier Må planlegges (Hvilke spørsmål ønsker man å belyse, hva skal man måle/observere på hvem?) Statistisk forsøksplanlegging Her: litt i kap. Eksplorativ dataanalyse Starter med å studere hver variabel for seg (Kap. ) Deretter sammenhenger mellom variable (Kap. ) Start med grafiske metoder (Kap..) Deretter numeriske oppsummeringer (Kap..) 7 Start alltid statistiske analyser med eksplorativ analyse! 8 To typer variable Kategoriske (ikke-numeriske) data god, middels eller dårlig testresultat (ordnet) 6MP, Imurel, Prednisolon, eller Budensonide (ikke ordnet) røyker eller ikke-røyker (ikke ordnet) kvinne eller mann (ikke ordnet) Kvantitative (numeriske) data antall fødte barn antall pulsslag per minutt Årsinntekt født i 97 høyde, vekt genekspresjon temperatur 9 Fordelingen til en variabel beskriver Hvilke verdier variabelen kan ta Hvor ofte den tar disse verdiene Et datasett er et sett med observerte verdier for en eller flere variable på et antall individer. Fordelingen til en variabel kan utforskes ved hjelp av grafikk og enkle beregninger. Så dette er et datasett:. Fordelinger beskrevet med grafikk Skiller mellom kategoriske og numeriske variable Kategoriske variable? Numeriske variable?

Diagrammer for kategoriske data 4 4 blodtype 4 % A 44% Antall (av ) SOVEVANE På magen Antall (av ) Sovevane Vet ikke AB B A AB % B % På ryggen På siden På siden På ryggen Diagrammer for kategoriske data fremstiller antall eller andel i hver kategori Kvinne<4 Mann<4 Kvinne>4 Mann>4 Kjønn/alder Vet ikke Kvinne<4 Mann<4 Kvinne>4 Mann>4 Kjønn/alder På magen Stolpe- og smultringsdiagram over blodtypefordeling Søylediagram og stablet søylediagram for sovevaner. 4 Data kan også være subjektive (i motsetning til objektive målinger): Her er variabelen som er målt på hvert individ subjektiv vurdering av egen helse rafiske metoder for numeriske variable Eksempel.4 Registrering av telefonsamtaler, kundeservice bank 49 samtaler i løpet av en måned Individer: hver samtale Variabel: lengden av samtalen (i sekunder) Andel som betrakter sin helse som god eller svært god 6 De 8 første registreringene: Hva slags figur er dette? Hva ser vi? 7 8

Enkleste metode: Histogrammer. Del verdiområdet til variabelen opp i intervaller. Tell opp antall individer i hvert intervall. Tegn søyler som tilsvarer antall i intervallet Default intervallbredde i programvare ofte OK Problem: antall intervaller 9 Histogram med relative andeler (normert) Historisk datasett Antall fødte barn 4 6 7 8 Totalt Antall kvinner med så mange fødte barn 4 8 9 Relativ frekvens,6,,7,84,49,9,,,. Frekvenstabell for kvinners fruktbarhet. Relativ andel,4,,,, 4 6 7 8 Antall barn Arealet av hver søyle tilsvarer relativ andel obs. i intervallet søylen dekker jentatte målinger av samme størrelse Papir-og-blyant-alternativ til histogram: Stilk-og-blad-plott: første siffer stilk, siste siffer blad - 669 44444 66666777777888888899999 4 666679 4 (Newcombs målinger) 4 4

Hva ser vi etter? Når vi vurderer fordelingen til datasettet ser vi spesielt etter -Form, senter og spredning (en eller flere topper, symmetrisk eller skjev, midtpunkt, minste og største verdi...) -Uteliggere (outliers) (typisk målinger der noe gikk galt, men kan også være reelle, dvs. tegn på skjeve fordelinger el. tunge haler. Forsøk alltid å finne en forklaring!) Definisjon høyreskjev: Hale mot høyre, som her Definisjon venstreskjev: Hale mot venstre 6 Høyreskjev! Samtaler på 8 timer og - timer OUTLIERS eller reelle ekstreme tilfeller? 7 8 Andre typer plott for eksplorativ dataanalyse unit Tidsrekkeplott Rekkefølgen forsøkene ble foretatt i Ta hensyn til læring! 8 sec Observasjoner gjort over tid 9

. Fordelinger beskrevet med tall rafisk fremstilling suppleres med numeriske mål (tall!) som beskriver fordelingen ytterligere Sentralmål (beliggenhet) Spredningsmål 4 6 7 8 9 4 6 7 8 9 Kjønn Høyde (cm) 78, 77, 64, 8, 6, 76,, 86, 9, 8, 4, 68, 74, 78, 7, 84, 8,, 67, 69, jennomsnittlig høyde for alle studentene: 78+ 77+ 64+ L+ 69 x = = 7,9 jennomsnittlig høyde for guttene: x g x j jennomsnitt - sentralmål 78 + 77 + 8 + L + 8 = 9 jennomsnittlig høyde for jentene: 64 + 6 + 76 + L + 69 = Oversikt over kjønn og høyde for studenter, 9 gutter og jenter = 79, = 66, Def. gjennomsnitt (mean) Kjønn Høyde (cm) 4 ordne data! Median M - sentralmål: halvparten av observasjonene er mindre enn M, halvparten er større. 4 6 7 8 9 6 64 67 68 69 7 74 76 77 Median høyde for alle studentene blir ~ x() + x() 74 + 76 x = = Median høyde for (9) guttene: ~ x g = x g ( ) = 8 4 6 77 78 8 8 Median høyde for () jentene: ~ x j = x j (6) = 68 7 84 8 9 8 86 9 Tabell: Oversikt over kjønn og høyde for studenter (sortert etter høyde) 4 Def. median M Medianen M i et datasett med n observasjoner er et tall slik at halvparten av observasjonene er mindre enn tallet og den andre halvparten er større n oddetall: n partall: M = midterste observasjon M = gjennomsnitt av de to midterste observasjonene jennomsnitt vs. Median Forskjellen mellom gjennomsnitt og median, eksempler : (a),, 9... median.... gjennomsnitt 4. (b), 8, 9... median 8.... gjennomsnitt 6. (c),, 8, 9... median.... gjennomsnitt. (d),,, 9... median.... gjennomsnitt.7 I (c) er de to sentralmålene like. Dette er kun tilfelle når fordelingen er symmetrisk. I skjeve fordelinger ligger gjennomsnittet lenger ut i halen (d). Beregning av begge er nyttig for å vurdere skjevhet. jennomsnittet er svært følsomt for ekstreme observasjoner. Medianen er mer robust i forhold til disse. (e),,... median... mean.7 (f),,... median... mean 9. 6 6

Range: (minimum, maksimum) - spredningsmål evt. maksimum - minimum IQR, interkvartil avstand: - spredningsmål Q og Q beregner vi lettest som medianen i de obs. som er hhv. mindre og større enn medianen M n partall: 4 6 7 8 9 Q Q p% persentil (fraktil): p % av obs. er mindre enn dette tallet. M = median = % persentil Q =. kvartil = % persentil Q =. kvartil = 7% persentil n oddetall: 4 6 7 8 9 IQR = Q-Q = Inter Quartile Range = det intervallet de midterste % av observasjonene ligger i 7 8 Fem-talls-oppsummering Et datasett oppsummeres ofte med fem størrelser: Min Q M Q Max Et boxplott er en grafisk fremstilling av disse! Min Q M Q Max 9 4 Et boksplott er mindre informativt enn et histogram, men egner seg godt til å sammenligne to eller flere datasett! OUTLIERS:.xIQR-kriteriet Hvis en observasjon er større enn Q+.xIQR eller mindre enn Q-.xIQR, så er observasjonen en potensiell uteligger. 4 4 7

Boksplott detaljer 4 44 Boxplott Newcombs data, fra Minitab Spredning: Varians og standardavvik max Q M Q nest minste Outlier! 4 46 Standardavvik eksempel Standardavvik eksempel Kvinne nr. Varighet i dager av menstruasjonsperioder 6 9 4 4 9 4 7 4 7 6 4 7 9 6 9 8 6 9 7 7 7 4 9 8 9 7 7 47 x = ( + + 6 + L+ ) =, 6 s = [(,) + (,) + (6,) + L+ (,) ],9 = x =,88 s =, x =,4 s =, 48 8

Kommentarer 49 Egenskaper standardavvik Oppsummering hva skal vi velge? Endring av skala 4 9

Lineær transformasjon Regler for effekten av lineær transformasjon 6