Kapittel 1: Data og fordelinger

STK Innføring i anvendt statistikk Mandag 8. august 8 Ingrid K. lad I løpet av dette kurset skal dere bli fortrolig med statistisk tenkemåte forstå teori og metoder som ligger bak knappene/menyene i vanlige statistikkpakker få trening i enkel analyse av data vha. dataverktøy lære å tolke statistiske opplysninger (spesielt i faglitteratur) Hvordan beskrive og forstå data Kapittel : Data og fordelinger Beskrive, forstå og utforske data Kap.. og. rafisk beskrivelse av data Sentralmål Spredningsmål Kap.. om fordelinger neste uke 4 Hva er data? Eksempel på data: Data kommer fra et sett individer. Kjennetegn som kan knyttes til hvert individ organiseres i variable. Eksempler: Individer: personer, batterier, bananfluer, målestasjoner, tabletter, Variable: kjønn, blodtrykk, levetid, ekspresjon av bestemt gen, lufttemperatur, vekt,... 6

Innsamling av data Forsøksstudier el. observasjonsstudier Må planlegges (Hvilke spørsmål ønsker man å belyse, hva skal man måle/observere på hvem?) Statistisk forsøksplanlegging Her: litt i kap. Eksplorativ dataanalyse Starter med å studere hver variabel for seg (Kap. ) Deretter sammenhenger mellom variable (Kap. ) Start med grafiske metoder (Kap..) Deretter numeriske oppsummeringer (Kap..) 7 Start alltid statistiske analyser med eksplorativ analyse! 8 To typer variable Kategoriske (ikke-numeriske) data god, middels eller dårlig testresultat (ordnet) 6MP, Imurel, Prednisolon, eller Budensonide (ikke ordnet) røyker eller ikke-røyker (ikke ordnet) kvinne eller mann (ikke ordnet) Kvantitative (numeriske) data antall fødte barn antall pulsslag per minutt Årsinntekt født i 97 høyde, vekt genekspresjon temperatur 9 Fordelingen til en variabel beskriver Hvilke verdier variabelen kan ta Hvor ofte den tar disse verdiene Et datasett er et sett med observerte verdier for en eller flere variable på et antall individer. Fordelingen til en variabel kan utforskes ved hjelp av grafikk og enkle beregninger. Så dette er et datasett:. Fordelinger beskrevet med grafikk Skiller mellom kategoriske og numeriske variable Kategoriske variable? Numeriske variable?

Diagrammer for kategoriske data 4 4 blodtype 4 % A 44% Antall (av ) SOVEVANE På magen Antall (av ) Sovevane Vet ikke AB B A AB % B % På ryggen På siden På siden På ryggen Diagrammer for kategoriske data fremstiller antall eller andel i hver kategori Kvinne<4 Mann<4 Kvinne>4 Mann>4 Kjønn/alder Vet ikke Kvinne<4 Mann<4 Kvinne>4 Mann>4 Kjønn/alder På magen Stolpe- og smultringsdiagram over blodtypefordeling Søylediagram og stablet søylediagram for sovevaner. 4 Data kan også være subjektive (i motsetning til objektive målinger): Her er variabelen som er målt på hvert individ subjektiv vurdering av egen helse rafiske metoder for numeriske variable Eksempel.4 Registrering av telefonsamtaler, kundeservice bank 49 samtaler i løpet av en måned Individer: hver samtale Variabel: lengden av samtalen (i sekunder) Andel som betrakter sin helse som god eller svært god 6 De 8 første registreringene: Hva slags figur er dette? Hva ser vi? 7 8

Enkleste metode: Histogrammer. Del verdiområdet til variabelen opp i intervaller. Tell opp antall individer i hvert intervall. Tegn søyler som tilsvarer antall i intervallet Default intervallbredde i programvare ofte OK Problem: antall intervaller 9 Histogram med relative andeler (normert) Historisk datasett Antall fødte barn 4 6 7 8 Totalt Antall kvinner med så mange fødte barn 4 8 9 Relativ frekvens,6,,7,84,49,9,,,. Frekvenstabell for kvinners fruktbarhet. Relativ andel,4,,,, 4 6 7 8 Antall barn Arealet av hver søyle tilsvarer relativ andel obs. i intervallet søylen dekker jentatte målinger av samme størrelse Papir-og-blyant-alternativ til histogram: Stilk-og-blad-plott: første siffer stilk, siste siffer blad - 669 44444 66666777777888888899999 4 666679 4 (Newcombs målinger) 4 4

Hva ser vi etter? Når vi vurderer fordelingen til datasettet ser vi spesielt etter -Form, senter og spredning (en eller flere topper, symmetrisk eller skjev, midtpunkt, minste og største verdi...) -Uteliggere (outliers) (typisk målinger der noe gikk galt, men kan også være reelle, dvs. tegn på skjeve fordelinger el. tunge haler. Forsøk alltid å finne en forklaring!) Definisjon høyreskjev: Hale mot høyre, som her Definisjon venstreskjev: Hale mot venstre 6 Høyreskjev! Samtaler på 8 timer og - timer OUTLIERS eller reelle ekstreme tilfeller? 7 8 Andre typer plott for eksplorativ dataanalyse unit Tidsrekkeplott Rekkefølgen forsøkene ble foretatt i Ta hensyn til læring! 8 sec Observasjoner gjort over tid 9

. Fordelinger beskrevet med tall rafisk fremstilling suppleres med numeriske mål (tall!) som beskriver fordelingen ytterligere Sentralmål (beliggenhet) Spredningsmål 4 6 7 8 9 4 6 7 8 9 Kjønn Høyde (cm) 78, 77, 64, 8, 6, 76,, 86, 9, 8, 4, 68, 74, 78, 7, 84, 8,, 67, 69, jennomsnittlig høyde for alle studentene: 78+ 77+ 64+ L+ 69 x = = 7,9 jennomsnittlig høyde for guttene: x g x j jennomsnitt - sentralmål 78 + 77 + 8 + L + 8 = 9 jennomsnittlig høyde for jentene: 64 + 6 + 76 + L + 69 = Oversikt over kjønn og høyde for studenter, 9 gutter og jenter = 79, = 66, Def. gjennomsnitt (mean) Kjønn Høyde (cm) 4 ordne data! Median M - sentralmål: halvparten av observasjonene er mindre enn M, halvparten er større. 4 6 7 8 9 6 64 67 68 69 7 74 76 77 Median høyde for alle studentene blir ~ x() + x() 74 + 76 x = = Median høyde for (9) guttene: ~ x g = x g ( ) = 8 4 6 77 78 8 8 Median høyde for () jentene: ~ x j = x j (6) = 68 7 84 8 9 8 86 9 Tabell: Oversikt over kjønn og høyde for studenter (sortert etter høyde) 4 Def. median M Medianen M i et datasett med n observasjoner er et tall slik at halvparten av observasjonene er mindre enn tallet og den andre halvparten er større n oddetall: n partall: M = midterste observasjon M = gjennomsnitt av de to midterste observasjonene jennomsnitt vs. Median Forskjellen mellom gjennomsnitt og median, eksempler : (a),, 9... median.... gjennomsnitt 4. (b), 8, 9... median 8.... gjennomsnitt 6. (c),, 8, 9... median.... gjennomsnitt. (d),,, 9... median.... gjennomsnitt.7 I (c) er de to sentralmålene like. Dette er kun tilfelle når fordelingen er symmetrisk. I skjeve fordelinger ligger gjennomsnittet lenger ut i halen (d). Beregning av begge er nyttig for å vurdere skjevhet. jennomsnittet er svært følsomt for ekstreme observasjoner. Medianen er mer robust i forhold til disse. (e),,... median... mean.7 (f),,... median... mean 9. 6 6

Range: (minimum, maksimum) - spredningsmål evt. maksimum - minimum IQR, interkvartil avstand: - spredningsmål Q og Q beregner vi lettest som medianen i de obs. som er hhv. mindre og større enn medianen M n partall: 4 6 7 8 9 Q Q p% persentil (fraktil): p % av obs. er mindre enn dette tallet. M = median = % persentil Q =. kvartil = % persentil Q =. kvartil = 7% persentil n oddetall: 4 6 7 8 9 IQR = Q-Q = Inter Quartile Range = det intervallet de midterste % av observasjonene ligger i 7 8 Fem-talls-oppsummering Et datasett oppsummeres ofte med fem størrelser: Min Q M Q Max Et boxplott er en grafisk fremstilling av disse! Min Q M Q Max 9 4 Et boksplott er mindre informativt enn et histogram, men egner seg godt til å sammenligne to eller flere datasett! OUTLIERS:.xIQR-kriteriet Hvis en observasjon er større enn Q+.xIQR eller mindre enn Q-.xIQR, så er observasjonen en potensiell uteligger. 4 4 7

Boksplott detaljer 4 44 Boxplott Newcombs data, fra Minitab Spredning: Varians og standardavvik max Q M Q nest minste Outlier! 4 46 Standardavvik eksempel Standardavvik eksempel Kvinne nr. Varighet i dager av menstruasjonsperioder 6 9 4 4 9 4 7 4 7 6 4 7 9 6 9 8 6 9 7 7 7 4 9 8 9 7 7 47 x = ( + + 6 + L+ ) =, 6 s = [(,) + (,) + (6,) + L+ (,) ],9 = x =,88 s =, x =,4 s =, 48 8

Kommentarer 49 Egenskaper standardavvik Oppsummering hva skal vi velge? Endring av skala 4 9

Lineær transformasjon Regler for effekten av lineær transformasjon 6