Innledning )l STK1110 Sta)s)ske metoder og dataanalyse 1 høsten 2015 I denne innledningen vil vi først vise fem eksempler på noen av problems;llingene vi skal se på i STK1110. Felles for eksemplene er at vi har samlet inn data (tall) som skal hjelpe oss ;l å svare på spørsmålene. Videre skal vi antyde hvordan sannsynlighetsmodeller fra STK1100 kan brukes ;l å beskrive usikkerheten i dataene, og hvordan problems;llingene vi er interessert i kan "overseies" ;l utsagn om modellparameterne. I STK1110 skal vi studere sta;s;ske metoder der en på grunnlag av observerte data kan trekke konklusjoner om verdiene av modellparametrene, og kvan;fisere usikkerheten knyiet ;l konklusjonene. Eksempel 1: Par)barometer august 2013 like før valget!!! Av 914 spurte, som hadde stemt hvis det var valg dagen eier, var det 256 som ville ha stemt Ap (målt vha. robopoll, automa;sk talemaskin) I barometeret får Ap dermed en oppslutning på 256/914 = 28 % Hvor sikkert er deie anslaget?
Eksempel 3: Drukningsulykker De siste årene har det vært en nedgang i antall druknede, men antallet steg betraktelig i 2013, se feks. hip://www.folkehjelp.no/presse/drukningssta;s;kk 2009: 105 2010: 79 2011: 69 2012: 61 2013: 119 2014: 115 2015:? (57 så langt i år) Kan vi med rimelig sikkerhet si at det har vært en økning i risikoen for drukning fra 2012 ;l 2013? Har det vært en nedgang i risikoen fra 2009 ;l 2012? Eksempel 5: Dødelighet av biller 60 biller ble utsai for 8 ulike konsentrasjoner av CS2 Antall drepte ble registrert Er det en sammenheng mellom dose og dødelighet? Hvordan er eventuelt denne sammenhengen? Kan vi si noe om dødelighet for doser vi ikke har data for? Ikke- linær sammenheng Respons pr individ er binær (levende/død) Sannsynlighetsmodeller og sta)s)ske metoder De dataene vi har sei på i eksemplene er usikre (i den forstand at en ny studie ikke vil gi akkurat de samme resultatene selv om den fak;ske situasjonen er den samme). For å ta hensyn ;l denne usikkerheten, trenger vi en matema;sk modell som beskriver data behebet med usikkerhet, og det er neiopp det en sannsynlighetsmodell gjør. En av de grunnleggende ideene i sta;s;kk er at vi tenker oss at dataene våre er generert fra en slik sannsynlighetsmodell. Da kan vi vurdere usikkerheten i de virkelige dataene i lys av den variasjonen en vil ha i data som er generert fra sannsynlighetsmodellen. Videre kan de problems;llingene vi er interessert i obe "overseies" ;l utsagn om parametrene i modellen, som i de enkle eksemplene her. [I mange reelle situasjoner trenger vi mer komplekse modeller, der vi f.eks. tar høyde for at modellen i seg selv også er usikker!]
Eksempel 1: Par)barometer for august 2013 For meningsmålingen kan vi bruke følgende sannsynlighetsmodell: Vi antar at Ap på det aktuelle ;dspunktet har oppslutning fra 100 p % av dem som ville ha stemt hvis det hadde vært stor;ngsvalg. Vi antar videre at de n = 914 som ville ha stemt, er et ;lfeldig utvalg av alle som ville ha stemt hvis det hadde vært valg. La X være antall som vil stemme Ap ved en slik meningsmåling. Da vil X være (;lnærmet) binomisk fordelt: X ~ bin(n,p). Det gir en beskrivelse av den variasjonen en vil ha fra en meningsmåling ;l en annen (hvis styrkeforholdene mellom par;ene er uendret). Formålet med meningsmålingen er å anslå (eller es;mere) verdien ;l parameteren p. Vi ønsker også å si noe om hvor sikkert anslaget (eller es;matet) er. Nate Silver Mer avansert...: www.nr.no 169.no
Eksempel 3: Drukningsulykker For drukningsulykkene kan vi bruke følgende sannsynlighetsmodell: Vi antar at antall drukningsulykker i 2009, 2010, 2011, 2012, 2013 og 2014 er observerte verdier av uavhengige og Poisson- fordelte stokas;ske variable X 2009, X 2010, X 2011, X 2012, X 2013 og X 2014 med forventningsverdier λ 2009, λ 2010, λ 2011, λ 2012, λ 2013 og λ 2014. Da angir λ 2009, λ 2010, λ 2011, λ 2012, λ 2013 og λ 2014 den "underliggende risikoen" for dødsulykker i hver av de fem årene, og avvik fra disse skyldes ;lfeldige variasjoner. Vi er f.eks. interessert i å avgjøre om λ 2013 er større enn λ 2012. Vi er også interessert i å avgjøre om λ 2012 er mindre enn λ 2009. For dødelighet av biller kan følgende modell brukes: Antall biller, y, som dør under gibdose x er Binomisk(60,p(x)) Vi må i ;llegg spesifisere p(x). Et populært valg er p(x)=exp(β 0 + β 1 x)/[1+exp(β 0 +β 1 x)] β 1 = 0 svarer ;l ingen sammenheng mellom dose og dødelighet Størrelsen på β 1 sier noe om hvor krabig sammenhengen er
Felles struktur for de 5 eksempler Oversikt over STK1110 Starter med et problems;lling og noe data som sier noe om problemet «OverseIer» problems;llingen ;l et spørsmål om egenskaper ved parametere Parameterne er en del av en sannsynlighetsmodell som beskriver oppførsel av data Sta;s;sk inferens: Hvordan trekke informasjon om parametre ut av data Kap 7: Punktes;mering for ei utvalg (eks 1) Kap 8: Konfidensintervall for ei utvalg (eks 1) Kap 9: Hypotesetes;ng for ei utvalg Kap 10: Sta;s;ske metoder for to utvalg (eks 2 og 3) Kap 12: Lineær regresjon (eks 4) Logis;sk regresjon (eks 5) I ;llegg kommer avsnii 6.4 om fordelinger som er vik;ge for sta;s;ske metoder for normalfordelte utvalg Diverse Vi vil bruke programpakken R i STK1110 Høynivåspråk for sta;s;kk med mye god grafikk Gra;s, ;lgjengelig på linux, windows, mac Kommandospråk, men mer brukervennlig interface gjennom Rstudio Mulig å kombinere med python 2 obligatoriske oppgaver Blanding av teori og prak;kk Undervisning 4 ;mer forelesning 2 ;mer plenum 2 ;mer regneøvelser
Eksempel 5: Dødlighet av biller For dødelighet av biller kan vi bruke følgende sannsynlighetsmodell: Antall biller som dør, y, ved dose x er Binomisk(60,p(x)) Vi må i ;llegg lage en modell for sammenheng mellom x og p(x). Det er mange muligheter her. Et populært valg er p(x)= exp ( β 0 + β 1 x)/1+exp ( β 0 + β 1 x) β 1 =0 Svarer ;l at det ikke er noen sammenheng mellom dose og dødelighet Størrelsen på β 1 sier noe om hvor krabig sammenhengen er.