I denne innledningen vil vi først vise fem eksempler på noen av problems;llingene vi skal se på i STK1110.

Like dokumenter
STK1100 våren 2019 Mere om konfidensintevaller

TMA4245 Statistikk Eksamen desember 2016

Andre sett med obligatoriske oppgaver i STK1110 høsten 2010

Inferens. STK Repetisjon av relevant stoff fra STK1100. Eksempler. Punktestimering - "Fornuftig verdi"

UNIVERSITETET I OSLO

Eksamensoppgave i TMA4240 Statistikk

Introduksjon til Generaliserte Lineære Modeller (GLM)

Da vil summen og gjennomsnittet være tilnærmet normalfordelte : Summen: X 1 +X X n ~N(nµ,nσ 2 ) Gjennomsnittet: X 1 +X

STK1100 våren Generell introduksjon. Omhandler delvis stoffet i avsnitt 1.1 i læreboka (resten av kapittel 1 blir gjennomgått ved behov)

I dag. Konfidensintervall og hypotesetes4ng ukjent standardavvik (kap. 7.1) t-fordelingen

Statistikk og dataanalyse

Eksamensoppgave i TMA4240 Statistikk

UNIVERSITETET I OSLO

TMA4245 Statistikk Eksamen desember 2016

Eksamensoppgave i ST0103 Brukerkurs i statistikk

Oppgaven består av 10 delspørsmål som anbefales å veie like mye. Kommentarer og tallsvar er skrevet inn mellom <<. >>. Oppgave 1

Kapittel 3: Studieopplegg

for x 0 F X (x) = 0 ellers Figur 1: Parallellsystem med to komponenter Figur 2: Seriesystem med n komponenter

Eksponensielle klasser og GLM

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 4

10.1 Enkel lineær regresjon Multippel regresjon

Eksponensielle klasser

Observatorer. STK Observatorer - Kap 6. Utgangspunkt. Eksempel høyde Oxford studenter

Notat 3 - ST februar 2005

Løsningsforslag til eksamen i TMA4245 Statistikk 7. juni 2007

Løsningsforslag til andre sett med obligatoriske oppgaver i STK1110 høsten 2010

TMA4245 Statistikk Eksamen august 2014

TMA4240 Statistikk 2014

Utvalgsfordelinger. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer.

Kort overblikk over kurset sålangt

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

Eksamensoppgåve i ST0103 Brukarkurs i statistikk

ST0202 Statistikk for samfunnsvitere

Oppgave 1. . Vi baserer oss på at p 47 1 og p 2 er tilnærmet normalfordelte (brukbar tilnærming). Vi har tilnærmet at (n 1 = n 2 = 47)

STK Oppsummering

Statistikk, FO242N, AMMT, HiST 2. årskurs, 30. mai 2007 side 1 ( av 8) LØSNINGSFORSLAG HØGSKOLEN I SØR-TRØNDELAG

Inferens i regresjon

TMA4240 Statistikk Høst 2015

EKSAMEN I FAG 75510/75515 STATISTIKK 1 Tirsdag 20. mai 1997 Tid: 09:00 14:00

Sta$s$kk En måte å beskrive og analysere fenomener kvan$ta$vt Eva Denison

Kontinuerlige sannsynlighetsfordelinger.

ST0103 Brukerkurs i statistikk Forelesning 26, 18. november 2016 Kapittel 8: Sammenligning av grupper

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 3

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

TMA4240 Statistikk H2010

Utfordring. TMA4240 Statistikk H2010. Mette Langaas. Foreleses uke 40, 2010

Matteknologisk utdanning

Løsning eksamen desember 2016

HØGSKOLEN I STAVANGER

TMA4240 Statistikk Eksamen desember 2015

Utvalgsfordelinger; utvalg, populasjon, grafiske metoder, X, S 2, t-fordeling, χ 2 -fordeling

Kontinuerlige sannsynlighetsfordelinger.

Eksamensoppgåve i TMA4240 Statistikk

Tilfeldige variabler. MAT0100V Sannsynlighetsregning og kombinatorikk

Om eksamen. Never, never, never give up!

DEL 1 GRUNNLEGGENDE STATISTIKK

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.

Prosjektoppgaver om diusjonsprosesser og diusjonstilnærmelse

UNIVERSITETET I OSLO

Dekkes av kap , 9.10, 9.12 og forelesingsnotatene.

Om eksamen. Never, never, never give up!

Eksamensoppgave i ST0103 Brukerkurs i statistikk

Kapittel 2: Hendelser

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

Obligatorisk oppgave 2

Hypotesetesting (kp. 6) ÅMA110 Sannsynlighetsregning med statistikk, våren Tre deler av faget/kurset: 1. Beskrivende statistikk

ST0202 Statistikk for samfunnsvitere

Bred profil på statistikk?

Eksamensoppgave i TMA4245 Statistikk

Observatorar og utvalsfordeling. Torstein Fjeldstad Institutt for matematiske fag, NTNU

STK Oppsummering

Utvalgsfordelinger (Kapittel 5)

Fasit for tilleggsoppgaver

TMA4245 Statistikk. Innlevering 3. Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag

Kapittel 8: Tilfeldige utvalg, databeskrivelse og fordeling til observatorar, Kapittel 9: Estimering

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Forelesing 27 Oppsummering. Torstein Fjeldstad Institutt for matematiske fag, NTNU

Utvalgsfordelinger. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer.

Forelening 1, kapittel 4 Stokastiske variable

UNIVERSITETET I OSLO

TMA4240 Statistikk H2010 Kapittel 5: Diskrete sannsynlighetsfordelinger : Uniform, binomisk, hypergeometrisk fordeling

MATEMATIKK 1 (for trinn) Emnebeskrivelser for studieåret 2014/2015

Midtveiseksamen i STK1100 våren 2017

ST0202 Statistikk for samfunnsvitere

onsdag_19_09_2018_poisson_eksponential_normalfordelng_vikartime_bygg_v2.notebook

SFB LØSNING PÅ EKSAMEN HØSTEN 2018

a ) Forventningen estimeres med gjennomsnittet: x = 1 12 (x x 12 ) = 1 ( ) = 8813/12 = 734.4

ST0202 Statistikk for samfunnsvitere

Mer om hypotesetesting

UNIVERSITETET I OSLO

NTNU KOMPiS Studieplan for MATEMATIKK 1 ( trinn) Studieåret 2014/2015

Forelesning 27. mars, 2017

TMA4240 Statistikk H2010

Kap. 6, Kontinuerlege Sannsynsfordelingar

Eksamensoppgave i TMA4250 Romlig Statistikk

NTNU KOMPiS Studieplan for MATEMATIKK 1 ( trinn) med hovedvekt på trinn Studieåret 2015/2016

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

Statistisk inferens: 9.14: Sannsynlighetsmaksimeringsestimatoren 8.5: Fordeling til gjennomsnittet 9.4: Konfidensintervall for µ (σ kjent)

Litt om forventet nytte og risikoaversjon. Eksempler på økonomisk anvendelse av forventning og varians.

Transkript:

Innledning )l STK1110 Sta)s)ske metoder og dataanalyse 1 høsten 2015 I denne innledningen vil vi først vise fem eksempler på noen av problems;llingene vi skal se på i STK1110. Felles for eksemplene er at vi har samlet inn data (tall) som skal hjelpe oss ;l å svare på spørsmålene. Videre skal vi antyde hvordan sannsynlighetsmodeller fra STK1100 kan brukes ;l å beskrive usikkerheten i dataene, og hvordan problems;llingene vi er interessert i kan "overseies" ;l utsagn om modellparameterne. I STK1110 skal vi studere sta;s;ske metoder der en på grunnlag av observerte data kan trekke konklusjoner om verdiene av modellparametrene, og kvan;fisere usikkerheten knyiet ;l konklusjonene. Eksempel 1: Par)barometer august 2013 like før valget!!! Av 914 spurte, som hadde stemt hvis det var valg dagen eier, var det 256 som ville ha stemt Ap (målt vha. robopoll, automa;sk talemaskin) I barometeret får Ap dermed en oppslutning på 256/914 = 28 % Hvor sikkert er deie anslaget?

Eksempel 3: Drukningsulykker De siste årene har det vært en nedgang i antall druknede, men antallet steg betraktelig i 2013, se feks. hip://www.folkehjelp.no/presse/drukningssta;s;kk 2009: 105 2010: 79 2011: 69 2012: 61 2013: 119 2014: 115 2015:? (57 så langt i år) Kan vi med rimelig sikkerhet si at det har vært en økning i risikoen for drukning fra 2012 ;l 2013? Har det vært en nedgang i risikoen fra 2009 ;l 2012? Eksempel 5: Dødelighet av biller 60 biller ble utsai for 8 ulike konsentrasjoner av CS2 Antall drepte ble registrert Er det en sammenheng mellom dose og dødelighet? Hvordan er eventuelt denne sammenhengen? Kan vi si noe om dødelighet for doser vi ikke har data for? Ikke- linær sammenheng Respons pr individ er binær (levende/død) Sannsynlighetsmodeller og sta)s)ske metoder De dataene vi har sei på i eksemplene er usikre (i den forstand at en ny studie ikke vil gi akkurat de samme resultatene selv om den fak;ske situasjonen er den samme). For å ta hensyn ;l denne usikkerheten, trenger vi en matema;sk modell som beskriver data behebet med usikkerhet, og det er neiopp det en sannsynlighetsmodell gjør. En av de grunnleggende ideene i sta;s;kk er at vi tenker oss at dataene våre er generert fra en slik sannsynlighetsmodell. Da kan vi vurdere usikkerheten i de virkelige dataene i lys av den variasjonen en vil ha i data som er generert fra sannsynlighetsmodellen. Videre kan de problems;llingene vi er interessert i obe "overseies" ;l utsagn om parametrene i modellen, som i de enkle eksemplene her. [I mange reelle situasjoner trenger vi mer komplekse modeller, der vi f.eks. tar høyde for at modellen i seg selv også er usikker!]

Eksempel 1: Par)barometer for august 2013 For meningsmålingen kan vi bruke følgende sannsynlighetsmodell: Vi antar at Ap på det aktuelle ;dspunktet har oppslutning fra 100 p % av dem som ville ha stemt hvis det hadde vært stor;ngsvalg. Vi antar videre at de n = 914 som ville ha stemt, er et ;lfeldig utvalg av alle som ville ha stemt hvis det hadde vært valg. La X være antall som vil stemme Ap ved en slik meningsmåling. Da vil X være (;lnærmet) binomisk fordelt: X ~ bin(n,p). Det gir en beskrivelse av den variasjonen en vil ha fra en meningsmåling ;l en annen (hvis styrkeforholdene mellom par;ene er uendret). Formålet med meningsmålingen er å anslå (eller es;mere) verdien ;l parameteren p. Vi ønsker også å si noe om hvor sikkert anslaget (eller es;matet) er. Nate Silver Mer avansert...: www.nr.no 169.no

Eksempel 3: Drukningsulykker For drukningsulykkene kan vi bruke følgende sannsynlighetsmodell: Vi antar at antall drukningsulykker i 2009, 2010, 2011, 2012, 2013 og 2014 er observerte verdier av uavhengige og Poisson- fordelte stokas;ske variable X 2009, X 2010, X 2011, X 2012, X 2013 og X 2014 med forventningsverdier λ 2009, λ 2010, λ 2011, λ 2012, λ 2013 og λ 2014. Da angir λ 2009, λ 2010, λ 2011, λ 2012, λ 2013 og λ 2014 den "underliggende risikoen" for dødsulykker i hver av de fem årene, og avvik fra disse skyldes ;lfeldige variasjoner. Vi er f.eks. interessert i å avgjøre om λ 2013 er større enn λ 2012. Vi er også interessert i å avgjøre om λ 2012 er mindre enn λ 2009. For dødelighet av biller kan følgende modell brukes: Antall biller, y, som dør under gibdose x er Binomisk(60,p(x)) Vi må i ;llegg spesifisere p(x). Et populært valg er p(x)=exp(β 0 + β 1 x)/[1+exp(β 0 +β 1 x)] β 1 = 0 svarer ;l ingen sammenheng mellom dose og dødelighet Størrelsen på β 1 sier noe om hvor krabig sammenhengen er

Felles struktur for de 5 eksempler Oversikt over STK1110 Starter med et problems;lling og noe data som sier noe om problemet «OverseIer» problems;llingen ;l et spørsmål om egenskaper ved parametere Parameterne er en del av en sannsynlighetsmodell som beskriver oppførsel av data Sta;s;sk inferens: Hvordan trekke informasjon om parametre ut av data Kap 7: Punktes;mering for ei utvalg (eks 1) Kap 8: Konfidensintervall for ei utvalg (eks 1) Kap 9: Hypotesetes;ng for ei utvalg Kap 10: Sta;s;ske metoder for to utvalg (eks 2 og 3) Kap 12: Lineær regresjon (eks 4) Logis;sk regresjon (eks 5) I ;llegg kommer avsnii 6.4 om fordelinger som er vik;ge for sta;s;ske metoder for normalfordelte utvalg Diverse Vi vil bruke programpakken R i STK1110 Høynivåspråk for sta;s;kk med mye god grafikk Gra;s, ;lgjengelig på linux, windows, mac Kommandospråk, men mer brukervennlig interface gjennom Rstudio Mulig å kombinere med python 2 obligatoriske oppgaver Blanding av teori og prak;kk Undervisning 4 ;mer forelesning 2 ;mer plenum 2 ;mer regneøvelser

Eksempel 5: Dødlighet av biller For dødelighet av biller kan vi bruke følgende sannsynlighetsmodell: Antall biller som dør, y, ved dose x er Binomisk(60,p(x)) Vi må i ;llegg lage en modell for sammenheng mellom x og p(x). Det er mange muligheter her. Et populært valg er p(x)= exp ( β 0 + β 1 x)/1+exp ( β 0 + β 1 x) β 1 =0 Svarer ;l at det ikke er noen sammenheng mellom dose og dødelighet Størrelsen på β 1 sier noe om hvor krabig sammenhengen er.