STK Oppsummering

Like dokumenter
STK Oppsummering

Inferens. STK Repetisjon av relevant stoff fra STK1100. Eksempler. Punktestimering - "Fornuftig verdi"

Punktestimator. STK Bootstrapping og simulering - Kap 7 og eget notat. Bootstrapping - eksempel Hovedide: Siden λ er ukjent, bruk ˆλ:

Kapittel 2: Hendelser

TMA4240 Statistikk H2010

Utfordring. TMA4240 Statistikk H2010. Mette Langaas. Foreleses uke 40, 2010

Høgskolen i Telemark. Institutt for økonomi og informatikk FORMELSAMLING Statistikk I. Til bruk ved eksamen. Per Chr. Hagen

FORMELSAMLING TIL STK1100 OG STK1110

Observatorer. STK Observatorer - Kap 6. Utgangspunkt. Eksempel høyde Oxford studenter

Bootstrapping og simulering Tilleggslitteratur for STK1100

Forelesing 27 Oppsummering. Torstein Fjeldstad Institutt for matematiske fag, NTNU

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010 Oppsummering

TMA4240 Statistikk H2017 [15]

Ekstreme bølger. Geir Storvik Matematisk institutt, Universitetet i Oslo. 5. mars 2014

Estimatorar. Torstein Fjeldstad Institutt for matematiske fag, NTNU

FORMELSAMLING TIL STK1100 OG STK1110

Bootstrapping og simulering

ÅMA110 Sannsynlighetsregning med statistikk, våren

Observatorar og utvalsfordeling. Torstein Fjeldstad Institutt for matematiske fag, NTNU

TMA4240 Statistikk H2010

Statistisk inferens: 9.14: Sannsynlighetsmaksimeringsestimatoren 8.5: Fordeling til gjennomsnittet 9.4: Konfidensintervall for µ (σ kjent)

Utvalgsfordelinger (Kapittel 5)

TMA4240 Statistikk H2010

Kapittel 8: Tilfeldige utvalg, databeskrivelse og fordeling til observatorar, Kapittel 9: Estimering

Om eksamen. Never, never, never give up!

Statistikk og dataanalyse

Om eksamen. Never, never, never give up!

Denne veka. Kap 7: Funksjonar av stokastiske variable Transformasjon av variable Moment Momentgenererande funksjon

UNIVERSITETET I OSLO

Løsningsforslag oblig 1 STK1110 høsten 2014

Oppfriskning av blokk 1 i TMA4240

Utvalgsfordelinger; utvalg, populasjon, grafiske metoder, X, S 2, t-fordeling, χ 2 -fordeling

Denne veka. Kap 7: Funksjonar av stokastiske variable Transformasjon av variable Moment Momentgenererande funksjon

Eksamensoppgave i TMA4295 Statistisk inferens

Utvalgsfordelinger. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer.

Oppsummering av STK2120. Geir Storvik

DEL 1 GRUNNLEGGENDE STATISTIKK

Bootstrapping og stokatisk simulering Tilleggslitteratur for STK1100

Hypotesetesting. Formulere en hypotesetest: Når vi skal test om en parameter θ kan påstås å være større enn en verdi θ 0 skriver vi dette som:

Siden vi her har brukt første momentet i fordelingen (EX = EX 1 ) til å konstruere estimatoren kalles denne metoden for momentmetoden.

TMA4245 Statistikk Eksamen desember 2016

TMA4240 Statistikk Høst 2015

Kapittel 3: Studieopplegg

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 4

UNIVERSITETET I OSLO

Regneøvelse 22/5, 2017

TMA4240 Statistikk Høst 2009

Oppgaven består av 9 delspørsmål som anbefales å veie like mye. Kommentarer og tallsvar er skrevet inn mellom << >>. Oppgave 1

Bernoulli forsøksrekke og binomisk fordeling

Dagens tekst. Kap 7: Funksjonar av stokastiske variable Transformasjon av variable Moment Momentgenererande funksjon

Forelesning 5: Kontinuerlige fordelinger, normalfordelingen. Jo Thori Lind

TMA4240 Statistikk Høst 2016

TMA4240 Statistikk H2010

3.1 Stokastisk variabel (repetisjon)

UNIVERSITETET I OSLO Matematisk Institutt

Kap. 5.2: Utvalgsfordelinger for antall og andeler

Fasit for tilleggsoppgaver

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 3

Eksamensoppgave i TMA4240 Statistikk

TMA4240 Statistikk Eksamen desember 2015

ST0202 Statistikk for samfunnsvitere

ÅMA110 Sannsynlighetsregning med statistikk, våren

Utvalgsfordelinger (Kapittel 5)

STK1100 våren Normalfordelingen. Normalfordelingen er den viktigste av alle sannsynlighetsfordelinger

Løsningsforslag Eksamen i Statistikk SIF5060 Aug 2002

UNIVERSITETET I OSLO

TMA4240 Statistikk H2010

Foreleses onsdag 13.oktober, 2010

Formelsamling V-2014 MAT110. Statistikk 1. Per Kristian Rekdal

ST0103 Brukerkurs i statistikk Forelesning 26, 18. november 2016 Kapittel 8: Sammenligning av grupper

Emnenavn: Eksamenstid: 4 timer. Faglærer: Hans Kristian Bekkevard

TMA4240/TMA4245 Statistikk Oppsummering diskrete sannsynlighetsfordelinger

Eksamensoppgave i TMA4240 / TMA4245 Statistikk

Oppgave 1: Feil på mobiltelefoner

Kap. 6, Kontinuerlege Sannsynsfordelingar

STK1100 våren Kontinuerlige stokastiske variabler Forventning og varians Momentgenererende funksjoner

Kap. 6, Kontinuerlege Sannsynsfordelingar

ÅMA110 Sannsynlighetsregning med statistikk, våren Hypotesetesting (kp. 6) Hypotesetesting, innledning. Kp.

Kapittel 4.3: Tilfeldige/stokastiske variable

Dekkes av kap , 9.10, 9.12 og forelesingsnotatene.

Stokastisk variabel. Eksempel augefarge

TMA4240 Statistikk H2010

Econ 2130 Forelesning uke 10 (HG) Geometrisk og normal fordeling

ST0202 Statistikk for samfunnsvitere

HØGSKOLEN I STAVANGER

ST0202 Statistikk for samfunnsvitere

Norske hoppdommere og Janne Ahonen

ST0202 Statistikk for samfunnsvitere

Binomisk sannsynlighetsfunksjon

Løsning på Dårlige egg med bruk av Tabell 2 i Appendix B

ST0202 Statistikk for samfunnsvitere

for x 0 F X (x) = 0 ellers Figur 1: Parallellsystem med to komponenter Figur 2: Seriesystem med n komponenter

Kap. 6, Kontinuerlege Sannsynsfordelingar

Kap. 6.1: Fordelingen til en observator og stok. simulering

Econ 2130 uke 16 (HG)

Kapittel 4.4: Forventning og varians til stokastiske variable

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

Eksamensoppgåve i TMA4240 / TMA4245 Statistikk

TMA4240 Statistikk Høst 2007

TMA4240 Statistikk Høst 2008

Transkript:

STK1100 - Oppsummering Geir Storvik 6. Mai 2014

STK1100 Tre temaer Deskriptiv/beskrivende statistikk Sannsynlighetsteori Statistisk inferens

Sannsynlighetsregning Hva Matematisk verktøy for å studere tilfeldigheter og usikkerhet Grunnleggende beregningsregler Modeller Hvorfor Matematisk grunnlag for å gjøre statistisk inferens Nyttig også i mange andre sammenhenger Modellering av prosesser med usikkerhet Monte Carlo integrasjon/stokastisk simulering

Sannsynlighetsteori Sannsynlighet av en begivenhet Relativ frekvens av en begivenhet ved uendelig antall repetisjoner Begivenheter: Mengder av utfall Kombinatoriske resonementer: Nyttig for å utlede P(A) Aksiomer 1. For enhver begivenhet A, P(A) 0. 2. P(S) = 1 3. Hvis A 1, A 2, A 3,... er et uendelig set av disjunkte begivenheter så er P(A 1 A 2 A 3 ) = P(A i ) i=1 Kan utifra dette utlede mange resultater

Resultater 1. P(A ) = 1 P(A) 2. P( ) = 0 3. A B P(A) P(B) 4. Addisjonsetningen: P(A B) = P(A) + P(B) P(A B) 5. Betinget sannsynlighet (definisjon): P(A B) = P(A B) P(B) hvis P(B) > 0 6. Total sannsynlighet: Hvis n i=1 B i = S og B i B j = for i j: P(A) = n P(A B i )P(B i ) i=1

Resultater 2 1. Bayes setning (under samme betingelser som ovenfor): P(B j A) = P(A B j )P(B j ) n i=1 P(A B i)p(b i ) 2. Uavhengighet (Definisjon): A og B er uavhengige begivenheter hvis P(A B) = P(A)P(B) 3. A 1,..., A n er uavhengige begivenheter dersom P(A i1 A im ) = P(A i1 )P(A i2 ) P(A im ) for alle delmengder av indekser i 1, i 2,..., i m 4. Produktsetningen: P(A 1 A n ) =P(A 1 )P(A 2 A 1 )P(A 3 A 1 A 2 ) P(A n A 1 A 2 A n 1 )

Tilfeldige variable Tilfeldig (stokastisk) variabel: Regel som assosierer et tall til hvert utfall i S Tenker ofte direkte på variabel uten å relatere til bakenforliggende utfall Numerisk variabel der det er usikkerhet rundt utfallet Diskret eller kontinuerlig utfallsrom

Modeller for tilfeldige variable Diskret Binomisk Poisson Hypergeometrisk/negativ binomisk Kontinuerlig Normal Gamma, eksponensiell, kji-kvadrat Deskriptiv statistikk nyttig for å bestemme modell

Flere tilfeldige variable p(x 1,..., x n ) =P(X 1 = x 1, X 2 = x 2,..., X n = x n ) P(a 1 X 1 b 1,..., a n X n b n ) Diskret = b1 bn f (x 1, x 2,..., x n )dx 1 dx n Kont a 1 a n Marginale/betingede fordelinger Tilfeldig utvalg: X 1,..., X n er UIF (Uavhengig Identisk Fordelte). Sentralt: X Eksakt normalfordeling hvis Xi normalfordelt Tilnærmet normalfordelt ellers (Sentralgrenseteoremet)

Verktøy for beregning av fordeling Relatere til mulige utfall (gunstige/mulige) Bruke F(x) = P(X x) X = h(y ): Transformasjonssetningen f Y (y) = f X (h(y)) h (y). Momentgenererende funksjoner

Egenskaper ved fordelinger Forventning µ X Varians σ 2 X /standard avvik σ X Momenter Persentiler Kovarianser/korrelasjoner Nyttige for å beskrive fordelinger med få parametre For parametriske modeller vil få parametre beskrive hele modellen

Statistisk inferens Populasjon/modell Data f (x; θ)/p(x; θ) X 1,..., X n µ X = E(X) ˆµ = X σx 2 = V (X) ˆσ2 = S 2 S 2 = 1 n 1 σ X n i=1 (X i X) 2 ˆσ = S Ønsker å si noe om populasjon/modell utifra data

Statistisk inferens Generell problemstilling: X1,..., X n tilfeldig utvalg fra f (x; θ). Ønsker å trekke ut informasjon om θ fra data Punktestimat Standard feil Konfidensintervall Hypotesetesting (STK1110) Standard feil/konfidensintervall/hypotesetesting avhenger av sannsynlighetsbaserte modeller og sannsynlighetsregning Deskriptiv statistikk alltid først. STK1100: Kun én populasjon

Deskriptiv statistikk Valg av metoder for statistisk inferens avhenger av struktur i data Deskriptiv statistikk kan brukes til å finne interessante strukturer i data Symmetri/asymmetri Ekstreme observasjoner ( outliers ) Uavhengighet/avhehgighet Identiske fordelinger

Estimatorer ˆθ estimator for θ Ønskelige egenskaper (Tilnærmet) forventningsrett Liten varians/standard feil Konsistent Konstruksjon Bruke fornuft/intuisjon (vanskelig) Momentestimatorer Maksimum likelihood (STK1110)

Egenskaper til estimatorer Av interesse: Sannsynlighetsfordeling Varians/standard feil Hvordan: Noen ganger mulig å beregne eksakt Sentralgrenseteoremet (og generaliseringer) gir ofte at ˆθ er tilnærmet normalfordelt Bootstrapping kan benyttes for å si noe om egenskaper Metode: Tilnærmer ukjent F(x) med F(x) Beregning: Bruker simulering

Konfidensintervaller Intervall med plausible verdier for θ Intervall av typen [l(x 1,..., X n ), u(x 1,..., X n )] P(l(X 1,..., X n ) < θ < u(x 1,..., X n )) = 1 α Tolkning: Ved gjentatt bruk av slike intervaller vil vi treffe i 100(1 α)% av tilfellene Vanligste intervall for µ = E(X): s x ± z α/2 n Eksakt hvis Xi er normalfordelt og s = σ er kjent Tilnærmet riktig ellers Generelt intervall: ˆθ ± z α/2ˆσˆθ

Monte Carlo integrasjon/stokastisk simulering Av interesse: θ = g(x)dx = g(x) f (x) ( ) f (x)dx Kan skrives som θ = E g(x) f (X) der X f (x) Tilnærming: θ = 1 M σ θ = 1 M σ Y M i=1 g(x i ) f (X i ) Generell metode Mange mulige valg av f (x) Vil være svært nyttig i høyere dimensjon Mange metoder for å simulere fra f : Bruke ferdige rutiner Inversjonsmetoden Transformasjonssetningen Forkastningsmetoden (ikke gjennomgått)