Forelesing 27 Oppsummering. Torstein Fjeldstad Institutt for matematiske fag, NTNU

Like dokumenter
Om eksamen. Never, never, never give up!

Om eksamen. Never, never, never give up!

Kapittel 2: Hendelser

Eksamensoppgåve i Løsningsskisse TMA4245 Statistikk

Observatorar og utvalsfordeling. Torstein Fjeldstad Institutt for matematiske fag, NTNU

Oppfriskning av blokk 1 i TMA4240

Eksamensoppgåve i TMA4240 Statistikk

Høgskolen i Telemark. Institutt for økonomi og informatikk FORMELSAMLING Statistikk I. Til bruk ved eksamen. Per Chr. Hagen

TMA4245 Statistikk Eksamen desember 2016

Kapittel 8: Tilfeldige utvalg, databeskrivelse og fordeling til observatorar, Kapittel 9: Estimering

Bernoulli forsøksrekke og binomisk fordeling

Kap. 6, Kontinuerlege Sannsynsfordelingar

Kap. 6, Kontinuerlege Sannsynsfordelingar

STK Oppsummering

Kap. 6, Kontinuerlege Sannsynsfordelingar

Eksamensoppgåve i TMA4240 / TMA4245 Statistikk

TMA4240 Statistikk Høst 2008

Dagens tekst. Kap 7: Funksjonar av stokastiske variable Transformasjon av variable Moment Momentgenererande funksjon

Denne veka. Kap 7: Funksjonar av stokastiske variable Transformasjon av variable Moment Momentgenererande funksjon

Estimatorar. Torstein Fjeldstad Institutt for matematiske fag, NTNU

TMA4240 Statistikk H2010

Utfordring. TMA4240 Statistikk H2010. Mette Langaas. Foreleses uke 40, 2010

Eksamensoppgave i TMA4240 / TMA4245 Statistikk

Løsningsforslag Eksamen i Statistikk SIF5060 Aug 2002

Eksamensoppgave i Løsningsskisse TMA4240 Statistikk

Denne veka. Kap 7: Funksjonar av stokastiske variable Transformasjon av variable Moment Momentgenererande funksjon

TMA4245 Statistikk Eksamen desember 2016

EKSAMEN I TMA4245 STATISTIKK Tysdag 21. mai 2013 Tid: 09:00 13:00 (Korrigert )

TMA4240 Statistikk H2010

FORMELSAMLING TIL STK1100 OG STK1110

Eksamensoppgave i TMA4240 Statistikk

Eksamensoppgave i TMA4240 Statistikk

Statistisk inferens: 9.14: Sannsynlighetsmaksimeringsestimatoren 8.5: Fordeling til gjennomsnittet 9.4: Konfidensintervall for µ (σ kjent)

TMA4240 Statistikk Eksamen desember 2015

Formelsamling V-2014 MAT110. Statistikk 1. Per Kristian Rekdal

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

Eksamensoppgåve i ST0103 Brukarkurs i statistikk

Eksamensoppgåve i ST1201/ST6201 Statistiske metoder

TMA4240 Statistikk H2015

Eksamensoppgåve i TMA4245 Statistikk

FORMELSAMLING TIL STK1100 OG STK1110

Eksamensoppgåve i ST0103 Brukarkurs i statistikk

Observatorer. STK Observatorer - Kap 6. Utgangspunkt. Eksempel høyde Oxford studenter

TMA4240 Statistikk H2010

3.1 Stokastisk variabel (repetisjon)

Siden vi her har brukt første momentet i fordelingen (EX = EX 1 ) til å konstruere estimatoren kalles denne metoden for momentmetoden.

Fasit for tilleggsoppgaver

EKSAMEN I TMA4240 Statistikk

LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4240 STATISTIKK Mandag 12. desember 2011

Statistikk og dataanalyse

Eksamensoppgave i ST0103 Brukerkurs i statistikk

TMA4240 Statistikk Høst 2016

HØGSKOLEN I STAVANGER

Foreleses onsdag 8. september 2010

Eksamensoppgave i TMA4295 Statistisk inferens

Emnenavn: Eksamenstid: 4 timer. Faglærer: Hans Kristian Bekkevard

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

Kapittel 3: Studieopplegg

Eksamensoppgave i TMA4245 Statistikk

TMA4240 Statistikk Høst 2009

TMA4240 Statistikk Høst 2007

1.1.1 Rekke med konstante ledd. En rekke med konstante ledd er gitt som. a n (1) n=m

Inferens. STK Repetisjon av relevant stoff fra STK1100. Eksempler. Punktestimering - "Fornuftig verdi"

STK Oppsummering

TMA4240 Statistikk 2014

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010 Oppsummering

DEL 1 GRUNNLEGGENDE STATISTIKK

TMA4240 Statistikk Høst 2015

TMA4240 Statistikk H2017 [15]

TMA4245 Statistikk Eksamen august 2014

Eksamensoppgave i TMA4245 Statistikk

TMA4240 Statistikk H2010

Eksamensoppgåve i TMA4295 Statistisk inferens

Formelsamling i medisinsk statistikk

TMA4240 Statistikk Eksamen desember 2015

UNIVERSITETET I OSLO

TMA4240/TMA4245 Statistikk Oppsummering diskrete sannsynlighetsfordelinger

ÅMA110 Sannsynlighetsregning med statistikk, våren

Notasjon. Løsninger. Problem. Kapittel 7

Ferdig før tiden 4 7 Ferdig til avtalt tid 12 7 Forsinket 1 måned 2 6 Forsinket 2 måneder 4 4 Forsinket 3 måneder 6 2 Forsinket 4 måneder 0 2

betyr begivenheten at det blir trukket en rød kule i første trekning og en hvit i andre, mens B1 B2

Regneøvelse 22/5, 2017

UNIVERSITETET I OSLO

Løsningsforslag til eksamen i TMA4245 Statistikk 7. juni 2007

A) B) 400 C) 120 D) 60 E) 10. Rett svar: C. Fasit: ( 5 6 = 60. Hvis A, B, C er en partisjon av utfallsrommet S, så er P (A B) lik.

TMA4240 Statistikk H2015

Hogskoleni Østfold EKSAMEN. Eksamenstid: kl til k

TALLSVAR. Det anbefales at de 9 deloppgavene merket med A, B, teller likt uansett variasjon i vanskelighetsgrad. Svarene er gitt i <<< >>>.

ST0202 Statistikk for samfunnsvitere

Løsningsforslag til andre sett med obligatoriske oppgaver i STK1110 høsten 2010

TALLSVAR. Det anbefales at de 9 deloppgavene merket med A, B, teller likt uansett variasjon i vanskelighetsgrad. Svarene er gitt i << >>.

Løsningsforslag, eksamen statistikk, juni 2015

Eksamensoppgåve i TMA4250 Romleg Statistikk

ST0202 Statistikk for samfunnsvitere

EKSAMEN. TILLATTE HJELPEMIDLER: Kalkulator. Hornæs: Formelsamling statistikk HiG. John Haugan: Formler og tabeller.

Econ 2130 uke 16 (HG)

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.

TMA4240 Statistikk H2010 Kapittel 5: Diskrete sannsynlighetsfordelinger : Uniform, binomisk, hypergeometrisk fordeling

Stokastisk variabel. Eksempel augefarge

TMA4240 Statistikk Høst 2009

Transkript:

Forelesing 27 Oppsummering Torstein Fjeldstad Institutt for matematiske fag, NTNU 18.04.2018

I dag Lineær regresjon (sjekk av modellantagelser) Praktisk informasjon Andre statistikk-kurs Oversikt over pensum 2

Eksamen Onsdag 23.05 kl. 09:00-13:00 Alle deloppgåver tel like mykje (men dei er ikkje like vanskelege) Ta med naturlege mellomrekningar. Merk det er skilnad på "skriv opp" og "utlei" 3

Tillate hjelpemidler på eksamen Tabeller og formler i statistikk Bestemd, enkel kalkulator Stempla gult A5-ark med eigne handskrivne formlar og notat (du kan skrive på begge sider av arket) 4

Korleis førebu seg føre eksamen Kræsjkurs: tysdag 15.05 i R1 (tidspunkt er ikkje endeleg bestemd) Eksamenslab: Onsdag 09.05 kl. 13:00-16:00 i S1 Måndag 14.05 kl. 13:00-16:00 i S2 Onsdag 16.05 kl. 13:00-16:00 i S2 Tysdag 22.05 kl. 13:00-16:00 i S2 Gamle eksamensoppgåver er god trening 5

Naturlege neste kurs i statistikk 1. TM4265 Stokastisk modellering (H2018) sannsynsrekning rekne på prosesser som utviklar seg i tid 2. TMA4255 Anvendt statistikk (V2019) statistisk inferens multippel lineær regresjon, forsøksplanlegging 3. TMA4267 Lineære statistiske modeller (V2019) Som TMA4255, men noko meir matematisk 4. TMA4268 Statistisk læring (V2019) Regresjon, ikkje-linearitet, klassifikasjon Fokus på programmering i R 6

DEL 1: Sannsynsrekning 7

Sannsyn Stokastisk forsøk : eit eksperiment der resultatet er underlagt tilfeldigheter, Utfallsrom S : mengda av moglege resultat i eit stokastisk forsøk. Utfall x : eit element i utfallsrommet S. Ein sannsynsmål på eit utfallsrom S er ein reell funksjon definert på hendingane i S slik at: 0 P(A) 1 for alle A S. P(S) = 1 Dersom A 1, A 2,... er parvis disjunkte (dvs. A i A j = for alle i j), så er ( ) P A i = P(A i ). i=1 i=1 8

Reknereglar for sannsyn Additiv regel: P(A B) = P(A) + P(B) P(A B) Komplementærsetninga: P(A) = 1 P(A c ) Betinga sannsyn: P(A B) = P(A B) P(B) Multiplikasjonssetninga: P(A B) = P(B)P(A B) = P(A)P(B A) Uavhengighet: A, B uavhengige P(A B) = P(A) P(A B) = P(A)P(B) Bayes regel: P(A B) = P(A)P(B A) P(B) Lova om total sannsyn: B 1, B 2,..., B n partisjon av S P(A) = n P(B i A) = i=1 n P(A B i )P(B i ) i=1 9

Stokastiske variabel og sannsynsfordeling Ein stokastisk variabeler ein reell funksjon, X, definert på eit utfallsrom. Eigenskapar til X: { punktsannsyn diskret f (x) sannsynstettleik kontinuerleg F (x) = P(X x) same tolkning for båe diskret og kontinuerleg tilfelle 10

Forventningsverdi og varians Forventningsverdi (tolkning: gjennomsnitt av uendeleg mange realisasjonar) { x g(x)f (x) diskret E(g(X)) = g(x)f (x)dx kontinuerleg E(aX + by + c) = ae(x) + be(y ) + c Varians (tolkning: måler spredning/variasjon) Var(X) = E((X E(X) 2 ) = E(X 2 ) (E(X)) 2 Var(aX + b) = a 2 Var(X) Var(X + Y ) = Var(X) + Var(Y ) + 2Cov(X, Y ) Kovarians (tolkning: kan tolke forteiknet) Cov(X, Y ) = E((X E(X))(Y E(Y ))) X, Y uavhengige Cov(X, Y ) = 0 11

12

13

Viktig diskrete fordelingar Binomisk fordeling: Trekning frå urne med tilbakelegging n uavhengige forsøk suksess eller fiasko i kvart forsøk med konstant sannsyn for suksess p X er talet på suksessar Multinomisk fordeling: Som binomisk, men k mogleg utfall i kvart forsøk Hypergeometrisk fordeling: Trekning frå urne utan tilbakelegging N kuler totalt, k raude og N k gule. X er talet på raude du trekk Negativ binomisk fordeling: same situasjon som for binomisk, men trekk inntil k suksessar (k = 1 gir geometrisk fordeling). X er talet på trekningar Poissonfordeling: X er talet på hendingar på intervallet [0, t] i ein poissonprosess 14

15

16

Viktige kontinuerlege fordelingar Normalfordeling: X n(x; µ, σ) lineærkombinasjon av uavhengige normalfordelte stokastiske variabler er normalfordelt X n(x; µ, σ) Z = X µ σ n(z; 0, 1) Eksponensialfordeling: X tid til første hending/tid mellom etterfølgande hendingar i ein poissonprosess 17

18

19

20

Transformasjon av stokastiske variablar Situasjon: X f (x) Mål: finne fordelinga til Y = u(x) (merk: X = w(y )) { f (w(y)) diskret g(y) = f (w(y)) w (y) kontinuerleg 21

Nokre samanhenger mellom fordelingar Hypergeometrisk binomisk dersom N er stor i forhold til k Binomisk poisson viss n stor og p liten Binomisk normal viss n stor 22

Ordningsvariablar Situasjon: X 1, X 2,..., X n tilfeldig utval med X i f (x i ) Maksimum: V = max(x 1, X 2,..., X n ) F V (v) = P(max(X 1, X 2,..., X n ) v) n = P(X i v) = (F X (v)) n i=1 Minimum: U = min(x 1, X 2,..., X n ) F U (u) = P(min(X 1, X 2,..., X n ) u) n =1 [1 P(X i u)] = 1 (1 F X (u)) n i=1 23

Momentgenererande funksjon Definisjon: M X (t) = E(e tx ) Reknereglar: M ax (t) = M X (at) M a+x (t) = am X (t) X 1, X 2,..., X n uavhengige Eigenskapar: M X1 +X 2 +...X n (t) = M X1 (t)m X2 (t)... M Xn (t) M (r) X (0) = E(X r ) Fordelinga til X og Y er like viss M X (t) = M Y (t) for alle t 24

DEL 2: Statistikk 25

Sentralgrenseteoremet Viss X er gjennomsnittet av eit tilfeldig utval av storleik n tatt frå ein populasjon med forventningsverdi µ og varians σ 2 < vil Z = X µ σ/ n n(z; 0, 1) når n. 26

Estimator Situasjon: X 1, X 2,..., X n tilfeldig utval med X i f (x i ; θ) Mål: ynskjer å anslå verdien til θ (og seie noko om tilhøyrande uvisse) Observator: funksjon av stokastiske variablar Estimator: ein observator θ som nyttes til å estimere verdien til den ukjende parameteren θ 27

Sannsynsmaksimering Situasjon: X 1, X 2,..., X n tilfeldig utval X i f (x i ; θ) 1. Definer rimelighetsfunksjonen n L(θ) = f (x i ; θ) 2. Ofte er det enklare å sjå på log-rimelighetsfunksjonen i=1 l(θ) = n ln f (x i ; θ) i=1 3. Maksimer l(θ) (ofte ved å derivere og setje lik null) 28

Eigenskapar til estimatorar Ynskjer ein forventningsrett (eng: unbiased) estimator E( θ) = θ For to forventningsrette estimatorar θ 1, θ 2 vil me velge den med lågast varians: Var( θ 1 ) < Var( θ) velg θ 1 29

30

31

Konfidensintervall Situasjon: X 1, X 2,..., X n tilfeldig utval X i f (x i ; θ) Mål: ynskjer konfidensintervall [ θ L (X 1, X 2,..., X n, θ U (X 1, X 2,..., X n )] slik at P( θ L (X 1, X 2,..., X n θ θ U (X 1, X 2,..., X n )]) = 1 α 32

Generell framgangsmåte for konfidensintervall 1. Estimator for θ, ˆθ (t.d. SME) 2. La Z = h(ˆθ, θ) der h(, ) er ein funksjon s.a. Z har ei kjend fordeling. 3. Har då P(z 1 α/2 h(ˆθ, θ) z α/2 ) = 1 α 4. Løys ulikskapane (mhp. θ) kvar for seg og finn eit uttrykk med θ i midten P(ˆθ L (X 1, X 2,..., X n ) θ ˆθ U (X 1, X 2,..., X n )) = 1 α 5. Et (1 α) 100 % konfidensintervall for θ er [ˆθ L (X 1, X 2,..., X n ), ˆθ U (X 1, X 2,..., X n )] 33

Hypotesetesting H 0 riktig H 1 riktig Forkast H 0 Type I-feil Ok Ikkje forkast H 0 Ok Type II-feil Ide: vi må vere "sikre" før me påstår at H 1 er rett. Me velg signinifikansnivået α liten og krev P(Type I-feil) = P(Forkast H 0 når H 0 er riktig) α β = P(Type II-feil) = P(Ikkje forkast H 0 når H 1 er riktig) 34

Generell framgangsmåte Situasjon: X 1, X 2,..., X n tilfeldig utval med X i f (x i ; θ). 1. Ynskjer å teste: a) H 0 : θ = θ 0 mot H 1 : θ > θ 0 b) H 0 : θ = θ 0 mot H 1 : θ < θ 0 c) H 0 : θ = θ 0 mot H 1 : θ θ 0 2. Estimator for θ; θ 3. La Z = h( θ, θ 0 ), der h(, ) er ein funksjon s.a. Z har ei kjend fordeling under H 0 4. Bestem eit forkastningskriterium (antar Z stor når θ stor) a) Forkast H 0 dersom Z > k b) Forkast H 0 dersom Z < k c) Forkast H 0 dersom Z < k l eller Z > k u der k bestemmes frå kravet 5. Sett inn tal og konkluder P(Forkast H 0 når H 0 er riktig) α 35

p-verdi Ein p-verdi er det lågaste signifikansnivået α slik at observert verdi for observatoren gjev at me skal forkaste H 0. Det vil seie, forkast H 0 dersom p-verdien er mindre enn α. Teststyrke Styrken til ein test er sannsynet for å forkaste H 0 gitt at ein spesifikk alternativ hypotese er sann. 36

37

Lineær regresjon Situasjon: observert (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ) Modell: Y i x i n(y i ; α + βx i, σ) Kan tilpasse α, β, σ Minste kvadraters metode (kun α, β) Sannsynsmaksimering 38

39

Prediksjon lineær regresjon Merk at det er skilnad på følgande: Forventa respons µ Y x0 Ein ny observasjon Y 0 (gitt x 0 ) 40