Tilfeldig utvalg [8.1] U.i.f. Statistisk inferens. Kapittel 8 og 9

Transkript

1 3 Tilfeldig utvalg [8.1] DEF 8.1: En populasjon er mengden av observasjoner som vi ønsker å studere, dvs. alle observasjoner det er mulig å gjøre. (Dersom elementene i populasjonen har fordeling f(x), kaller boka det en f(x)-populasjon.) Kapittel 8 og 9 Ett- og toutvalgs estimering; statistisk inferens, forventningsretthet, punktestimat, intervallestimat og prediksjonsintervall, estimere forventningsverdi, differanse, andel og varians, standardfeil, sannsynlighetsmaksimering DEF 8.: En utvalg er en delmengde av en populasjon. Representativt utvalg: elementene som velges ut må ikke bare representere en delmengde av populasjonen som alle har en spesiell egenskap, de må kunne være representanter for hele populasjonen. Uendelig populasjon: vi skal jobbe som om populasjonen vår er uendelig stor! TMA445 V007: Eirik Mo 4 Statistisk inferens Fra innsamling, bearbeiding, analyse og fortolkning av numeriske data og målinger: trekke slutninger utover det man har observert. Vi ønsker å si noe generelt om en populasjon basert på et innsamlet tilfeldig utvalg fra populasjonen. Bakgrunn: vår kunnskap i sannsynlighetsregning. Populasjon Sannsynlighetsregning Utvalg U.i.f DEF 8.3: La X 1, X,..., X n være n uavhengige stokastiske variable, hver med den samme sannsynlighetsfordeling f(x). Vi definerer at X 1, X,..., X n er et tilfeldig utvalg av størrelse n fra f(x)-populasjonen og skriver den simultane sannsynlighetsfordelingen som f(x 1, x,..., x n ) = f(x 1 )f(x ) f(x n ) U.i.f: et tilfeldig utvalg (som over) blir da et sett med uavhengige identisk fordelte (u.i.f.) observasjoner. Statistisk inferens

2 5 7 Heat flow data Data fra NIST/SEMATECH e-handbook of Statistical Methods Viser heat flow meter calibration and stability analysis. The response variable is a calibration factor. n = 195. Stamme- og bladdiagram LO: * * * * * (0) 96* * * * * * * 0 HI: Boksplott Histogram Min. 1st Qu. Median Mean 3rd Qu. Max Histogram of heatflow Histogram of heatflow Density Density heatflow Histogram of heatflow heatflow Density Density heatflow Histogram of heatflow heatflow

3 9 11 Normalplott Normal QQ-plott Empirisk kumulativ fordeling er ˆF(x) = antall observasjoner mindre eller lik x. n Hvis data er normalfordelt ville vi forvente at ˆF(x) ligner på den kumulative fordelingsfunksjonen til normalfordelingen. FFemp FFemp sort(heatflow) sort(heatflow) Hver observasjon er et punkt i diagrammet. Så justerer vi skalaen på y-aksen slik at det blir en lineær sammenheng når dataene er normalfordelte (bruke invers funksjon til kumulativ fordeling). Noen bytter om på aksene. Figurer fra NIST/SEMATECH e-handbook of Statistical Methods, Normal QQ-plott Estimering og hypotesetesting Sample Quantiles Normal Q Q Plot Theoretical Quantiles Fenomen Defekte produkter i industriell prosess Hva vil vi vite? ESTIMERING: Hva er andelen defekte? Mengden melk i melkekartong HYPOTESETESTING: Er det 1 liter melk i en 1 liters melkekartong? Populasjon Alle produkter i prosessen. Alle melkekartonger levert. Utføre eksperiment Samler inn data uavhengig, representativt? Stokastisk variabel med fordeling Vi får: Undersøke produkt, er det defekt eller ikke? Sjekker n artikler og lar X være antall defekte. Vi finner x defekte. X er binomisk fordelt med n forsøk og ukjent sannsynlighet for defekt p. Finne beste anslag for p og et intervall der vi har stor tillit til at p ligger (konfidensintervall). Undersøke melkekartong, hvor mye melk inneholder den? Sjekker n melkekartonger, måler for hver melkekartong X= mengden melk. X er normalfordelt med ukjent forventning µ og ukjent varians. Finne beste anslag av µ og, og bruke anslagene (med grad av tillit) til å si hvor sikre vi er på at det er 1 liter melk i melkekartongen.

4 13 TMA440/TMA445 Statistikk: Læringsmål 005/006: Emnet skal gi en innføring i grunnleggende begreper og metoder i statistikk. 006/007: Emnet skal gi studentene et grunnlag i sannsynlighetsregning og statistisk inferens, som gjør dem i stand til å gjenkjenne enkle statistiske standardsituasjoner innen teknologi og naturvitenskap, og vite hvordan disse best kan analyseres. Videre skal studentene kunne forstå de viktigste begrepene innen statistikk og sannsynlighetsregning, og kjenne til terminologien slik at de kan kommunisere med en fagstatistiker i mer kompliserte situasjoner. 15 Forventingsrett estimator DEF 9.1: En observator θ er en forventningsrett estimator for parameteren θ hvis fx E( θ) = θ Estimering Mål: finne sannheten om et fenomen i en populasjon. Sannheten knytter vi til en ukjent parameter, θ, i en valgt fordeling. Vi trekker et tilfeldig utvalg fra populasjonen; X 1, X,..., X n (u.i.f.). En estimator gir et anslag for den ukjente parameteren og er en funksjon av stokastiske variabler, ˆθ = ˆθ(X 1, X,..., X n ). Hvilke egenskaper bør en god estimator ha? Estimatoren bør være forventningsrett, dvs. E(ˆθ) = θ. Estimatoren bør ha minst mulig varians, Var(ˆθ), og variansen bør avta når antall observasjoner, n, øker. Hvordan kan vi finne estimatorer? ved intuisjon, ved matematisk metode. Sannsynlighetsmaksimeringsestimatoren (SME) finner det anslaget som gjør at de observasjonene vi har gjort (utvalget) har maksimal rimelighet! 16 E(S ), s 3 nx (X i X) = = = = nx nx (X i µ + µ X) = [(X i µ) ( X µ)] nx nx (X i µ) ( X µ) (X i µ) + n( X µ) nx (X i µ) ( X µ)n( X µ) + n( X µ) nx (X i µ) n( X µ) E(S ) = 1 nx E[ (X i X) ] = 1 nx n 1 n 1 {E[ (X i µ) ] E[n( X µ) ]} = 1 nx n 1 [ Var(X i ) nvar( X)] = 1 nx n 1 [ n n ] = 1 n 1 (n ) =

5 17 Mest effektive estimator DEF 9.: Hvis vi ser på alle mulige forventningsrette estimatorene for en parameter θ, kaller vi den med minst varians for den mest effektive estimatoren til θ. fx Fordeling til gjennomsnittet, X Hvis X 1, X,...,X n er uavhengige stokastiske variable, gjelder E( Var( a i X i ) = a i X i ) = a i E(X i ) a i Var(X i) Fra kapittel 7: Hvis X 1, X,...,X n i tillegg er normalfordelte, vil a 1 X 1 + a X + a n X n også være normalfordelt med forventning og varians som ovenfor Eksamen, juni 004, 1c 0 Fordeling til gjennomsnittet X [8.5] TEO 8.: Sentralgrenseteoremet La X 1, X,..., X n være et tilfeldig utvalg fra en fordeling med forventning µ og varians. Da har vi at sannsynlighetsfordelingen til Z = X µ / n går mot standard normalfordelingen, n(z; 0, 1), når n.

6 1 Sentralgrenseteoremet Figur fra Figure fra Devore. SME [9.15] 4 SME for µ i normalfordelingen DEF 9.6: Gitt uavhengige observasjoner x 1, x,..., x n fra en sannsynlighetstetthet (i det kontinuerlige tilfellet) eller en punktsannsynlighet (i det diskrete tilfellet) f(x; θ). Da er sannsynlighetsmaksimeringsestimatoren (SME) for θ verdien som maksimerer rimelighetsfunksjonen L(x 1, x,..., x n,θ) = f(x 1 ;θ) f(x ;θ) f(x n ;θ). Tilfeldig utvalg, X 1, X,..., X n u.i.f normal n(x; µ, ). Husker mulige estimator for µ er X. Hva er SME? Rimelighetsfunksjonen og logaritmen til rimelighetsfunksjonen:: L(x 1, x,...x n, µ, ) = = n 1 π e 1 (x i µ) 1 (π) n/ ( ) n/ e 1 P n (x i µ) ln L(x 1, x,...x n, µ, ) = n ln(π) n ln 1 (x i µ)

7 5 SME for µ i normalfordelingen Derivere mhp µ: ln L(x 1, x,...x n, µ, ) µ = 1 (x i µ) Finne ˆµ ved å sette ln L µ = 0: 1 n (x i ˆµ) = 0. ˆµ = 1 n X i = X 7 SME: steg 1. Ønsker estimator for parameter θ, basert på. tilfeldig utvalg fra populasjon beskrevet ved kjent parametrisk fordeling f(x; θ). 3. Rimelighetsfunksjonen; L(x 1, x,...,x n, θ) = f(x 1 ; θ)f(x ; θ) f(x n ; θ). 4. Skal maksimere rimelighetsfunksjonen, lettere å jobbe med den naturlige logaritmen til rimelighetsfunksjonen l(x 1, x,...,x n, θ) = ln L(x 1, x,..., x n, θ) 5. Deriverer logaritmen til rimelighetsfunksjonen med hensyn på θ. 6. Setter den deriverte lik 0 og løser ut for θ. Dette blir vår sannsynlighetsmaksimeringsestimator for θ. (Kan også sjekke at dette er maksimum og ikke minimum ved å derivere en gang til og se at denne.deriverte er negativ.) 6 SME for i normalfordelingen Husker mulig estimator for er S. Hva er SME? Har logaritmen til rimelighetsfunksjonen, og vet at ˆµ = X. ln L(x 1, x,...x n, µ, ) = n ln(π) n ln 1 (x i µ) Derivere mhp : ln L(x 1, x,...x n, µ, ) = n + 1 ( ) (x i µ) Finne ved å sette ln L = 0. Setter inn estimatet x for µ. ( ) n + 1 (x i x) = 0 ( ) n + 1 (x i x) = 0 dvs. = 1 n (X i X) 8 Estimering Mål: finne sannheten om et fenomen i en populasjon. Sannheten knytter vi til en ukjent parameter, θ, i en valgt fordeling. Vi trekker et tilfeldig utvalg fra populasjonen; X 1, X,..., X n (u.i.f.). En estimator gir et anslag for den ukjente parameteren og er en funksjon av stokastiske variabler, ˆθ = ˆθ(X 1, X,..., X n ). Estimatoren bør være forventningsrett, dvs. E(ˆθ) = θ. Estimatoren bør ha minst mulig varians, Var(ˆθ), og variansen bør avta når antall observasjoner, n, øker. Sannsynlighetsmaksimeringsestimatoren (SME) finner det anslaget som gjør at de observasjonene vi har gjort (utvalget) har maksimal rimelighet! I tillegg til punktestimatet kan vi lage et 95% konfidensintervall der vi har 95% tillit til at den sanne parameteren ligger.

8 9 Data fra DNA microarrays Studere effekt av trening på hjertet: måler forholdet mellom genuttrykk for rotter trent i 48 timer og rotter som ikke har trent gener studert, vi ser på genet: UI-R-A0-ar-f-11-0-UI med beskrivelse ESTs Highly similar to INTERFERON REGULATORY FACTOR 3 [M.musculus] Kan anta at en transformasjon av genuttrykksforholdet for trenete og utrenete rotter er normalfordelt. Positivt tall: genet er mer aktivt for trente enn for utrente rotter Nær 0: genet er like aktivt for trente og utrente rotter. Negativt tall: genet er mindre aktivt for trente enn for utrente rotter. Observasjoner fra 1 par av trenete og utrente rotter: ˆµ = x = Konfidensintervall for µ med kjent x z α n < µ < x + z α 1 α α α zα 0 zα n 30 Konfidensintervall for µ med kjent 3 Intervallestimering med rottedata Hvis x er gjennomsnittet av et tilfeldig utvalg av størrelse n fra en populasjon med kjent varians, så er et (1-α)100% konfidensintervall for µ x z α n < µ < x + z α n hvor z α er verdien i standard normalfordelingen som har areal α til høyre, dvs. P(Z > z α ) = α. Antar målinger er normalfordelte. Observasjoner fra 1 par av trenete og utrente rotter: % konfidensintervall for µ nå er kjent (antar =0.1): x z α n < µ < x + z α n Rottedata: ˆµ = x = 1.54, n=1, z 0.05 = 1.96, 95% konfidensintervall for µ er [1.36, 1.7].

9 33 Intervallestimering med rottedata 35 Konfidensintervall for µ med ukjent Hvis vi ikke kjenner kan vi estimere den med S, og får 95% konfidensintervall for µ nå er ukjent: x t α,(n 1) s n < µ < x + t α,(n 1) s n Rottedata: S =0.146, t 0.05,11 =.01, 95% konfidensintervall for µ er da [1.30, 1.78]. Hvis x er gjennomsnittet og s er estimert standardavvik av et tilfeldig utvalg av størrelse n fra en populasjon med ukjent varians, så er et (1-α)100% konfidensintervall for µ x t α,(n 1) s n < µ < x + t α,(n 1) s n hvor t α,(n 1) er verdien i t-fordelingen med n 1 frihetsgrader som har areal α til høyre, dvs. P(T > t α,(n 1) ) = α. 34 Kvantiler N og t.5%: N=black, t.15=blue, t.10=red 36 Konfidensintervall for µ med ukjent x t α,(n 1) s n < µ < x + t α,(n 1) s n α α α tα 0 tα

10 37 Test nasjonen Lørdag 7. november 004 ble TV-programmet Test nasjonen sendt på NRK1. Deltakere i studium svarte på spørsmål og fikk tildelt en IQ-score. Testen var laget slik at man forventet at IQ-score til en tilfeldig valgt person skulle være normalfordelt med forventningsverdi 100 og standardavvik 15. Deltakerne var delt inn i ulike grupper (av rundt 40 deltakere). 39 Ett normalfordelt utvalg: punkt- og intervallestimering Eksempler: melkekartonger, genuttrykk, høyde, betongstyrke, IQ. X 1, X,..., X n er et tilfeldig utvalg fra en populasjon som beskrives av en normalfordeling med forventning µ og varians. ˆµ = X = 1 n n X i estimator for µ (intuitiv og SME). E(X) = µ, Var(X) = n. Hvis er ukjent er S = 1 n n 1 (X i X) estimator for (forventningsrett, men ikke SME). (1 α)100% konfidensintervall for µ når er kjent: [x z α, x + z α ] n n (1 α)100% konfidensintervall for µ når er ukjent? 38 Test nasjonen (forts) Følgende gjennomsnittsscore be oppnådd: Sekretærer 88 Reality-deltakere 94 Kjendiser 98 Svensker 99 Kroppsbyggere 100 Finansfolk 101 Journalister 10 Er deltakerne valgt ut tilfeldig fra populasjonen bestående av Norges befolkning i gitte gruppe? Vi antar at det er kjent at = 15, og at hver gruppe bestod av 40 deltakere. Lag 95% konfidensintervaller for de ulike gruppene. 40 T og t-fordeling COR: La X 1, X,..., X n være uavhengige stokastiske variabler som alle er normalfordelte med samme forventning µ og samme standardavvik. La X = 1 n X i og S = 1 n 1 Da er den stokastiske variablen T = X µ S/ n t-fordelt med ν = (n 1) frihetsgrader. (X i X)

11 41 W. S. Gosset alias Student 43 t-fordelingen 4 Historisk: Student-t fordelingen W.S. Gosset ( ) was employed by the Guinness Brewing Company of Dublin. Sample sizes available for experimentation in brewing were necessarily small, and Gosset knew that a correct way of dealing with small samples was needed. He consulted Karl Pearson ( ) of Universiy College in London about the problem. Pearson told him the current state of knowledge was unsatisfactory. The following year Gosset undertook a course of study under Pearson. An outcome of his study was the publication in 1908 of Gosset s paper on "The Probable Error of a Mean," which introduced a form of what later became known as Student s t-distribution. Gosset s paper was published under the pseudonym "Student." The modern form of Student s t-distribution was derived by R.A. Fisher and first published in DEF: t-fordeling TEO 8.5: La Z være en standard normalfordelt stokastisk variabel og V være en kjikvadrat-fordelt stokastisk variabel med ν frihetsgrader. Hvis Z og V er uavhengige, er fordelingen til den stokastiske variablen T T = Z V/ν E(T) = 0 hvis ν. gitt ved sannsynlighetstettheten h(t) = Γ[(ν + 1)/] Γ(ν/) πν (1 + t ν ) (ν+1)/ for < t <. Denne fordelingen har navnet (Student) t fordelingen med ν frihetsgrader. Var(T) = ν ν hvis ν 3.

12 45 Fordelingen til S Resultat: V = (n 1)S = n ν = n 1 frihetsgrader. Fordi: Z i Z er kjikvadrat-fordelt med i) X 1,..., X n u.i.f. normal, E(X i ) = µ og Var(X i ) =. ii) Z i = X i µ er standard normalfordelt, og Z = X µ n standard normalfordelt. ( ) Xi µ er kjikvadrat-fordelt med 1 frihetsgrad. iii) Z i = Z = ( X µ n ) er kjikvadrat-fordelt med 1 frihetsgrad. iv) n Z i er kjikvadratfordelt med n frihetsgrader. v) (n 1)S = n (X i X) = n (X i µ) n( X µ), og dermed V = (n 1)S vi) n Z i og Z er uavhengige. = n Z i Z er 47 Prediksjonsintervall for fremtidig observasjon, normalfordeling For en normalfordeling med ukjent forventningsverdi µ, og ukjent varians, er et (1-α)100% prediksjonsintervall for en fremtidig observasjon x 0 gitt som x t α,(n 1) s n < x 0 < x + t α,(n 1) s n hvor t α,(n 1) er verdien i t-fordelingen med n 1 frihetsgrader som har areal α til høyre, dvs. P(T > t α,(n 1) ) = α, og s = n (x i x) 46 Prediksjonsintervall for fremtidig observasjon, normalfordeling For en normalfordeling med ukjent forventningsverdi µ, men kjent varians, er et (1-α)100% prediksjonsintervall for en fremtidig observasjon x 0 gitt som x z α n < x 0 < x + z α n hvor z α er verdien i normal-fordelingen som har areal α til høyre, dvs. P(Z > z α ) = α. 48 To utvalg: eksempler Betong: to ulike oppskrifter, A og B, skal sammenlignes. Hvor stor forskjell er det i styrken ( crushing strength ) for betong fra oppskrift A og fra oppskrift B? Sykdom: tester ut ny blodtrykksmedisin. Hvor mye bedre er den enn nåværende markedsledende blodtrykksmedisin? Kosthold: hvor stor vektreduksjon vil man oppleve ved å følge Dr Fedon Lindbergs kostråd i et halvt år? (balanse i blodsukker, lav glykemisk indeks) Bildekk: to typer dekk, A og B, skal sammenlignes mhp slitasje. Kan enten sette både A og B-dekk på hver bil eller noen biler med A og noen biler med B.

13 49 To utvalg: statistisk situasjon Ønsker å sammenligne to populasjoner basert på et u.i.f. utvalg fra hver populasjon. Studerer en egenskap som kan sies å være normalfordelt i hver populasjon, og ønsker å anslå differansen mellom forveningsverdien i de to populasjonene og et intervall der vi har stor tillit til at den sanne differansen i forventningsverdiene ligger. Sammenligningene kan være parvise eller ikke parvise. 51 To utvalg: estimatorer X A 1, X A,..., X A n A er et tilfeldig utvalg fra en populasjon som beskrives av en normalfordeling med forventning µ A og varians A. X B 1, X B,..., X B n B er et tilfeldig utvalg fra en populasjon som beskrives av en normalfordeling med forventning µ B og varians B. Estimator for µ A µ B : ˆµ A ˆµ B = X A X B = 1 na n A X i A 1 nb n B j=1 X j B (intuitiv og SME). X A X B er normalfordelt med E(X A X B ) = µ A µ B Var(X A X B ) = A n A + B n B Hvis A og B er kjente så er Z standard normalfordelt. Z = (X A X B ) (µ A µ B ) s A + B n A n B 50 To utvalg: Bensinforbruk Problemstilling: Vil sammenligne to biltyper A og B mhp bensinforbruk. Utvalg 1: X A i :#km/liter for bil nummer i, type A. Utvalg : X B j :#km/liter for bil nummer j, type B. Anta at X A i Anta at X B i Observasjoner: er normalfordelt med ukjent µ A og kjent A = km/liter. er normalfordelt med ukjent µ B og kjent B = 3 km/liter. n A = 1 målinger på bil A, med gjennomsnitt x A = 10 km/liter. n B = 10 målinger på bil B, med gjennomsnitt x B = 8 km/liter. 5 To utvalg: konfidensintervall for µ A µ B når A og B er kjente Hvis X A og X B er gjennomsnittene til to tilfeldig utvalg av størrelse n A og n B fra populasjoner med kjent varians A og B, så er et (1-α)100% konfidensintervall for µ A µ B A (x A x B ) z α (x A x B ) + z α + B < (µ A µ B ) < n A n B A + B n A n B hvor z α er verdien i standard normalfordelingen som har areal α til høyre, dvs. P(Z > z α ) = α.

14 53 To utvalg: Bensinforbruk 95% konfidensintervall for µ A µ B. Punktestimator: ˆµ A ˆµ B = X A X B. Punktestimat: x A x B = km/liter. 95% konfidensintervall: α = 0.05, z α = z 0.05 = 1.96, [ , ] = [0.66, 3.34] To utvalg: konfidensintervall (1 α)100% konfidensintervall for µ A µ B : når A og B er kjent: [(x A x B ) ± z α når A = B =, men ukjente: [(x A x B ) ± t α,(n A+n B )s p når A og B er ukjente (ikke like): der [(x A x B ) ± t α,ν A n A + B n B ] 1 n A + 1 n B ] s A n A + s B n B ] (sa ν = /n A + sb /n B) [(s A /n A) /(n A 1)] + [(s B /n B) /(n B 1)] 54 To utvalg: A = B, men ukjente Hvis A B lager vi S A = 1 n A 1 n A (Xi A X A ) og SB = 1 n B 1 n B j=1 (X B j X B ) Hvis vi vet at A = B = så kan vi lage en estimator S p (pooled) basert på summen av kvadratavvikene i de to utvalgene: S p = na 1 n A + n B [ (Xi A X A ) + = (n A 1)S A + (n B 1)S B n A + n B der X A = 1 n A na X A i og X B = 1 n B nb j=1 X B j. n B j=1 (X B j X B ) ] 56 Konfidensintervall for µ A µ B for parvise observasjoner Hvis d og s d er gjennomsnittet og standardavviket til normalfordelte differanser av n par av tilfeldige observasjoner, så er et (1-α)100% konfidensintervall for µ D = µ A µ B d t α,(n 1) s d n < µ D < d + t α,(n 1) s d n hvor t α,(n 1) er verdien i t-fordelingen med n 1 frihetsgrader som har areal α til høyre, dvs. P(T > t α,(n 1) ) = α. Ser at dette er i tråd med ett utvalg, konfidensintervall for µ: x t α,(n 1) s n < µ < x + t α,(n 1) s n

15 57 Eksempel: Dekkslitasje Vil sammenligne slitasje til to typer bildekk, A og B. 1. Utstyr n A tilfeldig valgte biler med dekk av type A, og n B tilfeldig valgte biler med dekk av type B. X A i, i = 1,...,n A er slitasje (gj.snitt over 4 dekk) for A-dekk-bilene. X B j, j = 1,..., n B er slitasje (gj.snitt over 4 dekk) for B-dekk-bilene. X1 A, X A,...,X n A A, X1 B, X B,...,X n B B alle uavhengige.. Utstyr n tilfeldig valgte biler med to dekk av type A og to av type B. Xi A, i = 1,...,n er slitasje til type A-dekk (gj.snitt over to dekk). Xi B, i = 1,..., n er slitasje til de n tilhørende parene av type B-dekk (gj.snitt over to dekk). Xi A og Xi B er ikke uavhengige, typisk positivt korrelert. Parene (X1 A, X 1 B), (X A, X B),..., (X n A, X n B ) er uavhengige. Hvilken strategi er best? 59 Norske hoppdommere og Janne Ahonen Treneren til Janne Ahonen gikk (før OL) ut i pressen og mente at norske hoppdommere konsekvent gir Janne Ahonen lavere stilkarakterer enn andre dommere. Norsk Regnesentral kikket på tallene fra sesongene (t.o.m. OL) og fant at de var enig med Ahonens trener. Lenke til artikkel fra Forskning.no og mer og mer informasjon om gjennomsnittskarakterer finnes fra fagets hjemmeside. Vi ser på tall fra 36 hopprenn, gjennomsnittlig karakter til Ahonen fra norske dommere og fra internasjonale dommere (ikke norske og finske) Hvordan skal vi regne på dette? 58 Eksempel: Dekkslitasje (forts.) Valgte strategi : parvise observasjoner. n = 15 forsøk med observerte verdier for D i = Xi A Xi B : d i : 1.5, -0.5, 0.0, 0.8, 1., 1., 0.9, -0.3, 1.3, 0., -0.7, 0.7,.6, -0.3,.. Anta D A, D B,..., D n u.i.f, D i n(d; µ D, D ), der µ D og D er ukjente. Punktestimator for µ D : ˆµ D = D, estimat d = 0.7. Punktestimator for D : ˆ D = S D = 1 n 1 n (D i D), estimat s d = % konfidensintervall for µ D = E(D i ): α = 0.05, t α,n 1 = t 0.05,14 =.145, [ d ± t α,(n 1) s d n ] = [0.7 ±.145 = [0.18, 1.6] ]

16 61 Ahonen: to uavhengige utvalg X A 1, X A,..., X A n A er et tilfeldig utvalg fra en populasjon av stilkarakterer til Ahonen fra norske dommere. Antar normalfordelt med forventning µ A og varians A =. X B 1, X B,..., X B n B er et tilfeldig utvalg fra en populasjon av stilkarakterer til Ahonen fra internasjonale dommere (ikke norske og finske). Antar normalfordelt med forventning µ B og varians B =. Antar A-utvalget er uavhengig av B-utvalget! Lik, men ukjent varians: Estimator S p. Konfidensintervall [(x A x B ) ± t α,(n A+n B )s p 1 n A + 1 n B ] 63 Konfidensintervall for µ A µ B for parvise observasjoner Hvis d og s d er gjennomsnittet og standardavviket til normalfordelte differanser av n par av tilfeldige observasjoner, så er et (1-α)100% konfidensintervall for µ D = µ A µ B d t α,(n 1) s d n < µ D < d + t α,(n 1) s d n hvor t α,(n 1) er verdien i t-fordelingen med n 1 frihetsgrader som har areal α til høyre, dvs. P(T > t α,(n 1) ) = α. Ser at dette er i tråd med ett utvalg, konfidensintervall for µ: x t α,(n 1) s n < µ < x + t α,(n 1) s n 64 Studenter og bilkjøring Følgende tabell er tatt fra TMA445 spørreundersøkelsen. Her angir n antall studenter i utvalget som hadde sertifikat, og x antall studenter som svarte at de er bedre enn gjennomsnittet av Norges befolkning til å kjøre bil. x n x n Menn Kvinner Alle a) Finn punktestimat og 99% konfidensintervall for andelen av studenter som synes sine kjøreegenskaper er bedre enn gjennomsnittet. b) Finn punktestimat og 99% konfidensintervall for differensen mellom andelen av mannlige studenter og kvinnlige studenter som synes sine kjøreegenskaper er bedre enn gjennomsnittet.

17 65 Estimering av andel: ett utvalg X er antall suksesser i et binomisk forsøk med parametere antallet n og andelen p. Vi vil estimere p. (n er kjent.) Estimator ˆp = X n (intuitiv og SME), øving B3). E(ˆp) = p og Var(ˆp) = p(1 p) n. Tilnærmet (1 α)100% konfidensintervall for p (normaltilnærming): ˆp(1 ˆp) [ˆp ± z α ] n 66 Estimering av andel: to utvalg X A er antall suksesser i et binomisk forsøk med parametere antallet n A og andelen p A. X B er antall suksesser i et binomisk forsøk med parametere antallet n B og andelen p B. Vi vil estimere p A p B. Estimator ˆp A ˆp B = X A n A X B n B. E(ˆp A ˆp B ) = p A p B og Var(ˆp A ˆp B ) = p A(1 p A ) n A + p B(1 p B ) n B. Tilnærmet (1 α)100% konfidensintervall for p A p B (normaltilnærming): [(ˆp A ˆp B ) ± z α ˆp A (1 ˆp A ) n A + ˆp B(1 ˆp B ) n B ] : Konfidensintervall for varians La X 1, X,..., X n være et tilfeldig utvalg fra en populasjon som beskrives av en normalfordeling med forventning µ og varians. S = 1 n 1 n (X i X) er en estimator for (forventningsrett, men ikke SME). Størrelsen V = (n 1)S α er kjikvadrat-fordelt med n 1 frihetsgrader. 1 α α 0 χ (1 α ) ν χ α

18 69 9.1: Konfidensintervall for varians Et (1 α)100% konfidensintervall for er (n 1)S χ α,(n 1) < < (n 1)S χ 1 α,(n 1) hvor χ α,(n 1) er verdien i kjikvadrat-fordelingen med n 1 frihetsgrader som har areal α til høyre, dvs. P(V > χ α,(n 1)) = α, og χ 1 α,(n 1) er verdien i kjikvadrat-fordelingen med n 1 frihetsgrader som har areal α til venstre, dvs. P(V < χ 1 α,(n 1)) = α. Oppgave: se på Eksamen August 003, oppgave 1.