TMA4245 Statistikk. Innlevering 3. Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag

Like dokumenter
for x 0 F X (x) = 0 ellers Figur 1: Parallellsystem med to komponenter Figur 2: Seriesystem med n komponenter

TMA4240 Statistikk Høst 2018

TMA4245 Statistikk Eksamen desember 2016

TMA4240 Statistikk Eksamen desember 2015

TMA4240 Statistikk Høst 2015

TMA4240 Statistikk H2010

Utfordring. TMA4240 Statistikk H2010. Mette Langaas. Foreleses uke 40, 2010

TMA4240 Statistikk 2014

TMA4240 Statistikk Høst 2015

Eksamensoppgave i TMA4240 Statistikk

TMA4240 Statistikk Høst 2016

TMA4245 Statistikk Eksamen desember 2016

i=1 x i = og 9 x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x

EKSAMEN I TMA4255 ANVENDT STATISTIKK

TMA4245 Statistikk Eksamen august 2014

TMA4240 Statistikk Høst 2009

TMA4240 Statistikk Høst 2016

Eksamensoppgave i TMA4240 Statistikk

Kapittel 8: Tilfeldige utvalg, databeskrivelse og fordeling til observatorar, Kapittel 9: Estimering

Eksamensoppgave i TMA4240 / TMA4245 Statistikk

Første sett med obligatoriske oppgaver i STK1110 høsten 2015

TMA4240 Statistikk 2014

TMA4240 Statistikk Høst 2015

TMA4240 Statistikk Eksamen desember 2015

i x i

Notat 3 - ST februar 2005

HØGSKOLEN I STAVANGER

TMA4240 Statistikk Høst 2009

TMA4240 Statistikk Høst 2007

Fasit for tilleggsoppgaver

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

Eksamensoppgave i TMA4240 Statistikk

TMA4240 Statistikk Høst 2015

TMA4240 Statistikk Høst 2008

Siden vi her har brukt første momentet i fordelingen (EX = EX 1 ) til å konstruere estimatoren kalles denne metoden for momentmetoden.

n n i=1 x2 i n x2 n i=1 Y i og x = 1 n i=1 (x i x)y i = 5942 og n T = i=1 (x i x) 2 t n 2

EKSAMEN I TMA4255 ANVENDT STATISTIKK

TMA4245 Statistikk Høst 2016

EKSAMEN I FAG 75510/75515 STATISTIKK 1 Tirsdag 20. mai 1997 Tid: 09:00 14:00

TMA4240 Statistikk H2010

Eksamensoppgave i ST0103 Brukerkurs i statistikk

Oppfriskning av blokk 1 i TMA4240

Da vil summen og gjennomsnittet være tilnærmet normalfordelte : Summen: X 1 +X X n ~N(nµ,nσ 2 ) Gjennomsnittet: X 1 +X

Eksamensoppgåve i TMA4240 Statistikk

STK1100 våren 2019 Mere om konfidensintevaller

TMA4240 Statistikk Høst 2016

Hypotesetesting. Formulere en hypotesetest: Når vi skal test om en parameter θ kan påstås å være større enn en verdi θ 0 skriver vi dette som:

TMA4240 Statistikk Høst 2012

ST0103 Brukerkurs i statistikk Høsten Momentestimatoren og sannsynlighetsmaksimeringsestimatoren

Om eksamen. Never, never, never give up!

TMA4240 Statistikk H2010

Bernoulli forsøksrekke og binomisk fordeling

Dekkes av kap , 9.10, 9.12 og forelesingsnotatene.

TMA4245 Statistikk Eksamen august 2014

Statistisk inferens: 9.14: Sannsynlighetsmaksimeringsestimatoren 8.5: Fordeling til gjennomsnittet 9.4: Konfidensintervall for µ (σ kjent)

Eksamensoppgave i TMA4245 Statistikk

LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4240 STATISTIKK Mandag 12. desember 2011

Eksamensoppgave i TMA4245 Statistikk

TMA4240 Statistikk H2010 (22)

Om eksamen. Never, never, never give up!

UNIVERSITETET I OSLO

Dekkes av pensumsidene i kap. lesingsnotatene. Hypotesetesting er en systematisk fremgangsmåte

Løsningsforslag Eksamen i Statistikk SIF5060 Aug 2002

Høgskolen i Telemark. Institutt for økonomi og informatikk FORMELSAMLING Statistikk I. Til bruk ved eksamen. Per Chr. Hagen

Eksamensoppgåve i TMA4240 / TMA4245 Statistikk

TMA4240 Statistikk Høst 2015

Bootstrapping og simulering Tilleggslitteratur for STK1100

Løsning eksamen desember 2016

TMA4240 Statistikk H2010

EKSAMEN I TMA4240 Statistikk

EKSAMEN I TMA4245 Statistikk

Norske hoppdommere og Janne Ahonen

år i alder x i tid y i i=1 (x i x) 2 = 60, 9

TMA4240 Statistikk Høst 2012

HØGSKOLEN I STAVANGER

Tilfeldige variabler. MAT0100V Sannsynlighetsregning og kombinatorikk

UNIVERSITETET I OSLO

TMA4240 Statistikk Høst 2009

Observatorar og utvalsfordeling. Torstein Fjeldstad Institutt for matematiske fag, NTNU

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

STK1100 våren Kontinuerlige stokastiske variabler Forventning og varians Momentgenererende funksjoner

TMA4240 Statistikk H2015

Inferens. STK Repetisjon av relevant stoff fra STK1100. Eksempler. Punktestimering - "Fornuftig verdi"

> 6 7 ) = 1 Φ( 1) = = P (X < 7 X < 8) P (X < 8) < ) < ) = Φ(2) =

x λe λt dt = 1 e λx for x > 0 uavh = P (X 1 v)p (X 2 v) = F X (v) 2 = (1 e λv ) 2 = 1 2e λv + e 2λv = 2 1 λ 1 2λ = 3

LØSNINGSFORSLAG ) = Dvs

Eksamensoppgave i Løsningsskisse TMA4240 Statistikk

Eksamensoppgave i ST0103 Brukerkurs i statistikk

Eksamensoppgave i TMA4245 Statistikk

A. i) Sett opp en frekvenstabell over de fire mulige kombinasjonene av kjønn og røykestatus. Dvs. fyll inn. Ikke - røyker Sum Jente Gutt Sum 25

Midtveiseksamen i STK1100 våren 2017

α =P(type I feil) = P(forkast H 0 H 0 er sann) =1 P(220 < X < 260 p = 0.6)

Eksamensoppgåve i ST0103 Brukarkurs i statistikk

Løsning eksamen desember 2017

Andre sett med obligatoriske oppgaver i STK1110 høsten 2010

EKSAMEN I FAG TMA4275 LEVETIDSANALYSE Xxxdag xx. juni 2008 Tid: 09:0013:00

Kontinuerlige sannsynlighetsfordelinger.

Kap. 8: Utvalsfordelingar og databeskrivelse

Oppgave 1. . Vi baserer oss på at p 47 1 og p 2 er tilnærmet normalfordelte (brukbar tilnærming). Vi har tilnærmet at (n 1 = n 2 = 47)

TALLSVAR. Det anbefales at de 9 deloppgavene merket med A, B, teller likt uansett variasjon i vanskelighetsgrad. Svarene er gitt i <<< >>>.

Transkript:

TMA4245 Statistikk Vår 2017 Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag Innlevering 3 Dette er den første av to innleveringer i blokk 2 Denne øvingen skal oppsummere pensum forelest i uke 8-11 Øvingen handler om funksjoner av stokastiske variabler (kap 7 i lærebok og notat om ordningsvariabler), estimering og konfidensintervall (kap 8 og 9 i læreboka) Alle deloppgaver teller like mye Oppgave 1 Juletrelysene Vi ser på en lenke med 36 juletrelys der lysene er seriekoblet Det betyr at hvis ett lys slukner så slukner hele lyskjeden Anta videre at levetiden til lys nr i, X i, i = 1,, 36, er eksponentialfordelt med forventningsverdi µ timer, og at levetiden til de ulike lysene er uavhengig av hverandre La U være en stokastisk variabel som angir levetiden til lyslenken a) Hva er sammenhengen mellom U og X 1, X 2,, X n? Finn fordelingen til levetiden U til lyslenken Finn også forventet levetid til lenken, E(U), og angi numerisk verdi når µ = 5000 timer b) Når lyslenken fungerer bruker den 72 W, dvs at i løpet av en time vil den bruke 0072 kwh Hvilken fordeling har energiforbruket Y til lyslenken over hele dens levetid? (Hint: Y = 0072U) Finn forventet energiforbruk for lyslenken når µ = 5000 timer Oppgave 2 I forkant av et stortingsvalg blir det gjennomført en meningsmåling der et representativt utvalg av velgerne blir spurt om de ønsker et regjeringsskifte eller ikke Anta at andelen av velgerne som ønsker et skifte er p, og la X være antall personer blant n spurte som svarer JA på spørsmålet Ønsker du et regjeringsskifte ved høstens valg? Anta at to aviser på en bestemt dag presenterer resultater fra to meningsmålinger, gjennomført av hvert sitt meningsmålingsinstitutt, Byrå A og Byrå B La n 1 være antall spurte og X 1 antall som svarer JA i målingen fra Byrå A, og n 2 og X 2 tilsvare størrelser for Byrå B Vi antar at X 1 er binomisk fordelt med parametre n 1 og p, og X 2 er binomisk fordelt med parametre n 2 og p, og at X 1 og X 2 er uavhengige Vi ønsker å estimere p ved å kombinere resultatene fra de to målingene To aktuelle estimatorer inn3-oppg-b 23 februar 2017 Side 1

er ˆP = 1 ( X1 + X ) 2 2 n 1 n 2 P = X 1 + X 2 n 1 + n 2 og a) Finn forventning og varians til hver av de to estimatorene ˆP og P Dersom n 1 = 500 og n 2 = 1000, hvilken estimator vil du da velge? Begrunn svaret Anta nå at n 1 = n 2 = n, slik at X 1 og X 2 er uavhengige og binomisk fordelte, med samme parametre p og n Dette medfører at ˆP = P = X 1 + X 2 2n Utled et tilnærmet 95% konfidensintervall for p ved å bruke at fordelingen til er tilnærmet standard normalfordelt ˆP p 1 ˆP 2n (1 ˆP ) Et tredje meningsmålingsinstitutt, Byrå C, har annonsert at de snart kommer med resultater fra en tilsvare måling med n 3 spurte La X 3 være antall som svarer JA på spørsmålet om regjeringsskifte i målingen fra Byrå C, og anta at X 3 er uavhengig av X 1 og X 2 Vi vil nå bruke resultatene fra Byrå A og Byrå B til å predikere hvor mange som svarer JA i den nye målingen Vi antar i resten av oppgaven at n 1 = n 2 = n 3 = n = 1000, og at observerte verdier for X 1 og X 2 er x 1 = 645 og x 2 = 692 b) La Y = X 3 n ˆP, der ˆP = X 1 + X 2 2n Begrunn at det i vår situasjon er rimelig å anta at Y er tilnærmet normalfordelt, og vis at variansen til Y er 3 2np(1 p) Bruk dette til å utlede et tilnærmet 95% prediksjonsintervall for antallet spurte som i målingen fra Byrå C svarer JA på spørsmålet om regjeringsskifte Bestem også intervallet numerisk basert på de observerte verdiene Oppgave 3 En fabrikk produserer kabel og tid om annet oppstår det feil på den produserte kabelen La Z betegne lengden (i kilometer) på kabelen mellom to etterfølge feil Vi skal anta at feilene oppstår uavhengig av hverandre, dvs at påfølge observasjoner av Z langs kabelen, Z 1, Z 2, Z 3,, er uavhengige stokastiske variabler Av erfaring vet en at lengden mellom to etterfølge feil er eksponensialfordelt med parameter λ, dvs Z har sannsynlighetstetthet { λe λz for z > 0, f(z; λ) = 0 ellers

og kumulativ fordelingsfunksjon F (z; λ) = { 1 e λz for z > 0, 0 ellers Ved hjelp av fabrikkens opptegnelser over tidligere feil på kabelen ønsker vi å estimere λ Men det viser seg dessverre at fabrikken ikke har notert nøyaktig lengde på kabelen mellom hver feil, i stedet er det kun notert antall hele kilometer, M, med kabel mellom hver feil Dvs, dersom Z < 10 har fabrikken notert seg M = 0, dersom 10 Z < 20 har fabrikken notert seg M = 1, dersom 20 Z < 30 har fabrikken notert seg M = 2, osv a) Vis at punktsannsynligheten for M blir P(M = m) = (1 e λ )e λm for m = 0, 1, 2, b) Bestem sannsynlighetsmaksimeringsestimatoren (SME) for λ basert på n observasjoner M 1, M 2,, M n Oppgave 4 Vitamin C I en medisinsk studie på marsvin ble det benyttet to ulike kilder til vitamin C-inntak Disse var appelsinjuice (tilskudd 1) og syntetisk askorbinsyre (tilskudd 2) Responsmålet som ble brukt var lengden til odontoblastceller i fortennene til marsvinene Forskerne hadde som mål å studere effekten av hvert av tilskuddene, og deretter å sammenligne dem X 1, X 2,, X n1 angir odontoblastlengdene til et tilfeldig utvalg av n 1 marsvin som fikk tilskudd 1 og Y 1, Y 2,, Y n2 angir odontoblastlengdene til et tilfeldig utvalg av n 2 marsvin som fikk tilskudd 2 Vi antar at X i N(µ, σ 2 ), dvs at X i er normalfordelt med E(X i ) = µ og Var(X i ) = σ 2, og at Y j N(η, τ 2 ) for i = 1, 2,, n 1 og j = 1, 2,, n 2, og at de to tilfeldige utvalgene er uavhengige Totalt fikk n 1 = 10 marsvin tilskudd 1 og n 2 = 10 marsvin tilskudd 2 Datasettet finner du (sortert) i tabellen under Lengdene er i mikrometer (10 6 meter) Tilskudd Observasjoner Tilskudd 1: Appelsinjuice 82 94 96 97 100 145 152 161 176 215 Tilskudd 2: Askorbinsyre 42 52 58 64 70 73 101 112 113 115 Deskriptive mål for datasettet er x = 1 i=1 (x i x) 2 = 444, og s y = 1 9 1 9 10 i=1 x i = 1318, ȳ = 1 10 j=1 (y j ȳ) 2 = 277 j=1 y j = 800, s x = a) Først skal vi bare studere situasjonen der appelsinjuice ble gitt, dvs x-målingene Hva er en god estimator for forventet lengde på odontoblastcellene, µ? Hva blir estimatet når data er som oppgitt over? Et punktestimat alene forteller ingenting om variablitet, slik at vi også ser på et konfidensintervall for µ Lag et 90 % konfidensintervall for µ b) Gjenta det du gjorde i a) med askorbinsyre-dataene, dvs y-malingene, men for η lager du heller et 99 % (og ikke 90) konfidensintervall Vil generelt et 90% konfidensintervall være smalere eller bredere enn et 99% konfidensintervall (hvis vi laget begge intervallene for η)?

c) Forskerne vil gjerne se på forskjellen i effekten de to tilskuddene har på forventet odontoblastlengde Definer δ = µ η som differansen mellom forventet odontoblastlengde for de to tilskuddene Hva er en god estimator for δ? Hva blir estimatet når data er som oppgitt over? Skriv til slutt opp formelen for et 95% konfidensintervall for δ og regn ut numerisk verdi Er det grunn til å tro at de to tilskuddene har ulik effekt på forventet odontoblastlengde? (Dette spørsmålet skal vi jobbe mer med videre i kurset, men du skal her basere svaret ditt på konfidensintervallet du har laget) Oppgave 5 Matlaboppgave om konfidensintervall Hos næringsmiddelprodusenten Lønsjkrønsj fremstilles produktet Nøttebøtte, små bøtter som hver inneholder 500 g assorterte nøtter Ledelsen i Lønsjkrønsj innser at man ikke kan garantere at hver eneste bøtte inneholder nøyaktig 500 g nøtter, men for at det ikke skal oppstå for store avvik, er følge kvalitetskontrollrutine innført: Ved slutten av hver produksjonsdag velges 12 nøttebøtter tilfeldig fra dagens produksjon Deretter veies innholdet med en svært nøyaktig vekt, slik at en får observasjonene X 1, X 2,, X 12 Anta at observasjonene er uavhengig og identisk normalfordelte med ukjent forventningsverdi µ og ukjent varians σ 2 Anta videre at vekta som brukes er så nøyaktig at vi kan se bort fra måleusikkerheten a) Skriv opp uttrykket for et 90% konfidensintervall for µ basert på X 1, X 2,, X 12 Lag en Matlab-funksjon som tar inn en vektor med observasjoner og returnerer nedre og øvre grense til intervallet Eksempel på Matlab-kode som kan brukes: function [mu_l, mu_u] = konfint_nb(x) n = length(x); alpha = 010; tq = icdf( t, 1-alpha/2, n-1); xbar = mean(x); s = std(x); mu_l = xbar - tq*s/sqrt(n); mu_u = xbar + tq*s/sqrt(n); b) Anta at de sanne parameterverdiene er µ = 49825 g og σ 2 = 267 2 g 2, og at de holder seg konstante gjennom en periode på 300 produksjonsdager Hver dag beregnes et nytt konfidensintervall som i a), basert på 12 nye observasjoner Hvor mange av de 300 konfidensintervallene forventes å inneholde den sanne verdien av µ? Lag et Matlab-skript som simulerer de 300 utvalgene fra normalfordelingen med de sanne verdiene av µ og σ 2, og beregner de 300 konfidensintervallene ved å kalle funksjonen fra a) Hvor mange av konfidensintervallene inneholder den sanne verdien av µ? Kommenter svaret Eksempel på Matlab-kode som kan brukes: mu = 49825; sigma = 267;

Fasit antall_innenfor = 0; for i = 1:300 x = normrnd(mu, sigma, [1,12]); [l,u] = konfint_nb(x); if (l <= mu && mu <= u) antall_innenfor = antall_innenfor + 1; andel_innenfor = antall_innenfor/300 1 a) 13889 h b) 10 kwh 2 a) E[ P ] = p, Var[ P ] = 1 4 ( 1 n 1 + 1 n 2 )p(1 p), E[P ] = p, Var[P ] = 1 n 1 +n 2 p(1 p) b) [633, 704] 3 b) λ = ln ( 1/M + 1 ) der M = 1 n Mi 4 [1061,1575] [515,1085] [166,870]