i=1 x i = og 9 x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x

Like dokumenter
TMA4240 Statistikk Høst 2009

TMA4245 Statistikk. Innlevering 3. Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag

TMA4245 Statistikk Eksamen desember 2016

TMA4240 Statistikk 2014

TMA4245 Statistikk Eksamen desember 2016

TMA4240 Statistikk Eksamen desember 2015

TMA4245 Statistikk Eksamen august 2014

TMA4240 Statistikk Eksamen desember 2015

TMA4240 Statistikk Høst 2009

TMA4240 Statistikk Høst 2016

Eksamensoppgave i TMA4240 Statistikk

TMA4240 Statistikk Høst 2018

TMA4245 Statistikk Eksamen august 2014

TMA4240 Statistikk Høst 2016

i x i

TMA4240 Statistikk Høst 2015

TMA4240 Statistikk Høst 2007

Eksamensoppgave i TMA4240 Statistikk

Eksamensoppgave i TMA4245 Statistikk

TMA4240 Statistikk Høst 2009

Eksamensoppgåve i ST1201/ST6201 Statistiske metoder

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.

år i alder x i tid y i i=1 (x i x) 2 = 60, 9

Eksamensoppgåve i TMA4240 Statistikk

Fasit for tilleggsoppgaver

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

HØGSKOLEN I STAVANGER

n n i=1 x2 i n x2 n i=1 Y i og x = 1 n i=1 (x i x)y i = 5942 og n T = i=1 (x i x) 2 t n 2

for x 0 F X (x) = 0 ellers Figur 1: Parallellsystem med to komponenter Figur 2: Seriesystem med n komponenter

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

Om eksamen. Never, never, never give up!

TMA4240 Statistikk Høst 2012

EKSAMEN I FAG TMA4260 INDUSTRIELL STATISTIKK

LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4240 STATISTIKK Mandag 12. desember 2011

HØGSKOLEN I STAVANGER

Andre sett med obligatoriske oppgaver i STK1110 høsten 2010

EKSAMEN I TMA4255 ANVENDT STATISTIKK

Om eksamen. Never, never, never give up!

α =P(type I feil) = P(forkast H 0 H 0 er sann) =1 P(220 < X < 260 p = 0.6)

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

Eksamensoppgåve i TMA4245 Statistikk

Snøtetthet. Institutt for matematiske fag, NTNU 15. august Notat for TMA4240/TMA4245 Statistikk

Eksamensoppgave i TMA4240 Statistikk

EKSAMENSOPPGAVE STA «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator. Rute.

TMA4240 Statistikk Høst 2009

Gruvedrift. Institutt for matematiske fag, NTNU. Notat for TMA4240/TMA4245 Statistikk

Løsningsforslag eksamen 25. november 2003

Eksamensoppgåve i ST0103 Brukarkurs i statistikk

Kapittel 8: Tilfeldige utvalg, databeskrivelse og fordeling til observatorar, Kapittel 9: Estimering

UNIVERSITETET I OSLO

TMA4240 Statistikk H2010 (20)

EKSAMEN I TMA4240 Statistikk

Ferdig før tiden 4 7 Ferdig til avtalt tid 12 7 Forsinket 1 måned 2 6 Forsinket 2 måneder 4 4 Forsinket 3 måneder 6 2 Forsinket 4 måneder 0 2

Eksamensoppgave i ST0103 Brukerkurs i statistikk

Løsningsforslag til andre sett med obligatoriske oppgaver i STK1110 høsten 2010

TMA4240 Statistikk H2010

Forslag til endringar

vekt. vol bruk

Eksamensoppgave i TMA4245 Statistikk

Eksamensoppgave i TMA4240 / TMA4245 Statistikk

Kort overblikk over kurset sålangt

EKSAMEN I TMA4245 STATISTIKK Tysdag 21. mai 2013 Tid: 09:00 13:00 (Korrigert )

Eksamensoppgave i TMA4245 Statistikk

EKSAMEN I TMA4255 ANVENDT STATISTIKK

Løsningsforslag. n X. n X 1 i=1 (X i X) 2 og SY 2 = 1 ny S 2 X + S2 Y

EKSAMENSOPPGAVE STA-1001.

OPPGAVESETTET BESTÅR AV 3 OPPGAVER PÅ 6 SIDER MERKNADER: Alle deloppgaver vektlegges likt.

ST0202 Statistikk for samfunnsvitere

Kap. 8: Utvalsfordelingar og databeskrivelse

EKSAMEN I FAG TMA4240/TMA4245 STATISTIKK Lørdag 10. august 2013

Kapittel 2: Hendelser

Løsningsforslag Eksamen i Statistikk SIF5060 Aug 2002

ST0103 Brukerkurs i statistikk Forelesning 26, 18. november 2016 Kapittel 8: Sammenligning av grupper

ST0202 Statistikk for samfunnsvitere

Løsningsforslag STK1110-h11: Andre obligatoriske oppgave.

Hypotesetest: generell fremgangsmåte

Eksamensoppgåve i TMA4240 / TMA4245 Statistikk

EKSAMEN I FAG 75510/75515 STATISTIKK 1 Tirsdag 20. mai 1997 Tid: 09:00 14:00

Oppgave 1. T = 9 Hypotesetest for å teste om kolesterolnivået har endret seg etter dietten: T observert =

EKSAMEN I FAG TMA4240/TMA4245 STATISTIKK

Eksamensoppgave i Løsningsskisse TMA4240 Statistikk

ST0202 Statistikk for samfunnsvitere

Oppgave 1. . Vi baserer oss på at p 47 1 og p 2 er tilnærmet normalfordelte (brukbar tilnærming). Vi har tilnærmet at (n 1 = n 2 = 47)

ST0202 Statistikk for samfunnsvitere

TMA4240 Statistikk Høst 2016

Oppgave 1. Det oppgis at dersom y ij er observasjon nummer j fra laboratorium i så er SSA = (y ij ȳ i ) 2 =

Tilleggsoppgaver for STK1110 Høst 2015

Eksamensoppgave i TMA4255 Anvendt statistikk

TMA4240 Statistikk Høst 2015

Eksamensoppgave i ST0103 Brukerkurs i statistikk

Notasjon og Tabell 8. ST0202 Statistikk for samfunnsvitere

LØSNINGSFORSLAG ) = Dvs

Merk at vi for enkelthets skyld antar at alle som befinner seg i Roma sentrum enten er italienere eller utenlandske turister.

Løsning eksamen desember 2016

TMA4240 Statistikk H2010

Utfordring. TMA4240 Statistikk H2010. Mette Langaas. Foreleses uke 40, 2010

Løsningsforslag til eksamen i TMA4245 Statistikk 7. juni 2007

Løsningsforslag eksamen 27. februar 2004

UNIVERSITETET I OSLO

10.1 Enkel lineær regresjon Multippel regresjon

Transkript:

TMA4245 Statistikk Vår 2017 Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag Innlevering 4 Dette er den andre av to innleveringer i blokk 2, og den siste innleveringen i øvingsopplegget. Tema for oppgavene er blant annet hypotesetesting og sammenligning av utvalg (kap. 10) og lineær regresjon (kap. 10). Sannsynlighetsmaksimering (kap. 9) er også aktuelt. Alle deloppgaver teller like mye. Oppgave 1 Vi ser på kostnaden av et veiprosjekt. La X være en kontinuerlig stokastisk (tilfeldig) variabel som angir den faktiske kostnaden pr. meter for veien som skal bygges. Kostnaden pr. meter er avhengig av grunnforhold og pris på materialer. Vi antar at X er normalfordelt med ukjent forventningsverdi E(X) = µ og ukjent standardavvik SD(X) = Var(X) = σ. En ekspertgruppe mener at forventet kostnad pr. meter for veien som skal bygges blir 10000 kr/meter. I tillegg er det samlet inn data fra n = 9 veiprosjekter med tilsvarende grunnforhold og materialkostnader, og dataene finnes i tabell 1. Her er x i kostnaden i kr/meter for veiprosjekt nummer i, og det oppgis at 9 i=1 x i = 106480 og 9 i=1 (x i x) 2 = 49295335. x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x 9 10099 10925 15397 11676 11823 15788 12652 8337 9783 Tabell 1: Data over kostnad i kr/meter for n = 9 veiprosjekter. Prosjektlederen er skeptisk til kostnadsanslaget på µ = 10000 kr/meter, og mener at grunnforholdene tilsier at forventet kostnad i kr/meter er høyere. a) Formulér dette som en hypotesetest ved å definere nullhypotese og alternativ hypotese. Sett opp en testobservator og finn forkastingsområdet. Hva blir konklusjonen på testen, med data gitt i tabell 1, når signifikansnivået er α = 0.01? Regn ut p-verdien ved å bruke tabell 2. Oppgave 2 Ved behandling av visse kreftformer får pasientene kurer der en bestemt type medisin blir injisert i blodet i løpet av 24 timer. Alle pasienter får tilført samme dose medisin. Ved avslutningen av kuren blir konsentrasjonen av medisin i blodet målt. Medisinkonsentrasjonen måles i milligram medisin per liter blod. For at behandlingen skal ha ønsket effekt bør medisinkoninn4-oppg-b 22. mars 2017 Side 1

t 1.8 1.9 2.0 2.1 2.2 2.3 2.4 ν = 7 0.943 0.950 0.957 0.963 0.968 0.973 0.976 ν = 8 0.945 0.953 0.960 0.966 0.971 0.975 0.978 ν = 9 0.947 0.955 0.962 0.967 0.972 0.977 0.980 Tabell 2: Kumulativ sannsynlighet i t-fordelingen. For en stokastisk variabel T som er t-fordelt med ν frihetsgrader, så viser tabellen P (T t) for ulike verdier av t. sentrasjonen ved avslutningen av kuren helst overstige 5 mg/l. På grunn av bivirkninger blir det ansett som uheldig om medisinkonsentrasjonen overstiger 12 mg/l. La Y betegne målt medisinkonsentrasjon ved avslutningen av en kur, og anta at Y er normalfordelt med forventningsverdi µ og varians σ 2. Målt medisinkonsentrasjon ved avslutningen av ulike kurer antas uavhengige. Anta at µ er ukjent, mens σ 2 = 2 2 antas kjent. Fra åtte ulike kurer har man registrert dataene: kur i 1 2 3 4 5 6 7 8 y i 7.1 9.2 10.8 12.0 6.1 8.2 8.7 7.7 a) Skriv opp en rimelig estimator for µ, og regn ut estimatet. Utled et 95% konfidensintervall for µ. Hva blir intervallet med de oppgitte dataene? Legene har etterhvert funnet ut at i stedet for å gi alle pasienter samme dose medisin, vil det være gunstigere å justere dosene etter hvor syk pasienten er og hvor godt han/hun tåler bivirkningene. La x være dosen. Vi antar at x kan kontrolleres, dvs x er ikke stokastisk. Man antar at en god lineær regresjonsmodell for sammenhengen mellom x og Y vil være Y = βx + E, der β er en ukjent konstant og E er en normalfordelt stokastisk variabel med forventningsverdi 0 og kjent varians σ 2 E = 22. b) Hvorfor er det i dette tilfellet rimelig å ikke ha med noe konstantledd i den lineære regresjonsmodellen? Vis at sannsynlighetsmaksimeringsestimatoren (SME) for β basert på n uavhengige observasjoner blir ˆβ = n i=1 Y ix i n i=1 x2 i der x i og Y i er henholdsvis dose og målt medisinkonsentrasjon for observasjon nummer i. Regn ut forventningsverdien og variansen til ˆβ. Det har i løpet av ti kurer på ulike pasienter blitt observert følgende sammenhørende verdier for x og Y : kur i 1 2 3 4 5 6 7 8 9 10 x i 4.5 4.0 5.5 7.0 8.0 8.5 9.0 6.5 6.0 5.0 y i 6.2 5.2 7.3 8.7 9.0 10.5 10.3 8.2 7.4 7.0 Det oppgis at 10 i=1 y ix i = 536.4 og 10 i=1 x2 i = 436.

Før legene gir en pasient en viss dose x 0 ønsker de å vite noe om hvilken målt medisinkonsentrasjon Y 0 man kan regne med at dette vil gi. Du skal hjelpe legene ved å lage et 95% prediksjonsintervall. c) Hva er tolkningen av et 95% prediksjonsintervall? Utled et 95% prediksjonsintervall for Y 0 når x 0 = 8 ved å bruke de oppgitte dataene. Oppgave 3 La X 1, X 2,..., X n vere eit tilfeldig utval frå ein normalfordelt populasjon med forventningsverdi µ X og standardavvik σ X. Vidare er Y 1, Y 2,..., Y m eit tilfeldig utval frå ein normalfordelt populasjon med forventningsverdi µ Y og standardavvik σ Y. Anta at dei to utvala er uavhengige av kvarandre. Definer X = 1 n n i=1 X i, Ȳ = 1 m m j=1 Y j, SX 2 = 1 n 1 Ȳ ) 2. n i=1 (X i X) 2 og S 2 Y = 1 m 1 m j=1 (Y j a) Vi ønskjer å undersøke om det er grunn til å tru at µ Y er større enn µ X. Sett opp nullhypotese og alternativ hypotese. Vel testobservator, og oppgje kva sannsynsfordeling denne har når nullhypotesen er sann. Finn ein forkastningsregel når vi vel signifikansnivå 0.05. b) I denne oppgåva skal me undersøke målingar av absorbert fukt i 12 ulike prøvar av 2 forskjellige betongblandingar etter at prøvane har vore utsatt for fukt i 48 timar (Tabell 3). Tala er henta frå tabellen på s. 508 i læreboka (Walpole, Myers, Myers og Ye). Nytt Matlab-skriptet under til å utføre hypotesetesten du har formulert i a). Du kan nytte at talet på fridomsgrader v er det største heiltalet mindre enn (S 2 X /n + S2 Y /m)2 ( S 2 X /n ) 2 /(n 1) + ( S 2 Y /m ) 2 /(m 1). % Observasjoner x = [551, 457, 450, 731, 499, 632]; y = [595, 580, 508, 583, 633, 517]; % Utvalsstorleik n = length(x); m = length(y); % Estimer gjennomsnitt og varians xbar = mean(x); ybar = mean(y); sx2 = var(x); sy2 = var(y); % Observert t-verdi

x 551 457 450 731 499 632 y 595 580 508 583 633 517 Tabell 3: Fuktabsorpsjon i to ulike betongblandingar. tobs = (ybar - xbar)/sqrt(sx2/n + sy2/m); % Fridomsgrader v = (sx2/n + sy2/m)^2/((sx2/n)^2/(n-1) + (sy2/m)^2/(m-1)); % Finn kritisk t-verdi ( P(T>tc) = 0.05 ) tc = icdf( t, 0.95, floor(v)); % Testkonklusjon fprintf( tobs = %.4f, tc = %.4f\n\n, tobs, tc) if tobs > tc fprintf( ==> Forkast H0 ) else fprintf( ==> Ikkje forkast H0 ) end fprintf( \n\n ) Korleis vil du omsetje svaret (forkast eller ikkje forkast nullhypotesen) i denne situasjonen? c) Utlei eit uttrykk for eit 90%-konfidensintervall for forskjellen µ Y µ X. Nytt Matlabskriptet under til å finne konfidensintervallet. % Rekn ut endepunkta til intervallet L = ybar - xbar - tc*sqrt(sx2/n + sy2/m); U = ybar - xbar + tc*sqrt(sx2/n + sy2/m); % Skriv intervallet til skjermen fprintf( 90%% konfidensintervall:\n ) fprintf( [%.4f, %.4f]\n\n,L,U) Testen over kunne vore gjort med Matlab sin innebygde t-test (merk at talverdiane for konfidensintervallet ikkje er eksakt identiske sidan Matlab nyttar det eksakte talet på fridomsgrader): [h,pverdi,konfidensintervall,stats] = ttest2(y,x, Vartype, unequal, Alpha, 0.1) Oppgave 4 Matlaboppgave om lineær regresjon Fila taxi.txt, som er tilgjengelig på https://www.math.ntnu.no/emner/tma4245/2017v/inn4/taxi.txt, inneholder data fra n = 3000 taxiturer i New York City i mars 2016. Første kolonne er kjørt distanse, i engelske mil. Andre kolonne er betalt beløp, inkludert tips, i amerikanske dollar.

Vi vil bruke en lineær regresjonsmodell til å modellere prisen på en taxitur som en funksjon av turens lengde. La derfor x i være distansen, og y i være betalingen for tur nr. i, for i = 1,..., n. a) For tur nr. i, skriv opp uttrykket for y i som en funksjon av forklaringsvariabelen x i, parametrene β 0 og β 1 og feilleddet ɛ i. Hvilke antakelser gjør vi når vi bruker denne modellen? b) Bruk Matlab til å tilpasse modellen til dataene. Lag deretter følgende figurer: En figur som viser regresjonslinja sammen med observasjonene (x i, y i ), i = 1,... n. En figur hvor du plotter residualene y i ŷ i mot avstandene x i. Et normal-kvantil-kvatil-plott (normal QQ-plot), hvor de empiriske kvantilene til residualene sammenlignes med de teoretiske kvantilene i standard normalfordelingen. Hvor godt passer modellen til dataene, og i hvilken grad er antakelsene du skrev opp i forrige punkt oppfylt? Forslag til Matlab-kode: taxidata = dlmread( taxi.txt ); x = taxidata(:,1); y = taxidata(:,2); n = length(x); Sxy = sum((x - mean(x)).* y); Sxx = sum((x - mean(x)).^2); betahat1 = Sxy/Sxx; betahat0 = mean(y) - betahat1*mean(x); xx = linspace(0, 45); y_linje = betahat0 + xx*betahat1; y_tilpasset = betahat0 + betahat1*x; residualer = y - y_tilpasset; figure() subplot(2,2,[1,2]) hold on plot(x, y, o ) plot(xx, y_linje, r- ) hold off box on xlabel( Strekning (mi) ) ylabel( Pris (USD) )

title( Tilpasset regresjonsmodell ) set(gca, FontSize, 14) subplot(2,2,3) hold on plot(x, residualer, o ) plot(xx,zeros(size(xx)), -- ) hold off box on xlabel( Strekning (mi) ) ylabel( Residualer (USD) ) title( Residualplott ) set(gca, FontSize, 14) subplot(2,2,4) qqplot(residualer) title( Kvantil-kvantil-plott av residualer ) set(gca, FontSize, 14) box on c) La den tilfeldige variabelen Y 0 være betalingen for en fremtidig tur med lengde x 0 = 5 miles. Finn et punktestimat ŷ 0 for Y 0. Utled et uttrykk for et 95% konfidensintervall for Y 0. Bestem endepunktene til intervallet numerisk ved hjelp av Matlab. Hint: Hvis den fremtidige observasjonen er Y 0 = β 0 + β 1 x 0 + ɛ og uttrykket for punktestimatet er Ŷ0 = ˆβ 0 + ˆβ 1 x 0, hvor ˆβ 0 og ˆβ 1 er tilfeldige variabler, så kan differansen mellom Y 0 og Ŷ0 skrives Her er de to første leddene konstante. Y 0 Ŷ0 = β 0 ˆβ 0 + (β 1 ˆβ 1 )x 0 + ɛ = β 0 (Ȳ ˆβ 1 x) + β 1 x 0 ˆβ 1 x 0 + ɛ = β 0 + β 1 x 0 Ȳ (x 0 x) ˆβ 1 + ɛ. Forslag til Matlab-kode: x0 = 5; yhat0 = betahat0 + betahat1*x0 y_tilpasset = betahat0 + betahat1*x; residualer = y - y_tilpasset; s2 = var(residualer); varyhat0 = s2*(1 + 1/n + (x0 - mean(x)).^2/sxx);

Fasit stdyhat0 = sqrt(varyhat0); tq = icdf( t, 0.975, n-2); y_nedre = yhat0 - tq*stdyhat0 y_oevre = yhat0 + tq*stdyhat0 1. a) 0.029 2. a) µ = Y, 8.725, [7.34, 10.11] b) E( β) = β, Var( β) = σ 2 E / n i=1 x2 i c) [5.64, 14.04] 3. a) Testobservator: T = (Y X)/(S 2 X /n+s2 Y /m)1/2, forkast H 0 viss t > t v,0.05 b) Forkastar ikkje H 0 c) [ 79.32, 111.32] 4. c) 20.86, (11.20, 30.52)