TMA4240 Statistikk Høst 2015

Like dokumenter
i x i

TMA4240 Statistikk Høst 2016

for x 0 F X (x) = 0 ellers Figur 1: Parallellsystem med to komponenter Figur 2: Seriesystem med n komponenter

TMA4245 Statistikk Eksamen desember 2016

TMA4240 Statistikk 2014

TMA4240 Statistikk H2010 (20)

Eksamensoppgave i TMA4240 Statistikk

TMA4240 Statistikk Høst 2009

TMA4245 Statistikk Eksamen august 2014

TMA4240 Statistikk Høst 2007

HØGSKOLEN I STAVANGER

Hypotesetest: generell fremgangsmåte

TMA4240 Statistikk Høst 2015

TMA4240 Statistikk H2010 (22)

Eksamensoppgave i TMA4240 / TMA4245 Statistikk

TMA4245 Statistikk Eksamen desember 2016

TMA4240 Statistikk Eksamen desember 2015

TMA4240 Statistikk Høst 2009

Eksamensoppgave i TMA4240 Statistikk

Løsning eksamen desember 2017

TMA4240 Statistikk Høst 2018

α =P(type I feil) = P(forkast H 0 H 0 er sann) =1 P(220 < X < 260 p = 0.6)

LØSNINGSFORSLAG ) = Dvs

Eksamensoppgåve i TMA4240 / TMA4245 Statistikk

Løsningsforslag Eksamen i Statistikk SIF5060 Aug 2002

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

Kapittel 9 og 10: Hypotesetesting

ÅMA110 Sannsylighetsregning og statistikk Løsningsforslag til eksamen høst 2010, s. 1. Oppgave 1. Histogram over frekvenser.

Eksamensoppgave i TMA4240 Statistikk

Eksamensoppgave i TMA4245 Statistikk

Løsningsforslag, eksamen statistikk, juni 2015

TMA4245 Statistikk Eksamen august 2014

EKSAMEN I FAG 75510/75515 STATISTIKK 1 Tirsdag 20. mai 1997 Tid: 09:00 14:00

EKSAMEN I TMA4240 Statistikk

TMA4240 Statistikk Høst 2015

Eksamensoppgåve i TMA4240 Statistikk

TMA4240 Statistikk Eksamen desember 2015

Høgskolen i Telemark. Institutt for økonomi og informatikk FORMELSAMLING Statistikk I. Til bruk ved eksamen. Per Chr. Hagen

Andre sett med obligatoriske oppgaver i STK1110 høsten 2010

år i alder x i tid y i i=1 (x i x) 2 = 60, 9

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

Eksamensoppgave i ST0103 Brukerkurs i statistikk

ST0103 Brukerkurs i statistikk Forelesning 26, 18. november 2016 Kapittel 8: Sammenligning av grupper

Eksamensoppgave i TMA4245 Statistikk

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 4

n n i=1 x2 i n x2 n i=1 Y i og x = 1 n i=1 (x i x)y i = 5942 og n T = i=1 (x i x) 2 t n 2

Forkaste H 0 "Stikkprøven er unormal" Akseptere H 0 "Stikkprøven er innafor normalen" k kritisk verdi. Utgangspunkt for H 0

TMA4240 Statistikk H2010

Utfordring. TMA4240 Statistikk H2010. Mette Langaas. Foreleses uke 40, 2010

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.

Fasit for tilleggsoppgaver

TMA4245 Statistikk. Innlevering 3. Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag

TMA4240 Statistikk Høst 2016

LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4240 STATISTIKK Mandag 12. desember 2011

Eksamensoppgave i Løsningsskisse TMA4240 Statistikk

Test, 3 Sannsynlighet og statistikk

EKSAMEN I FAG TMA4260 INDUSTRIELL STATISTIKK

HØGSKOLEN I STAVANGER

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 3

ÅMA110 Sannsynlighetsregning med statistikk, våren Hypotesetesting (kp. 6) Hypotesetesting. Kp. 6 Hypotesetesting ...

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 3

Eksamensoppgave i TMA4245 Statistikk

Estimering og hypotesetesting

ST0202 Statistikk for samfunnsvitere

(Det tas forbehold om feil i løsningsforslaget.) Oppgave 1

Hypotesetesting. mot. mot. mot. ˆ x

Oppgave 1. Det oppgis at dersom y ij er observasjon nummer j fra laboratorium i så er SSA = (y ij ȳ i ) 2 =

i=1 x i = og 9 x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x

Første sett med obligatoriske oppgaver i STK1110 høsten 2015

Kapittel 9 og 10: Hypotesetesting

OPPGAVEHEFTE I STK1000 TIL KAPITTEL Regneoppgaver til kapittel 7. X 1,i, X 2 = 1 n 2. D = X 1 X 2. På onsdagsforelesningen påstod jeg at da må

Løsningsforslag eksamen 27. februar 2004

Om eksamen. Never, never, never give up!

Oppgaven består av 9 delspørsmål som anbefales å veie like mye. Kommentarer og tallsvar er skrevet inn mellom << >>. Oppgave 1

ÅMA110 Sannsynlighetsregning med statistikk, våren

TMA4240 Statistikk Høst 2012

Notasjon og Tabell 8. ST0202 Statistikk for samfunnsvitere

HØGSKOLEN I STAVANGER

ÅMA110 Sannsynlighetsregning med statistikk, våren

ST0202 Statistikk for samfunnsvitere

Om eksamen. Never, never, never give up!

ST0202 Statistikk for samfunnsvitere

ÅMA110 Sannsynlighetsregning med statistikk, våren Hypotesetesting (kp. 6) Hypotesetesting, innledning. Kp.

Ferdig før tiden 4 7 Ferdig til avtalt tid 12 7 Forsinket 1 måned 2 6 Forsinket 2 måneder 4 4 Forsinket 3 måneder 6 2 Forsinket 4 måneder 0 2

TMA4240 Statistikk Høst 2016

SFB LØSNING PÅ EKSAMEN HØSTEN 2018

H 0 : Null hypotese. Konservativ. H 1 : Alternativ hypotese. Endring. Kap.10 Hypotesetesting

Oppgave 1. . Vi baserer oss på at p 47 1 og p 2 er tilnærmet normalfordelte (brukbar tilnærming). Vi har tilnærmet at (n 1 = n 2 = 47)

EKSAMEN ST0202 STATISTIKK FOR SAMFUNNSVITERE

Kapittel 10: Hypotesetesting

TMA4240 Statistikk Høst 2015

Eksamensoppgåve i TMA4245 Statistikk

Løsningsforslag statistikkeksamen desember 2014

Løsning eksamen desember 2016

Hypotesetesting. Hvorfor og hvordan? Gardermoen 21. april 2016 Ørnulf Borgan. H. Aschehoug & Co Sehesteds gate 3, 0102 Oslo Tlf:

TMA4240 Statistikk 2014

Hypotesetesting. Formulere en hypotesetest: Når vi skal test om en parameter θ kan påstås å være større enn en verdi θ 0 skriver vi dette som:

Estimering og hypotesetesting

Løsningsforslag til eksamen i TMA4245 Statistikk 7. juni 2007

Transkript:

TMA4240 Statistikk Høst 2015 Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag Øving nummer 11, blokk II I denne øvingen skal vi fokusere på hypotesetesting. Vi ønsker å gi dere muligheten til å tenke over og forstå noen av begrepene vi bruker i hypotesetestingsammenheng (nullhypotese, alternativhypotese, testobservator, type 1 feil, type 2 feil, teststyrke, p-verdi, forkastning). I tillegg vil vi gi dere trening i å sette opp en hypotesetest og bruke datagrunnlaget for å trekke en konklusjon angånde hypotesen. Oppgave 1 I situasjoner der det er uklart hvem som er den biologiske faren til et barn kan farskapet avklares ved å sammenligne DNA-prøver fra barnet med mulige fedre. For en mulig far gjøres dette ved å sammenligne n ulike deler av DNA-strukturen til mannen med de samme n deler av DNA-strukturen hos barnet. De n undersøkte delene av DNA-strukturen antas uavhengige. Hos et barn og en tilfeldig valgt mann (som ikke er biologisk far) er det for hver enkel del av DNA-strukturen som undersøkes en sannsynlighet p = 0.15 for at delen er sammenfallende hos barnet og mannen. Anta videre at en biologisk far alltid har alle de undersøkte delene av DNA-strukturen sammenfallende med barnets (dvs. vi ser bort fra mutasjoner o.l.), slik at hver undersøkte del av DNA-strukturen hos biologisk far og barn er sammenfallende med sannsynlighet p = 1. La X være antall sammenfallende deler i DNA-strukturen hos et barn og en tilfeldig valgt mann (som ikke er biologisk far). a) Begrunn at X er binomisk fordelt med parametre n og p = 0.15. Dersom n = 5, beregn sannsynlighetene P (X = 2), P (X 2) og P (X = 2 X 2). I en farsskapssak blir en mann erklært å være biologisk far dersom alle undersøkte deler av DNA-strukturen er sammenfallende hos mannen og barnet. Dette kan vi se på som en hypotesetest der vi tester H 0 : p = 0.15 (ikke far) mot H 1 : p = 1.0 (far) der H 0 forkastes (dvs. mannen erklæres som far til barnet) dersom X = n. b) For n = 5, finn sannsynligheten for å begå type 1 feil i testen over. For n = 5, finn sannsynligheten for å begå type 2 feil i testen over. Hvor mange ulike deler, n, av DNA-strukturen må man minst sammenligne dersom man ønsker at sannsynligheten for feilaktig å erklære en mann som far skal være mindre enn 0.000001? ov11-oppg-b 25. oktober 2015 Side 1

Oppgave 2 Mange mennesker har i dag en lidenskapelig interesse for elitefotball og (såkalte) eksperter har ofte klare meninger om spillet. I denne oppgaven skal vi konsentrere oss om kamper mellom to spesielle lag, som vi benevner henholdsvis R og L. En ekspertkommentator på fjernsyn kom med følgende påstand om kamper mellom R og L: som oftest vil det laget som får det første målet også vinne kampen. I denne oppgaven skal vi regne litt med utgangspunkt i denne påstanden. For en fotballkamp mellom lagene R og L, la følgende hendelser være definert: R: Lag R vinner kampen. F : Lag R får mål før lag L. I: Kampen ender målløs, dvs. 0-0. a) I dette punktet skal du anta at P(R) = 0.4, P(F ) = 0.5, P(R F ) = 0.3 og P(I) = 0.05. Tegn hendelsene R, F og I i et venndiagram. Bestem sannsynligheten for at lag R vinner gitt at lag R får mål før lag L, dvs. P(R F ). Bestem sannsynligheten for at lag R vinner kampen gitt at kampen ikke ender målløs, dvs. P(R I ), hvor I betegner komplementærhendelsen til I. Vi skal videre kun analysere de kampene mellom R og L som ikke endte målløse. La p benevne sannsynligheten for at det laget som får det første målet også vinner kampen. Vi forutsetter at denne sannsynligheten ikke avhenger av om det er R eller L som har hjemmekamp. Vi skal estimere p ut fra resultatene i de siste n seriekampene mellom R og L (kun kamper med minst ett mål blir tatt med). La X benevne antall av de n kampene hvor laget som fikk det første målet også vant kampen. Vi antar at X er binomisk fordelt med parametre n og p og bruker estimatoren p = X n. b) Hva er de generelle forutsetninger for en binomisk fordeling? Er det ut fra dette rimelig å anta at X er binomisk fordelt? (begrunn svaret) Redegjør kort for det generelle resultatet i sentralgrenseteoremet. Vis hvordan sentralgrenseteoremet gir at p p p(1 p) n er tilnærmet standard-normalfordelt, dersom n er stor. Da ekspertkommentatoren som ble nevnt i begynnelsen av oppgaven ble bedt om å konkretisere sin påstand om at i kamper mellom R og L er det som oftest laget som får det første målet som vinner kampen, sa han at sannsynligheten p er minst lik 0.80. Vi ønsker nå å undersøke om vår observerte verdi for X gir grunnlag for si at ekspertens uttalelse er feil. c) Formuler dette som et hypotesetestingsproblem. Velg signifikansnivå 5% og bestem en regel for når H 0 skal forkastes. Hva blir konklusjonen på testen når n = 24 og x = 17? (Dette er resultater fra kamper mellom Rosenborg og Lillestrøm i perioden 1990-2001. Ingen av disse kampene endte forøvrig målløse.)

d) Anta at forkastningsregelen fra c) benyttes, men at p i virkeligheten er 0.7. Hvor mange kampobservasjoner må man da ha for at sannsynligheten for å oppdage at ekspertens uttalelse er feil skal være minst 0.9. Oppgave 3 Eksamen mai 2003, oppgave 2 av 3 Produsenten av en bestemt bilmodell hevder at denne modellen kan forventes å kjøre minst 16 km pr. liter bensin på motorvei. Forbrukerorganisasjonen FO tester denne påstanden ved å kjøre et tilfeldig utvalg biler av denne modellen en passende distanse på en representativ motorvei og måle bensinforbruket. På bakgrunn av erfaringer fra tidligere forsøk av samme type, antar FO at bensinforbruket til en tilfeldig valgt bil av den modellen som testes, kan modelleres med god tilnærmelse som en normalfordelt tilfeldig variabel X med forventningsverdi µ og varians σ 2, dvs. X N(µ, σ 2 ). Både forventningsverdien µ og standardavviket σ er i utgangspunktet ukjente størrelser. Av praktiske grunner begrenser FO størrelsen på det tilfeldige utvalget til n = 20 biler. Etter forsøket ble alle målingene analysert, og resulterte i en gjennomsnittsverdi x = 15.56 og et sample (empirisk) standardavvik s = 0.94. a) Sett opp en hypotesetest for dette forsøket. La produsentens påstand representere nullhypotesen. Hvilken testobservator vil du bruke for å kontrollere hypotesen? Gi en kort begrunnelse for valget ditt. I forhold til et valgt signifikansnivå α = 0.05, vil du akseptere produsentens påstand? b) Finn P-verdien (signifikanssannsynligheten) for testen i punkt a) som svarer til de observerte verdiene. Hvilken tilnærmelse kan du gjøre for at testobservatoren skal bli normalfordelt? Hvilken P-verdi får du hvis du bruker denne tilnærmelsen? c) Bestem teststyrken for den alternative hypotesen H 1 : µ = 15.5 for signifikansnivå α = 0.05 ved å bruke den samme normaltilnærmelsen som i punkt b). Gi et forslag til hvordan teststyrken kan økes. Oppgave 4 Bronsebolter - Eksamen desember 2004, oppgave 1 av 3 Bronse er en legering der kobber og tinn er hovedbestanddelene. Vi studerer kobberinnholdet i bronsebolter av en gitt dimensjon som er laget av en spesiell type bronselegering. Ved bedriften Bronsespesialisten produseres det bronsebolter, og det er tatt stikkprøver av n = 10 bronsebolter fra produksjonen. Kobberinnholdet, X i, i = 1,..., n, er målt. Vi antar at X 1, X 2,..., X n er uavhengige og normalfordelte stokastiske variabler med E(X i ) = µ x og Var(X i ) = σ 2. a) Vi antar at forventningen er µ x = 85 gram og variansen er σ 2 = 1 gram 2 (kun i dette punktet). Hva er sannsynligheten for at kobberinnholdet i en tilfeldig valgt bronsebolt er mindre enn 84 gram? Finn et tall, k, slik at sannsynligheten er 0.01 for at kobberinnholdet i en tilfeldig valgt

bronsebolt er større enn k. Vi ser på kobberinnholdet i to tilfeldig valgte og uavhengige bronsebolter. Hva er sannsynligheten for at kobberinnholdet i de to bronseboltene avviker med mer enn 1.5 gram fra hverandre? Vi antar i resten av oppgaven at både µ x og σ 2 er ukjente parametere. Vi ser først på estimatorer for σ 2. b) Hvilke egenskaper kjennetegner en god estimator? To aktuelle estimatorer for σ 2 er σ 2 og S 2 σ 2 = 1 n S 2 = n (X i X) 2 i=1 1 n 1 n (X i X) 2 Finn forventningsverdien og variansen til de to estimatorene, og kommenter. (Hint: bruk relasjon til kji-kvadrat fordeling). Ved bedriften Metalleksperten produseres det også bronsebolter av samme legering og dimensjon som hos Bronsespesialisten. Hos Metalleksperten er det tatt stikkprøver av m = 10 bronsebolter, og kobberinnholdet Y j, j = 1,..., m, er målt. La Y 1, Y 2,..., Y m være uavhengige og normalfordelte stokastiske variabler med E(Y j ) = µ y og Var(Y j ) = σ 2, der både µ y og σ 2 er ukjente parametre. Vi antar at målinger tatt av kobberinnhold i bronsebolter fra de to bedriftene er uavhengige. Videre antar vi at det er samme (ukjente) varians for målt kobberinnhold i bronsebolter fra de to bedriftene, dvs. Var(X i ) = Var(Y j ) = σ 2. Data for stikkprøvene fra Bronsespesialisten og Metalleksperten er presentert i tabell 1. Bronsespesialisten 84.44 84.77 86.56 85.07 85.13 86.72 85.46 83.73 84.31 84.55 Metalleksperten 85.22 84.36 84.40 84.11 83.44 85.79 84.50 82.03 84.70 83.53 i=1 Tabell 1: Kobberinnhold i bronselegering i stikkprøver fra Bronsespesialisten og Metalleksperten. Det oppgis at for Bronsespesialisten er 10 i=1 x i = 850.75 og 10 i=1 (x i x) 2 = 8.19, og for Metalleksperten er 10 j=1 y j = 842.10 og 10 j=1 (y j ȳ) 2 = 9.70. Ledelsen i Bronsespesialisten har i den siste tiden gjentatte ganger beskyldt Metalleksperten for at kobberinnholdet i bronseboltene fra Metalleksperten er lavere enn kobberinnholdet i bronseboltene fra Bronsespesialisten. Vi ønsker å undersøke om dette er tilfellet. c) Formulér dette som en hypotesetest ved å definere nullhypotese og alternativ hypotese. Sett opp en testobservator og finn forkastningsområdet. Hva blir konklusjonen på testen, med data gitt i tabell 1, når signifikansnivået er α = 0.05? Regn ut p-verdien ved å bruke tabell 2. Metalleksperten har blitt utsatt for hærverk og vinduet i bedriftens hovedkontor ble knust ved at en bronsebolt ble kastet igjennom vinduet. Politiet etterforsker saken, og er interessert

t 1.82 1.86 1.90 1.94 1.98 2.02 2.06 ν = 18 0.957 0.960 0.963 0.966 0.968 0.971 0.973 ν = 19 0.958 0.961 0.964 0.966 0.969 0.971 0.973 ν = 20 0.958 0.961 0.964 0.967 0.969 0.972 0.974 Tabell 2: Kumulativ sannsynlighet i t-fordelingen. For T t-fordelt med ν frihetsgrader, så viser tabellen P (T t) for ulike verdier av t. i å finne ut om bronsebolten som knuste vinduet er produsert av Metalleksperten eller av Bronsespesialisten. d) Utled et intervall som med 95 % sannsynlighet inneholder en ny observasjon av kobberinnholdet i en bronsebolt fra Bronsespesialisten. Finn numeriske verdier for intervallet ved å bruke dataene fra tabell 1. Lag et tilsvarende intervall for Metalleksperten. Fasit Bronsebolten som ble brukt til å knuse vinduet hos Metalleksperten ble målt til å ha et kobberinnhold på 86.30 gram. Kan du ut fra intervallene du har laget over si noe om hvilken produsent som kan ha laget bronsebolten? 1. a) 0.138, 0.165, 0.836 b) 0.000076, 0, n = 8 2. a) P(R F ) = 0.6, P(R I ) = 0.421 c) Forkaster ikke H 0 d) 156 3. a) Forkaster H 0 b) 0.025, 0.0183 c) 0.767