Løsningsforslag Til Statlab 5



Like dokumenter
Løsningsforslag til obligatorisk innlevering 3.

1 Section 7-2: Estimere populasjonsandelen. 2 Section 7-4: Estimere µ når σ er ukjent

ST0202 Statistikk for samfunnsvitere Kapittel 9: Inferens om én populasjon

Statistikk, FO242N, AMMT, HiST 2. årskurs, 30. mai 2007 side 1 ( av 8) LØSNINGSFORSLAG HØGSKOLEN I SØR-TRØNDELAG

Mer om hypotesetesting

Analyse av kontinuerlige data. Intro til hypotesetesting. 21. april Seksjon for medisinsk statistikk, UIO. Tron Anders Moger

Page 1 EN DAG PÅ HELSESTASJONEN. Lises klassevenninnner. Formelen: Du har en hypotese om vanlig høyde

ST0202 Statistikk for samfunnsvitere Kapittel 10: Inferens om to populasjoner

> 6 7 ) = 1 Φ( 1) = = P (X < 7 X < 8) P (X < 8) < ) < ) = Φ(2) =

Fasit for tilleggsoppgaver

Krysstabellanalyse (forts.) SOS1120 Kvantitativ metode. 4. Statistisk generalisering. Forelesningsnotater 9. forelesning høsten 2005.

1 8-1: Oversikt : Grunnleggende hypotesetesting. 3 Section 8-3: Å teste påstander om andeler. 4 Section 8-5: Teste en påstand om gjennomsnittet

MASTER I IDRETTSVITENSKAP 2014/2016. Utsatt individuell skriftlig eksamen. STA 400- Statistikk. Mandag 24. august 2015 kl

Simulering med Applet fra boken, av z og t basert på en rekke utvalg av en gitt størrelse n fra N(μ,σ). Illustrerer hvordan estimering av variansen

Hypotesetesting. Hvorfor og hvordan? Gardermoen 21. april 2016 Ørnulf Borgan. H. Aschehoug & Co Sehesteds gate 3, 0102 Oslo Tlf:

6.2 Signifikanstester

Ferdig før tiden 4 7 Ferdig til avtalt tid 12 7 Forsinket 1 måned 2 6 Forsinket 2 måneder 4 4 Forsinket 3 måneder 6 2 Forsinket 4 måneder 0 2

ST0202 Statistikk for samfunnsvitere Kapittel 6: Normalfordelingen

UNIVERSITETET I OSLO

Regler i statistikk STAT 100

a ) Forventningen estimeres med gjennomsnittet: x = 1 12 (x x 12 ) = 1 ( ) = 8813/12 = 734.4

7.2 Sammenligning av to forventinger

UNIVERSITETET I OSLO

Inferens i fordelinger

Fordelinger, mer om sentralmål og variasjonsmål. Tron Anders Moger

MAT4010 PROSJEKTOPPGAVE: Statistikk i S2. Olai Sveine Johannessen, Vegar Klem Hafnor & Torstein Mellem

Kapittel 7: Inferens for forventningerukjent standardavvik

Kap. 10: Inferens om to populasjoner. Eksempel. ST0202 Statistikk for samfunnsvitere

A. i) Sett opp en frekvenstabell over de fire mulige kombinasjonene av kjønn og røykestatus. Dvs. fyll inn. Ikke - røyker Sum Jente Gutt Sum 25

Formelsamling i medisinsk statistikk

QED 1 7. Matematikk for grunnskolelærerutdanningen. Bind 2. Fasit kapittel 4 Statistikk og kvantitativ metode

Supplement til power-point presentasjonen i medisinsk statistikk, forelesning 7 januar Skrevet av Stian Lydersen 16 januar 2013

Gruppe 1 Gruppe 2 Gruppe a) Finn aritmetisk gjennomsnitt, median, modus og standardavvik for gruppe 2.

MOT310 Statistiske metoder 1, høsten 2010 Løsninger til regneøving nr. 11 (s. 1) der

ST0202 Statistikk for samfunnsvitere

TMA4240 Statistikk Høst 2015

QED Matematikk for grunnskolelærerutdanningen. Bind 2. Fasit kapittel 4 Statistikk og kvantitativ metode

ST0103 Brukerkurs i statistikk Forelesning 26, 18. november 2016 Kapittel 8: Sammenligning av grupper

Verdens statistikk-dag. Signifikanstester. Eksempel studentlån.

Oppgaven består av 9 delspørsmål som anbefales å veie like mye. Kommentarer og tallsvar er skrevet inn mellom << >>. Oppgave 1

Statistisk beskrivelse av enkeltvariabler. SOS1120 Kvantitativ metode. Disposisjon. Datamatrisen. Forelesningsnotater 6. forelesning høsten 2005

EKSAMEN KANDIDATNUMMER: EKSAMENSDATO: 26. mai SENSURFRIST: 16. juni KLASSE: HIS TID: kl

Løsning eksamen desember 2017

Oppgave 1: Feil på mobiltelefoner

Hypotesetesting. mot. mot. mot. ˆ x

TALLSVAR. Det anbefales at de 9 deloppgavene merket med A, B, teller likt uansett variasjon i vanskelighetsgrad. Svarene er gitt i <<< >>>.

Oppgaven består av 10 delspørsmål som anbefales å veie like mye, Kommentarer og tallsvar er skrevet inn mellom <<, >>, Oppgave 1

Dekkes av pensumsidene i kap. lesingsnotatene. Hypotesetesting er en systematisk fremgangsmåte

Sted Gj.snitt Median St.avvik Varians Trondheim Værnes Oppdal

Eksamensoppgave i SØK Statistikk for økonomer

Nasjonale prøver i lesing, regning og engelsk på 5. trinn 2015

Kort overblikk over kurset sålangt

KATEGORISKE DATA- TABELLANALYSE ANALYSE AV. Tron Anders Moger. 3. Mai 2005

Estimat og konfidensintervall for andel pasientopphold med minst én pasientskade

Togforsinkelsen (Eksamen Des2003.1a) I denne oppgaven kan du bruke uten å vise det at

ÅMA110 Sannsylighetsregning og statistikk Løsningsforslag til eksamen høst 2010, s. 1. Oppgave 1. Histogram over frekvenser.

Statistikk og dataanalyse

I dag. Konfidensintervall og hypotesetes4ng ukjent standardavvik (kap. 7.1) t-fordelingen

HØGSKOLEN I STAVANGER

Innledning. Noen relevante statistiske konsepter. Utvalg og populasjon, estimat og parameter

UNIVERSITETET I OSLO

Oppgaven består av 10 delspørsmål som anbefales å veie like mye. Kommentarer og tallsvar er skrevet inn mellom <<. >>. Oppgave 1

EKSAMEN I TMA4245 Statistikk

TMA4240 Statistikk Høst 2009

ST0202 Statistikk for samfunnsvitere

Første sett med obligatoriske oppgaver i STK1110 høsten 2015

Oppgaver til Studentveiledning 3 MET 3431 Statistikk

TMA4240 Statistikk H2010 (20)

EKSAMENSOPPGAVER STAT100 Vår 2011

betyr begivenheten at det blir trukket en rød kule i første trekning og en hvit i andre, mens B1 B2

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

EKSAMEN I EMNE TMA4245 STATISTIKK

TMA4245 Statistikk Eksamen desember 2016

Eksamensoppgave i ST3001

Løsningsforslag AA6526 Matematikk 3MX Privatister 3. mai eksamensoppgaver.org

2. Hva er en sampelfordeling? Nevn tre eksempler på sampelfordelinger.

Andre sett med obligatoriske oppgaver i STK1110 høsten 2010

ST0202 Statistikk for samfunnsvitere

MASTER I IDRETTSVITENSKAP 2014/2016. Individuell skriftlig eksamen. STA 400- Statistikk. Fredag 13. mars 2015 kl

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Repeterbarhetskrav vs antall Trails

Forelesning 23 og 24 Wilcoxon test, Bivariate Normal fordeling

TMA4240 Statistikk H2010

Utfordring. TMA4240 Statistikk H2010. Mette Langaas. Foreleses uke 40, 2010

Fra første forelesning:

Sannsynlighetsregning og Statistikk.

LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4245 STATISTIKK 6.august 2004

LØSNINGSFORSLAG ) = Dvs

Kapittel 3: Studieopplegg

SOS1120 Kvantitativ metode. Regresjonsanalyse. Lineær sammenheng II. Lineær sammenheng I. Forelesningsnotater 11. forelesning høsten 2005

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

Merk at vi for enkelthets skyld antar at alle som befinner seg i Roma sentrum enten er italienere eller utenlandske turister.

Utvalgsfordelinger. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer.

ST0202 Statistikk for samfunnsvitere

i x i

TMA4240 Statistikk H2010 (22)

Løsningsforslag ECON 2130 Obligatorisk semesteroppgave 2017 vår

EKSAMEN I SOS1120 KVANTITATIV METODE 30. NOVEMBER 2006 (4 timer)

Kapittel 9 og 10: Hypotesetesting

Kapittel 9 og 10: Hypotesetesting

Transkript:

Løsningsforslag Til Statlab 5 Jimmy Paul September 6, 007 Oppgave 8.1 Vi skal se på ukentlige forbruk av søtsaker blant barn i et visst område. En pilotstudie gir at standardavviket til det ukentige forbruket σ = 80gr. Pilotstudier angir altså standardavviket til populasjonen. Vi skal estimere standardfeilen til gjennomsnittet for utvalgstørrelser på 5,100 og 65. Vi ser nå på tilfellet der n = 5. σ x = σ n = 80 5 = 16g Ser på tilfellet der n = 100. σ x = σ n = 80 100 = 4g Ser på tilfellet der n = 65. σ x = σ n = 80 65 = 3.g Jo større utvalget er, jo mindre blir standardfeilen. Usikkerheten i gjennomsnitt avtar når antallet observasjoner øker. 1

Oppgave A3 (d-e) X er en stokastisk variabel som angir blodtrykket målt i mmhg. Vi har at den X N(136, 18) og antall personer n = 36. Vi skal finne sannsynligheten for at det gjennomsnittlige blodtrykket blant de 36 overstiger ( X 136 Pr(X 140) = Pr 18/ 36 = P r(z 4 18/6 ) = P r(z 4 3 ) = 1 P r(z 4 3 ) = 1 0.908 = 0.0918 = 9.18% ) 140 136 18/ 36 e) Sentralgrenseteoremet sier at en sum av mange uavhengige stokastiske variable blir tilnærmet normalfordelt hvis ingen av dem har en dominerende inflytelse på resultatet. I d) har vi en slik sum (gjennomsnittet er jo lik summen delt på n) av mange uanhengige variabler hvor ingen er dominerende (siden de kommer fra samme fordeling). Det betyr at gjennomsnittet vil være tilnærmet normalfordelt uansett, selv om ikke blodtrykket er det. Oppgave 8.6 Oppgaven tar utgangspunktet i en undersøkelse over kostvanene til 16 gutter som gikk på en videregående skole. Vi lager først et histogram over melkeforbruket til guttene.

melk pr dag antall gutter 0.0-1 0 1- -3 0 3-4 8 4-5 5-6 1 6-7 7-8 0 8-9 0 9-10 1 b) Vi beregner gjennomsnittet. X = 1 16 16 i=1 X i = 6.3 + 6.9 + 3.0 +... + 5.6 + 3.0 16 = 66 16 = 4.15 b) Vi beregner medianen. Den finner vi på plass nr n+1 = 16+1 = 8.5 i tall materialet når observasjonene er sotert fra minste observasjon til største observasjon. Det tilsvarer gjennomsnittet av observasjon 8 og 9. Median = 3.6 + 3.6 = 3.6 c) Vi skal konstruere et 95% KI for det forventede melkeforbruket pr dag. til en tilfeldig utvalgt gutt fra den videregående skolen. Dvs. et intervall som har sannsynlighet 0.95 for å dekke den sanne forventningen. Et KI er gitt som følger. X ± C s X hvor X er gjennomsnittlig melkeforbruk, 4.15 dl C er hentet fra Studentfordelingen, tabell s 39. Antall frihetsgrader er n 1 = 16 1 = 15. Sannsynligheten for å overstige angitt grense er α = 0.05 = 0.05. Det gir c =.131 Estimert standardfeil s X = s n =.1 16 =.1 4 3

[4.15 ±.131.1 ] = [3.03, 5.7] 4 Vi påstår med 95% sikkerhet at den sanne differansen vil ligge i dette intervallet. For å kunne gjøre en slik beregning har vi forutsatt at De 16 enkeltobservasjoenen kan oppfattes som uavhengige stokastiske variable. Hver av de enkeltobservasjonene er normalfordelte. De kan oppfattes som tilfeldige trekninger fra normalfordeling Hvis flere av guttene er nære venner, kan det hende at disse har samme kostvaner og derfor tilnærmet likt melkeforbruk. Disse observasjonene vil være uavhengige og forutsetningene om uavhengighet vil ikke være oppfylt. d) 16 jenter har gjennomsnittlig melkeforbruk på.59 dl pr dag med std.avvik på 1. dl. Vi skal teste følgende påstand. Er tallene en klar indikasjon på at gutter jevnt over drikker mer melk enn jenter?. Vi tester på 5% nivå. H 0 : µ 1 = µ H A : µ 1 µ Vi har to uavhengige utvalg og under H 0 vil følgende teststørrelse være t- fordelt med n + n = 16 + 16 = 30 frihetsgrader. t = X 1 X 1 S f n 1 + 1 n der S f er gitt som t = S f = (n 1 1)s 1 + (n 1)s n 1 + n 4.15.59 (16 1).1 +(16 1) 1. 16+16 1 + 1 16 16 =.58 4

Vi finner så p-verdien. P verdi : P r(t.58) < 0.01 = 0.0(eksakt verdi kan finnes i SPSS) Siden P-verdi 0.0 og 0.0 0.05, forkaster vi H 0 og aksepterer ar de sanne (men ukjente) forventningene er ulike. Det er nærliggende å tro at guttenes forventede melkeforbruk er høyere enn jentenes i den aktuelle aldersfruppen. Når det gjelde P (T.58) kan vi lese i tabell side 39 at denne sannsynligheten ligger mellom 0.01 og 0.005 siden.457 <.58 <.750. Oppgave 8.8 Oppgaven tar utgangspunkt i et forsøk utført på 8 personer med Angina Pectoris. Han var interessert i å vurdere betydningen av røyking. Personene syklet først på ergometersykkel med en bestemt belastning. En målte så tiden inntil de begynte å kjenne smerter i brystet. Etter en pause ble hver person bedt om å røyke fem sigaretter. Deretter syklet de på nytt, og målte igjen tiden til de fikk smerter i brystet. a) Først beregner vi differansen mellom tidene før og etter røyking for hver enkelt pasient. Pasient nr 1 3 4 5 6 7 8 Før røyking 3 10 51 46 4 39 0 11 tid i sekunder Etter røyking 135 119 145 11 136 14 118 107 Differanse 97 91 106 15 88 115 10 104 Finner gjennomsnittet for de åtte differansene. X = 1 8 16 i=1 X i = 97 + 91 + 106 + 15 + 88 + 115 + 10 + 104 8 = 103, 5 5

Finner medianen for de åtte differansene. Medianen finnes på plass nr n+1 = 8+1 = 4.5 når differansene er sotert fra minste til største observasjon. Dvs snittet av observasjon nr 4 og nr 5. Median = 10 + 104 b) Vi skal beregne et 95% KI for den forventede reduksjonen i tid til smerte når pasienten har røyket fem sigaretter. Dvs. et intervall som har sannsylighet 0.95 for å dekke den sanne differansen. Et konfidensintervall er gitt som X ± C s X hvor X er gjennomsnittlig differanse, 103.5 C er hentet fra Studentfordelingen, tabell s 39. Antall frihetsgrader er n 1 = 8 1 = 7. Sannsynligheten for å overstige angitt grense er α = 0.05 = 0.05. Det gir c =.365 Estimert standardfeil s X = s n = 1. 8 [103.5 ±.365 1. 8 ] = [93.3, 113.7] Vi påstår med 95% sikkerhet at den sanne differansen vil ligge i dette intervallet. Oppgave 8.11 Oppgaven tar utgangspunkt i en studie av nivået av serum kolesterol på 10 pasienter. Nivået er målt før og etter diett i kombinasjon med mosjon. Aller først beregner vi differnasen mellom disse nivåene. Den er et mål på effekten. 6

Pasient Før Etter Differanse 1 01 00 1 1 16 5 3 8 4 4 4 37 16 1 5 36 96 30 6 35 195 40 7 40 07 33 8 57 47 10 9 84 60 4 10 10 09 1 Vi vil avgjøre om mosjon i kombinasjon med diett reduserer kolesterolnivået. a) Vi lar X være en stokastisk variabel som måler differansen i kolesterolnivået på hver pasient. H 0 : µ = 0, ingen forskjell H A : µ 0, vi kan ikke utelukke det motsatte hvor µ er forventet reduksjon. Testen er tosidig med nivå på 0.05. Teststørrelsen t = X 0, der X er gjennomsnittlig reduksjon og s s X er standardfeilen til den X gjennomsnittlige reduksjonen, er t-fordelt med 9 frihetsgrader under H 0 X = 1 10 s X = 10 i=1 s n = X i = 16.9 1 10 10 i=1 (X i X) 10 = 14.505 10 = 4.5861 t = 16.9 0 4.5861 = 3.69 P-verdien,sannsynligheten for å få en teststørrelse som er like stor som denne eller enda større, gitt at H 0 er sann: P (T t) = P (T 3.69) < 0.005 = 0.01 Siden 0.01 < 0.05 forkaster vi H 0 og godtar diett i kombinasjon med mosjon gir ulikt forventet kolesterolnivå. Det er nærliggende å tro at diett i kombinasjon med mosjon gir reduksjon i kolesterolnivået. 7

b) Antallet pasienter som får nedgang i kolesterolnivået er binomsik fordelt fordi Pasientene er uavhengige av hverandre Hos hver pasient registreres det om det er blitt reduksjon i kolesterolnivået Sannsynligheten for reduksjon er lik hos hver pasient La p være sannsynligheten for reduksjon. Vi tester da H 0 : p = 0.5, ingen forskjell H A : p 0.5, Vi har observert at Y = 10. P-verdien blir da P (Y 10) = P (Y = 10) = ( ) 10 0.5 10 0.5 0 = 0.5 10 10 = 0.00098 = 0.00196 Siden 0.00196 < 0.05, forkaster vi H 0 og aksepterer at pasientene som deltar i opplegget med diett i kombinasjon med mosjon har en sannsynlighet for reduksjon som er ulik 0.5. Det er nærliggende å tro at behandlingen har positiv effekt. c) Metoden i b) betrakter bare hvorvidt det var en nedgang i kolesterolnivået eller ikke, og ikke størrelsen på nedgangen. Fordelen med det er at det da vil være lettere å oppdage en reell men liten reduksjon. En annen fordel er at metoden i b) ikke forutsetter noe om fordelingen til verdiene, (bare at antall pasienter er binomisk fordelt) mens den egentlig bygger på normalfordelte verdier. 8

Oppgave 8.14 F pers Dil+grapejuice Dil+vann Diff Rang Ord Rekk 1 95.4 44.5 50.9 10 10 64.3 56.9 7.4 4 5 3 71. 57.9 13.3 8 8 4 36.8 4.7-5.9 5 63.1 57.3 5.8 1 3 6 53.5 40.8 1.7 7 7 7 109.9 70.3 39.6 9 9 8 54.1 61.8-7.7 5 1 9 79.1 67.9 11. 6 6 10 80.9 74.4 6.5 3 4 a) Vi skal benytte en ikke-parametrisk test til å vurdere om det er forskjell i plasmakonsentrasjonen av diltiazem inntatt med og uten grapefruktjuice. Vi velger 5% nivå. H 0 : µ = 0 H A : µ 0 Hvor µ er den sanne,men ukjente,differansen. Som testobservator bruker vi summen av rangtall for de negative verdiene. T µ = + 5 = 7 Under H 0 vil følgende størrelse være standardnormalfordelt. Z = T µ E(T ) SD(T ) Den forventede summen av negative rangtall E(T n(n + 1) 10(10 + 1) ) = = 4 4 n(n + 1)(n + 1) 10(10 + 1)( 10 + 1) SD(T ) = = 4 4 = 9.81 9

Bruker dette til å finne følgende. Z = 7 7.5 =.09 9.81 P-verdi : = P (Z.09) = (1 P (Z.09)) = (1 0.9817) = 0.0366 H 0 forkaster på 5% nivå siden 0.0366 < 0.05. Vi godtar at det er forskjell i plasmakonsentrasjon. b) Det er rimelig å velge en ikke-parametrisk metode fordi fordelingen til differansen har to ekstremverdier,og vi har få observasjoner. c) Vi skal estimere median forskjell. Medianen finnes på plass n+1 = 10+1 = 5.5. Det vil si snittet observasjon 5 og 6(når observasjonene er i ordnet rekkefølge) 7.4 + 11. Median = = 9.3 Tilhørende konfidensintervall på 95% (observasjon d nedenifra,observasjon d ovenfra) d = (n + 1 1.96 n) = (10 + 1 1.96 10) =.4 = Vi må runde ned til nærmeste heltall,intervallet vil bli bredere og derfor større enn 95% konfidensintervall. ( 5.9, 39.6) Dette intervallet inneholder 0, og H 0 forkastes derfor ikke her. Grunnen til at vi har en annen konklusjon enn i a) er at signifikansnivået ikke lenger er 5%, men endel lavere. Det er lavere enn 3.66%. 10