Sensorveiledning: skoleeksamen i SOS Kvantitativ metode

Like dokumenter
Skoleeksamen i SOS Kvantitativ metode

Krysstabellanalyse (forts.) SOS1120 Kvantitativ metode. 4. Statistisk generalisering. Forelesningsnotater 9. forelesning høsten 2005.

TMA4245 Statistikk Eksamen desember 2016

Oppgave 1. T = 9 Hypotesetest for å teste om kolesterolnivået har endret seg etter dietten: T observert =

Eksamensoppgave i TMA4240 Statistikk

Statistikk og dataanalyse

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.

Kapittel 3: Studieopplegg

Tid: 29. mai (3.5 timer) Ved alle hypotesetester skal både nullhypotese og alternativ hypotese skrives ned.

Tillatte hjelpemidler: C3: alle typer kalkulator, alle andre hjelpemidler

Skoleeksamen i SOS Kvantitativ metode

HØGSKOLEN I STAVANGER

OPPGAVESETTET BESTÅR AV 3 OPPGAVER PÅ 6 SIDER MERKNADER: Alle deloppgaver vektlegges likt.

Gruppe 1 Gruppe 2 Gruppe a) Finn aritmetisk gjennomsnitt, median, modus og standardavvik for gruppe 2.

EKSAMENSOPPGAVER STAT100 Vår 2011

QED 1 7. Matematikk for grunnskolelærerutdanningen. Bind 2. Fasit kapittel 4 Statistikk og kvantitativ metode

ECON240 VÅR / 2016 BOKMÅL

MASTER I IDRETTSVITENSKAP 2014/2016. Individuell skriftlig eksamen. STA 400- Statistikk. Fredag 13. mars 2015 kl

SOS1120 Kvantitativ metode. Regresjonsanalyse. Lineær sammenheng II. Lineær sammenheng I. Forelesningsnotater 11. forelesning høsten 2005

Analyse av kontinuerlige data. Intro til hypotesetesting. 21. april Seksjon for medisinsk statistikk, UIO. Tron Anders Moger

UNIVERSITETET I OSLO

Oppgaver til Studentveiledning 3 MET 3431 Statistikk

EKSAMEN I SOSIOLOGI SOS KVANTITATIV METODE. ORDINÆR SKOLEEKSAMEN 4. april 2011 (4 timer)

Fordelinger, mer om sentralmål og variasjonsmål. Tron Anders Moger

EKSAMEN I SOS4020 KVANTITATIV METODE (MASTER) 14. MAI 2004 (4 timer)

Fasit for tilleggsoppgaver

STUDIEÅRET 2016/2017. Individuell skriftlig eksamen i STA 200- Statistikk. Torsdag 27. april 2017 kl

I enkel lineær regresjon beskrev linja. μ y = β 0 + β 1 x

UNIVERSITETET I OSLO

Løsningsforslag eksamen 25. november 2003

i x i

SENSORVEILEDNING FOR EKSAMENSOPPGAVEN I SVSOS107 VÅREN 2003

OPPGAVEHEFTE I STK1000 TIL KAPITTEL Regneoppgaver til kapittel 7. X 1,i, X 2 = 1 n 2. D = X 1 X 2. På onsdagsforelesningen påstod jeg at da må

Kort overblikk over kurset sålangt

UNIVERSITETET I OSLO

QED Matematikk for grunnskolelærerutdanningen. Bind 2. Fasit kapittel 4 Statistikk og kvantitativ metode

SENSORVEILEDNING FOR SKOLEEKSAMEN I SOS KVANTITATIV METODE. 11. mars 2015 (4 timer)

TMA4240 Statistikk Høst 2016

UTDRAG FRA SENSORVEILEDNINGEN FOR EKSAMENSOPPGAVEN I SVSOS107 HØSTEN 2001

2. Forklar med egne ord de viktigste forutsetningene for regresjonen og diskuter om forutsetningene er oppfylt i oppgave 1.

Oppgaven består av 10 delspørsmål som anbefales å veie like mye. Kommentarer og tallsvar er skrevet inn mellom <<. >>. Oppgave 1

SKOLEEKSAMEN I. SOS1120 Kvantitativ metode. 13. desember timer

Løsningsforslag. n X. n X 1 i=1 (X i X) 2 og SY 2 = 1 ny S 2 X + S2 Y

2. Hva er en sampelfordeling? Nevn tre eksempler på sampelfordelinger.

(b) På slutten av dagen legger sekretæren inn all innsamlet informasjon i en ny JMP datafil. Hvor mange rader og søyler(kolonner) har datafila?

TMA4245 Statistikk Eksamen desember 2016

Løsningsforslag eksamen STAT100 Høst 2010

Det anbefales at de 9 deloppgavene merket med A, B, teller likt uansett variasjon i vanskelighetsgrad. Svarene er gitt i << >>.

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

Kan vi stole på resultater fra «liten N»?

EKSAMEN I FAG TMA4260 INDUSTRIELL STATISTIKK

6.2 Signifikanstester

Sammenlikninger av gjennomsnitt. SOS1120 Kvantitativ metode. Kan besvare to spørsmål: Sammenlikning av to gjennomsnitt

SKOLEEKSAMEN 29. september 2006 (4 timer)

STK juni 2016

UNIVERSITETET I OSLO

Datamatrisen: observasjoner, variabler og verdier. Variablers målenivå: Nominal Ordinal Intervall Forholdstall (ratio)

UNIVERSITETET I OSLO

MASTER I IDRETTSVITENSKAP 2014/2016. Utsatt individuell skriftlig eksamen. STA 400- Statistikk. Mandag 24. august 2015 kl

Kontroller at oppgavesettet er komplett før du begynner å besvare spørsmålene. Ved sensuren teller alle delspørsmål likt.

ST0202 Statistikk for samfunnsvitere

Eksamensoppgave i TMA4255 Anvendt statistikk

Oppgave 1. Det oppgis at dersom y ij er observasjon nummer j fra laboratorium i så er SSA = (y ij ȳ i ) 2 =

INSTITUTT FOR SOSIOLOGI OG SAMFUNNSGEOGRAFI EKSAMEN I SOSIOLOGI (MASTER) SOS KVANTITATIV METODE. SKOLEEKSAMEN 11. mai 2005 (4 timer)

Eksamensoppgåve i TMA4240 Statistikk

Snøtetthet. Institutt for matematiske fag, NTNU 15. august Notat for TMA4240/TMA4245 Statistikk

UTDRAG FRA SENSORVEILEDNINGEN FOR EKSAMENSOPPGAVEN I SVSOS107 VÅREN 2001

Supplement til power-point presentasjonen i medisinsk statistikk, forelesning 7 januar Skrevet av Stian Lydersen 16 januar 2013

PSY2012 Forskningsmetodologi III: Statistisk analyse, design og måling Eksamen vår 2014

ST0202 Statistikk for samfunnsvitere

UNIVERSITETET I OSLO

Merk at vi for enkelthets skyld antar at alle som befinner seg i Roma sentrum enten er italienere eller utenlandske turister.

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 8 (s. 1) Oppgaver fra boka:

UNIVERSITETET I OSLO

Inferens i regresjon

ST0202 Statistikk for samfunnsvitere Kapittel 9: Inferens om én populasjon

Bruk data fra tabellen over (utvalget) og opplysninger som blir gitt i oppgavene og svar på følgende spørsmål:

Forelesning 9 Kjikvadrattesten. Kjikvadrattest for bivariate tabeller (klassisk variant) Når kan vi forkaste H 0?

UNIVERSITETET I OSLO

STUDIEÅRET 2014/2015. Utsatt individuell skriftlig eksamen i. STA 200- Statistikk. Mandag 24. august 2015 kl

Eksamensoppgave i TMA4240 Statistikk

TMA4240 Statistikk Høst 2009

Introduksjon til inferens

MASTER I IDRETTSVITENSKAP 2013/2015 MASTER I IDRETTSFYSIOTERAPI 2013/2015. Utsatt individuell skriftlig eksamen. STA 400- Statistikk

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

EKSAMEN I TMA4255 ANVENDT STATISTIKK

A. i) Sett opp en frekvenstabell over de fire mulige kombinasjonene av kjønn og røykestatus. Dvs. fyll inn. Ikke - røyker Sum Jente Gutt Sum 25

SENSORVEILEDNING FOR EKSAMENSOPPGAVEN I SVSOS107 VÅREN 2002

EKSAMEN I SOS4020 KVANTITATIV METODE 8. april (4 timer)

Løsningsforslag til obligatorisk innlevering 3.

UNIVERSITETET I OSLO

Transkript:

Sensorveiledning: skoleeksamen i SOS1120 - Kvantitativ metode Tirsdag 30. mai 2016 (4 timer) Poenggivning og karakter I del 1 gis det ett poeng for hvert riktige svar. Ubesvart eller feil svar gis 0 poeng. Det er bare ett riktig svaralternativ. Det skal ikke legges ved noen utregninger i denne delen. Riktig svaralternativ er markert med grønt. I del 2 gis det hovedsakelig 1 poeng for hvert riktig svar, unntatt der det er nærmere angitt. Merk at det i flere oppgaver skal regne konfidensintervall og gi en tolkning. Her gis det 1 poeng for riktig utregning og 0.5 poeng for riktig tolkning siden tilsvarende tolkning kommer igjen flere ganger. Delvis riktig kan da gis f.eks. ¼ poeng. Forståelse skal generelt gi noe uttelling selv hvis svaret er feil. Hvis det fremkommer av utregninger og/eller tekst at kandidaten har en god forståelse på tross av en mindre feil skal dette gi poeng, men ikke full uttelling. Det samme gjelder slurvefeil. Det er få muligheter for følgefeil, men hvis det forekommer skal det gis full uttelling hvis ikke følgefeilen er såpass stor/rar at kandidaten absolutt burde sett at noe var galt. Del 1 og 2 vektes likt slik at poengene bare summeres over de to delene for total poengsum. Det er mulig å få max 39.5 poeng. Følgende karaktergrenser gjelder: Poeng A 36 B 30 C 22 D 14 E 10 F 1

Kandidatnummer Skoleeksamen SOS1120 Del 1: Flervalgsoppgaver Del 1 besvares på oppgavearket ved å krysse av for ett svaralternativ. Det skal ikke legges ved noen utregninger i denne delen. Oppgave 1.1. En student noterer hvor mange timer hun studerer hver dag i løpet av ni dager og får følgende resultat: 6.2 5.0 4.3 7.4 5.8 7.2 8.4 1.2 6.3 Hva er gjennomsnitt og median for denne perioden? a. gjennomsnitt = 6.15 og median = 6.20 b. gjennomsnitt = 5.76 og median = 6.20 c. gjennomsnitt = 6.20 og median = 5.76 d. gjennomsnitt = 5.76 og median = 6.15 e. gjennomsnitt = 6.15 og median = 5.76 Oppgave 1.2. En student noterer hvor mange timer hun studerer hver dag i løpet av ni dager og får følgende resultat: 6.2 5.0 4.3 7.4 5.8 7.2 8.4 1.2 6.3 Hva betyr det at standardavviket er 2.11? (engelsk: "standard deviation") a. Gjennomsnittet ligger 2.11 fra null b. p-verdien er 0.0174 c. Datapunktene ligger i gjennomsnitt 2.11 timer fra gjennomsnittet d. 95% av dagene jobber hun mellom x ± 1.96 2.11 timer e. At dataene er normalfordelt 2

Kandidatnummer Oppgave 1.3. På en eksamen i kvantitative metoder er det mulig å få opptil 100 poeng. Boksplotet nedenfor viser fordelingen for alle som tok eksamen. Omtrent 25% av studentene fikk mindre enn a. 30 poeng b. 53 poeng c. 62 poeng d. 70 poeng e. 59 poeng 3

Oppgave 1.4. Histogrammet nedenfor viser inntektsfordelingen i et utvalg. Kandidatnummer Hvilket av følgende utsagn er riktige: a. gjennomsnittet er lavere enn medianen b. gjennomsnittet er lik 2 ganger standardavviket c. gjennomsnittet er høyere enn medianen d. gjennomsnittet er lik medianen e. man ikke si noe om gjennomsnittet fra figuren Oppgave 1.5. Bruk standard normalfordelingen. (engelsk: "normal distribution"). Hvilken sannsynlighet tilsvarer Z > 1.62? Med andre ord: hvor stor andel av fordelingen ligger over -1.62? a. 0.0044 b. 0.0526 c. 0.9474 d. 0.9956 e. 62% Oppgave 1.6. Bruk standard normalfordelingen. Hvilken sannsynlighet tilsvarer Z < 1.62? Med andre ord: hvor stor andel av fordelingen ligger under 1.62? a. 0.0044 b. 0.0526 c. 0.9474 d. 0.9956 e. 62% 4

Kadidatnummer Oppgave 1.7. Bruk standard normalfordelingen. Hvilken Z-verdi gir at andelen med lavere verdi enn Z er 0.975? a. 1.96 b. 1.68 c. -1.96 d. 2.00 e. 0.025 Oppgave 1.8. Gjennomsnittlig samlet inntekt i Norge, var i 2014 kr 340 330 med standardavvik 655 803. Hvis man trekker et tilfeldig utvalg personer vil målingen ha en usikkerhet uttrykt ved standardfeilen. (Engelsk: "standard error"). Hvis man trekker et utvalg på 200 personer, hva er da standardfeilen? a. 3 279 b. 46 372 c. 1.93 d. 655 803 e. 1701.5 Oppgave 1.9. Gjennomsnittlig samlet inntekt i Norge, var i 2002 kr 205 862 med standardavvik 998 847. Hvis man trekker et tilfeldig utvalg på 200 personer, hva er da sannsynligheten for at gjennomsnittet x i dette utvalget er høyere enn kr. 500.000? Vi kan skrive dette som: P(x > 500 000)? a. 0.500 b. 0.050 c. 0.010 d. 0.001 e. praktisk talt null Oppgave 1.10. Hva betyr det når vi snakker om samplingfordelingen til et gjennomsnitt? (Engelsk: samplingfordelingen = "Sampling distribution", utvalg = "sample") a. Fordelingen i utvalget b. Vår beste gjetning på fordelingen i populasjonen ut fra utvalget c. Ved et enkelt tilfeldig utvalg fra en normal populasjon d. Fordelingen av alle gjennomsnitt det er mulig å få hvis man trakk utvalget veldig mange ganger e. Den fordelingen vi bruker for å regne ut standardfeilen 5

Kandidatnummer Oppgave 1.11. Hva er standardfeil? (Engelsk: "standard error") a. Et mål på hvor mye vi har bommet på den sanne verdien b. Et mål på standardavviket i populasjonen c. Vår beste gjetning på standardavviket i samplingfordelingen d. Det kvadrerte avviket fra gjennomsnittet e. Vår beste gjetning på gjennomsnittet i samplingfordelingen Oppgave 1.12. Se for deg at du intervjuer et tilfeldig utvalg på 10 arbeidstakere og spør hvor lang reisevei de har til jobben (f.eks. målt i antall kilometer). For disse 10 kan du regne gjennomsnittlig reisevei. Se så for deg at du gjentar denne prosedyren veldig mange ganger med nye tilfeldige utvalg, og for hver gang noterer deg gjennomsnittet i hvert av utvalgene. Hvis du så lager et histogram av disse gjennomsnittene, så representerer dette histogrammet a. en eventuell skjevhet i utvalgsmetoden b. den sanne reiseveien i populasjonen c. et enkelt tilfeldig utvalg d. samplingfordelingen til gjennomsnittet e. de store talls lov Oppgave 1.13. Når man regner et 95% konfidensintervall sier man ofte at man er «95% sikker». Hva mener man egentlig med dette? a. 95% av observasjonene ligger innenfor dette intervallet b. Sannsynligheten for at man tar feil er 0.05 c. Intervallet er regnet ut med en metode som fanger den sanne verdien 95% av gangene d. At man bruker normalfordelingen e. At intervallet er ±1.96 ganger standardfeilen 6

Del 2: Utregningsoppgaver Del 2 besvares på eget ark. For alle oppgaver der det er utregninger skal utregningen vises. Konklusjoner og begrunnelser skrives med fullstendige setninger. Oppgave 1.14. Tabellen viser andel menn 40-45 år som vurderer egen helse som god eller mindre god. Utvalget er et tilfeldig utvalg menn i Oslo 2000-2001 i alderen 40-45 år. (Kilde: Humbro undersøkelsen). Mindre God god (N) Ytre vest 641 71 712 Indre vest 358 54 412 Ytre øst 756 226 982 Indre øst 205 190 395 a. Formuler en nullhypotese og alternativ hypotese om sammenhengen mellom bosted og helse. Svar: nullhypotese: det er ingen sammenheng mellom bosted og egenvurdering av helse. alternativ hypotese: det er en sammenheng mellom bosted og egenvurdering av helse. b. Hvis nullhypotesen er sann, hvor mange ville du da forvente i tabellcellen for god helse i ytre øst? (Dette er første trinn du må gjøre for å regne kji-kvadrattesten). Vis utregningen. Svar: (1960*982)/2501 = 769.6 Merk: må kunne forvente at de finner marginalfordelingen selv. c. Hvis nullhypotesen er sann, hvor mange ville du da forvente i tabellcellen for mindre god helse i ytre vest? Vis utregningen. Svar: (541*712)/2501 = 154.0 d. Hvor mange frihetsgrader har kji-kvadrattesten for denne tabellen? Svar: (4-1)*(2-1)=3 e. Kjikvadrattesten gir χ 2 = 238.3. Hva er konklusjonen på testen? Svar: Verdien ligger godt utenfor hva som vises i kji-kvadrattabellen, og p-verdien er praktisk talt lik null. Nullhypotesen kan da forkastes. Om det vises til p-verdi eller kritisk grense går ut på ett her. Oppgave 1.15. I en levekårsundersøkelse blant innsatte i norske fengsler (N= 264) ble det oppgitt at 38 prosent hadde vokst opp i en familie der noen hadde narkotika eller alkoholproblemer. a. Hva er standardfeilen til dette estimatet? Vis utregningen. 7

Svar: p (1 p ) n = 0.38 (1 0.38) 264 = 0.030 b. Regn ut et 95% konfidensintervall for dette estimatet og gi en tolkning av resultatet. Svar: p ± z SE = 0.38 ± 1.96 0.03 = [0.32, 0.44] Tolkning: Vi er 95% sikker på at andelen innsatte som vokste opp i en familie med rusproblemer ligger mellom 32 og 44 prosent. Vi bruker altså en metode som gir riktig intervall 95% av gangene i det lange løp. Svaret bør angi noe om hva «95% sikker» betyr å få full uttelling på tolkningen. Det gis 1 poeng for utregningen og 1/2 poeng for korrekt tolkning. (Til sammen 1.5 poeng). Oppgave 1.16. I en amerikansk studie ble det trukket et tilfeldig utvalg på 105 ungdommer som så ble fulgt til de avsluttet høyere utdanning. Det ble undersøkt sammenhengen mellom gjennomsnittlig karakterer i videregående skole med gjennomsnittlig karakter etter endt høyere utdanning ved hjelp av lineær regresjon. Begge karakterskalaer går fra 0 til 4, der 4 er best. Plottet nedenfor viser dataene og tilpasset regresjonslinje, y = α + β x. I regresjonslinja er Y- variabelen karakter ved høyere utdanning, og x er karakter fra videregående skole. Regresjonslinja er estimert til å være: y = 1.097 + 0.675 x. Standardfeilen for β er 0.053. a. Ved å se på plottet, er en lineær regresjon en rimelig metode for å beskrive sammenhengen? Begrunn svaret. Svar: Ja. Sammenhengen ser ut til å passe godt med en rett linje. (Dette er tilstrekkelig begrunnelse, men ok om de også påpeker at det er større variasjon ved lavere verdier enn 8

ved høyere verdier, men det er ikke i seg selv til hinder for å beskrive sammenhengen). b. Beskriv med egne ord hva estimatet for β betyr. Svar: Personer med en hel karakter forskjell fra videregående har i gjennomsnitt 0.675 karakterer forskjell i høyere utdanning. Formuleringer av typen «en økning på 1 i karakter fra vgs gir 0.675 økt karakter» godtas også. c. Formuler en nullhypotese og en alternativ hypotese for β. Svar: Nullhypotese: Det er ingen sammenheng mellom vgs karakter og karakter ved høyere utdanning. Dvs. β = 0 Alternativ hypotese: Det er en sammenheng mellom vgs karakter og karakter ved høyere utdanning. Dvs. β 0. Hvis det formuleres som en ensidig test er det ok, men da bør de også gjøre det i neste deloppgave også. Hvis konsistent med oppgave d) gis full pott, hvis ikke trekkes 0.25. d. Gjør en t-test for nullhypotesen og konkluder med valgt signifikansnivå. (Engelsk: "significance level"). Vis utregningen. Svar: t = 0.675 = 12.74. Det er 103 frihetsgrader, og denne t-verdien tilsvarer en svært lav p- 0.053 verdi. Uansett hvilken signifikansnivå (innenfor rimelighetens grenser) som velges, så vil nullhypotesen forkastes, og vi konkluderer med at det er en sammenheng mellom karakterene. e. Regn ut et 99 prosent konfidensintervall for β. (Engelsk: "confidence interval"). Vis utregningen og si hva intervallet betyr med egne ord. Svar: Viktig her er å finne riktig t-verdi for 99% KI: 0.675 ± 2.626*0.053 = [0.536, 814]. Hvis det brukes z-verdi, er det også ok. Svaret bør angi noe om hva «99% sikker» betyr å få full uttelling på tolkningen. Det gis 1 poeng for utregningen og 1/2 poeng for korrekt tolkning. (Til sammen 1.5 poeng). f. Hva er den predikerte karakteren fra høyere utdanning for en person som har 3.4 fra videregående skole? Svar: y = 1.097 + 0.675 3.4 = 3.392 g. R 2 for denne regresjonsmodellen er 0.675. Gi en tolkning av R 2. I hvilke sammenhenger er R 2 nyttig? Svar: Angir at andelen av variasjonen i utfallsvariabelen som forklares av variablene i modellen er 0.675. «Forklart varians» etc. Dette er nyttig hvis man ønsker å vite hvor presist man kan predikere karakter ved høyere utdanning utfra karakter fra vgs. Man kan for så vidt også bruke R 2 til å sammenligne modeller. Formuleringer av typen «se hvilken modell som er best» uten nærmere presisering skal ikke gi poeng da dette ikke viser noen egentlig forståelse av R 2. h. Forklar med egne ord hva en residual er. Hvilken nytte kan vi ha av å se nærmere på residualene? Svar: En residual er avstanden mellom den observerte verdien og den predikerte verdien ut fra regresjonen. Med andre ord: avstanden mellom datapunktene og regresjonslinja. Ved å se 9

nærmere på residualene kan vi sjekke noen forutsetninger for regresjonsmodellen: linearitet, uavhengighet, og normalfordelte residualer. Oppgave 1.17. I et tilfeldig utvalg personer fra norske befolkning var det to grupper på henholdsvis 30 og 35 år gamle. Tabellen gir gjennomsnittlig inntekt, standardavvik og utvalgsstørrelse for begge grupper. 30-åringer 35-åringer Gjennomsnitt 408 806 479 008 Standardavvik 159 512 219 689 N 3 500 2 500 a. Regn ut standardfeilen til gjennomsnittet for 30-åringer. Svar: s = 159512 = 2696.2 n 3500 b. Gi et 90% konfidensintervall for gjennomsnittlig inntekt for gruppen av 30-åringer. Gi en tolkning av hva dette konfidensintervallet betyr. Svar: 408806±1.64*2696.2 = [404384, 413227]. Vi er «95% sikre» på at det sanne gjennomsnittet ligger i dette intervallet. Vi bruker altså en metode som gir riktig intervall 95% av gangene i det lange løp. Svaret bør angi noe om hva «95% sikker» betyr å få full uttelling på tolkningen. Det gis 1 poeng for utregningen og 1/2 poeng for korrekt tolkning. (Til sammen 1.5 poeng). c. Regn ut differansen for gruppene og standardfeilen til denne differansen. Svar: Differansen er 408806-479008=-70202 SE = 1595122 3500 + 2196892 = 7269737 + 19305303 = 26575039 = 5155 2500 Her er det primært utregning av standardfeilen som skal gi poeng, så la den veie 2/3. d. Regn ut et 95% konfidensintervall for differansen mellom gruppene. Si med egne ord hva dette intervallet betyr. Svar: -70202±1.96*5155 = [- 80306, -60098] Vi er «90% sikre» på at den sanne differansen i gjennomsnitt mellom de to gruppene ligger i dette intervallet. Vi bruker altså en metode som gir riktig intervall 90% av gangene i det lange løp. Svaret bør angi noe om hva «90% sikker» betyr å få full uttelling på tolkningen. Det gis 1 poeng for utregningen og 1/2 poeng for korrekt tolkning. (Til sammen 1.5 poeng). e. Er forskjellen statistisk signifikant på signifikansnivå 0.01? Gjør en t-test og konkluder. Svar: 70202 5155 = 13.6 10

Den yngre gruppen tjener mindre enn den eldre gruppen i snitt. Absoluttverdien 13 er langt over kritisk grense for signifikansnivå enten vi velger α=0.05 eller α=0.01. Hvis det begrunnes med p-verdi er det også ok. Oppgave 1.18. I en britisk studie av alkoholkonsum (Britton et al 2015, BMC Medicine, 13:47) ble det estimert hvordan alkoholkonsum endret seg med alderen. Dataene er fra et tilfeldig utvalg (N=1485) av befolkningen bosatt på vestkysten av Skottland, og det var omtrent like mange av hvert kjønn. I aldersgruppen 50 til 80 år, ble det konsumert i gjennomsnitt 0.187 færre alkoholenheter i uka for hvert år eldre man ble. Dette estimatet har standardfeil 0.051. Menn på 50 år drakk i gjennomsnitt 15 enheter i uka. 50-årige kvinner drakk i gjennomsnitt 3.5 enheter i uka. (En alkoholenhet tilsvarer 33cl øl eller et lite glass vin). Ta utgangspunkt i at variabelen for alder er omkodet slik at den tar verdien 0 ved 50 år og øker med 1 for hvert år. Med andre ord: variabelen alder har verdier fra 0 til 30. Variabelen kjønn er en indikatorvariabel med verdiene 0 for menn og 1 for kvinner. a. Skriv opp formelen for en multippel lineær regresjonsmodell som beskriver hvordan alkoholkonsumet for menn og kvinner varierer med alder i denne aldersgruppen. Angi regresjonsparameterne med tall. Svar: y = α + β 1 alder + β 2 kjønn = 15 0.187 alder (15 3.5) kjønn b. Det er noe usikkerhet i hvor mye alkoholkonsumet øker med alderen. Gi et 95 prosent konfidensintervall for dette estimatet. Forklar med egne ord hva dette intervallet betyr når det gjelder alkoholkonsum. Svar: Siden antall frihetsgrader er høyt (N=1485) kan vi bruke normalfordelingen. Vi får da: -0.187±1.96*0.051 = [-0.287, -0.087]. Vi er da «95% sikre» på at alkoholkonsumet reduseres med mellom 0.09 og 0.29 enheter for hvert år eldre de blir. Svaret bør angi noe om hva «95% sikker» betyr å få full uttelling på tolkningen. Det gis 1 poeng for utregningen og 1/2 poeng for korrekt tolkning. (Til sammen 1.5 poeng). Merk at det er en liten skrivefeil i oppgaveteksten. Det spørres om hvor mye alkoholkonsumet «øker», mens det skulle stått f.eks. «endres». De fleste vil nok skjønne dette likevel. Vær raus. c. Gjør en hypotesetest av den estimerte regresjonsparameteren. Sett opp hypoteser og gjennomfør testen, og konkluder. Svar: 0.187 0.051 = 3.67. Det bør presiseres et valgt signifikansnivå og at det brukes z- fordelingen. Uansett får man en p-verdi som er lavere enn enhver vanlig konfidensgrad å velge. Nullhypotesen forkastes da det er lite sannsynlig å få en slik observasjon hvis nullhypotesen er riktig. d. Det viser seg at kvinner ikke reduserer alkoholbruket like mye med alderen som menn. For hvert år eldre de blir reduserer de i gjennomsnitt alkoholforbruket med 0.025 enheter i uka. Skriv nå en regresjonsmodell som viser endringer for menn og kvinner som viser denne forskjellen. Svar: 11

y = α + β 2 alder + β 2 kjønn + β 3 kjønn alder = 15 0.187 alder (15 3.5) kjønn + ( 0.187 + 0.025) kjønn alder = 15 0.187 alder 11.5 kvinne + 0.162 kjønn alder 12