Løsningsforslag øving 9, ST1301



Like dokumenter
UNIVERSITETET I OSLO

Eksamen i : STA-1002 Statistikk og. Eksamensdato : 26. september Sted : Administrasjonsbygget. Tillatte hjelpemidler : - Godkjent kalkulator

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

Løsningsforslag STK1110-h11: Andre obligatoriske oppgave.

EKSAMENSOPPGAVE STA «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator. Rute.

Løsningsforsalg til andre sett med obligatoriske oppgaver i STK1110 høsten 2015

Bioberegninger, ST1301 Onsdag 1. juni 2005 Løsningsforslag

Bioberegninger, ST november 2006 Kl. 913 Hjelpemidler: Alle trykte og skrevne hjelpemidler, lommeregner.

ST0202 Statistikk for samfunnsvitere Kapittel 9: Inferens om én populasjon

Tid: 29. mai (3.5 timer) Ved alle hypotesetester skal både nullhypotese og alternativ hypotese skrives ned.

vekt. vol bruk

ST0202 Statistikk for samfunnsvitere Kapittel 13: Lineær regresjon og korrelasjon

Eksamen i : STA-1002 Statistikk og. Eksamensdato : 3. juni Sted : Administrasjonsbygget. Tillatte hjelpemidler : - Godkjent kalkulator

EKSAMENSOPPGAVER STAT100 Vår 2011

Fra boka: 10.32, 10.33, 10.34, 10.35, 10.3 og (alle er basert på samme datasett).

UNIVERSITETET I OSLO

1 Section 7-2: Estimere populasjonsandelen. 2 Section 7-4: Estimere µ når σ er ukjent

Tidspunkt: Fredag 18. mai (3.5 timer) Tillatte hjelpemidler: C3. Alle typer kalkulatorer, alle andre hjelpemidler.

Eksamensoppgave i ST3001

Eksamen i: STA-1002 Statistikk og sannsynlighet 2 Dato: Fredag 31. mai 2013 Tid: Kl 09:00 13:00 Sted: Administrasjonsbygget

EKSAMENSOPPGAVE. B154 «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark (4 sider) med egne notater. Godkjent kalkulator.

SOS1120 Kvantitativ metode. Regresjonsanalyse. Lineær sammenheng II. Lineær sammenheng I. Forelesningsnotater 11. forelesning høsten 2005

Tid: Torsdag 11.desember 9:00 12:30 (3.5 timer) Emneansvarlig: Solve Sæbø, Tlf

Oppgave 1. T = 9 Hypotesetest for å teste om kolesterolnivået har endret seg etter dietten: T observert =

MOT310 Statistiske metoder 1, høsten 2011 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 1. n + (x 0 x) 1 2 ) = 1 γ

Løsningsforslag øving 10, ST1301

UNIVERSITETET I OSLO

MASTER I IDRETTSVITENSKAP 2018/2020. Individuell skriftlig eksamen. STA 400- Statistikk. Mandag 18. mars 2019 kl

Tillatte hjelpemidler: C3: alle typer kalkulator, alle andre hjelpemidler

Eksamensoppgave i TMA4267 Lineære statistiske modeller

EKSAMENSOPPGAVE STA «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator. Rute.

Kort overblikk over kurset sålangt

1 8-1: Oversikt : Grunnleggende hypotesetesting. 3 Section 8-3: Å teste påstander om andeler. 4 Section 8-5: Teste en påstand om gjennomsnittet

1 10-2: Korrelasjon : Regresjon

Eksamen i: STAT100 Statistikk. Tid: Tirsdag (3.5 timer)

Analyse av kontinuerlige data. Intro til hypotesetesting. 21. april Seksjon for medisinsk statistikk, UIO. Tron Anders Moger

EKSAMENSOPPGAVE STA-2004.

Forelesning 7 STK3100

PSY2012 Forskningsmetodologi III: Statistisk analyse, design og måling Eksamen vår 2014

Tilleggsoppgaver for STK1110 Høst 2015

OPPGAVESETTET BESTÅR AV 3 OPPGAVER PÅ 6 SIDER MERKNADER: Alle deloppgaver vektlegges likt.

Skoleeksamen i SOS Kvantitativ metode

Variansanalyse og lineær regresjon notat til STK2120

MASTER I IDRETTSVITENSKAP 2013/2015 MASTER I IDRETTSFYSIOTERAPI 2013/2015. Utsatt individuell skriftlig eksamen. STA 400- Statistikk

EKSAMEN I FAG TMA4315 GENERALISERTE LINEÆRE MODELLER Torsdag 14. desember 2006 Tid: 09:0013:00

Page 1 EN DAG PÅ HELSESTASJONEN. Lises klassevenninnner. Formelen: Du har en hypotese om vanlig høyde

Inferens i regresjon

Logistisk regresjon 2

Forelesning 13 Regresjonsanalyse

Kapittel 7: Inferens for forventningerukjent standardavvik

Simulering med Applet fra boken, av z og t basert på en rekke utvalg av en gitt størrelse n fra N(μ,σ). Illustrerer hvordan estimering av variansen

Multippel regresjon. Her utvider vi perspektivet for enkel lineær regresjon til også å omfatte flere forklaringsvariable x 1, x 2,, x p.

Eksamensoppgave i TMA4267 Lineære statistiske modeller

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 σ2

EKSAMENSOPPGAVE STA-1001.

Tidspunkt for eksamen: 12. mai ,5 timer

Eksamensoppgave i TMA4267 Lineære statistiske modeller

Prøveeksamen i STK3100/4100 høsten 2011.

UNIVERSITETET I OSLO

Klassisk ANOVA/ lineær modell

1 9-3: Sammenligne gjennomsnitt for to uavhengige stikkprøver : Sammenligne gjennomsnitt for to relaterte stikkprøver

Tillatte hjelpemidler: C3: alle typer kalkulator, alle andre hjelpemidler

Institutt for økonomi og administrasjon

Sensorveiledning: skoleeksamen i SOS Kvantitativ metode

Tillatte hjelpemidler: C3: alle typer kalkulator, alle andre hjelpemidler

Obligatorisk oppgave 2

Kapittel 3: Studieopplegg

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Statistikk og dataanalyse

MASTER I IDRETTSVITENSKAP 2014/2016. Utsatt individuell skriftlig eksamen. STA 400- Statistikk. Mandag 24. august 2015 kl

HØGSKOLEN I STAVANGER

Statistikk, FO242N, AMMT, HiST 2. årskurs, 30. mai 2007 side 1 ( av 8) LØSNINGSFORSLAG HØGSKOLEN I SØR-TRØNDELAG

Forelesning 8 STK3100

EKSAMEN I FAG TMA4255 ANVENDT STATISTIKK

Løsningsforslag til andre sett med obligatoriske oppgaver i STK1110 høsten 2010

Lineære modeller i praksis

Krysstabellanalyse (forts.) SOS1120 Kvantitativ metode. 4. Statistisk generalisering. Forelesningsnotater 9. forelesning høsten 2005.

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.

Forelesning 9 STK3100

Eksamensoppgave i PSY2017/PSYPRO4317 Statistikk og kvantitative forskningsmetoder

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 8 (s. 1) Oppgaver fra boka:

Snøtetthet. Institutt for matematiske fag, NTNU 15. august Notat for TMA4240/TMA4245 Statistikk

Forelesning 10 Kjikvadrattesten

I enkel lineær regresjon beskrev linja. μ y = β 0 + β 1 x

Oppgave 1. og t α/2,n 1 = 2.262, så er et 95% konfidensintervall for µ D (se kap 9.9 i læreboka): = ( 0.12, 3.32).

Eksamensoppgave i PSY2017/PSYPRO4317 Statistikk og kvantitative forskningsmetoder

MASTER I IDRETTSVITENSKAP 2013/2015 MASTER I IDRETTSFYSIOTERAPI 2013/2015. Individuell skriftlig eksamen. STA 400- Statistikk

ST0202 Statistikk for samfunnsvitere Kapittel 10: Inferens om to populasjoner

Sammenlikninger av gjennomsnitt. SOS1120 Kvantitativ metode. Kan besvare to spørsmål: Sammenlikning av to gjennomsnitt

Datamatrisen: observasjoner, variabler og verdier. Variablers målenivå: Nominal Ordinal Intervall Forholdstall (ratio)

STK1000 Obligatorisk oppgave 2 av 2

+ S2 Y ) 2. = (avrundet nedover til nærmeste heltall) n Y 1

TMA4240 Statistikk Høst 2012

Regler i statistikk STAT 100

Kvinne Antall Tabell 1a. Antall migreneanfall i året før kvinnene fikk medisin.

Andre sett med obligatoriske oppgaver i STK1110 høsten 2010

Eksamensoppgave i TMA4255 Anvendt statistikk

Transkript:

Løsningsforslag øving 9, ST1301 Oppgave 1 Regresjon. Estimering av arvbarhet. a) Legg inn din egen høyde, din mors høyde, din fars høyde, og ditt kjønn via linken på fagets hjemmeside 1. Last så ned dataene fra samme link og og les de inn i R ved bruk av read.table (bruk tilleggsargumentet header=t slik at kolonnene får navn). Lagre resultatet i en data.frame med navn data. Skriv så attach(data) for å gjøre variablene i data.framen direkte tilgjengelig tilgjengelige uten bruk av $ notasjon. Beregn såkalt midparantal values, d.v.s., gjennomsnittlig høyde til hvert foreldrepar og lagre resultatet i en variabel med navn midparent. Lag et spredningsplot av variablen avkom mot variabelen midparent. Velg forskjellig symboler for hvert kjønn i spredningsplottet ved å oppgi en vektor med elementer lik 1 og 2 tilsvarende hvert kjønn som tilleggsargumentet pch. Denne vektoren kan lages ved å konverte variabelen kjonn (en faktor) til en vektor av heltall med funksjonen as.integer. Argumentet pch er beskrevet på hjelpesiden til par. Tilpass så en lineær modell ved hjelp av lm hvor du bruker høyde til avkom som responsvariabel og midparent og kjonn som forklaringsvariabler. Undersøk den tilpassede modellen med summary, confint, og eventuelt dummy.coef. Hva blir estimatet av stigningstallet i modellen? Er regresjonskoesienten (stigningstallet) for variabelen midparent signikant forskjellig fra 0? Det kan virke rimelig at forventet høyde til avkom av et gitt foreldrepar er lik snittet av høyden til hver forelder? Dette vil i tilfelle innebære at regresjonskoesienten er lik 1. Utfør en test av denne hypotesen. (Hint: ta utgangspunktet i estimatet av koesienten og standardfeilen i utskriften du får når du bruker summary og nne p-verdien for testen med pt.) Hva blir estimatet av og konndensintervallet for gjennomsnittlig høydeforskjell mellom kjønnene? Er høydenforskjellen statistisk signikant? Inneholder kondensintervallet tallet 0? Legg til to regresjonslinjer i spredningsplottet over som svarer til forventet høyde som funksjon av midparental value for hvert kjønn ved hjelp to kall til abline. > data<-read.table("/home/jarlet/www/st1301-2004v/hoyde.dat", header=t,as.is=5) 1 http://www.math.ntnu.no/~jarlet/st1301-2004v/hoyde.imf?forste=1 1

Leser vi inn 5'te kolonne as is forblir denne kolonnen av datatypen tekststreng og ikke faktor (det vil være mest praktisk, se nedenfor). Argumentet coltypes kan også brukes for å spesisere valg av datatype for de ulike kolonnene i datalen. > attach(data) > midparent <-.5*(mor+far) Faktoren kjønn må konverteres til heltall for å spesisere hvilke symbol vi vil ha i plottet. > plot(midparent,avkom,pch=as.integer(kjonn)) > modell <- lm(avkom ~ midparent + kjonn) > summary(modell) Call: lm(formula = avkom ~ midparent + kjonn) Residuals: Min 1Q Median 3Q Max -7.11798-2.27418-0.01789 2.55676 13.79089 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 86.3701 25.1371 3.436 0.00161 ** midparent 0.4772 0.1452 3.287 0.00241 ** kjonnm 12.2350 1.4799 8.267 1.51e-09 *** --- Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1 Residual standard error: 4.323 on 33 degrees of freedom Multiple R-Squared: 0.6869, Adjusted R-squared: 0.6679 F-statistic: 36.2 on 2 and 33 DF, p-value: 4.769e-09 Modellen vi har tilpasset kan skrives: y = a + bx + c i + ; (1) hvor y er høyde på avkom, x er gjennomsnittlig foreldrehøyde, a er modellens intercept, b er stigningstallet, og c 1 og c 2 er parameterne som spesisere forskjellen i høyde mellom gruppe 1 og 2 (kvinner og menn). Fordi c 1 og c 2 ikke kan estimeres samtidig med a innføres bibetingelsen c 1 = 0. 2

Merk at tolkningen av c 2 dermed blir forskjell i forventet høyde mellom kjønnene gitt ellers like betingelser (samme foreldresnitt). Tabellen i utskriften over gir oss estimat av parameterne a, b, og c 2 med tilhørende standardfeil, testobservatorer og p-verdier for tester av nullhypotesene a = 0 (intercepten lik 0), b = 0 (ingen sammenheng med foreldresnittet), c 2 = 0 (ingen forskjell mellom kjønnene). Fra p-verdiene ser vi at alle disse nullhypotesene kan forkastes. Parameteren b, stigningstallet i regresjonen, kalles arvbarhet eller arvegrad (heritability på engelsk) og er en viktig parameter i kvantitativ genetikk. Denne parameteren kan tolkes som andelen av den totale variansen i variabelen høyde som skyldes additive geneekter. Denne skal derfor alltid ligge mellom 0 og 1. I vårt tilfelle er estimatet lik 0.48 som altså betyr at 48% av variasjonen i høyde (om vi ser bort fra kjønnsforskjeller) er genetisk betinget. > confint(modell) 2.5 % 97.5 % (Intercept) 35.2283472 137.5119447 midparent 0.1818073 0.7726254 kjonnm 9.2240374 15.2459120 Kondensintervallene inneholder ikke null som stemmer med det faktum at alle parameterne er signikant forskjellig fra 0. summary gir oss ikke testresultatet for mer sære nullhypoteser som at b = b 0 = 1. For å teste denne hypotesen beregner vi (^b b 0 )=s:e:(^b) på grunnlag av tallene i tabellen over og nner signikansverdien ved oppslag i kumulative t-fordeling. Husk også at vi har en to-sidig test: > 2*pt(q=(.4772-1)/0.1452,df=33) [1] 0.001028957 > Skal vi legge inn regresjonslinjer for kjønn 1 og 2 setter vi i = 1 og i = 2 i (1) og setter inn parameterestimatene slik at vi får ligningene y = 86:3 + 0 + 0:47x y = 86:3 + 12:2 + 0:47x (2) > abline(86,.47) > abline(86+12.23,.47) > text(midparent,avkom,nick,pos=1) 3

Kommandoen text legger til tekststrenger på koordinatene spesisert av de to første argumentene. Uten argumentet as.is=5 ved innlesing av dataene måtte vi her ha konvertert variabelen nick tilbake til datatypen tekststreng ved bruk av as.character. avkom 165 170 175 180 185 190 195 kiki Steinar terj1 addis Marit Jarle Gunnar PerUlv bes Darkwood arne BalooKatten Audhild Tone Gro Ingvild pisi frome svima anne sugerbaby Linda hulda bjarne Guro kjersti silje vanella meig Jofrid 160 165 170 175 180 midparent b) Hent ut residualene fra den tilpassede modellen og undersøk om disse er normalfordelte ved å lage et histogram av disse. Lag også et Q-Q-plot med qqnorm. > hist(resid(modell),breaks=12) > qqnorm(resid(modell)) 4

Histogram of resid(fit) Normal Q Q Plot Frequency 0 2 4 6 8 Sample Quantiles 5 0 5 10 5 0 5 10 resid(fit) 2 1 0 1 2 Theoretical Quantiles c) I populasjonsgenetisk teori antas det ofte såkalt tilfeldig parring (random mating) som betyr at egenskapene til et tilfeldig valgt foreldrepar er uavhengige tilfeldige variable. Dersom individene i en populasjon foretrekker partnere som er lik seg selv vil dette føre til at egenskapene blir positivt korrelerte. Dette kalles assortative mating og vil kunne ha evolusjonære konsekvenser, bl.a. vil det føre til en økning i den genetiske variansen i egenskapen som studeres (her høyde). Undersøk om det er noen korrelasjon mellom høyden til fordeldrene ved å bruke funksjonen cor.test. Lag også et spredningsplot av høyde til mor versus høyde til far. > plot(mor,far) > text(mor,far,nick,pos=1) kjersti far 165 170 175 180 185 190 kiki bes Ingvild JofridarneTone PerUlv meig bjarne Guro Gro svima Katten Jarle hulda pisi fro Audhild Gunnar Darkwood Me sugerbaby Baloo Linda vanella Steinar terj1marit addis anne silje 155 160 165 170 175 mor 5

> cor.test(mor,far,altern="greater") Pearson's product-moment correlation data: mor and far t = 1.774, df = 34, p-value = 0.04251 alternative hypothesis: true correlation is greater than 0 95 percent confidence interval: 0.01339168 1.00000000 sample estimates: cor 0.2910607 Gjør vi en en-sidig test med H 1 : > 0 ser vi at vi kan forkaste H 0 : = 0. Det er med andre ord slik at de høye foretrekker de høye og motsatt i populasjonen vi har trukket utvalget fra. 6