STK1000 Innføring i anvendt statistikk

Like dokumenter
STK1000 Innføring i anvendt statistikk

STK1000 Obligatorisk oppgave 1 av 2

STK1000 Obligatorisk oppgave 2 av 2

MAT1140 Strukturer og argumenter

MAT1120. Obligatorisk oppgave 1 av 2. Torsdag 20. september 2018, klokken 14:30 i Devilry (devilry.ifi.uio.no).

MEK1100, vår Obligatorisk oppgave 1 av 2. Torsdag 28. februar 2019, klokken 14:30 i Devilry (devilry.ifi.uio.no).

MAT-INF 1100: Obligatorisk oppgave 1

MAT1110. Obligatorisk oppgave 1 av 2

MAT-INF 1100: Obligatorisk oppgave 1

UNIVERSITETET I OSLO

MEK1100, vår Obligatorisk oppgave 1 av 2.

UNIVERSITETET I OSLO

STK1000 Innføring i anvendt statistikk

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

MAT-INF 1100: Obligatorisk oppgave 2

Øving 1 TMA Grunnleggende dataanalyse i Matlab

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

STK1000 Uke 36, Studentene forventes å lese Ch 1.4 ( ) i læreboka (MMC). Tetthetskurver. Eksempel: Drivstofforbruk hos 32 biler

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

UNIVERSITETET I OSLO

Kapittel 1: Data og fordelinger

Et lite notat om og rundt normalfordelingen.

Tid: 29. mai (3.5 timer) Ved alle hypotesetester skal både nullhypotese og alternativ hypotese skrives ned.

Et lite notat om og rundt normalfordelingen. Anta at vi har kontinuerlige data. Hva er likt og ulikt for histogrammer og fordelingskurver?

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

UNIVERSITETET I OSLO

EKSAMEN I SOS1120 KVANTITATIV METODE 6. DESEMBER 2007 (4 timer)

Et lite notat om og rundt normalfordelingen.

H 12 Eksamen PED 3008 Vitenskapsteori og forskningsmetode

UNIVERSITETET I OSLO

Øving 1 TMA Grunnleggende dataanalyse i Matlab

Eksamensoppgave i TMA4240 Statistikk

TMA4245 Statistikk Eksamen desember 2016

Andre obligatoriske oppgave i STK1000 H2016: Innlevering: Besvarelsen leveres på instituttkontoret ved Matematisk institutt i 7.

ting å gjøre å prøve å oppsummere informasjonen i Hva som er hensiktsmessig måter å beskrive dataene på en hensiktsmessig måte.

Snøtetthet. Institutt for matematiske fag, NTNU 15. august Notat for TMA4240/TMA4245 Statistikk

UNIVERSITETET I OSLO

Obligatorisk oppgavesett 1 MAT1120 H16

STK2100. Obligatorisk oppgave 1 av 2

MAT-INF 2360: Obligatorisk oppgave 3

Eksamen PSYC3101 Kvantitativ metode II Vår 2015

UNIVERSITETET I OSLO

Eksamensoppgave i TMA4255 Anvendt statistikk

Obligatorisk oppgave 1 MAT1120 H15

ST0202 Statistikk for samfunnsvitere. Bo Lindqvist Institutt for matematiske fag

Kan vi stole på resultater fra «liten N»?

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Eksamen i. MAT110 Statistikk 1

Lærebok Robert Johnson og Patricia Kuby: Elementary Statistics, 10. utgave. Pensumoversikt. Forelesninger og øvinger

UNIVERSITETET I OSLO Matematisk Institutt

EKSAMEN I SOS1120 KVANTITATIV METODE 2. DESEMBER 2010 (4 timer)

UNIVERSITETET I OSLO

PSY2012 Forskningsmetodologi III: Statistisk analyse, design og måling Eksamen vår 2014

UNIVERSITETET I OSLO

Statistikk og dataanalyse

(b) På slutten av dagen legger sekretæren inn all innsamlet informasjon i en ny JMP datafil. Hvor mange rader og søyler(kolonner) har datafila?

Høgskolen i Sør-Trøndelag Avdeling Trondheim Økonomisk Høgskole EKSAMENSOPPGAVE

Eksamensoppgave i TMA4255 Anvendt statistikk

Eksamensoppgave i TMA4255 Anvendt statistikk

HØGSKOLEN I STAVANGER

Mål på beliggenhet (2.6) Beregning av kvartilene Q 1, Q 2, Q 3. 5-tallssammendrag. ST0202 Statistikk for samfunnsvitere

Seksjon 1.3 Tetthetskurver og normalfordelingen

ST0202 Statistikk for samfunnsvitere

Oppgave 1. Det oppgis at dersom y ij er observasjon nummer j fra laboratorium i så er SSA = (y ij ȳ i ) 2 =

TMA4240 Statistikk Høst 2009

UNIVERSITETET I OSLO

MAT-INF 1100: Obligatorisk oppgave 1

MAT 1120: Obligatorisk oppgave 2, H-09

SPED4010/eksamen i statistikk: Fredag 30.september 2011 kl

STUDIEÅRET 2016/2017. Individuell skriftlig eksamen i STA 200- Statistikk. Torsdag 27. april 2017 kl

TMA4245 Statistikk Eksamen desember 2016

UNIVERSITETET I OSLO

OPPGAVESETTET BESTÅR AV 3 OPPGAVER PÅ 6 SIDER MERKNADER: Alle deloppgaver vektlegges likt.

MASTER I IDRETTSVITENSKAP 2014/2016. Individuell skriftlig eksamen. STA 400- Statistikk. Fredag 13. mars 2015 kl

Andre sett med obligatoriske oppgaver i STK1110 høsten 2010

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Tabell 1: Beskrivende statistikker for dataene

Skoleeksamen i SOS Kvantitativ metode

MASTER I IDRETTSVITENSKAP 2013/2015 MASTER I IDRETTSFYSIOTERAPI 2013/2015. Individuell skriftlig eksamen. STA 400- Statistikk

Eksamensoppgave i TMA4245 Statistikk

Beregning av kvartilen Q 1 (example 2.12) Mer repetisjon. ST0202 Statistikk for samfunnsvitere

ME Vitenskapsteori og kvantitativ metode

(Det tas forbehold om feil i løsningsforslaget.) Oppgave 1

Kapittel 2. Utforske og beskrive data. Sammenhenger mellom variable Kap. 2.1 om assosiasjon og kryssplott forrige uke. Kap. 2.2, 2.3, 2.

I enkel lineær regresjon beskrev linja. μ y = β 0 + β 1 x

Oppgaven består av 10 delspørsmål som anbefales å veie like mye. Kommentarer og tallsvar er skrevet inn mellom <<. >>. Oppgave 1

Eksamensoppgave i TMA4255 Anvendt statistikk

Eksamensoppgave i PSY3100 Forskningsmetode - Kvantitativ

EKSAMEN I SOS4020 KVANTITATIV METODE 8. april (4 timer)

Oppgaver til Studentveiledning 3 MET 3431 Statistikk

Fordelinger, mer om sentralmål og variasjonsmål. Tron Anders Moger

Dataens tidsalder. Hvorfor data? Data, data, data. STK1000 Innføring i anvendt statistikk. Tirsdag 24. august 2010

TMA4240 Statistikk Høst 2018

Eksamensoppgave i PSY3100 Forskningsmetode - Kvantitativ

Eksamensoppgåve i TMA4240 Statistikk

FØRSTE OBLIGATORISKE OPPGAVE STK1000 HØSTEN 2009

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

ST0202 Statistikk for samfunnsvitere. Bo Lindqvist Institutt for matematiske fag

Transkript:

06. september 2018 STK1000 Innføring i anvendt statistikk Obligatorisk oppgave 1 av 2. Datasettene til de to første oppgavene er hentet fra biologi. Innleveringsfrist Torsdag 20. september 2018, klokken 14:30 i Devilry (devilry.ifi.uio.no). Instruksjoner Du velger selv om du skriver besvarelsen for hånd og scanner besvarelsen eller om du skriver løsningen direkte inn på datamaskin (for eksempel ved bruk av L A TEX). Besvarelsen skal leveres som én PDF-fil. Scannede ark må være godt lesbare. Besvarelsen skal inneholde navn, emne og oblignummer. Det forventes at man har en klar og ryddig besvarelse med tydelige begrunnelser. Husk å inkludere alle relevante plott og figurer. Studenter som ikke får sin opprinnelige besvarelse godkjent, men som har gjort et reelt forsøk på å løse oppgavene, vil få én mulighet til å levere en revidert besvarelse. Samarbeid og alle slags hjelpemidler er tillatt, men den innleverte besvarelsen skal være skrevet av deg og reflektere din forståelse av stoffet. Er vi i tvil om du virkelig har forstått det du har levert inn, kan vi be deg om en muntlig redegjørelse. I oppgaver der du blir bedt om å programmere må du legge ved programkoden og levere den sammen med resten av besvarelsen. Det er viktig at programkoden du leverer inneholder et kjøreeksempel, slik at det er lett å se hvilket resultat programmet gir. Søknad om utsettelse av innleveringsfrist Hvis du blir syk eller av andre grunner trenger å søke om utsettelse av innleveringsfristen, må du ta kontakt med studieadministrasjonen ved Matematisk institutt (e-post: studieinfo@math.uio.no) i god tid før innleveringsfristen. For å få adgang til avsluttende eksamen i dette emnet, må man bestå alle obligatoriske oppgaver i ett og samme semester. For fullstendige retningslinjer for innlevering av obligatoriske oppgaver, se her: www.uio.no/studier/admin/obligatoriske-aktiviteter/mn-math-oblig.html For alle oppgavene LYKKE TIL! Skriv #kommentarer til hver R-kommando i programkoden du legger ved, dvs en kort forklaring av hva som skjer når kommandoen brukes. Etter et #-tegn kan man skrive kommentarer som ikke blir lest av R, noe som betyr at det ikke påvirker koden. 1

Oppgave 1 I denne oppgaven skal vi se på en studie [1] hvor det ble gjennomført målinger av basal metabolsk hastighet (BMR) hos sebrafinker (Taeniopygia guttata). Basalmetabolisme er den mengden energi et endotermt dyr bruker per tidsenhet i hvile, og måles i antall ml O 2 per min. Datasettet som benyttes i denne oppgaven inneholder informasjon om basal metabolsk hastighet for 150 sebrafinker som er tilfeldig valgt fra det opprinnelige datasettet. data = "http://www.uio.no/studier/emner/matnat/math/stk1000/data/zebrafinch.txt" zebrafinch <- read.table(data,header=true) Datafilen består av én linje for hver av de 150 sebrafinkene. I første kolonne er følgende variabel gitt: BMR: Målt basal metabolsk hastighet til individet (ml O 2 per min). a) Plott et histogram av BMR ved å bruke R. Beskriv hva du ser fra histogrammet. R-hint: hist(). b) Finn gjennomsnitt x (x betegner variabelen BMR) og median for BMR ved bruk av R. Hva er disse tallene uttrykk for? c) Finn standardavvvik s og inter-kvartil avstand til BMR ved bruk av R. Forklar hvordan disse tallene oppsummerer spredningen i basal metabolsk hastighet. d) Vurder om det er rimelig å anta at BMR er normalfordelt. Forklar hvordan du vurderer dette. R-hint: qqnorm() og qqline(). I resten av oppgaven: Vi antar at BMR er normalfordelt. Vi kjenner ikke populasjonens µ og σ, men vi later som vi kjenner disse ved å la µ = x og σ = s. e) Gi et uttrykk for den standardiserte verdien av BMR. Regn ut den standardiserte verdien av BMI = 0.8 ml O 2 per min. Forklar hvordan svaret skal tolkes. f) Hva er sannnsynligheten for at sebrafink har BMI lavere enn 0.6 ml O 2 per min? R-hint: pnorm(). g) Hva er sannsynligheten for at en sebrafink har BMI høyere enn 1.0 ml O 2 per min? Oppgave 2 Menneskelig aktivitet kan bidra til endret atferd hos dyrelivet. I en studie [2] ble det undersøkt om ulv (Canis lupus) som var utsatt for høyere grad av jakt, opplevde en økning i produksjon av steroidehormoner. Målinger av konsentrasjonen av steroidehormoner ble gjennomført ved å analysere hårprøver fra 148 individuelle ulver fra ulike regioner i nordlige deler av Canada, fra enten et lett jaktet område eller et tungt jaktet område. Stereoidehormonene ble målt i antall picogram (pg) per miligram (mg) hår. I denne oppgaven har hormonene testosteron og kortison blitt valgt ut fra det opprinnelige datasettet. data ="http://www.uio.no/studier/emner/matnat/math/stk1000/data/wolves.txt" wolf <- read.table(data,header=true) Datafilen består av én linje for hver av de 148 hårprøvene. I fire kolonner er følgende variable gitt: 2

sex: Kjønnet til hvert individ (F for hunn, M for hann). population: Indikator for om individet kommer fra en lett eller tungt jaktet populasjon (1 = lett jaktet, 2 = tungt jaktet). cpmg: Konsentrasjonen av kortisol i hårprøven (pg/mg). tpmg: Konsentrasjonen av testosteron i hårprøven (pg/mg). a) Forklar forskjellen på en kategorisk og en kvantitativ variabel. Hvilke av variablene i datasettet er kvalitative, og hvilke variable er kvantitative? b) Lag oppsummeringer av den/de kategoriske variablene i filen ved å bruke følgende R-koder: table(variabelnavn) pie(table(variabelnavn)) Kommenter. c) Du skal nå dele opp dataene dine i to datasett: Ett som inneholder data for ulvene som er lett jaktet (wolf.lett) og ett for ulvene som er tungt jaktet (wolf.tungt). Dette gjør du ved følgende R-kommandoer: wolf.lett <- wolf[wolf[,"population"]==1,] wolf.tungt <- wolf[wolf[,"population"]==2,] d) For hvert av datasettene wolf.lett og wolf.tungt, plott histogram og boxplott av kortisolkonsentrasjon i hårprøvene ved å bruke R-kommandoene: par(mfrow=c(2,2)) hist(wolf.lett) boxplot(wolf.lett) hist(wolf.tungt) boxplot(wolf.tungt) Beskriv hva du ser fra hvert plott. Sammenlign plottene for de to datasettene. e) For hvert av datasettene wolf.lett og wolf.tungt, finn gjennomsnitt og median av kortisolkonsentrasjon i hårprøvene, og sammenlign disse størrelsene. Kommenter og forklar. Sammenlign også resultatene for de to datasettene. f) Læreboken nevner to ulike måter å oppsummere data numerisk på: femtallsoppsummering og gjennomsnitt med standardavvik. Hvilken av disse måtene oppsummerer kortisolkonsentrasjonen best for hvert av datasettene wolf.lett og wolf.tungt? Begrunn svaret. g) Vurder om konsentrasjonen av kortisol i hårprøvene (cpmg) er tilnærmet normalfordelt for hvert av datasettene wolf.lett og wolf.tungt. Oppgave 3 I denne oppgaven skal vi se på kroppsmål gjennomført på 223 studenter som tok emnet BIO2150 ved UiO mellom 2012 og 2016. Hensikten med øvelsen var å samle inn data som kunne brukes til statistisk analyse. I datasettet vitruvisk.txt 1 finner man resultatene for de 223 studentene som 1 Datasettet er laget og behandlet av Halvor Aarnes og Tom Andersen fra IBV, UiO. 3

deltok på øvelsen. Navnet på datasettet refererer til Leonardo da Vincis berømte Den Vitruviske Mann, som er en illustrasjon av menneskets proposjoner. data = "http://www.uio.no/studier/emner/matnat/math/stk1000/data/vitruvisk.txt" vitruvisk <- read.table(data,header=true) Datafilen består av én linje for hver av de 223 studentene. I fem kolonner er følgende variable gitt: kjonn: Kjønnet til personen (K for kvinne, M for mann). kroppslengde: Total kroppslengde (cm). fot.navle: Avstand fra gulv til navle (cm). navle.isse: Avstand fra navle til isse (cm). favn: Avstand fra venstre langfingerspiss til høyre langfingerspiss med utstrakte armer (cm). a) Bruk R-funksjonen summary() til å se et sammendrag av data. Hvor mange av målingene ble gjennomført på kvinner, og hvor mange av målingene ble gjennomført på menn? Hva er fem-punkts-oppsummeringene for kroppslengde og fot.navle? b) Bruk plot()-funksjonen i R til å lage et spredningsplott med fot.navle på x-aksen og kroppslengde på y-aksen. Bruk følgende R-kode: plot(vitruvisk$fot.navle,vitruvisk$kroppslengde,xlab="navlehøyde", ylab="kroppslengde") Hva kan du slutte om sammenhengen mellom navlehøyde og kroppslengde ut fra dette plottet? c) Bruk cor()-funksjonen i R til å regne ut korrelasjonen mellom fot.navle og kroppslengde. Forklar hvordan svaret skal tolkes. d) Tilpass en lineær modell for sammenhengen mellom navlehøyde og kroppslengde. Plott regresjonslinjen i spredningsplottet fra oppgave b). Bruk følgende R-kode: fit <- lm(vitruvisk$kroppslengde vitruvisk$fot.navle) abline(fit) e) Finn koeffisientene til den lineære modellen ved summary(fit). Ifølge modellen, hvor mye øker kroppslengde hvis navlehøyde øker med én cm? f) Bruk modellen i d) til å predikere kroppslengden til en person med en navle som er 121 cm over bakken. g) Bruk også summary()-kommandoen til å finne ut hvor stor andel av variasjonen i kroppslengede som forklares av navlehøyde. Sammenlign med svaret i oppgave c). h) Lag et plott av residualene i modellen. Identifiser eventuelle uteliggere. Hva kan du si om hvor godt modellen passer til og beskriver dataene ut fra dette plottet? Bruk følgende R-kode: plot(vitruvisk$fot.navle,residuals(fit)) abline(h=0) 4

Referanser [1] K. J. Mathot, K. Martin, B. Kempenaers, and W. Forstmeier. Basal metabolic rate can evolve independently of morphological and behavioural traits. Heredity, 111:175, 2013. [2] M. Bryan Heather, E. G. Smits Judit, Lee Koren, C. Paquet Paul, E. Wynne-Edwards Katherine, and Marco Musiani. Heavily hunted wolves have higher stress and reproductive steroids than wolves with lower hunting pressure. Functional Ecology, 29(3):347 356, 2014. 5