TMA4240 Statistikk Høst 2012

Like dokumenter
Sted Gj.snitt Median St.avvik Varians Trondheim Værnes Oppdal

Tabell 1: Beskrivende statistikker for dataene

Øving 1 TMA Grunnleggende dataanalyse i Matlab

Øving 1 TMA Grunnleggende dataanalyse i Matlab

Forslag til endringar

Kap. 8: Utvalsfordelingar og databeskrivelse

TMA4240 Statistikk 2014

TMA4240 Statistikk Høst 2016

Utvalgsfordelinger; utvalg, populasjon, grafiske metoder, X, S 2, t-fordeling, χ 2 -fordeling

α =P(type I feil) = P(forkast H 0 H 0 er sann) =1 P(220 < X < 260 p = 0.6)

TMA4240 Statistikk Høst 2015

ÅMA110 Sannsylighetsregning og statistikk Løsningsforslag til eksamen høst 2010, s. 1. Oppgave 1. Histogram over frekvenser.

TMA4240 Statistikk H2017 [15]

TMA4245 Statistikk Høst 2016

Et lite notat om og rundt normalfordelingen.

Introduksjon til statistikk og dataanalyse. Arild Brandrud Næss TMA4240 Statistikk NTNU, høsten 2013

TMA4240 Statistikk Høst 2016

Statistikk og dataanalyse

TMA4240 Statistikk Høst 2012

Et lite notat om og rundt normalfordelingen.

ST0202 Statistikk for samfunnsvitere

Et lite notat om og rundt normalfordelingen. Anta at vi har kontinuerlige data. Hva er likt og ulikt for histogrammer og fordelingskurver?

TMA4240 Statistikk Høst 2016

STK1000 Uke 36, Studentene forventes å lese Ch 1.4 ( ) i læreboka (MMC). Tetthetskurver. Eksempel: Drivstofforbruk hos 32 biler

Snøtetthet. Institutt for matematiske fag, NTNU 15. august Notat for TMA4240/TMA4245 Statistikk

ST0202 Statistikk for samfunnsvitere

i x i

Fra første forelesning:

Løsningsforslag ECON 2130 Obligatorisk semesteroppgave 2017 vår

(Det tas forbehold om feil i løsningsforslaget.) Oppgave 1

Seksjon 1.3 Tetthetskurver og normalfordelingen

Forelesning 3. april, 2017

TMA Statistikk Øving 1

år i alder x i tid y i i=1 (x i x) 2 = 60, 9

TMA4240 Statistikk H2015

UNIVERSITETET I OSLO

Tema: Deskriptiv statistikk for kontinuerlige data. Av Kathrine Frey Frøslie,

TMA4240 Statistikk 2014

UNIVERSITETET I OSLO

TMA4245 Statistikk Eksamen desember 2016

Introduksjon til statistikk og dataanalyse

Eksamensoppgave i TMA4245 Statistikk

Estimatorar. Torstein Fjeldstad Institutt for matematiske fag, NTNU

Seksjon 1.3 Tetthetskurver og normalfordelingen

UNIVERSITETET I OSLO

TMA4240 Statistikk Høst 2015

TMA4240 Statistikk Høst 2009

Statistisk beskrivelse av enkeltvariabler. SOS1120 Kvantitativ metode. Disposisjon. Datamatrisen. Forelesningsnotater 6. forelesning høsten 2005

MATLAB for STK1100. Matematisk institutt Univeristetet i Oslo Januar Enkel generering av stokastiske variabler

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

TMA4240 Statistikk Høst 2007

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Kapittel 3: Studieopplegg

Utvalgsfordelinger. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer.

Kapittel 8: Tilfeldige utvalg, databeskrivelse og fordeling til observatorar, Kapittel 9: Estimering

Ekstreme bølger. Geir Storvik Matematisk institutt, Universitetet i Oslo. 5. mars 2014

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Oppfriskning av blokk 1 i TMA4240

Notat 3 - ST februar 2005

UNIVERSITETET I OSLO

TMA4240 Statistikk Høst 2009

UNIVERSITETET I OSLO Matematisk Institutt

Fordelinger, mer om sentralmål og variasjonsmål. Tron Anders Moger

STK1100 våren Normalfordelingen. Normalfordelingen er den viktigste av alle sannsynlighetsfordelinger

TMA4240 Statistikk 2014

Forelesning 23 og 24 Wilcoxon test, Bivariate Normal fordeling

Kap. 5.2: Utvalgsfordelinger for antall og andeler

Kort overblikk over kurset sålangt

TMA4245 Statistikk. Innlevering 3. Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag

TMA4240 Statistikk Høst 2012

Estimat og konfidensintervall for andel pasientopphold med minst én pasientskade

Oppgave 1 a) La X være massen til et tilfeldig valgt egg, målt i gram. Sannsynligheten for at et tilfeldig valgt egg veier mer enn 60 g er

TMA4240 Statistikk 2014

Eksamensoppgave i TMA4255 Anvendt statistikk

ST0103 Brukerkurs i statistikk Høst 2014

Løsningsforslag Eksamen i Statistikk SIF5060 Aug 2002

Velkommen til TMA4240. Velkommen til TMA / 18

Utvalgsfordelinger (Kapittel 5)

TMA4240 Statistikk H2010

EKSAMEN I TMA4240 Statistikk

ST0202 Statistikk for samfunnsvitere Kapittel 6: Normalfordelingen

TMA4240 Statistikk Høst 2015

Utvalgsfordelinger. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer.

TMA4240 Statistikk H2010

ST0202 Statistikk for samfunnsvitere Kapittel 9: Inferens om én populasjon

ting å gjøre å prøve å oppsummere informasjonen i Hva som er hensiktsmessig måter å beskrive dataene på en hensiktsmessig måte.

Tid: 29. mai (3.5 timer) Ved alle hypotesetester skal både nullhypotese og alternativ hypotese skrives ned.

Eksamensoppgave i TMA4240 Statistikk

Utvalgsfordelinger (Kapittel 5)

Statistisk inferens: 9.14: Sannsynlighetsmaksimeringsestimatoren 8.5: Fordeling til gjennomsnittet 9.4: Konfidensintervall for µ (σ kjent)

EKSAMEN I EMNE TMA4245 STATISTIKK

Deskriptiv statistikk., Introduksjon til dataanalyse

Deskriptiv statistikk., Introduksjon til dataanalyse

BEGYNNERKURS I SPSS. Anne Schad Bergsaker 24. november 2017

LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4240 STATISTIKK Mandag 12. desember 2011

TMA4240 Statistikk Høst 2009

MASTER I IDRETTSVITENSKAP 2014/2016. Individuell skriftlig eksamen. STA 400- Statistikk. Fredag 13. mars 2015 kl

TMA4240 Statistikk Høst 2008

UNIVERSITETET I OSLO

Eksempel på data: Karakterer i «Stat class» Introduksjon

Transkript:

TMA424 Statistikk Høst 212 Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag Øving nummer 7 Løsningsskisse Matlabøving Beskrivende analyse Oppgave 1 a) Finn, for hvert datasett, gjennomsnittstemperatur, median, varians og standardavvik. % Data for Trondheim: TRD_mean=mean(TRD); TRD_median=median(TRD); TRD_std=std(TRD); TRD_var=var(TRD); % Data for Vaernes: VAER_mean=mean(VAER); VAER_median=median(VAER); VAER_std=std(VAER); VAER_var=var(VAER); % Data for Oppdal: OPP_mean=mean(OPP); OPP_median=median(OPP); OPP_std=std(OPP); OPP_var=var(OPP); Tabell 1: Beskrivende statistikker for dataene Sted Gj.snitt Median St.avvik Varians Trondheim 6.86 7. 6.2 42.49 Værnes 7.7 7.2 6.79 46. Oppdal 4.98.8 7. 48.96 b) Er forholdet mellom gjennomsnittsverdien og medianen i hvert datasett i overensstemmelse med forholdet mellom gjennomsnittsverdi og median for utfall av en normalfordeling? Begrunn svaret ditt. Utvalg trukket fra normalfordelingen vil ha tilnrmet like gjennomsnittsverdier og medianer.detteerikketilfellet fornoenav datasettene, mendataeneforværnesharetmindre avvik enn Trondheim og Oppdal. Oppgave 2 For hvert datasett, plott temperatur mot dagnummer (dvs. dag 1, dag 2,..., dag 36). Lag også histogrammer. oving7-lsf-b 8. oktober 212 Side 1

% Vanlige plott plot(trd, b ); xlabel( Dager ); ylabel( Gjennomsnittstemperatur ); title( Trondheim ); axis([ 4-2 2]); figure plot(vaer, r ); xlabel( Dager ); ylabel( Gjennomsnittstemperatur ); title( Vaernes ); axis([ 4-2 2]); figure plot(opp, c ); xlabel( Dager ); ylabel( Gjennomsnittstemperatur ); title( Oppdal ); axis([ 4-2 2]); figure % Histogrammer hist(trd); xlabel( Temperatur ); ylabel( Antall dager med temperaturen ); title( Trondheim ); figure hist(vaer); xlabel( Temperatur ); ylabel( Antall dager med temperaturen ); title( Vaernes ); figure hist(opp); xlabel( Temperatur ); ylabel( Antall dager med temperaturen ); title( Oppdal ); Se Figur 1 og 2. Oppgave 3 a) Presenter alle datasettene med boksplott. boxplot(mt, { Trondheim, Vaernes, Oppdal }); title( Boksplott ); ylabel( Gjennomsnittstemperatur ); Se Figur 3. b) Hvilke konklusjoner kan du trekke basert på disse boksplottene? Kan du for eksempel se asymmetrier i dataene? Vi kan se fra Figur 3 at all tre datasettene har asymmetrier, men at dette er tydeligere i dataene fra Oppdal enn de to andre stedene. Oppdal har mer variasjon sammenlighet med Trondheim og Værnes og har ogs lavere gjennomsnittstemperatur. Vi kan si at ca 7% av dataene fra Trondheim og Værnes er mellom 2 C og 12 C, mens for Oppdal er intervallet 2 og 1 C. c) Er det noen ekstremverdier i datasettene? Hvilken metode bruker MATLAB for å bestemme hvorvidt en observasjon er en ekstremverdi eller ikke? Fra Figur 3 ser vi at det kun er ekstermverdier i dataene fra Trondheim. Fra hjelpefunksjonen i Matlab help boxplot finner vi bl.a. følgende informasjon: I Matlab blir punkter tegnet som ekstremverdier hvis de er større enn Q3+W (Q3 Q1) eller mindre enn Q1 W (Q3 Q1), hvor Q1 og Q3 er hhv 2- og 7-prosentskvantilene. Standard-

2 Trondheim 2 Vaernes 2 2 1 1 Gjennomsnittstemperatur 1 Gjennomsnittstemperatur 1 1 1 1 1 2 1 1 2 2 3 3 4 Dager 2 1 1 2 2 3 3 4 Dager 2 Oppdal 2 1 Gjennomsnittstemperatur 1 1 1 2 1 1 2 2 3 3 4 Dager Figur 1: Plott av temperaturer for Trondheim, Værnes og Oppdal

8 Trondheim 8 Vaernes 7 7 Antall dager med temperaturen 6 4 3 2 Antall dager med temperaturen 6 4 3 2 1 1 1 1 1 1 2 2 Temperatur 1 1 1 1 2 2 Temperatur 8 Oppdal 7 Antall dager med temperaturen 6 4 3 2 1 2 1 1 1 1 2 Temperatur Figur 2: Histogrammer for Trondheim, Værnes og Oppdal

Boksplott 2 1 Gjennomsnittstemperatur 1 1 1 Trondheim Vaernes Oppdal Figur 3: Boksplott verdien på 1. for W tilsvarer ca ±2.7 standardavvik og 99.3% dekning hvis dataene er normalfordelt. d) Er det noen forskjeller i de tre boksplottene som tyder på at datasettene kommer fra populasjoner med forskjellige fordelinger? Figur 3 viser at dataene samlet inn i Trondheim og Værnes kommer fra samme fordeling, mens dataene fra Oppdal ser ut til å ha en annen fordeling. Oppgave 4 Lag et normal kvantil-kvantil plott for å evaluere om datasettene kommer fra en normalfordeling eller ikke. normplot(trd); title( Trondheim ); figure; normplot(vaer); title( Vaernes ); figure; normplot(opp); title( Oppdal ); Vi kan se i Figur 4 at alle tre datasettene avviker litt fra normalfordelingen, spesielt i halene til fordelingene. Disse avvikene er mest synlig for dataene fra Oppdal. Alle datasettene ser ut til å ha tyngre haler til høyre, siden de siste punktene i normplot viser en økende avastand fra linja. Oppgave

.999.997 Trondheim.999.997 Vaernes.99.98.99.98.9.9.9.9.7.7 Probability..2 Probability..2.1..1..2.1.2.1.3.1 1 1 1 2 Data.3.1 1 1 1 2 Data Oppdal.999.997.99.98.9.9 Probability.7..2.1..2.1.3.1 1 1 1 1 Data Figur 4: Normal kvantil-kvantil plott for Trondheim, Værnes og Oppdal

2 2 2 1 1 1 1 Vaernes Oppdal 1 1 1 1 1 1 1 1 2 2 Trondheim 2 1 1 1 1 2 2 Trondheim 2 1 1 Oppdal 1 1 2 1 1 1 1 2 2 Vaernes Figur : Spredningsplott for Trondheim, Værnes og Oppdal a) Lag minst tre scatterplott der du plotter gjennomsnittstemperaturene fra de tre stedene mot hverandre. scatter(trd,vaer, r ); xlabel( Trondheim ); ylabel( Vaernes ); figure; scatter(trd,opp, c ); xlabel( Trondheim ); ylabel( Oppdal ); figure; scatter(vaer,opp, y ); xlabel( Vaernes ); ylabel( Oppdal ); Se Figur. b) Bruk MATLAB til å regne ut korrelasjonsmatrisen for de tre datasettene. correlation_matrix=corr(mt); correlation matrix = 1..9918.9739.9918 1..96.9739.96 1. c) Er datasettene positivt korrelerte? Er dette noe du ville forventet? Forklar.

Ja, alle datasettene er positivt korrelerte. Vi kan se fra Figur at hvert spredningsplott viser en lineær trend med positivt stigningstall og korrelasjonsmatrisen indikerer det samme resultatet. Dette er ikke så uventet da målingene er daglige gjennomsnittstemperaturer for tre steder som ligger i samme område av landet. Sentralgrenseteoremet Oppgave 6 a) Simuler 1 datasett i MATLAB. Hvert datasett skal bestå av 1 utfall fra en normalfordeling med forventningsverdi og standardavvik 2. sample_size=1; number_of_samples=1; mu=; %forventning sigma=2; %standardavvik sample_matrix=normrnd(mu,sigma,sample_size,number_of_samples); b) Regn ut gjennomsnittsverdien av alle de 1 datasettene. Lag et histogram basert på gjennomsnittsverdiene du har regnet ut. Minner formen på histogrammet om formen til en normalfordeling? Var dette forventet? Forklar. sample_matrix_mean=mean(sample_matrix); hist(sample_matrix_mean); xlabel( ); ylabel( ); title( fra en normalfordeling ); figure normplot(sample_matrix_mean); title( Normal kvantil-kvantil plott for gjennomsnittsverdiene ); Fra Figur 6 ser vi at gjennomsnittsverdiene minner om en normalfordeling og dette støttes av kvantil-kvantil plottet i Figur 7. Dette er forventet siden vi vet fra sentralgrenseteoremet at fordelingen til X er N(;4/1) og at en lineær kombinasjon av normalfordelte variabler også er normalfordelt. Oppgave 7 a) Gjør det samme som i oppgave 6, men nå skal utfallene komme fra en uniformfordeling på intervallet (,1). Prøv deg frem med 1, 2,, 1, 3 og 1 utfall for hvert datasett.

2 fra en normalfordeling 2 1 1 4.2 4.4 4.6 4.8.2.4.6.8 6 Figur 6: Histogram av gjennomsnittsverdiene regnet fra 1 utvalg av størrelse 1 fra normalfordelingen med forventning og standardavvik 2.999.997.99.98.9.9 Normal kvantil kvantil plott for gjennomsnittsverdiene Probability.7..2.1..2.1.3.1 4.4 4.6 4.8.2.4.6 Data Figur 7: Normal kvantil-kvantil plott av gjennomsnittsverdiene regnet fra 1 utvalg av størrelse 1 fra normalfordelingen med forventning og standardavvik 2

sample_size=[1 2 1 3 1]; number_of_sizes=length(sample_size); for i=1:number_of_sizes unif_sample_matrix=rand(sample_size(i),1); if i>1 unif_sample_matrix_mean=mean(unif_sample_matrix); end if i==1 unif_sample_matrix_mean=unif_sample_matrix; end samplesize_string=num2str(sample_size(i)); figure hist(unif_sample_matrix_mean); xlabel( ); ylabel( ); title([ Gjsnverdier fra en uniformford med utvalgsstr,samplesize_string]); end b) Hvilke av simuleringene gir et histogram som ligner en normalfordeling? Bruk sentralgrenseteoremet til å forklare resultatet du får. Vi ser fra histogrammene i Figur 8 at de ligner på en normalfordeling allerede ved utvalgsstørrelse. Vi vet fra sentralgrenseteoremet at hvis utvalgsstørrelsen er stor nok, kan vi tilnærme fordelingen med en normalfordeling. Vårt resultat her viser at utvalgsfordelingen til gjennomsnittsverdien fra en uniformfordeling kan tilnærmes godt med en normalfordeling for utvalgsstørrelser så små som.

14 fra en uniformfordeling med utvalgsstoerrelse 1 18 fra en uniformfordeling med utvalgsstoerrelse 2 12 16 14 1 12 8 6 1 8 4 6 4 2 2.1.2.3.4..6.7.8.9 1.1.2.3.4..6.7.8.9 1 2 fra en uniformfordeling med utvalgsstoerrelse 2 fra en uniformfordeling med utvalgsstoerrelse 1 2 2 1 1 1 1.1.2.3.4..6.7.8.9.2.3.4..6.7.8.9 2 fra en uniformfordeling med utvalgsstoerrelse 3 2 fra en uniformfordeling med utvalgsstoerrelse 1 2 2 1 1 1 1.3.4.4...6.6.7.42.44.46.48..2.4.6.8.6 Figur 8: Histogrammer av gjennomsnittsverdiene regnet fra 1 utvalg fra uniformfordelingen med utvalgsstørrelse 1, 2,, 1, 3 og 1