Tabell 1: Beskrivende statistikker for dataene



Like dokumenter
Sted Gj.snitt Median St.avvik Varians Trondheim Værnes Oppdal

TMA4240 Statistikk Høst 2012

Øving 1 TMA Grunnleggende dataanalyse i Matlab

Øving 1 TMA Grunnleggende dataanalyse i Matlab

Et lite notat om og rundt normalfordelingen.

Forslag til endringar

Et lite notat om og rundt normalfordelingen.

Et lite notat om og rundt normalfordelingen. Anta at vi har kontinuerlige data. Hva er likt og ulikt for histogrammer og fordelingskurver?

STK1000 Uke 36, Studentene forventes å lese Ch 1.4 ( ) i læreboka (MMC). Tetthetskurver. Eksempel: Drivstofforbruk hos 32 biler

Utvalgsfordelinger; utvalg, populasjon, grafiske metoder, X, S 2, t-fordeling, χ 2 -fordeling

ÅMA110 Sannsylighetsregning og statistikk Løsningsforslag til eksamen høst 2010, s. 1. Oppgave 1. Histogram over frekvenser.

Kap. 8: Utvalsfordelingar og databeskrivelse

TMA4240 Statistikk 2014

TMA Statistikk Øving 1

Statistikk og dataanalyse

år i alder x i tid y i i=1 (x i x) 2 = 60, 9

TMA4240 Statistikk Høst 2015

TMA4240 Statistikk Høst 2016

TMA4240 Statistikk Høst 2016

i x i

Introduksjon til statistikk og dataanalyse. Arild Brandrud Næss TMA4240 Statistikk NTNU, høsten 2013

Seksjon 1.3 Tetthetskurver og normalfordelingen

Kapittel 3: Studieopplegg

TMA4240 Statistikk Høst 2016

Introduksjon til statistikk og dataanalyse

Fordelinger, mer om sentralmål og variasjonsmål. Tron Anders Moger

Løsningsforslag ECON 2130 Obligatorisk semesteroppgave 2017 vår

Tema: Deskriptiv statistikk for kontinuerlige data. Av Kathrine Frey Frøslie,

α =P(type I feil) = P(forkast H 0 H 0 er sann) =1 P(220 < X < 260 p = 0.6)

UNIVERSITETET I OSLO

TMA4240 Statistikk H2017 [15]

Kapittel 8: Tilfeldige utvalg, databeskrivelse og fordeling til observatorar, Kapittel 9: Estimering

(Det tas forbehold om feil i løsningsforslaget.) Oppgave 1

Forelesning 3. april, 2017

Seksjon 1.3 Tetthetskurver og normalfordelingen

ST0202 Statistikk for samfunnsvitere Kapittel 6: Normalfordelingen

Utvalgsfordelinger. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer.

MASTER I IDRETTSVITENSKAP 2014/2016. Utsatt individuell skriftlig eksamen. STA 400- Statistikk. Mandag 24. august 2015 kl

TMA4240 Statistikk Høst 2015

ST0202 Statistikk for samfunnsvitere

MATLAB for STK1100. Matematisk institutt Univeristetet i Oslo Januar Enkel generering av stokastiske variabler

Estimat og konfidensintervall for andel pasientopphold med minst én pasientskade

Snøtetthet. Institutt for matematiske fag, NTNU 15. august Notat for TMA4240/TMA4245 Statistikk

Eksamensoppgave i TMA4240 Statistikk

TMA4245 Statistikk Høst 2016

UNIVERSITETET I OSLO

ST0202 Statistikk for samfunnsvitere

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Medisinsk statistikk Del I høsten 2009:

Binomisk sannsynlighetsfunksjon

Statistisk beskrivelse av enkeltvariabler. SOS1120 Kvantitativ metode. Disposisjon. Datamatrisen. Forelesningsnotater 6. forelesning høsten 2005

ST0202 Statistikk for samfunnsvitere Kapittel 9: Inferens om én populasjon

TMA4245 Statistikk Eksamen desember 2016

Utvalgsfordelinger. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer.

TMA4240 Statistikk Høst 2012

TMA4240 Statistikk Høst 2015

Tid: 29. mai (3.5 timer) Ved alle hypotesetester skal både nullhypotese og alternativ hypotese skrives ned.

UNIVERSITETET I OSLO

Kap. 5.2: Utvalgsfordelinger for antall og andeler

UNIVERSITETET I OSLO Matematisk Institutt

Analyse av kontinuerlige data. Intro til hypotesetesting. 21. april Seksjon for medisinsk statistikk, UIO. Tron Anders Moger

TMA4240 Statistikk 2014

Eksamensoppgave i TMA4255 Anvendt statistikk

Høgskolen i Sør-Trøndelag Avdeling Trondheim Økonomisk Høgskole EKSAMENSOPPGAVE

HØGSKOLEN I STAVANGER

Løsningsforslag Eksamen i Statistikk SIF5060 Aug 2002

Fasit for tilleggsoppgaver

Oppfriskning av blokk 1 i TMA4240

TMA4240 Statistikk 2014

TMA4245 Statistikk. Innlevering 3. Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag

Forelesning 23 og 24 Wilcoxon test, Bivariate Normal fordeling

Oppgaver til Studentveiledning 4 MET 3431 Statistikk

Oppgave 1 a) La X være massen til et tilfeldig valgt egg, målt i gram. Sannsynligheten for at et tilfeldig valgt egg veier mer enn 60 g er

Illustrasjon av regel 5.19 om sentralgrenseteoremet og litt om heltallskorreksjon (som i eksempel 5.20).

TMA4240 Statistikk Høst 2007

ST0202 Statistikk for samfunnsvitere

Eksempel på data: Karakterer i «Stat class» Introduksjon

UNIVERSITETET I OSLO

Forkurs i kvantitative metoder ILP 2019

Kort overblikk over kurset sålangt

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

TMA4240 Statistikk Høst 2009

ting å gjøre å prøve å oppsummere informasjonen i Hva som er hensiktsmessig måter å beskrive dataene på en hensiktsmessig måte.

Lærebok Robert Johnson og Patricia Kuby: Elementary Statistics, 10. utgave. Pensumoversikt. Forelesninger og øvinger

ECON2130 Kommentarer til oblig

ST0202 Statistikk for samfunnsvitere. Bo Lindqvist Institutt for matematiske fag

1 Section 6-2: Standard normalfordelingen. 2 Section 6-3: Anvendelser av normalfordelingen. 3 Section 6-4: Observator fordeling

MASTER I IDRETTSVITENSKAP 2014/2016. Individuell skriftlig eksamen. STA 400- Statistikk. Fredag 13. mars 2015 kl

Utvalgsfordelinger (Kapittel 5)

Forelesning 7: Store talls lov, sentralgrenseteoremet. Jo Thori Lind

EKSAMEN I FAG 75510/75515 STATISTIKK 1 Tirsdag 20. mai 1997 Tid: 09:00 14:00

BEGYNNERKURS I SPSS. Anne Schad Bergsaker 24. november 2017

Transkript:

Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag Øving nummer 7, blokk II Løsningsskisse Oppgave 1 a) Utfør en beskrivende analyse av datasettet % Data for Trondheim: TRD_mean=mean(TRD); TRD_median=median(TRD); TRD_std=std(TRD); TRD_var=var(TRD); % Data for Bodo: BO_mean=mean(BO); BO_median=median(BO); BO_std=std(BO); BO_var=var(BO); % Data for Tynset: TY_mean=mean(TY); TY_median=median(TY); TY_std=std(TY); TY_var=var(TY); Tabell 1: Beskrivende statistikker for dataene Sted Gj.snitt Median St.avvik Varians Trondheim 7.7732 7.4000 8.1000 65.6103 Bodø 6.9674 5.6000 7.0840 50.1831 Tynset 4.9510 5.1000 11.3369 128.5260 Utvalg trukket fra normalfordelingen vil ha tilnærmet like gjennomsnittsverdier og medianer. Dette er ikke tilfellet for noen av datasettene, men dataene for Bodø har et større avvik enn Trondheim og Tynset. % Vanlige plott plot(trd, b ); xlabel( Dager ); ylabel( Gjennomsnittstemperatur ); title( Trondheim ); axis([0 400-20 25]); figure plot(bo, r ); xlabel( Dager ); ylabel( Gjennomsnittstemperatur ); title( Bodo ); axis([0 400-20 25]); figure plot(ty, c ); xlabel( Dager ); ylabel( Gjennomsnittstemperatur ); title( Tynset ); axis([0 400-20 25]); figure % Histogrammer hist(trd); xlabel( Temperatur ); ylabel( Antall dager med temperaturen ); matlab-lsf-b 13. mars 2014 Side 1

title( Trondheim ); figure hist(bo); xlabel( Temperatur ); ylabel( Antall dager med temperaturen ); title( Bodo ); figure hist(ty); xlabel( Temperatur ); ylabel( Antall dager med temperaturen ); title( Tynset ); Se Figur 4 og 8. b) Presenter alle datasettene med boksplott. boxplot(mt, { Trondheim, Bodo, Tynset }); title( Boxplot ); ylabel( Gjennomsnittstemperatur ); Vi kan se fra Figur 9 at datasettene for Bodø og Tynset har noe asymmetrier. Tynset har størst varians i temperaturobservasjonene, mens det er liten forskjell i medianen av temperaturobservasjonene for de tre stedene. Tynset har de laveste temperaturobservasjonene i 2013. Vi kan si at ca 75% av dataene for Trondheim er mellom ca 2 C og 14 C, for Bodø mellom 0 C og 11 C og for Tynset mellom 2 C og 12 C. c) Er det noen ekstremverdier i datasettene? Hvilken metode bruker MATLAB for å bestemme hvorvidt en observasjon er en ekstremverdi eller ikke? Fra Figur 9 ser vi at det kun er ekstermverdier i dataene fra Tynset. Fra hjelpefunksjonen i Matlab help boxplot finner vi bl.a. følgende informasjon: I Matlab blir punkter tegnet som ekstremverdier hvis de er større enn Q3 + W (Q3 Q1) eller mindre enn Q1 W (Q3 Q1), hvor Q1 og Q3 er hhv 25- og 75-prosentskvantilene. Standardverdien på 1.5 for W tilsvarer ca ±2.7 standardavvik og 99.3% dekning hvis dataene er normalfordelt. d) Er det noen forskjeller i de tre boksplottene som tyder på at datasettene kommer fra populasjoner med forskjellige fordelinger? Figur 9 viser at temperaturobservasjonene i de tre datasettene kommer fra forskjellige fordelinger. Fordelingen til temperaturobservasjonene for Trondheim er symmetrisk, mens fordelingen til temperaturobservasjonene for Tynset er skjev. e) Lag et normal kvantil-kvantil plott for å evaluere om datasettene kommer fra en normalfordeling eller ikke. normplot(trd); title( Trondheim ); figure; normplot(bo); title( Bodo ); figure; normplot(ty); title( Tynset ); Vi kan se i Figur 13 at alle tre datasettene avviker noe fra normalfordelingen, spesielt i halene til fordelingen. Avvikene er mest synlig for dataene fra Bodø og Tynset. matlab-lsf-b 13. mars 2014 Side 2

Figur 1: Trondheim Figur 2: Bodø Figur 3: Tynset Figur 4: Temperaturobservasjoner matlab-lsf-b 13. mars 2014 Side 3

Figur 5: Trondheim Figur 6: Bodø Figur 7: Tynset Figur 8: Histogrammer matlab-lsf-b 13. mars 2014 Side 4

Figur 9: Boksplott f) Lag minst tre scatterplott der du plotter gjennomsnittstemperaturene fra de tre stedene mot hverandre. scatter(trd,bo, r ); xlabel( Trondheim ); ylabel( Bodo ); figure; scatter(trd,ty, r ); xlabel( Trondheim ); ylabel( Tynset ); figure; scatter(bo,ty, r ); xlabel( Bodo ); ylabel( Tynset ); Se Figur 17. g) Bruk MATLAB til å regne ut korrelasjonsmatrisen for de tre datasettene. correlation_matrix=corr(mt); correlation matrix = 1.0000 0.9089 0.9304 0.9089 1.0000 0.8143 0.9304 0.8143 1.0000 h) Er datasettene positivt korrelerte? Er dette noe du ville forventet? Forklar. Ja, alle datasettene er positivt korrelerte. Vi kan se fra Figur 17 at hvert spredningsplott viser en lineær trend med positivt stigningstall og korrelasjonsmatrisen indikerer det samme resultatet. Vi ser også at observasjonene for Bodø er minst korrelert med dataene for Tynset, noe vi vil forvente siden dette er målinger for steder langt fra hverandre geografisk og med ulikt klima. Oppgave 2 matlab-lsf-b 13. mars 2014 Side 5

Figur 10: Trondheim Figur 11: Bodø Figur 12: Tynset Figur 13: Normal kvantil-kvantil plott for Trondheim, Bodø og Tynset matlab-lsf-b 13. mars 2014 Side 6

Figur 14: Trondheim og Bodø Figur 15: Trondheim og Tynset Figur 16: Bodø og Tynset Figur 17: Scatter-plot matlab-lsf-b 13. mars 2014 Side 7

a) Simuler 1000 datasett i MATLAB. Hvert datasett skal bestå av 100 utfall fra en normalfordeling med forventningsverdi 5 og standardavvik 2. sample_size=100; number_of_samples=1000; mu=5; %forventning sigma=2; %standardavvik sample_matrix=normrnd(mu,sigma,sample_size,number_of_samples); b) Regn ut gjennomsnittsverdien av alle de 1000 datasettene. Lag et histogram basert på gjennomsnittsverdiene du har regnet ut. Minner formen på histogrammet om formen til en normalfordeling? Var dette forventet? Forklar. sample_matrix_mean=mean(sample_matrix); hist(sample_matrix_mean); xlabel( Gjennomsnittsverdier ); ylabel( Frekvens ); title( Gjennomsnittsverdier fra en normalfordeling ); figure normplot(sample_matrix_mean); title( Normal kvantil-kvantil plott for gjennomsnittsverdiene ); Fra Figur 20 ser vi at gjennomsnittsverdiene minner om en normalfordeling og dette støttes av kvantil-kvantil plottet i Figur 19. Dette er forventet siden vi vet fra sentralgrenseteoremet at fordelingen til X er N(5; 4/1000) og at en lineær kombinasjon av normalfordelte variabler også er normalfordelt. c) Gjør det samme som i a), men nå skal utfallene komme fra en binomisk fordeling med parametre N = 5,p = 0.2 og utvalgsstørrelser n = 2, 5, 10, 20, 50, 100. n=[2 5 10 20 50]; number_of_sizes=length(n); nsample = 1000; N = 5; p = 0.2; for i=1:number_of_sizes bin_sample_mean = mean(binornd(n,p,n(i),nsample)); samplesize_string=num2str(n(i)); figure hist(bin_sample_mean); xlabel( Gjennomsnitt ); ylabel( Frekvens ); matlab-lsf-b 13. mars 2014 Side 8

250 Gjennomsnittsverdier fra en normalfordeling 200 Frekvens 150 100 50 0 4.2 4.4 4.6 4.8 5 5.2 5.4 5.6 5.8 6 Gjennomsnittsverdier Figur 18: Histogram av gjennomsnittsverdiene regnet fra 1000 utvalg av størrelse 100 fra normalfordelingen med forventning 5 og standardavvik 2 0.999 0.997 0.99 0.98 0.95 0.90 Normal kvantil kvantil plott for gjennomsnittsverdiene Probability 0.75 0.50 0.25 0.10 0.05 0.02 0.01 0.003 0.001 4.4 4.6 4.8 5 5.2 5.4 5.6 Data Figur 19: Normal kvantil-kvantil plott av gjennomsnittsverdiene regnet fra 1000 utvalg av størrelse 100 fra normalfordelingen med forventning 5 og standardavvik 2 matlab-lsf-b 13. mars 2014 Side 9

Figur 20: Normal probability plot for a sample of size 50 from the Bin(5,0.2) distribution. end title([ Binomisk fordeling med n=,samplesize_string]); d) Hvilke av simuleringene gir et histogram som ligner en normalfordeling? Bruk sentralgrenseteoremet til å forklare resultatet du får. Vi ser fra histogrammene i Figur 21 at de ligner på en normalfordeling allerede ved utvalgsstørrelse n = 20. Vi vet fra sentralgrenseteoremet at hvis utvalgsstã rrelsen er stor nok kan vi tilnærme fordelingen med en normalfordeling. Vårt resultat her viser at den binomiske fordelingen kan tilnærmes godt med en normalfordeling for utvalgsstørrelser så små som 20. R = mean(binornd(5,0.2,50,1000)) normplot(mean(r)) matlab-lsf-b 13. mars 2014 Side 10

Figur 21: Gjennomsnittsverdier for 1000 utvalg fra binomisk fordeling med p = 0.2, N = 5, utvalgsstã rrelser n = 2, 5, 10, 20, 50, 100 matlab-lsf-b 13. mars 2014 Side 11