TMA Statistikk Øving 1

Like dokumenter
Øving 1 TMA Grunnleggende dataanalyse i Matlab

Øving 1 TMA Grunnleggende dataanalyse i Matlab

Tabell 1: Beskrivende statistikker for dataene

Sted Gj.snitt Median St.avvik Varians Trondheim Værnes Oppdal

TMA4240 Statistikk Høst 2012

Deskriptiv statistikk., Introduksjon til dataanalyse

Deskriptiv statistikk., Introduksjon til dataanalyse

Introduksjon til statistikk og dataanalyse. Arild Brandrud Næss TMA4240 Statistikk NTNU, høsten 2013

Velkommen til TMA4240. Velkommen til TMA / 18

Statistikk 1. Nico Keilman. ECON 2130 Vår 2014

Kap. 8: Utvalsfordelingar og databeskrivelse

ØVINGER 2017 Løsninger til oppgaver. Øving 1

Statistikk. Forkurs 2017

Sannsynlighetsregning og Statistikk.

Statistikk. Forkurs 2018

Et lite notat om og rundt normalfordelingen.

Tema: Deskriptiv statistikk for kontinuerlige data. Av Kathrine Frey Frøslie,

STK1000 Uke 36, Studentene forventes å lese Ch 1.4 ( ) i læreboka (MMC). Tetthetskurver. Eksempel: Drivstofforbruk hos 32 biler

Et lite notat om og rundt normalfordelingen.

Høgskolen i Sør-Trøndelag Avdeling Trondheim Økonomisk Høgskole EKSAMENSOPPGAVE

ting å gjøre å prøve å oppsummere informasjonen i Hva som er hensiktsmessig måter å beskrive dataene på en hensiktsmessig måte.

Et lite notat om og rundt normalfordelingen. Anta at vi har kontinuerlige data. Hva er likt og ulikt for histogrammer og fordelingskurver?

Forslag til endringar

Statistisk beskrivelse av enkeltvariabler. SOS1120 Kvantitativ metode. Disposisjon. Datamatrisen. Forelesningsnotater 6. forelesning høsten 2005

Basisoppgaver til 2P kap. 3 Statistikk

ST0103 Brukerkurs i statistikk Høst 2014

Kapittel 1: Introduksjon til statistikk og dataanalyse Foreleses tirsdag 9. januar 2007.

Snøtetthet. Institutt for matematiske fag, NTNU 15. august Notat for TMA4240/TMA4245 Statistikk

Kapittel 1: Data og fordelinger

Statistikk Løsninger. Innhold. Statistikk Vg2P

Påregnelige verdier av vind, ekstremnedbør og høy vannstand i Flora kommune fram mot år 2100

UNIVERSITETET I OSLO

Dataens tidsalder. Hvorfor data? Data, data, data. STK1000 Innføring i anvendt statistikk. Tirsdag 24. august 2010

Øvingsforelesning TDT4105 Matlab

MATLAB for STK1100. Matematisk institutt Univeristetet i Oslo Januar Enkel generering av stokastiske variabler

år i alder x i tid y i i=1 (x i x) 2 = 60, 9

ECON Statistikk 1 Forelesning 2: Innledning

Statistikk Oppgaver. Innhold. Statistikk Vg2P

UNIVERSITETET I OSLO

TMA4240 Statistikk Høst 2012

UNIVERSITETET I OSLO

ÅMA110 Sannsylighetsregning og statistikk Løsningsforslag til eksamen høst 2010, s. 1. Oppgave 1. Histogram over frekvenser.

Anvendt medisinsk statistikk, vår Repeterte målinger, del II

Klassisk ANOVA/ lineær modell

Kapittel 1 ser på. Statistikk i hverdagen

TMA4240 Statistikk Høst 2016

STK1000 Obligatorisk oppgave 1 av 2

Oppfriskning av blokk 1 i TMA4240

I enkel lineær regresjon beskrev linja. μ y = β 0 + β 1 x

Histogramprosessering

Introduksjon til statistikk og dataanalyse

Høye skårer indikerer høye nivåer av selvkontroll.

Eksamen våren 2016 Løsninger

Klima i Norge i 200 år (fra 1900 til 2100)

Beskrivende statistikk.

HØGSKOLEN I SØR-TRØNDELAG Avdeling for informatikk og e-læring - AITeL

MATEMATIKK (MAT1005) Sentralmål / Spredningsmål

Estimat og konfidensintervall for andel pasientopphold med minst én pasientskade

Utvalgsfordelinger; utvalg, populasjon, grafiske metoder, X, S 2, t-fordeling, χ 2 -fordeling

TMA4245 Statistikk Høst 2016

LØSNING: Oppgavesett nr. 1

Løsningsforslag ECON 2130 Obligatorisk semesteroppgave 2017 vår

Kapittel 1: Introduksjon til statistikk og dataanalyse

Oppgave 4. Med utgangspunkt i eksemplet gitt i oppgaveteksten er veien ikke lang til følgende kode i Matlab/Octave:

TMA4240 Statistikk 2014

1 Sec 3-2: Hvordan beskrive senteret i dataene. 2 Sec 3-3: Hvordan beskrive spredningen i dataene

Kapittel 1: Introduksjon til statistikk og dataanalyse Foreleses tirsdag 22. august 2006.

Lærebok Robert Johnson og Patricia Kuby: Elementary Statistics, 10. utgave. Pensumoversikt. Forelesninger og øvinger

x λe λt dt = 1 e λx for x > 0 uavh = P (X 1 v)p (X 2 v) = F X (v) 2 = (1 e λv ) 2 = 1 2e λv + e 2λv = 2 1 λ 1 2λ = 3

ST0202 Statistikk for samfunnsvitere. Bo Lindqvist Institutt for matematiske fag

Meteorologisk vurdering av kraftig snøfall i Agder påsken 2008

α =P(type I feil) = P(forkast H 0 H 0 er sann) =1 P(220 < X < 260 p = 0.6)

ST0202 Statistikk for samfunnsvitere

Kapittel 3: Studieopplegg

STK1100 våren Kontinuerlige stokastiske variabler Forventning og varians Momentgenererende funksjoner

Eksamensoppgave i TMA4245 Statistikk

Medisinsk statistikk Del I høsten 2009:

SPSS Statistics-kurs 2014

Kort overblikk over kurset sålangt

UNIVERSITETET I OSLO

2P kapittel 3 Statistikk Løsninger til innlæringsoppgavene

Eksamen MAT 1015 Matematikk 2P Høsten 2015

(Det tas forbehold om feil i løsningsforslaget.) Oppgave 1

Oppgaver i statistikk

TMA4240 Statistikk Eksamen desember 2015

Utvalgsfordelinger (Kapittel 5)

MASTER I IDRETTSVITENSKAP 2014/2016. Utsatt individuell skriftlig eksamen. STA 400- Statistikk. Mandag 24. august 2015 kl

2.2 Korrelasjon. Våre øyne ikke gode til å bedømme hvor sterk en sammenheng er Trenger kvantitativt mål på sammenheng Korrelasjon et slikt mål

3. desember. En kuriositet: etter to dager har det nå kommet nøyaktig like mye nedbør som hele desember i fjor, 39,8 mm! Og mer er i vente...

Analyse av kontinuerlige data. Intro til hypotesetesting. 21. april Seksjon for medisinsk statistikk, UIO. Tron Anders Moger

Histogramprosessering

MAT-INF 2360: Obligatorisk oppgave 1

HØGSKOLEN I STAVANGER

Sensorveiledning: skoleeksamen i SOS Kvantitativ metode

EKSAMENSOPPGAVER STAT100 Vår 2011

UNIVERSITETET I OSLO

STK1000 Innføring i anvendt statistikk

1 Grafisk framstilling av datamateriale

Forelesning 3. april, 2017

Løsningsforslag til øving 1

Transkript:

TMA424 - Statistikk Øving 1 Øistein Søvik 21. august 213 1) a) I Hvilke variabler i datasettet tma4244245.txt er kontinuerlige? Hvilke er diskre? Tabell 1 Variabler År Kurs Antall stryk % Antall Jenter % Andel A Karakterer Karakterer j Kontinuerlig II Lag et tilsvare histogram over karakterfordelingen for jenter som tok kurset TMA4245 våren 213. Ved å bruke følge kommando der hkarak er funksjonen fra Kode (6). hkarak(213, V,1) b) I Hvordan påvirkes gjennomsnitt og median av ekstreme observasjoner? Gjennomsnitt påvirkes i mindre grad av ekstreme observasjoner, mens medianenen er langt mer følsom for variasjoner i måledata. I Hva var maksimum og minimums-temperaturen i Båtsfjord det siste året? Hva var standardavvik og varians til temperaturobservasjonene? 1

8 TMA 4245-213V - Jenter 7 6 5 Frekvens 4 3 2 A B C D E Karakter Figur 1: Karakterer for Jenter - V13 function STD(varargin) for i = 1:nargin Y = varargin{i}; Yt = Y(:,6); Ba = Y(Yt == min(yt),:); Bb = Y(Yt == max(yt),:); fprintf('\n') fprintf(' Snitt temperaturen var %6.2f C\n',mean(Yt)) fprintf(' Standardaviket var %6.2f\n',std(Yt)) fprintf(' Variansen var %6.2f\n',var(Yt)) fprintf(' Minimumet var %6.2f C, den %d.%d.%d\n',min(yt),ba(4),ba(3),ba(2)) fprintf(' Maximumet var %6.2f C, den %d.%d.%d\n\n',max(yt),bb(4),bb(3),bb(2)) Figur 2: Kode for å beregne standardavik, varians, max, min temperatur til et datasett. Tabell 2 Variabler Størrelse Enhet Standardavik 8.34 Varians 69.57 Min 14.3 C Maks 25. C 2

Gjennomsnitt påvirker i mindre grad av ekstreme observasjoner enn medianen. Ved å bruke funksjonen STD fra kode (2) så fås følge tabell. 1. Lag denne rette linja med kommandoene over. Hvordan passer den rette linja til de observerte dataene? Ved å ta utgangspunkt i (3) så kan temperaturen i baatsfjorden med regresjonslinje vises via kommandoen som vi kan se i figur (4). tplot(24,[7:11],212,1,trondheim) (1) I I hvilken måned er temperaturvariasjonen i Trondheim størst? Ved å ta utgangspunkt i koden fra (??) med følge kommando hgram(,trondheim), (2) får vi figur (3). Fra figuren så ser en at standardaviket var størst i januar 213. Tabell 3: Gjennomsnitt, standardvik, varians for Trondheim. Gjennomsnitt STD Var 15.45 3.11 9.69 7 16.11 3.36 11.31 8 11.6 2.84 8.5 9 6.17 4.55 2.71 4.2 3.85 14.86 11 4.86 4.83 23.34 12 3.9 5.4 29.16 1 1. 4.14 17.16 2.11 2.76 7.63 3 6.3 3.6 12.97 4 15.9 6.37 4.53 5 14.37 3.16 9.98 6 2) a) I Lag histogram over karakterfordelingen for TMA424 i 23. Hvordan var karakterfordelingen i 23 sammenlignet med 213. Ved å ta utgangspunkt i kode (6) med kommandoen kan vi se histogramet i figur (7). hkarak(23, H,), 3

function tplot(d,m,aar,p,varargin) if nargin > 8 return close all; fprintf('\n\n') M = sort(m); nn = nargin 4; cmap = hsv(6); Maned = {'Jan';'Feb';'Mar';'Apr';'Mai';'Jul';... 'Jun';'Aug';'Sep';'Okt';'Nov';'Des'}; if P == 1 for k = 2:2:2*nn N{k,1} = 'Regresjon'; j = 1; else j = ; hold on for i = 1:nn S = varargin{i}; i = i*(j+1) j; switch S(1,1) case 6886 N{i} = 'Trondheim'; case 9836 N{i} = 'Baatsfjord'; case 958 N{i} = 'Tynset'; [A, ] = ismember(s(:,2),aar); S = S(A,:); [B, ] = ismember(s(:,3),m); S = S(B,:); [C, ] = ismember(s(:,4),d); S = S(C,:); fprintf('%s: ',N{i}) STD(S); p = polyfit(m',s(:,6),1); switch P case P==2 plot(m,polyval(p,min(m):max(m)),' ','Color',cmap(i,:)); otherwise plot(m,s(:,6),'*','color',cmap(i,:)); if P==1 plot(m,polyval(p,min(m):max(m)),' ','Color',cmap(i,:)); hold off leg(n); set(gca,'xtick',min(m):max(m)); set(gca,'xticklabel',maned(m)); xlabel(sprintf('m%sned',char(229))); ylabel(''); title(sprintf('tma424/4245 %s',num2str(aar))); Figur 3: Funksjon for å plotte datasett 4 med tilhøre regresjonslinje.

2 18 TMA424/4245 - - 212 Trondheim Regresjon 16 14 12 8 6 4 2 Jun Aug Sep Okt Nov Figur 4: i Trondheim, med tilhøre regrejonslinje. 5

function hgram( Plot,varargin ) X = {'7';'8';'9';'';'11';'12';'1';'2';'3';'4';'5';'6'}; close all; for i = 1 : nargin 1 S = varargin{i}; switch S(1,1) case 6886 N{i} = 'Trondheim'; case 9836 N{i} = 'Baatsfjord'; case 958 N{i} = 'Tynset'; fprintf('\n%s\n',n{i}) fprintf('%s\n',repmat('=',1,5)) fprintf(' Gjennomsnitt STD Var M%sned\n',char(229)); fprintf('%s\n',repmat('=',1,5)) [d1, ] = ismember(s(:,2),212); A = S(d1,:); B = S( d1,:); for j = 7:12 C = A(A(:,3) == j,6); M(j 6,i) = mean(c); fprintf(' %7.2f%12.2f%12.2f%12d\n',M(j 6,i),std(C),var(C),j); for k = 1:6 C = B(B(:,3) == k,6); M(k+6,i) = mean(c); fprintf(' %7.2f%12.2f%12.2f%12d\n',M(k+6,i),std(C),var(C),k); fprintf('%s\n',repmat('=',1,5)) STD(varargin{i}) if Plot == 1 figure(i); bar(m(:,i)); set(gca,'xtick',1:12); set(gca,'xticklabel',x); xlabel(sprintf('m%sned',char(229))); ylabel(''); title(sprintf('gjennomsnitt temperatur %s',n{i})) elseif Plot == 2 figure(i); boxplot(s(:,6),s(:,3)) xlabel(sprintf('m%sned',char(229))); ylabel(''); title(sprintf('gjennomsnitt temperatur %s',n{i})) Figur 5: Lager histogram, STD, Var, usw fra en liste med datasett. 6

function hkarak(aar,kurs,j) close all; grunnkurs = load('tma4244245.txt'); switch Kurs case 'H' K = 1; Navn = '424'; case 'V' K = 2; Navn = '4245'; case 'HV' K = 3; Navn = '424/4245'; Kurs = ''; D = 6:; D = D + 5*J; [d1, ] = ismember(grunnkurs(:,1),aar); grunnkurs = grunnkurs(d1,:); if K = 3 [d1, ] = ismember(grunnkurs(:,2),k); grunnkurs = grunnkurs(d1,:); if Aar(1) > Aar = Aar 22; A = Aar(1)+22; B = Aar()+22; y1 = grunnkurs(:,d); if numel(grunnkurs(:,1))>1 y1 = sum(grunnkurs(:,d)); X = {'A';'B';'C';'D';'E'}; bar(y1); set(gca,'xtick',1:6); set(gca,'xticklabel',x); xlabel('karakter'); ylabel('frekvens'); if J == 1 title(sprintf('tma %s %d%s Jenter',Navn,A,Kurs)) if numel(unique(grunnkurs(:,1)))>1 title(sprintf('tma %s %d %d Jenter',Navn,A,B)) else title(sprintf('tma %s %d%s Totalt',Navn,A,Kurs)) if numel(unique(grunnkurs(:,1)))>1 title(sprintf('tma %s %d %d Totalt',Navn,A,B)) Figur 6: Funksjon for å plotte datasett med tilhøre regresjonslinje. 7

14 TMA 424-23H - Totalt 12 Frekvens 8 6 4 2 A B C D E Karakter Figur 7: Karakterer for 23 i Statistikk. I Hvordan ser karakterfordelingen for TMA424/4245 ut for hele perioden 23 213? Igjen tar jeg utgangspunkt i (6) ved kommandoen og får histogrammet vist i figur (8). hkarak(23:12, B,), b) I Plot temperaturobservasjonene for Båtsfjord 24. juli, 24. august, 24. september, 24. oktober og 24. november 212, samt regresjonslinjen. Ved å bruke funksjonen tplot fra Kode (3) med input fås plottet vist i figur (9). tplot(24,[7:11],212,1,baatsfjord) 3) I Hva var gjennomsnittstemperaturen på Tynset det siste året? Hva var standardavviket og variansen til temperaturobservasjonene? Ved å ta utgangspunkt i kode (5) med følge kommando får vi resultatene vist i tabell (4). hgram(,tynset) 8

3,5 TMA 424/4245-23-213 - Totalt 3, 2,5 Frekvens 2, 1,5 1, 5 A B C D E Karakter Figur 8: Karakterer for Jenter - V13 12 TMA424/4245 - - 212 Baatsfjord Regresjon 8 6 4 2 2 4 Jun Aug Sep Okt Nov Figur 9: i Baatsfjord, med tilhøre regrejonslinje. 9

Tabell 4 Gjennomsnitt STD Var 16.14 3.6 9.38 7 15.82 3.59 12.9 8.98 3.21.33 9 2.83 5.37 28.79.25 3.82 14.6 11 12.58 7.79 6.71 12 14.36.56 111.59 1 6.42 5.31 28.15 2 2.73 3.7 13.73 3 4.31 3.33 11. 4 13.55 6.37 4.64 5 14.29 3.11 9.65 6 IV Hvor vil du forvente at spredningen/variansen i temperaturobservasjonene var størst? Mellom Trondheim og Tynset forventer jeg at temperaturvariasjonene er større på Tynset enn i Trondheim. Tynset ligger lengre nord, og har dermed en kaldere vinter, derimot ligger stedet godt beskyttet innlands om sommeren og får dermed en varmere sommer enn man kanskje skulle anta. Tilsvare så ligger ikke Trondheim like langt nord, men til gjenngjeld ligger det ut mot havet som gir byen et kaldt vinggufs som senker gjennomsnittstemperaturen. a) 1. Plot histogram for temperaturobservasjonene i hhv. Trondheim og på Tynset i perioden juni 212 - juni 213, og beskriv histogrammene. Ved å ta utgangspunkt i Kode (5) så kan vi skrive ut histogrammene via kommandoen hgram(1,tynset,trondheim) Dette gir henholdsvis figur () og (11). Histogramene er noe like mens trondheim har en jevnere overgang til vinteren mens Tynsets klima skifter raskere fra sommer til vinter. Vinteren på tynset er noe kaldere og holder en jevnere temperatur, mens trondheims vinter er på langt nær like kald og skifter mye raskere tilbake til sol og sommer. 4) I Lag boksplott for temperaturobservasjonene på Tynset, gruppert etter måned. I hvilke måneder er temperaturvariasjonen størst? Ved å skrive inn følge kommando hgram(2,tynset,trondheim) så fås figurene (12) og (13) hvor igjen kode (5) ble benyttet. Fra figur og fra forrigåe tabeller ser vi at temperaturvariasjonene for Tynset var størst i mai.

2 Gjennomsnitt temperatur - Trondheim 15 5 5 7 8 9 11 12 1 2 3 4 5 6 Figur : en i Trondheim over et år 2 Gjennomsnitt temperatur - Tynset 15 5 5 15 7 8 9 11 12 1 2 3 4 5 6 Figur 11: en i Tynset over et år 11

Gjennomsnitt temperatur - Tynset 2 1 2 3 1 2 3 4 5 6 7 8 9 11 12 Figur 12: en i Trondheim over et år Gjennomsnitt temperatur - Tynset 2 1 2 3 1 2 3 4 5 6 7 8 9 11 12 Figur 13: en i Tynset over et år 12

a) Vi skiller mellom avhengige og uavhengige observasjoner. Vi vil nå se på temperaturobservasjonene i Trondheim, Båtsfjord og på Tynset i en periode på 7 dager fra 28. juni 212. I Plot temperaturen på Tynset mot temperaturen i Trondheim i denne perioden. Tar utganspunkt i kode (??) med input function scatterp(d,varargin) close all; markers = {'+','*','.','o','x','s','d','ˆ','v','>','<','p','h'}; hold on cmap = hsv(nargin 1); for i = 1:nargin 1 S = varargin{i}; switch S(1,1) case 6886 N{i} = 'Trondheim'; case 9836 N{i} = 'Baatsfjord'; case 958 N{i} = 'Tynset'; S = S(1:D,:); plot(s(:,6),markers{mod(i,numel(markers))+1},'color',cmap(i,:)) leg(n); xlabel(sprintf('m%sned',char(229))); ylabel(''); title(sprintf('ring p%s ulike steder',char(229))); hold off Figur 14: Funksjon for å plotte datasett over et gitt antall dager. og resultatet finner en i figur (15). scatterp(7,trondheim,tynset) II Plot temperaturen i Båtsfjord mot temperaturen på Tynset i denne perioden. Tilsvare som før, skriver inn og resultatet finner en i nå i figur (16). scatterp(7,baatsfjorden,tynset) III Kan vi observere en tr i noen av disse plottene? Hvilket plott viser avhengige og hvilket viser uavhengige temperaturobservasjoner? 13

26 24 ring på ulike steder Trondheim Tynset 22 2 18 16 14 12 8 2 3 4 5 6 7 Figur 15: en i Trondheim og Tynset over 7 dager. 25 2 ring på ulike steder Baatsfjord Tynset 15 5 2 3 4 5 6 7 Figur 16: en i Båtsfjorden og Tynset over 7 dager. 14

Antakeligvis er noen bedre spåmann enn meg, men jeg har problemer med å se noen klare trlinjer i figurene. Det ser ut som et høyttrykk har trufet Tynset og Trondheim samtidig etter ca dager, og et tilsvare lavtrykk etter 2 dager. Videre så kan det se ut som variansen minker i perioden, og temperaturen blir mer stabil på slutten av august. Noe klare høytrykk og lavtrykk er vanskelig å se i temperaturdiagramet over Båtsfjorden og Tynset, men det kan og se ut som temperaturen stabiliserer seg mer og mer her og. Det er og klart ut i fra figur at temperaturen i Båtsfjorden er kronisk lavere enn på Tynset. 15