TMA424 - Statistikk Øving 1 Øistein Søvik 21. august 213 1) a) I Hvilke variabler i datasettet tma4244245.txt er kontinuerlige? Hvilke er diskre? Tabell 1 Variabler År Kurs Antall stryk % Antall Jenter % Andel A Karakterer Karakterer j Kontinuerlig II Lag et tilsvare histogram over karakterfordelingen for jenter som tok kurset TMA4245 våren 213. Ved å bruke følge kommando der hkarak er funksjonen fra Kode (6). hkarak(213, V,1) b) I Hvordan påvirkes gjennomsnitt og median av ekstreme observasjoner? Gjennomsnitt påvirkes i mindre grad av ekstreme observasjoner, mens medianenen er langt mer følsom for variasjoner i måledata. I Hva var maksimum og minimums-temperaturen i Båtsfjord det siste året? Hva var standardavvik og varians til temperaturobservasjonene? 1
8 TMA 4245-213V - Jenter 7 6 5 Frekvens 4 3 2 A B C D E Karakter Figur 1: Karakterer for Jenter - V13 function STD(varargin) for i = 1:nargin Y = varargin{i}; Yt = Y(:,6); Ba = Y(Yt == min(yt),:); Bb = Y(Yt == max(yt),:); fprintf('\n') fprintf(' Snitt temperaturen var %6.2f C\n',mean(Yt)) fprintf(' Standardaviket var %6.2f\n',std(Yt)) fprintf(' Variansen var %6.2f\n',var(Yt)) fprintf(' Minimumet var %6.2f C, den %d.%d.%d\n',min(yt),ba(4),ba(3),ba(2)) fprintf(' Maximumet var %6.2f C, den %d.%d.%d\n\n',max(yt),bb(4),bb(3),bb(2)) Figur 2: Kode for å beregne standardavik, varians, max, min temperatur til et datasett. Tabell 2 Variabler Størrelse Enhet Standardavik 8.34 Varians 69.57 Min 14.3 C Maks 25. C 2
Gjennomsnitt påvirker i mindre grad av ekstreme observasjoner enn medianen. Ved å bruke funksjonen STD fra kode (2) så fås følge tabell. 1. Lag denne rette linja med kommandoene over. Hvordan passer den rette linja til de observerte dataene? Ved å ta utgangspunkt i (3) så kan temperaturen i baatsfjorden med regresjonslinje vises via kommandoen som vi kan se i figur (4). tplot(24,[7:11],212,1,trondheim) (1) I I hvilken måned er temperaturvariasjonen i Trondheim størst? Ved å ta utgangspunkt i koden fra (??) med følge kommando hgram(,trondheim), (2) får vi figur (3). Fra figuren så ser en at standardaviket var størst i januar 213. Tabell 3: Gjennomsnitt, standardvik, varians for Trondheim. Gjennomsnitt STD Var 15.45 3.11 9.69 7 16.11 3.36 11.31 8 11.6 2.84 8.5 9 6.17 4.55 2.71 4.2 3.85 14.86 11 4.86 4.83 23.34 12 3.9 5.4 29.16 1 1. 4.14 17.16 2.11 2.76 7.63 3 6.3 3.6 12.97 4 15.9 6.37 4.53 5 14.37 3.16 9.98 6 2) a) I Lag histogram over karakterfordelingen for TMA424 i 23. Hvordan var karakterfordelingen i 23 sammenlignet med 213. Ved å ta utgangspunkt i kode (6) med kommandoen kan vi se histogramet i figur (7). hkarak(23, H,), 3
function tplot(d,m,aar,p,varargin) if nargin > 8 return close all; fprintf('\n\n') M = sort(m); nn = nargin 4; cmap = hsv(6); Maned = {'Jan';'Feb';'Mar';'Apr';'Mai';'Jul';... 'Jun';'Aug';'Sep';'Okt';'Nov';'Des'}; if P == 1 for k = 2:2:2*nn N{k,1} = 'Regresjon'; j = 1; else j = ; hold on for i = 1:nn S = varargin{i}; i = i*(j+1) j; switch S(1,1) case 6886 N{i} = 'Trondheim'; case 9836 N{i} = 'Baatsfjord'; case 958 N{i} = 'Tynset'; [A, ] = ismember(s(:,2),aar); S = S(A,:); [B, ] = ismember(s(:,3),m); S = S(B,:); [C, ] = ismember(s(:,4),d); S = S(C,:); fprintf('%s: ',N{i}) STD(S); p = polyfit(m',s(:,6),1); switch P case P==2 plot(m,polyval(p,min(m):max(m)),' ','Color',cmap(i,:)); otherwise plot(m,s(:,6),'*','color',cmap(i,:)); if P==1 plot(m,polyval(p,min(m):max(m)),' ','Color',cmap(i,:)); hold off leg(n); set(gca,'xtick',min(m):max(m)); set(gca,'xticklabel',maned(m)); xlabel(sprintf('m%sned',char(229))); ylabel(''); title(sprintf('tma424/4245 %s',num2str(aar))); Figur 3: Funksjon for å plotte datasett 4 med tilhøre regresjonslinje.
2 18 TMA424/4245 - - 212 Trondheim Regresjon 16 14 12 8 6 4 2 Jun Aug Sep Okt Nov Figur 4: i Trondheim, med tilhøre regrejonslinje. 5
function hgram( Plot,varargin ) X = {'7';'8';'9';'';'11';'12';'1';'2';'3';'4';'5';'6'}; close all; for i = 1 : nargin 1 S = varargin{i}; switch S(1,1) case 6886 N{i} = 'Trondheim'; case 9836 N{i} = 'Baatsfjord'; case 958 N{i} = 'Tynset'; fprintf('\n%s\n',n{i}) fprintf('%s\n',repmat('=',1,5)) fprintf(' Gjennomsnitt STD Var M%sned\n',char(229)); fprintf('%s\n',repmat('=',1,5)) [d1, ] = ismember(s(:,2),212); A = S(d1,:); B = S( d1,:); for j = 7:12 C = A(A(:,3) == j,6); M(j 6,i) = mean(c); fprintf(' %7.2f%12.2f%12.2f%12d\n',M(j 6,i),std(C),var(C),j); for k = 1:6 C = B(B(:,3) == k,6); M(k+6,i) = mean(c); fprintf(' %7.2f%12.2f%12.2f%12d\n',M(k+6,i),std(C),var(C),k); fprintf('%s\n',repmat('=',1,5)) STD(varargin{i}) if Plot == 1 figure(i); bar(m(:,i)); set(gca,'xtick',1:12); set(gca,'xticklabel',x); xlabel(sprintf('m%sned',char(229))); ylabel(''); title(sprintf('gjennomsnitt temperatur %s',n{i})) elseif Plot == 2 figure(i); boxplot(s(:,6),s(:,3)) xlabel(sprintf('m%sned',char(229))); ylabel(''); title(sprintf('gjennomsnitt temperatur %s',n{i})) Figur 5: Lager histogram, STD, Var, usw fra en liste med datasett. 6
function hkarak(aar,kurs,j) close all; grunnkurs = load('tma4244245.txt'); switch Kurs case 'H' K = 1; Navn = '424'; case 'V' K = 2; Navn = '4245'; case 'HV' K = 3; Navn = '424/4245'; Kurs = ''; D = 6:; D = D + 5*J; [d1, ] = ismember(grunnkurs(:,1),aar); grunnkurs = grunnkurs(d1,:); if K = 3 [d1, ] = ismember(grunnkurs(:,2),k); grunnkurs = grunnkurs(d1,:); if Aar(1) > Aar = Aar 22; A = Aar(1)+22; B = Aar()+22; y1 = grunnkurs(:,d); if numel(grunnkurs(:,1))>1 y1 = sum(grunnkurs(:,d)); X = {'A';'B';'C';'D';'E'}; bar(y1); set(gca,'xtick',1:6); set(gca,'xticklabel',x); xlabel('karakter'); ylabel('frekvens'); if J == 1 title(sprintf('tma %s %d%s Jenter',Navn,A,Kurs)) if numel(unique(grunnkurs(:,1)))>1 title(sprintf('tma %s %d %d Jenter',Navn,A,B)) else title(sprintf('tma %s %d%s Totalt',Navn,A,Kurs)) if numel(unique(grunnkurs(:,1)))>1 title(sprintf('tma %s %d %d Totalt',Navn,A,B)) Figur 6: Funksjon for å plotte datasett med tilhøre regresjonslinje. 7
14 TMA 424-23H - Totalt 12 Frekvens 8 6 4 2 A B C D E Karakter Figur 7: Karakterer for 23 i Statistikk. I Hvordan ser karakterfordelingen for TMA424/4245 ut for hele perioden 23 213? Igjen tar jeg utgangspunkt i (6) ved kommandoen og får histogrammet vist i figur (8). hkarak(23:12, B,), b) I Plot temperaturobservasjonene for Båtsfjord 24. juli, 24. august, 24. september, 24. oktober og 24. november 212, samt regresjonslinjen. Ved å bruke funksjonen tplot fra Kode (3) med input fås plottet vist i figur (9). tplot(24,[7:11],212,1,baatsfjord) 3) I Hva var gjennomsnittstemperaturen på Tynset det siste året? Hva var standardavviket og variansen til temperaturobservasjonene? Ved å ta utgangspunkt i kode (5) med følge kommando får vi resultatene vist i tabell (4). hgram(,tynset) 8
3,5 TMA 424/4245-23-213 - Totalt 3, 2,5 Frekvens 2, 1,5 1, 5 A B C D E Karakter Figur 8: Karakterer for Jenter - V13 12 TMA424/4245 - - 212 Baatsfjord Regresjon 8 6 4 2 2 4 Jun Aug Sep Okt Nov Figur 9: i Baatsfjord, med tilhøre regrejonslinje. 9
Tabell 4 Gjennomsnitt STD Var 16.14 3.6 9.38 7 15.82 3.59 12.9 8.98 3.21.33 9 2.83 5.37 28.79.25 3.82 14.6 11 12.58 7.79 6.71 12 14.36.56 111.59 1 6.42 5.31 28.15 2 2.73 3.7 13.73 3 4.31 3.33 11. 4 13.55 6.37 4.64 5 14.29 3.11 9.65 6 IV Hvor vil du forvente at spredningen/variansen i temperaturobservasjonene var størst? Mellom Trondheim og Tynset forventer jeg at temperaturvariasjonene er større på Tynset enn i Trondheim. Tynset ligger lengre nord, og har dermed en kaldere vinter, derimot ligger stedet godt beskyttet innlands om sommeren og får dermed en varmere sommer enn man kanskje skulle anta. Tilsvare så ligger ikke Trondheim like langt nord, men til gjenngjeld ligger det ut mot havet som gir byen et kaldt vinggufs som senker gjennomsnittstemperaturen. a) 1. Plot histogram for temperaturobservasjonene i hhv. Trondheim og på Tynset i perioden juni 212 - juni 213, og beskriv histogrammene. Ved å ta utgangspunkt i Kode (5) så kan vi skrive ut histogrammene via kommandoen hgram(1,tynset,trondheim) Dette gir henholdsvis figur () og (11). Histogramene er noe like mens trondheim har en jevnere overgang til vinteren mens Tynsets klima skifter raskere fra sommer til vinter. Vinteren på tynset er noe kaldere og holder en jevnere temperatur, mens trondheims vinter er på langt nær like kald og skifter mye raskere tilbake til sol og sommer. 4) I Lag boksplott for temperaturobservasjonene på Tynset, gruppert etter måned. I hvilke måneder er temperaturvariasjonen størst? Ved å skrive inn følge kommando hgram(2,tynset,trondheim) så fås figurene (12) og (13) hvor igjen kode (5) ble benyttet. Fra figur og fra forrigåe tabeller ser vi at temperaturvariasjonene for Tynset var størst i mai.
2 Gjennomsnitt temperatur - Trondheim 15 5 5 7 8 9 11 12 1 2 3 4 5 6 Figur : en i Trondheim over et år 2 Gjennomsnitt temperatur - Tynset 15 5 5 15 7 8 9 11 12 1 2 3 4 5 6 Figur 11: en i Tynset over et år 11
Gjennomsnitt temperatur - Tynset 2 1 2 3 1 2 3 4 5 6 7 8 9 11 12 Figur 12: en i Trondheim over et år Gjennomsnitt temperatur - Tynset 2 1 2 3 1 2 3 4 5 6 7 8 9 11 12 Figur 13: en i Tynset over et år 12
a) Vi skiller mellom avhengige og uavhengige observasjoner. Vi vil nå se på temperaturobservasjonene i Trondheim, Båtsfjord og på Tynset i en periode på 7 dager fra 28. juni 212. I Plot temperaturen på Tynset mot temperaturen i Trondheim i denne perioden. Tar utganspunkt i kode (??) med input function scatterp(d,varargin) close all; markers = {'+','*','.','o','x','s','d','ˆ','v','>','<','p','h'}; hold on cmap = hsv(nargin 1); for i = 1:nargin 1 S = varargin{i}; switch S(1,1) case 6886 N{i} = 'Trondheim'; case 9836 N{i} = 'Baatsfjord'; case 958 N{i} = 'Tynset'; S = S(1:D,:); plot(s(:,6),markers{mod(i,numel(markers))+1},'color',cmap(i,:)) leg(n); xlabel(sprintf('m%sned',char(229))); ylabel(''); title(sprintf('ring p%s ulike steder',char(229))); hold off Figur 14: Funksjon for å plotte datasett over et gitt antall dager. og resultatet finner en i figur (15). scatterp(7,trondheim,tynset) II Plot temperaturen i Båtsfjord mot temperaturen på Tynset i denne perioden. Tilsvare som før, skriver inn og resultatet finner en i nå i figur (16). scatterp(7,baatsfjorden,tynset) III Kan vi observere en tr i noen av disse plottene? Hvilket plott viser avhengige og hvilket viser uavhengige temperaturobservasjoner? 13
26 24 ring på ulike steder Trondheim Tynset 22 2 18 16 14 12 8 2 3 4 5 6 7 Figur 15: en i Trondheim og Tynset over 7 dager. 25 2 ring på ulike steder Baatsfjord Tynset 15 5 2 3 4 5 6 7 Figur 16: en i Båtsfjorden og Tynset over 7 dager. 14
Antakeligvis er noen bedre spåmann enn meg, men jeg har problemer med å se noen klare trlinjer i figurene. Det ser ut som et høyttrykk har trufet Tynset og Trondheim samtidig etter ca dager, og et tilsvare lavtrykk etter 2 dager. Videre så kan det se ut som variansen minker i perioden, og temperaturen blir mer stabil på slutten av august. Noe klare høytrykk og lavtrykk er vanskelig å se i temperaturdiagramet over Båtsfjorden og Tynset, men det kan og se ut som temperaturen stabiliserer seg mer og mer her og. Det er og klart ut i fra figur at temperaturen i Båtsfjorden er kronisk lavere enn på Tynset. 15