FØRSTE OBLIGATORISKE OPPGAVE STK1000 HØSTEN 2009

Like dokumenter
OPPGAVEHEFTE I STK1000 TIL KAPITTEL 5 OG 6. a b

UNIVERSITETET I OSLO

OPPGAVEHEFTE I STK1000 TIL KAPITTEL Regneoppgaver til kapittel 7. X 1,i, X 2 = 1 n 2. D = X 1 X 2. På onsdagsforelesningen påstod jeg at da må

STK1000 Obligatorisk oppgave 1 av 2

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO Matematisk Institutt

Akkurat den samme begrunnelsen som vi brukte med variabelen X 2. "Jeg bruker internett mye mer på i-phone nå enn det jeg gjorde før på mobilen.

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

STK1000 Obligatorisk oppgave 2 av 2

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

STK1000 Uke 36, Studentene forventes å lese Ch 1.4 ( ) i læreboka (MMC). Tetthetskurver. Eksempel: Drivstofforbruk hos 32 biler

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

UNIVERSITETET I OSLO

Kapittel 2. Utforske og beskrive data. Sammenhenger mellom variable Kap. 2.1 om assosiasjon og kryssplott forrige uke. Kap. 2.2, 2.3, 2.

Et lite notat om og rundt normalfordelingen. Anta at vi har kontinuerlige data. Hva er likt og ulikt for histogrammer og fordelingskurver?

Seksjon 1.3 Tetthetskurver og normalfordelingen

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Fordelinger, mer om sentralmål og variasjonsmål. Tron Anders Moger

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

MAT-INF 1100: Obligatorisk oppgave 1

Et lite notat om og rundt normalfordelingen.

Andre sett med obligatoriske oppgaver i STK1110 høsten 2010

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

TMA4245 Statistikk Eksamen desember 2016

Eksamensoppgave i TMA4255 Anvendt statistikk

MAT-INF 1100: Obligatorisk oppgave 1

EKSAMEN I FAG TMA4260 INDUSTRIELL STATISTIKK

Introduksjon til statistikk og dataanalyse. Arild Brandrud Næss TMA4240 Statistikk NTNU, høsten 2013

UNIVERSITETET I OSLO

Kort overblikk over kurset sålangt

UNIVERSITETET I OSLO

OPPGAVESETTET BESTÅR AV 3 OPPGAVER PÅ 6 SIDER MERKNADER: Alle deloppgaver vektlegges likt.

Andre obligatoriske oppgave i STK1000 H2016: Innlevering: Besvarelsen leveres på instituttkontoret ved Matematisk institutt i 7.

Eksamensoppgave i TMA4240 Statistikk

Tid: 29. mai (3.5 timer) Ved alle hypotesetester skal både nullhypotese og alternativ hypotese skrives ned.

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

OPPGAVEHEFTE FOR STK1000 KAPITTEL Oppgaver fra Kapittel 1

UNIVERSITETET I OSLO

Kapittel 1: Data og fordelinger

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

2.2 Korrelasjon. Våre øyne ikke gode til å bedømme hvor sterk en sammenheng er Trenger kvantitativt mål på sammenheng Korrelasjon et slikt mål

Et lite notat om og rundt normalfordelingen.

Kontroller at oppgavesettet er komplett før du begynner å besvare spørsmålene. Ved sensuren teller alle delspørsmål likt.

Kapittel 3: Studieopplegg

Snøtetthet. Institutt for matematiske fag, NTNU 15. august Notat for TMA4240/TMA4245 Statistikk

EKSAMEN I FAG TMA4255 FORSØKSPLANLEGGING OG ANVENDTE STATISTISKE METODER

Øving 1 TMA Grunnleggende dataanalyse i Matlab

Eksamenssettet består av to deler. Ved bedømmelsen teller del A 30 % og del B 70 %. Innenfor hver del teller alle deloppgaver likt.

Beskrivende statistikk Litt om SPSS

Seksjon 1.3 Tetthetskurver og normalfordelingen

UNIVERSITETET I OSLO

STK1000 Innføring i anvendt statistikk

UNIVERSITETET I OSLO

I enkel lineær regresjon beskrev linja. μ y = β 0 + β 1 x

UNIVERSITETET I OSLO

Deskriptiv statistikk., Introduksjon til dataanalyse

Deskriptiv statistikk., Introduksjon til dataanalyse

ting å gjøre å prøve å oppsummere informasjonen i Hva som er hensiktsmessig måter å beskrive dataene på en hensiktsmessig måte.

Skoleeksamen i SOS Kvantitativ metode

vekt. vol bruk

Inferens i regresjon

MOT310 Statistiske metoder 1, høsten 2011 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 1. n + (x 0 x) 1 2 ) = 1 γ

Oppgaver til Studentveiledning 3 MET 3431 Statistikk

Analyse av kontinuerlige data. Intro til hypotesetesting. 21. april Seksjon for medisinsk statistikk, UIO. Tron Anders Moger

Lærebok Robert Johnson og Patricia Kuby: Elementary Statistics, 10. utgave. Pensumoversikt. Forelesninger og øvinger

ST0202 Statistikk for samfunnsvitere. Bo Lindqvist Institutt for matematiske fag

Inferens i fordelinger

Eksempel på data: Karakterer i «Stat class» Introduksjon

Kontroller at oppgavesettet er komplett før du begynner å besvare spørsmålene. Ved sensuren teller alle delspørsmål likt.

EKSAMEN I SOS1120 KVANTITATIV METODE 6. DESEMBER 2007 (4 timer)

Eksamensoppgave i TMA4255 Anvendt statistikk

Eksamensoppgave i ST3001

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

UNIVERSITETET I OSLO

Løsningsforslag eksamen 25. november 2003

ST0202 Statistikk for samfunnsvitere. Bo Lindqvist Institutt for matematiske fag

Eksamensoppgave i TMA4245 Statistikk

Utvalgsfordelinger. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer.

ECON2130 Kommentarer til oblig

TMA4240 Statistikk Høst 2016

UNIVERSITETET I OSLO

Oppgave 1. T = 9 Hypotesetest for å teste om kolesterolnivået har endret seg etter dietten: T observert =

Kap. 8: Utvalsfordelingar og databeskrivelse

UNIVERSITETET I OSLO

TMA4245 Statistikk Eksamen desember 2016

Øving 1 TMA Grunnleggende dataanalyse i Matlab

Sensorveiledning: skoleeksamen i SOS Kvantitativ metode

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 8 (s. 1) Oppgaver fra boka:

Starthjelp i MINITAB R

MAT-INF 2360: Obligatorisk oppgave 3

Forslag til endringar

10.1 Enkel lineær regresjon Multippel regresjon

UNIVERSITETET I OSLO

Transkript:

FØRSTE OBLIGATORISKE OPPGAVE STK1000 HØSTEN 2009 INNLEVERINGSFRIST: 25. SEPTEMBER KL 14.30 Følgende obligatoriske innleveringsoppgave har 3 oppgaver. Oppgave 1 skal leveres håndskrevet, 1 mens oppgave 2 og 3 er Minitab-oppgaver som skal tekstbehandles. 2 med relevante Minitab-utskrifter limt inn i besvarelsen på en fornuftig måte. For å få godkjent må man ha over 60 % riktig på obligen. Men, hvis oppgavebesvarelsen ikke er tilfredsstillende oversiktlig presentert, eller hvis man for eksempel har limt inn drøssevis av tall og plott fra Minitab som leseren ikke får noe ut av, kan gruppelæreren underkjenne besvarelsen. Man må da levere inn en mer oversiktlig versjon som kan godkjennes, og dette bruker opp en av de to forsøkene man har på obligen. Husk at man bare har to sjanser på å få godkjent, og at man må ha godkjent på begge obligene for å gå opp til eksamen! Hvis man får underkjent på første forsøk får man et nytt forsøk kun hvis gruppelæreren anser den første besvarelsen som et ærlig forsøk. Det vil si at hvis man for eksempel leverer blankt (eller nesten) får man altså ikke mulighet til å levere en ny besvarelse. Det er dessuten lov å samarbeide til vedlagt regelverk. Bruk dessuten gruppetimene godt hvis dere står fast. Lykke til! Steffen Grønneberg Regelverk for obligatoriske oppgaver ved matematisk institutt. For at studenten skal kunne fremstille seg til emnets siste eksamen må alle obligatoriske oppgaver være bestått. Utover dette teller obligatoriske oppgaver ikke med i vurderingen. Det er tillatt å bruke alle hjelpemidler. Det er lov å samarbeide, men studenten skal selv ha formulert og skrevet den besvarelsen som leveres inn, og den skal gjenspeile studentens forståelse av stoffet. Studenten kan bli bedt om å redegjøre muntlig for innholdet i den obligatoriske oppgaven. Besvarelsen må leveres instituttets ekspedisjon innen oppgitt tidsfrist. Dette er en absolutt frist og besvarelsen tas ikke imot etter denne fristen med mindre annet er avtalt med studieadministrasjonen på forhånd. 1 Med mindre man har gode grunner (som for eksempel ordblindhet). 2 Her er Microsoft Word, som finnes på windowsmaskinene ved UiO et opplagt valg, men den frie office-suiten Open Office er et jevngodt valg som anbefales for hjemmearbeid. http://why.openoffice.org/ For de informatikkinteresserte kan selvsagt L A TEX også benyttes, så lenge man kan nok til at man får besvarelsen like fin som om man hadde skrevet den i Word eller Open Office Writer. 1 Se

2 FØRSTE OBLIGATORISKE OPPGAVE I STK1000, HØSTEN 2009 Dersom det på grunn av sykdom eller liknende er behov for utsettelse på oppgaven, må det søkes om dette til studieadministrasjonen. Legeattest eller annen dokumentasjon på forholdet må følge søknaden. Det kan gis utsettelse med inntil én uke. Hvis det på grunn av langvarig sykdom ikke er mulig å levere innen denne dato, kan det i særskilte tilfeller gis fritak for obligatoriske oppgaver. Undervisningpersonell kan ikke gi utsettelser eller fritak. Ved underkjennelse av obligatorisk oppgave, kan kandidaten hvis det er vist et reelt forsøk på å løse oppgaven, levere en ny besvarelse innen gitt frist. Det er bare hvis du har fått godkjent alle obligatoriske oppgaver i et emne tidligere at du ikke trenger å levere om igjen. Hvis du har levert obliger (og disse har blitt godkjent), men ikke har tatt eksamen i emnet tidligere, må du vise frem dine godkjente obliger til studieadministrasjonen ved Matematisk institutt for at dette skal bli registrert. Obligatoriske oppgaver fra andre/lignende emner godtas ikke som erstatning for innlevering av obligatoriske oppgaver. Oppgave 1. Likningen for en rett linje er som kjent som også skrives på funksjonsform ved Gitt observasjoner y = a + bx, f(x) = a + bx. (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ) oppgir bokens seksjon 2.3 at blant alle tall a og b er det akkurat valgene som gjør b = r s y s x, a = ȳ b x (1) (avstand fra a + bxi til observert punkt y i ) 2 = y i (a + bx i ) 2 = (y i a bx i ) 2 minst. Altså, hvis man vil finne en linje som passer best til observasjonene (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ), og velger å definere best som at den har minst summert kvadrert feil, er denne beste likningen gitt ved ŷ = (ȳ r s y x) + r s y x s x s x som kan skrives i funksjonsform som ˆf(x) = a + bx = (ȳ r s y s x x) + r s y s x x. (2) (a). En funksjon f(x) sies å gå igjennom et punkt (x 1, y 1 ) hvis f(x 1 ) = y 1. Vis at ˆf(x) går igjennom ( x, ȳ).

(b). For en linje FØRSTE OBLIGATORISKE OPPGAVE I STK1000, HØSTEN 2009 3 f(x) = a + bx har vi lært på videregående at b er stigningen til linjen, mens a er punktet linjen skjærer y-aksen. I STK1000 er vi hovedsaklig interessert i rette linjer via regresjonslinjen ˆf(x) = a + bx. Tolkningen over for b er fortsatt veldig nyttig, men for mange datasett er ikke tolkningen over av a særlig opplysende. Som et eksempel, ta en titt på Minitab-plottet under, som er en regresjonslinjetilpassing av høyde mot vekt for 92 amerikanske studenter. Regresjonslinjen er oppgitt som ˆf(x) = 92.87 + 0.9093x. (3) Tolkningen av 0.9093 er at hvis man har to personer hvor den ene er 1 cm høyere enn den andre, vil den høyere personen typisk også være rundt 0.9093 tyngre enn den andre. Dette er en rett frem tolkning av praktisk interesse. Derimot er det ingen praktisk interesse i at en imaginær person som er null cm høy ville i følge regresjonsmodellen ville veid 92.87 kg hovedsaklig siden vi vet at det ikke er mulig å ha null høyde, og dessuten siden dette er langt utenfor modellens gyldighetsområde (som løst vil si det området i nærheten av de faktiske observerte verdiene). For regresjonslinjen i likning (2), vis at man kan skrive ˆf(x) = ȳ + b(x x). (4) Forklar tolkningen av denne likningen ved hjelp av punkt (1a) over og b s tolkning.

4 FØRSTE OBLIGATORISKE OPPGAVE I STK1000, HØSTEN 2009 (c). Ut i fra plottet over og følgende oppsummerende statistikk fra Minitab, skriv regresjonslinjen ˆf(x) i likning (3) på formen til likning (4). Skriv en tolkning av denne likningen i dette konkrete tilfellet, slik som du gjorde i punkt (1b) for det generelle tilfellet. Descriptive Statistics: Height (cm); Weight (kg) Variable N N* Mean SE Mean StDev Minimum Q1 Median Height (cm) 92 0 174,54 0,969 9,29 154,94 167,64 175,26 Weight (kg) 92 0 65,84 1,12 10,77 43,09 56,70 65,77 Variable Q3 Maximum Height (cm) 182,88 190,50 Weight (kg) 70,99 97,52 Oppgave 2. I denne oppgaven skal vi se på noen data som er samlet inn under et innføringskurs i statistikk ved et amerikansk universitet, og som vi også kom borti i oppgave 1. Studentene på kurset gjennomførte et enkelt forsøk. Hver student noterte sin høyde og vekt og målte pulsen sin (under hvile). Så kastet hver av studentene en mynt. De som fikk krone løp på stedet i ett minutt, mens de som fikk mynt ble sittende stille i ett minutt. Så målte alle pulsen en gang til (for de som satt stille, er dette en måling til av pulsen under hvile). Dataene for de 92 studentene er lagret som PULSEDATA.MTW og er å finne på samme side som oppgaveteksten til obligen. I datafilen er det en linje for hver av de 92 studentene, mens variablene i kolonnene har følgende betydning: Variabelnavn Pulse1 Pulse2 Ran Sex Height Weight Forklaring 1 = Første pulsmåling (antall slag per minutt) Andre pulsmåling (antall slag per minutt) 1 = løp på stedet; 2 = satt stille 1 = mann; 2 = kvinne høyde i cm vekt i kg Når du har lastet dataene inn i Minitab, registrerer du dine egne verdier for variablene Sex, Height og Weight i linje 93 i arbeidsarket. Mål pulsen din under hvile og registrer den som Puls1. Kast så et kronestykke. Hvis det viser krone, løper du på stedet i ett minutt. Hvis ikke sitter du stille ett minutt. Så måler du pulsen din igjen og registrer den som Puls2 i linje 93 i arbeidsarket. Skriv også inn din verdi for Ran (1 hvis du løp, 2 hvis du satt stille). Med dette modifiserte datasettet: (a). Beregn enkle oppsummerende mål for variablene Pulse1 og Height. Hvordan ligger dine egne verdier i dette bildet?

FØRSTE OBLIGATORISKE OPPGAVE I STK1000, HØSTEN 2009 5 (b). Lag histogram og stilk-og-blad plott for de samme variablene, og merk av dine egne verdier. Stilk-og-blad-plott lages med Graph Stem-and-Leaf. (c). Lag grafiske framstillinger av hvordan variablene Pulse1 og Pulse2 avhenger av aktivitet (det vil si av variabelen Ran). Kommenter plottene. (d). Gjennomfør en regresjonsanalyse med vekt som responsvariabel og høyde som forklaringsvariabel. Forklar hva resultatene av regresjonsanalysen forteller deg. Lag et plott av observasjonene og den tilpassede regresjonslinja. Dette gjøres via Stat Regression Regression og Stat Regression Fitted Line Plot. (e). Lag et residualplott ved hjelp av Stat Regression Regression. Klikk så på Graphs og be om å få plottet Residuals versus fits. Kommenter hvordan plottet ser ut og hvordan dette tolkes. Har datasettet noen veldig innflytelsesrike observasjoner, og hvordan kan dette i såfall sees? Kommenter i denne sammenhengen hva r 2 er, og hva dette vil si. Oppgave 3. Seksjon 1.3 i boken introduserer kvantilplott som et diagnoseverktøy for å anse rimeligheten av at observert data er normalfordelt. I denne oppgaven skal vi simulere observasjoner, både normalfordelte og ikke, for å se hvordan kvantilplottet oppfører seg. Dette gir oss muligheten til å få følelse av hva som er et OK kvantilplott, og eksempler på hvordan kvantilplottet kan se ut når man ikke har normalfordelte data. Simulering av observasjoner vil si at vi lar PCen lage mange tall som ikke har noe spesielt mønster (og vi skal tenke på disse tallene som tilfeldige ), bortsett fra at hvis man lager et histogram av alle tallene vil histogrammet ligge nær en tetthetskurve som man på forhånd har spesifisert at PCen skal følge. Vi skal her gå igjennom tre underoppgaver hvor vi skal gjøre følgende skritt ved å simulere fra forskjellige fordelinger. (1) Få Minitab til å generere 100 simulerte observasjoner fra ønsket fordeling (det vil si den tetthetskurven histogrammet vil være nær hvis man hadde bedt PCen om å lage veldig mange observasjoner). (2) Se på kvantilplottet og bedømme hvordan avviket fra en rett linje er. (3) Gjenta skrittene over til vi føler vi har nok intuisjon til å gå videre. Etter dette benytter vi anledningen til å se litt nærmere på hva som menes med outliers, og bruker simulering til å se på hva slags konsekvenser slike outliers kan ha for deskriptiv statistikk.

6 FØRSTE OBLIGATORISKE OPPGAVE I STK1000, HØSTEN 2009 (a). Vi skal først simulere fra normalfordelingen. Her skal altså alt gå fint, og poenget er å se hvordan kvantilplott kan se ut når observasjonene faktisk er normalfordelt. Siden vi genererer tilfeldige variable, vil kvantilplottet se forskjellig ut hver gang. Det vil altså være en del tilfeldig variasjon, og ved å simulere normalfordelte variable kan vi se hvor store avvik vi kan tolerere på et kvantilplott for å fortsatt tenke på det som OK. For å generere 100 simulerte observasjoner som er normalfordelte, start med et tomt Minitab Worksheet, gå på Calc Random Data Normal. Velg 100 i Number of rows of data to generate, og legg datasettet for eksempel i C1 (Det vil si, skriv C1 i Store in column(s).) La mean og standard deviation være 0 og 1, som er verdiene som kommer opp automatisk. Lag så kvantilplott av simuleringene ved å gå på Graph Probability Plot, velg Single og C1 i Graph variables. Ikke ta med dette plottet i rapporten, men merk deg hvordan den ser ut. Vi har så lyst til å generere mange slike kvantilplott for å se hvordan de varierer fra gang til gang. For å generere (for eksempel) ti stykker og lagre resultatet i C1 til og med C10, gå igjen på Calc Random Data Normal. og igjen velg 100 i Number of rows of data to generate, men skriv nå C1-C10 i Store in column(s). Igjen la mean og standard deviation være 0 og 1, som er verdiene som kommer opp automatisk. For å lage kvantilplott for disse ti simuleringene, gå igjen på Graph Probability Plot, velg Single og skriv C1-C10 i Graph variables. Alle disse kvantilplottene kommer fra normalfordelte variable, så avvik fra en rett linje som vi ser her er ikke avvik fra normalitet. Gjør så mange simuleringer som du føler er nødvendige slikat du får en intuisjon om grensen for at man anser et kvantilplott for å være OK. Lim så inn i besvarelsen det kvantilplottet som ser mest typisk ut, ser best ut, og det som ser verst ut med en oppsummerende kommentar. (b). La oss så simulere data som ikke er normalfordelt for å se hvordan kvantilplott da kan se ut. Minitab kan simulere fra flere fordelinger, og en fordeling vi kommer til å møte mange ganger senere i kurset er den såkalte t-fordelingen. Mens Normalfordelingen har to tall som bestemmer den (µ og σ), har t-fordelingen bare ett, nemlig dens såkalte frihetsgrad.

FØRSTE OBLIGATORISKE OPPGAVE I STK1000, HØSTEN 2009 7 For å be Minitab om å lage (for eksempel) tjue kolonner med hundre simulerte observasjoner fra t-fordelingen, gå på Calc Random Data t, og velg 100 i Number of rows of data to generate, men skriv nå C1-C10 i Store in column(s). Skriv inn 1 i Degrees of freedom. Lag histogrammer og boksplott av de genererte verdiene. Kan du se at datasettet ikke er normalfordelt? Hvordan skiller disse seg i så fall fra histogrammet til normalfordelte observasjoner? Lag så kvantilplott av simuleringene. Lim inn i besvarelsen det kvantilplottet som ser best ut, og det som ser verst ut. Ta også med histogrammet til disse to. Er det beste kvantilplottet mye verre enn det verste fra (a)? (c). Desverre kan vi ikke konkludere med at observasjoner er normalfordelte selv om kvantilplottet ser OK ut. Vi skal nå få Minitab til å generere observasjoner fra en fordelingen som heter trekantfordelingen. Den har sitt navn fra at hvis man lager et histogrammet til veldig mange observasjoner fra denne fordelingen ser ut som en trekant. For å lage (for eksempel) tjue kolonner med hundre simulerte observasjoner fra trekantfordelingen, gå på Calc Random Data Triangluar (nest nederst på random data menyen) og velg 100 i Number of rows of data to generate. Skriv C1-C20 i Store in column(s), og la Lower endpoint være 1, Mode (det vil si det høyeste punktet) være 0 og Upper endpoint være 1. Lag histogrammer av de genererte verdiene. Kan du se at datasettet ikke er normalfordelt? Lag så kvantilplott av simuleringene. Lim inn i besvarelsen det kvantilplottet som ser best ut, og det som ser verst ut. Er det verste mye verre enn det verste fra (a)? Og er det beste mye verre enn det verste (a)? Kommenter konsekvensene av dette. (d). La oss igjen besøke de 100 tilfeldig valgte nyfødte 1985-årgangsbabyene vi møtte i ekstraoppgave 9 i kursets første oppgavehefte. Jeg skrev at man nok ennå ikke hadde erfaringsgrunnlaget til å ha en sterk mening om normaliteten til datasettet, noe denne oppgaven forhåpentligvis har bidratt med å øke. Last derfor igjen inn FVEKT.MTW i Minitab og lag på ny et kvantilplott av datasettet. På bakgrunn av erfaringen din fra simuleringene i (a), har du grunn til å tro at datasettet ikke er normalfordelt? (e). Til slutt skal vi gå tilbake til t-fordelingen i punkt (b). Boken nevner ofte at noen observasjoner er outliers (eller uteliggere på norsk). Mange datakilder er ofte tilnærmet normalfordelt, og normalfordelt data har så godt som aldri uteliggere. I dette tilfellet tyder uteliggere på at noe er galt, som en feilregistrering eller feilkategorisering. Men det finnes også mange datakilder som slettes ikke er normalfordelte, og da vil outliers kunne være nettopp det man er mest interessert i. Skjeldne og ekstreme

8 FØRSTE OBLIGATORISKE OPPGAVE I STK1000, HØSTEN 2009 fenomener (som finanskrisen) kan klassifiseres som uteliggere, og man er typisk da veldig interessert i å behandle slike ekstreme observasjoner på en mer ordentlig måte enn å fjerne dem fra datasettet. Denne oppgaven skal raskt se hvordan de deskriptive statistiske metodene våre oppfører seg med slike fordelinger. Selv om det finnes statistiske teknikker som fungerer sammen med datasett som har slike uteliggende observasjoner, er disse et godt stykke utenfor pensum. Åpne et nytt worksheet, og la Minitab lage fem kolonner med 20 (altså ikke hundre som før, men bare tjue) simulerte observasjoner fra t-fordelingen med en frihetsgrad, analogt som i punkt (b). Lag histogrammer av disse observasjonene. Velg ut den kolonnen hvor det helt tydelig er én eneste observasjon som er en uteligger. Hvis ingen av de fem kolonnene passer denne beskrivelsen, lag nye fem kolonner (overskriv eller slett de gamle). Når du har funnet en slik simulering, slett alt annet på worksheetet. Flytt den resterende kolonnen med simulerte observasjoner til den første kolonnen (det vil si C1) og navngi denne kolonnen original. En første observasjon er at histogrammer av slike observasjoner kan være veldig lite opplysende. Et eksempel er histogrammet i figur 1 som er generert ved simuleringsrutinen over. Her får man ingen oversikt over datasettet. Grunnen er at Minitab Figure 1. Histogram av simulerte data. har en automatisk rutine som velger hvordan histogramsøylene skal velges som antar at datasettet ikke har klare outliers. De fleste standardrutiner antar at man ikke jobber med datasett som har slike ekstreme observasjoner. Man kan derimot få mer oversikt med et såkalt dotplott, slik som figur 2. Her ser man at bortsett fra den ene ekstreme observasjonen på rundt 90 er alt stort sett sentrert rundt null på en måte som ser ganske normalfordelt ut.

FØRSTE OBLIGATORISKE OPPGAVE I STK1000, HØSTEN 2009 9 Figure 2. Dotplott av simulerte data. Lag nå en ny kolonne ved navn Modifisert, som er Original -kolonnen bare at outlieren er tatt vekk. Lag et histogram av det modifiserte datasettet. Ser det normalfordelt ut? Lag også kvantilplott av begge datasettene ved siden av hverandre. Dette gjøres ved å gå på Graph Probability Plot, velg Single som vanlig. Velg så både Original og Modifisert i Graph variables. Gå inn på Multiple graphs, og velg In separate panels of the same graph under Show Graph Variables. Se også på tall-oppsummeringene fra Stat Basic statistics Display Descriptive Statistics. Kommenter forskjellene i kvantilplottene. Beregn så talloppsummeringer av begge datasettene, kommenter forskjellene og få med ordet resistens.