Dataøvelse 4 Kjikvadratfordeling

Like dokumenter
Dataøvelse 3 Histogram og normalplott

Dataøvelse 2 Utregning av enkle observatorer

Dataøvelse 8 Toveis variansanalyse

TMA4240 Statistikk Høst 2016

ST0202 Statistikk for samfunnsvitere

Et lite notat om og rundt normalfordelingen.

Et lite notat om og rundt normalfordelingen. Anta at vi har kontinuerlige data. Hva er likt og ulikt for histogrammer og fordelingskurver?

Gammafordelingen og χ 2 -fordelingen

TMA4245 Statistikk Eksamen desember 2016

EKSAMEN I FAG TMA4260 INDUSTRIELL STATISTIKK

STK1100 våren Normalfordelingen. Normalfordelingen er den viktigste av alle sannsynlighetsfordelinger

Utvalgsfordelinger; utvalg, populasjon, grafiske metoder, X, S 2, t-fordeling, χ 2 -fordeling

Et lite notat om og rundt normalfordelingen.

UNIVERSITETET I OSLO

Binomisk sannsynlighetsfunksjon

STK1000 Uke 36, Studentene forventes å lese Ch 1.4 ( ) i læreboka (MMC). Tetthetskurver. Eksempel: Drivstofforbruk hos 32 biler

Løsning på Dårlige egg med bruk av Tabell 2 i Appendix B

Eksamensoppgave i TMA4240 Statistikk

Dataøvelse 1 Poissonmodeller

UNIVERSITETET I OSLO

Løsningsforslag ECON 2130 Obligatorisk semesteroppgave 2017 vår

HØGSKOLEN I STAVANGER

Løsningsforslag til andre sett med obligatoriske oppgaver i STK1110 høsten 2010

Siden vi her har brukt første momentet i fordelingen (EX = EX 1 ) til å konstruere estimatoren kalles denne metoden for momentmetoden.

Kapittel 4.4: Forventning og varians til stokastiske variable

UNIVERSITETET I OSLO Matematisk Institutt

Første sett med obligatoriske oppgaver i STK1110 høsten 2015

Snøtetthet. Institutt for matematiske fag, NTNU 15. august Notat for TMA4240/TMA4245 Statistikk

UNIVERSITETET I OSLO

Bootstrapping og simulering Tilleggslitteratur for STK1100

Eksamensoppgave i Løsningsskisse TMA4240 Statistikk

OPPGAVEHEFTE I STK1000 TIL KAPITTEL Regneoppgaver til kapittel 7. X 1,i, X 2 = 1 n 2. D = X 1 X 2. På onsdagsforelesningen påstod jeg at da må

Andre sett med obligatoriske oppgaver i STK1110 høsten 2010

TMA4240 Statistikk H2010

TMA4245 Statistikk Eksamen august 2014

UNIVERSITETET I OSLO

i x i

Statistisk inferens: 9.14: Sannsynlighetsmaksimeringsestimatoren 8.5: Fordeling til gjennomsnittet 9.4: Konfidensintervall for µ (σ kjent)

ST0202 Statistikk for samfunnsvitere

TMA4240 Statistikk Eksamen desember 2015

Forelesning 5: Kontinuerlige fordelinger, normalfordelingen. Jo Thori Lind

Eksamensoppgave i TMA4245 Statistikk

Transformasjoner av stokastiske variabler

UNIVERSITETET I OSLO

(Det tas forbehold om feil i løsningsforslaget.) Oppgave 1

Fra første forelesning:

TMA4240 Statistikk Høst 2016

MA155 Statistikk TI-nspire cx Kalkulator Guide

Bootstrapping og simulering

Eksamensoppgave i TMA4240 / TMA4245 Statistikk

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Eksamensoppgave i TMA4240 Statistikk

A) B) 400 C) 120 D) 60 E) 10. Rett svar: C. Fasit: ( 5 6 = 60. Hvis A, B, C er en partisjon av utfallsrommet S, så er P (A B) lik.

Datamatrisen: observasjoner, variabler og verdier. Variablers målenivå: Nominal Ordinal Intervall Forholdstall (ratio)

TMA4240 Statistikk Høst 2015

STK1100 våren Kontinuerlige stokastiske variabler Forventning og varians Momentgenererende funksjoner

MAT1030 Diskret Matematikk

ST0103 Brukerkurs i statistikk Forelesning 26, 18. november 2016 Kapittel 8: Sammenligning av grupper

ST0202 Statistikk for samfunnsvitere

TMA4245 Statistikk Eksamen desember 2016

for x 0 F X (x) = 0 ellers Figur 1: Parallellsystem med to komponenter Figur 2: Seriesystem med n komponenter

ST0202 Statistikk for samfunnsvitere

STK juni 2018

Høgskolen i Telemark. Institutt for økonomi og informatikk FORMELSAMLING Statistikk I. Til bruk ved eksamen. Per Chr. Hagen

Løsning eksamen desember 2017

Litt om Javas håndtering av tall MAT-INF 1100 høsten 2004

ST0202 Statistikk for samfunnsvitere

UNIVERSITETET I OSLO

Eksamensoppgave i TMA4240 Statistikk

Kort overblikk over kurset sålangt

Likninger - en introduksjon på 8. trinn Hva er en likning og hva betyr å løse den?

Øgrim Bakken Pettersen Skrindo Thorstensen Thorstensen. Digitalt verktøy for Sigma 1P TI-84

Eksamensoppgave i ST0103 Brukerkurs i statistikk

lage og bruke funksjoner som tar argumenter lage og bruke funksjoner med returverdier forklare forskjellen mellom globale og lokale variabler

Sannsynlighetsregning og Statistikk.

Forslag til endringar

Eksamensoppgave i ST0103 Brukerkurs i statistikk

Løsning eksamen desember 2016

TMA4245 Statistikk Høst 2016

år i alder x i tid y i i=1 (x i x) 2 = 60, 9

TMA4240 Statistikk Høst 2009

TMA4245 Statistikk. Innlevering 3. Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag

TMA4240 Statistikk 2014

Notasjon og Tabell 8. ST0202 Statistikk for samfunnsvitere

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

TMA4240 Statistikk Høst 2015

Oblig2 - obligatorisk oppgave nr. 2 (av 4) i INF1000

Kap. 8: Utvalsfordelingar og databeskrivelse

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

ST0202 Statistikk for samfunnsvitere Kapittel 6: Normalfordelingen

Øgrim Bakken Pettersen Skrindo Thorstensen Thorstensen. Digitalt verktøy for Sigma 1P. Casio fx 9860

ting å gjøre å prøve å oppsummere informasjonen i Hva som er hensiktsmessig måter å beskrive dataene på en hensiktsmessig måte.

Oppfriskning av blokk 1 i TMA4240

MAT1030 Forelesning 2

DEL 1 GRUNNLEGGENDE STATISTIKK

MAT-INF 1100: Obligatorisk oppgave 1

Utvalgsfordelinger. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer.

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

Transkript:

Matematisk institutt STAT200 Anvendt statistikk Universitetet i Bergen 3. mars 2004 Dataøvelse 4 Kjikvadratfordeling A. Formål med øvelsen Øvelsen skal vise hvordan SAS-systemet kan brukes til å generere tilfeldige verdier som kan danne grunnlag for studium av mer kompliserte fordelinger. På denne måten skal man sette opp empiriske histogrammer for variable som følger kjikvadratfordelinger med ulike antall frihetsgrader. Formen på histogrammene skal så sammenlignes med diagrammer som viser forløpet av de tilhørende sannsynlighetstetthetene. Øvelsen skal slik gi en slags empirisk begrunnelse for det vanlige uttrykket for kjikvadrattettheten. Samtidig skal histogrammene bidra med inntrykk av hvor store sprang man må regne med å få i frekvensfordelinger for variable som følger en glatt sannsynlighetsfordeling, til og med i ganske store datamaterialer. B. Løkker i data-steg Programteknisk utgjør ordinære data-steg automatisk en løkke, som gjennomløpes én gang for hver observasjon i datasettet. I enkelte situasjoner har vi også bruk for å definere løkker internt i et data-steg. Dette foregår ved DO-setninger av forskjellig type. En løkke blir dannet av en DO group, innledet ved en DOsetning, etterfulgt av andre setninger som vanlig i et data-steg, og avsluttet av en spesiell END-setning. Løkkene kan om ønskelig bli nøstet inni hverandre. DO-setninger blir beskrevet på egne manualsider på Internett under Base SAS Software. Det enkleste kan være å lete etter DO ved hjelp av Search. Eventuelt kan man bevege seg innover i systemet ved å gå til SAS Language Reference: Dictionary og deretter til Dictionary of Language Elements og Statements. Listen med mulige grunnleggende setninger i SAS kan være nyttig også i mange andre situasjoner. Den formen av DO-setningen som særlig er aktuell, kan illustreres ved følgende eksempel: DO I = 3 TO 25 BY 2; Løkken vil i dette tilfellet gjennomgås først for verdien 3 av variabelen I, så for verdien 3+2=5, deretter for 5+2=7, osv., inntil den siste verdien I = 25 blir nådd. Legg spesielt merke til at indeksvariabelen I blir tatt med i det ferdige datasettet som produseres, med mindre det gis uttrykkelig beskjed om det motsatte.

4.2 C. Generering av nye observasjoner inne i et data-steg I mange situasjoner vil antallet observasjoner (datalinjer) i et SAS-datasett være gitt ved antallet linjer lest fra en ytre fil, forutsatt at data-steget inneholder en INFILE-setning. Blir et SAS-datasett dannet på grunnlag av et tidligere SASdatasett, vil antallet observasjoner normalt være likt i de to datasettene. I spesielle tilfeller ønsker man imidlertid å danne nye observasjoner etter et mønster som ikke følger oppsettet for dataene slik de leses inn. Dette er særlig aktuelt dersom man definerer alle verdiene av variablene i det nye SAS-datasettet ved regneforskrifter gitt inne i data-steget. I slike situasjoner kan man benytte en OUTPUT-setning på en bestemt plass i data-steget, etter at alle de aktuelle verdiene er definert. Denne setningen er beskrevet nøyere på egne manualsider på Internett. Det enkleste er å gå til samme liste over aktuelle setninger som angitt ovenfor for DO-setningen og så velge OUTPUT. Alternativt kan man også her søke etter ordet OUTPUT, men akkurat dette uttrykket brukes også i så mange andre sammenhenger i SAS at det lett kan bli forvirrende. I oppsett for data-steg som ikke inneholder noen OUTPUT-setning, blir nye observasjoner automatisk lagt til datasettet hver gang man kommer til slutten av steget. Forekommer det derimot minst én OUTPUT-setning, blir nye observasjoner generert bare hver gang man støter på en slik setning. Ofte er det aktuelt å kombinere OUTPUT-setninger med DO-løkker. Hvis regningene inne i løkken viser hvordan de aktuelle variablene skal regnes ut, er det naturlig at den aktuelle observasjonen (datalinjen) virkelig blir generert på slutten av løkken, dvs. like foran END-setningen. LSB behandler slike problemstillinger på side 146. Selve OUTPUT-setningen blir omtalt på side 144 i LSB. Som vist der, kan man også skrive ut datalinjer til flere datasett i samme data-steg ved å angi navnet på datasettet like etter OUTPUT-setningen. Vi har tidligere generert nye datasett ved hjelp av DO-løkker og OUTPUT i siste del av Øvelse 1 (ved utregning av Poisson-sannsynligheter) og i Øvelse 2 (ved generering av mange observasjonssett bestående av 3 normalfordelte verdier). D. Utregning av nye verdier i et data-steg I mange situasjoner ønsker vi å innføre nye variable underveis i et data-steg, eller vi vil forandre på verdiene til variable som allerede er innført. I slike tilfeller kan vi ganske enkelt sette opp tilordningssetninger inne i datasteget med det aktuelle variabelnavnet til venstre for et likhetstegn. Til høyre for likhetstegnet kan vi skrive inn et passende regneuttrykk, der det inngår konstanter eller verdier av variable som allerede er definert. Hvis vi fører opp samme variabelnavn i uttrykket på høyresiden som vi har på venstresiden, gjelder den gamle verdien på høyresiden (mens den nye verdien på venstresiden kan være noe helt annet). Kompliserte regneuttrykk på høyresiden kan være satt sammen ved addisjon (angitt ved +), subtraksjon ( ), multiplikasjon ( ) og divisjon (/). Rekkefølgen av de ulike regneoperasjonene kan angis ved parenteser. Egne manualsider

4.3 viser hvordan slike uttrykk kan bygges opp. Velg SAS Language Reference: Concepts, så SAS System Concepts og deretter Expressions. Spesielt er opplysningene under SAS Operators in Expressions nyttige. På mange måter kan disse reglene minne om tilsvarende regler i vanlige programmeringsspråk (og andre statistikkprogrammer), men legg likevel merke til at SAS følger enkelte spesielle konvensjoner. F. eks. betegnes potensering med to stjerner. LSB gir på side 66 eksempler på tilordningssetninger med regneuttrykk. Ofte er det bruk for verdier av bestemte funksjoner i slike regneuttrykk. SAS har svært mange standardfunksjoner tilgjengelig. Dette er forklart på side 68 71 i LSB, selv om listen som er gitt der, bare omfatter et lite utvalg av de aktuelle funksjonene. F. eks. er eksponensialfunksjonen e x utelatt. Den betegnes som EXP(X) i SAS. Kvadratroten x skrives som SQRT(X) (eller den kan uttrykkes som x 1/2, dvs. som X 0.5). En mer omfattende liste kan finnes på Internett ved å velge etter tur SAS Language Reference: Concepts, SAS System Concepts og Functions and CALL Routines. Her er funksjonene ordnet i forskjellige kategorier, avhengig av anvendelsestypen, f. eks. med matematiske funksjoner samlet for seg. I Øvelse 1 anvendte vi tilordning ved hjelp av regneuttrykk i siste del med funksjonen POISSON(M,X) for kumulative Poissonsannsynligheter. I Øvelse 2 genererte vi på denne måten variable som fulgte en generell normalfordeling (µ, σ) på grunnlag av standardnormalfordelte variable. E. Tittellinjer i utskrift fra SAS Vi har hittil brukt en setning innledet med ordet TITLE for å vise i utskriften hvem resultatene tilhører. I prinsippet kan man på denne måten naturligvis oppgi en vilkårlig tekst som kommer som overskrift på sidene i Output-vinduet. I mange situasjoner kan det være aktuelt med flere linjer av denne typen. F. eks. kan vi fortsatt ønske å anvende første tittellinje til å vise studentnavnet i hele utskriften, mens vi i tillegg vil bruke undertitler som veksler etter hvert som SAS går gjennom ulike prosedyrer. Dette kan lett oppnås med tilsvarende setninger som blir innledet med ordene TITLE2, TITLE3, osv. På denne måten kan vi definere inntil 10 ulike tittellinjer. Her tilsvarer TITLE1 den gamle angivelsen TITLE. En bestemt av titlene kan skiftes ut i løpet av en SAS-kjøring ved å angi TITLE-setningen på nytt. Dette er forklart nøyere i manualsidene for TITLE. Disse sidene kan velges ut på listen over mulige Statements som forklart ovenfor for DO-setningen. (Også begrepet TITLE benyttes i mange sammenhenger i SAS, så det er vanskelig å søke på riktig uttrykk.) Det finnes også et tilsvarende sett med kommandoer FOOTNOTE. Se også LSB side 91.

4.4 F. Flere plott i samme diagram Som forklart i øvelse 3 kan man bruke proc plot eller proc gplot til å sette opp spredningsdiagrammer for gitte x- og y-variable. Flere plott kan genereres med samme PLOT-setning med flere spesifikasjoner av typen Y X. Vanligvis vil dette gi et nytt plott for hvert variabelpar. Oppgir man imidlertid opsjonen OVERLAY til slutt i en bestemt PLOT-setning, etter en skråstrek, vil de tilhørende plottene bli stilt opp i et felles koordinatsystem. Muligheten er beskrevet på side 117 i LSB (som riktignok bare omtaler proc plot ). I plott produsert av proc gplot er det av og til rimelig å tegne opp glatte forbindelseslinjer mellom de aktuelle punktene. Dette kan oppnås ved setningen SYMBOL INTERPOL = SPLINE; før den aktuelle PLOT-setningen. G. Generering av verdier fra en normalfordeling I data-steget i SAS er det tilgjengelig en rekke funksjoner som produserer verdier fra stokastiske variable med oppgitte sannsynlighetsfordelinger. I oversikten Function categories er dette kategorien Random Number Functions. Spesielt gir funksjonen RANNOR verdier fra en standardnormalfordeling. I virkeligheten blir disse verdiene beregnet ut fra en bestemt matematisk forskrift, men poenget er at en følge med slike verdier oppfører seg statistisk som om vi trakk uavhengige observasjoner fra normalfordelingen. Egentlig er hele følgen med verdier bestemt automatisk når vi fastlegger hvordan første verdi skal beregnes. Vi spesifiserer hvordan følgen skal innledes ved å oppgi et eget frø ( seed ). Dette er argumentverdien som blir skrevet opp i SAS-programmet sammen med funksjonsnavnet RANNOR. Man kan her skrive opp et vilkårlig positivt heltall. Men som forklart på manualsidene for Random number functions blir dette frøet bare utnyttet første gangen funksjonen kalles opp. Dette er altså det første stedet i data-steget der det blir referert til funksjonen, for første observasjon. Man kan godt generere flere stokastiske variable fra samme fordeling etter hverandre innenfor for samme observasjon, men disse verdiene stammer i så fall fra senere ledd i samme følge med tilsynelatende tilfeldige verdier. Argumentverdiene som oppgis for funksjonen RANNOR etter første kall har prinsipielt ingen betydning. RANNOR ble utnyttet allerede i siste del av øvelse 2. H. Øvelsesopplegg Vi har generelt definert kjikvadratfordelingen ved å stille opp uttrykk for en tilsvarende variabel W, gitt ved hjelp av standardnormalfordelte variable Z i. Vil vil nå utnytte denne sammenhengen til å generere tilfeldige verdier fra aktuelle kjikvadratfordelinger.

4.5 1. Bruk SAS til å generere et datasett som inneholder tre variable W1, W2 og W3 som er kjikvadratfordelt med henholdsvis 1, 2 og 3 frihetsgrader. Datasettet skal inneholde i alt 500 datalinjer med verdier for W1, W2 og W3. Hver linje skal bli dannet ved først å trekke tilfeldige verdier for 3 uavhengige standardnormalfordelte variable. Sett opp et passende data-steg som leder til et datasett av denne typen. Titt på toppen av datasettet i VIEWTABLE etter at data-steget er kjørt for å kontrollere at resultatene ser rimelige ut. 2. La proc gchart konstruere histogrammer for de tre fordelingene for W1, W2 og W3, med klasseinndeling (0.0,0.2], (0.2,0.4],..., (7.8,8.0], (8.0, ). Bruk også proc univariate for å studere de tre fordelingene. Ta utskrift av Log-vinduet og Output-vinduet, og start SAS på nytt hvis alt er i orden. Sannsynlighetstettheten for kjikvadratfordelingen med k frihetsgrader kan skrives på denne formen: f(x) = 1 2 k/2 Γ(k/2) x(k/2) 1 e x/2, x > 0. Her står Γ for den såkalte gammafunksjonen (definert ved integraluttrykket Γ(y) = t y 1 e t dt). Funksjonen er tilgjengelig som standard Mathematical 0 Function i SAS. Vi ønsker nå skisser av sannsynlighetstettheten for k = 1, k = 2 og k = 3. Vi kan da anse ulike sammenhørende verdipar (x, y) med y = f(x) som om de stammet fra forskjellige observasjoner i et SAS-datasett. 3. Still opp et data-steg som skal produsere et SAS-datasett der hver observasjon inneholder fire variable X, Y1, Y2, Y3. Størrelsene Y1, Y2, Y3 skal angi verdiene av tettheten f(x) når vi har henholdsvis 1, 2 og 3 frihetsgrader. De ulike observasjonene i datasettet skal f. eks. tilsvare X-verdiene 0.0, 0.1, 0.2,..., 7.9, 8.0. Utfør data-steget og kontroller at verdiene i datasettet ser rimelige ut (spesielt for første observasjon!). 4. Bruk proc plot til å tegne opp aktuelle skisser av de tre tetthetene i hvert sitt diagram i Output-vinduet. Lag dessuten et diagram i et grafikkvindu med proc gplot der alle tre tetthetene er tegnet inn oppå hverandre med glatting. Ta utskrift av resultatene og av Log-vinduet. Under kjøringene med SAS skal det hele veien brukes passende titler og undertitler. I. Spørsmål som skal besvares ved innleveringen a) Hvilke estimater for forventning og varians i de tre kjikvadratfordelingene fører simuleringene til? Sammenlign med de tilsvarende teoretiske verdiene. b) Betrakt Table B.1 for kjikvadratfordeling i læreboken av J. H. Zar (på side App12). Se spesielt på verdiene i tabellen for α = 0.05 og α = 0.01 tilsvarende ν = 1, 2 og 3. Utnytt resultatene fra simuleringen til å finne estimater for de samme størrelsene. Er det god overensstemmelse?