Kapittel 12 Statistikk og sannsynlighetsregning



Like dokumenter
Kontinuerlige sannsynlighetsfordelinger.

TMA4240/TMA4245 Statistikk: Oppsummering kontinuerlige sannsynlighetsfordelinger

Høgskolen i Gjøviks notatserie, 2001 nr 5

MAT4010 PROSJEKTOPPGAVE: Statistikk i S2. Olai Sveine Johannessen, Vegar Klem Hafnor & Torstein Mellem

ST0202 Statistikk for samfunnsvitere Kapittel 6: Normalfordelingen

UNIVERSITETET I OSLO

ST0202 Statistikk for samfunnsvitere Kapittel 9: Inferens om én populasjon

6.2 Normalfordeling. Høyde kvinner og menn. 6.1 Kontinuerlig uniform fordeling. Kapittel 6

Diskrete sannsynlighetsfordelinger som histogram. Varians. Histogram og kumulativ sannsynlighet. Forventning (gjennomsnitt) (X=antall mynt i tre kast)

Statistikk, FO242N, AMMT, HiST 2. årskurs, 30. mai 2007 side 1 ( av 8) LØSNINGSFORSLAG HØGSKOLEN I SØR-TRØNDELAG

Utvalgsfordelinger. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer.

1 Section 4-1: Introduksjon til sannsynlighet. 2 Section 4-2: Enkel sannsynlighetsregning. 3 Section 5-1: Introduksjon til sannsynlighetsfordelinger

Oppfriskning av blokk 1 i TMA4240

Terningkast. Utfallsrommet S for et terningskast med en vanlig spillterning med 6 sider er veldefinert 1, 2, 3, 4, 5, 6

Høgskolen i Telemark. Institutt for økonomi og informatikk FORMELSAMLING Statistikk I. Til bruk ved eksamen. Per Chr. Hagen

Illustrasjon av regel 5.19 om sentralgrenseteoremet og litt om heltallskorreksjon (som i eksempel 5.20).

ST1101/ST6101 Sannsynlighetsregning og statistikk Vår 2019

TMA4240/TMA4245 Statistikk Oppsummering diskrete sannsynlighetsfordelinger

Sannsynlighetsregning og Statistikk.

Diskrete sannsynlighetsfordelinger som histogram. Varians. Histogram og kumulativ sannsynlighet. Binomial-fordelingen

Løsningsforslag Til Statlab 5

I denne øvingen vil vi sammenlikne det teoretiske resultat med et grafisk bilde av konturlinjene til flaten. Vi tegner konturene der

STK1000 Uke 36, Studentene forventes å lese Ch 1.4 ( ) i læreboka (MMC). Tetthetskurver. Eksempel: Drivstofforbruk hos 32 biler

Binomisk sannsynlighetsfunksjon

Statistikk og dataanalyse

Formelsamling V-2014 MAT110. Statistikk 1. Per Kristian Rekdal

Lær å bruke GeoGebra 4.0

TMA4245 Statistikk Eksamen desember 2016

Et lite notat om og rundt normalfordelingen.

UNIVERSITETET I OSLO

Løsningsforslag til obligatorisk innlevering 3.

Litt mer om eksponensialfordelingen

Løsningsforslag AA6526 Matematikk 3MX Privatister 3. mai eksamensoppgaver.org

Et lite notat om og rundt normalfordelingen. Anta at vi har kontinuerlige data. Hva er likt og ulikt for histogrammer og fordelingskurver?

Kontinuerlige stokastiske variable.

ST0202 Statistikk for samfunnsvitere

EKSAMEN I TMA4245 Statistikk

Et lite notat om og rundt normalfordelingen.

Forelesning 5: Kontinuerlige fordelinger, normalfordelingen. Jo Thori Lind

Gammafordelingen og χ 2 -fordelingen

Forelening 1, kapittel 4 Stokastiske variable

Medisinsk statistikk Del I høsten 2009:

Kapittel 4.4: Forventning og varians til stokastiske variable

TMA4240 Statistikk Høst 2008

Kapittel 8: Tilfeldige utvalg, databeskrivelse og fordeling til observatorar, Kapittel 9: Estimering

Kapittel 4.3: Tilfeldige/stokastiske variable

Utvalgsfordelinger; utvalg, populasjon, grafiske metoder, X, S 2, t-fordeling, χ 2 -fordeling

A) B) 400 C) 120 D) 60 E) 10. Rett svar: C. Fasit: ( 5 6 = 60. Hvis A, B, C er en partisjon av utfallsrommet S, så er P (A B) lik.

MAT 100a - LAB 3. Vi skal først illustrerere hvordan Newtons metode kan brukes til å approksimere n-te roten av et positivt tall.

Sted Gj.snitt Median St.avvik Varians Trondheim Værnes Oppdal

Statistikk 1 kapittel 5

ST0103 Brukerkurs i statistikk Høst 2014

Mer om hypotesetesting

ECON Statistikk 1 Forelesning 4: Stokastiske variable, fordelinger. Jo Thori Lind

ST0202 Statistikk for samfunnsvitere

Tilfeldige variable (5.2)

Statistisk beskrivelse av enkeltvariabler. SOS1120 Kvantitativ metode. Disposisjon. Datamatrisen. Forelesningsnotater 6. forelesning høsten 2005

Oppgave 1: Feil på mobiltelefoner

Kapittel 3: Studieopplegg

ÅMA110 Sannsynlighetsregning med statistikk, våren Kp. 3 Diskrete tilfeldige variable. Diskrete tilfeldige variable, varians (kp. 3.

TMA4240 Statistikk Høst 2012

Statistikk 1 kapittel 5

Eksamensoppgave i TMA4240 Statistikk

ST0103 Brukerkurs i statistikk Høst 2014

1 Section 7-2: Estimere populasjonsandelen. 2 Section 7-4: Estimere µ når σ er ukjent

TMA4240 Statistikk H2010 Kapittel 5: Diskrete sannsynlighetsfordelinger : Uniform, binomisk, hypergeometrisk fordeling

Tabell 1: Beskrivende statistikker for dataene

Medisinsk statistikk Del I høsten 2008:

Kontinuerlige sannsynlighetsfordelinger.

Utvalgsfordelinger. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer.

Løsning på Dårlige egg med bruk av Tabell 2 i Appendix B

Sannsynlighet og statistikk S2 Løsninger

Eksamen REA3028 S2, Høsten 2012

Kapittel 6: Kontinuerlige sannsynlighetsfordelinger : Normalfordelingen, normalapproksimasjon, eksponensial og gamma.

TMA4240 Statistikk H2010

Utfordring. TMA4240 Statistikk H2010. Mette Langaas. Foreleses uke 40, 2010

Regler i statistikk STAT 100

Løsning eksamen desember 2016

ÅMA110 Sannsynlighetsregning med statistikk, våren ÅMA110 Sannsynlighetsregning med statistikk, våren 2010

Sannsynlighet og statistikk

: subs x = 2, f n x end do

Statistikk 1. Nico Keilman. ECON 2130 Vår 2014

Sentralverdi av dataverdi i et utvalg Vi tenker oss et utvalg med datapar. I vårt eksempel har vi 5 datapar.

EKSAMEN. Flexibel ingeniørutdanning, 2kl. Bygg m.fl.

TMA4245 Statistikk Høst 2016

Bernoulli forsøksrekke og binomisk fordeling

TMA4240 Statistikk 2014

Togforsinkelsen (Eksamen Des2003.1a) I denne oppgaven kan du bruke uten å vise det at

Betinget sannsynlighet

Siden vi her har brukt første momentet i fordelingen (EX = EX 1 ) til å konstruere estimatoren kalles denne metoden for momentmetoden.

Introduksjon til statistikk og dataanalyse. Arild Brandrud Næss TMA4240 Statistikk NTNU, høsten 2013

Første sett med obligatoriske oppgaver i STK1110 høsten 2015

ÅMA110 Sannsynlighetsregning med statistikk, våren 2011

Hypotesetesting. Hvorfor og hvordan? Gardermoen 21. april 2016 Ørnulf Borgan. H. Aschehoug & Co Sehesteds gate 3, 0102 Oslo Tlf:

Galton-brett og sentralgrenseteorem

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Dekkes av pensumsidene i kap. lesingsnotatene. Hypotesetesting er en systematisk fremgangsmåte

TALLSVAR. Det anbefales at de 9 deloppgavene merket med A, B, teller likt uansett variasjon i vanskelighetsgrad. Svarene er gitt i <<< >>>.

Konfidensintervall for µ med ukjent σ (t intervall)

ÅMA110 Sannsynlighetsregning med statistikk, våren 2008

Transkript:

Kapittel Statistikk og sannsynlighetsregning. Stokastiske variable En stokastisk variabel antar forskjelligee verdier fra et utfallsrom til en hendelse, ( f.eks. måleresultater fra et eksperiment). Verdiene har en diskret elller kontinuerlig fordeling. Forventningsverdien uttrykker noe om det mest sannsynlige utfallet, mens variansen og standardavviket sier noe om spredningen av målingene rundt forventningsverdien. Forventningsverdi og varians til en diskret fordeling x Range 0, 7 0,,, 3, 4, 5, 6, 7 Diskret fordelingsfunksjon : pdf x 0., 0., 0.7, 0.7, 0., 0.07, 0.03, 0.0 ; Sannsynlighetene summerer seg opp til som de skal : Sum pdf x i, i, 8. En mer elegant programeringskode benytter seg av funksjonal programmeringsteknikk : Fold Plus, 0, pdf x. n Kumulativ fordelingsfunksjon i pdf x i kan beregnes enkelt ved FoldList- kommandoen: cdf x FoldList Plus, 0, pdf x 0, 0., 0.33, 0.6, 0.77, 0.89, 0.96, 0.99,. x pdf x 0, 0., 0.54, 0.5, 0.48, 0.35, 0.8, 0.07 7 Forventningsverdien, i 0 x i pdf x i kan beregnes ved Fold - kommandoen : Μ Fold Plus, 0, x pdf x.35 x pdf x 0, 0.,.08,.53,.9,.75,.08, 0.49

Statistikk ver 7.nb TableForm Transpose x, pdf x, x pdf x, x pdf x, TableHeadings None, "x", "P X x ", "x P X x ", "x P X x ", TableSpacing, x P X x x P X x x P X x 0 0. 0 0 0. 0. 0. 0.7 0.54.08 3 0.7 0.5.53 4 0. 0.48.9 5 0.07 0.35.75 6 0.03 0.8.08 7 0.0 0.07 0.49 Kontrollerer at sannsynlighetene summeres opp til som påkrevd : Apply Plus, pdf x. Alternativ kode for forventningsverdien : X Apply Plus, x pdf x.35 X Apply Plus, x pdf x 8.07 Beregning av utvalgets varians og standardavvik : Var X X X.5475 SD X.59609 Var X Grafisk illustrasjon av fordelingsfunksjonen BarChart pdf x, ChartStyle "GrayYellowTones " 0.5 0.0 0.5 0.0 0.05 n Den kumulative fordelingen i p x i illustreres her :

Statistikk ver 7.nb 3 BarChart cdf x, ChartStyle "Rainbow".0 0.8 0.6 0.4 0. Programmet leverer en rekke skjemaer for diagramstiler. Merk ordet ChartStyle og klikk F- tasten for mer informasjon. Forventningsverdi og varians til en uniform fordeling Følgende data antas generert med lik sannsynlighet. Forventningsverdien er da lik middelverdien til datasettet. data 34, 37, 44, 3, 4, 4, 38, 45, 4, 38.0 ; mean Plus data Length data 39. Mean data 39. Beregning av varians til et utvalg kan du lett programmere selv når du husker hvordan lister behandles i Mathematica. Lister subtraheres og kvadreres elementvis: lst Range 5,, 3, 4, 5 Μ Mean lst 3 lst Μ,, 0,, lst Μ 4,, 0,, 4 Vi summerer kvadratet av differansene ved å anvende Plus - operatoren mellom elementene. Apply Plus, lst Μ 0 Derfor kan variansen til en liste defineres slik : myvariance data_ : Plus data Mean data Length data

4 Statistikk ver 7.nb myvariance data 9.7333 Vi kan sjekke svaret mot programmets egen beregning Variance data 9.7333. Diskrete sannsynlighetsfordelinger Vi vil først studere de mest benyttede diskrete fordelingene. Binomisk fordeling Et stokastisk forsøk består av n uavhengige delforsøk. Dersom hvert forsøk bare gir to utfall, A og A, og sannsynligheten p P A er lik i alle forsøk, kalles forsøksrekken binomisk. I løpet av delforsøkene vil hendelsen A forekomme X ganger. Da er X en binomisk fordelt variabel. Vi kan f.eks. trekke kuler fra en beholder som bare inneholder røde og blå kuler. Etter hvert delforsøk legges den uttrukne kula tilbake i beholderen slik at sannsynligheten er lik i alle delforsøk. Fordelingsfunksjonen for binomisk fordeling er gitt ved P X k_ n_ PDF BinomialDistribution n, p, k p k n p n k k P X n n n p p n Forventningsverdi og varians beregnes til : Mean BinomialDistribution n, p n p Variance BinomialDistribution n, p n p p ListPlot Table PDF BinomialDistribution 50, 0.4, x, x,, 50, Filling Axis 0.0 0.08 0.06 0.04 0.0 0 0 30 40 50 En gartner kjøper en pose med 3 solsikkefrø og planter ett frø i hver sin potte. Frøposen lover at spiresannsynligheten er p P A 0.67. I hvert delforsøk registrerer vi om frøene spirer eller ikke. Vi har da en binomisk forsøksrekke med tre forsøk, som betraktes som uavhengige av hverandre når vi følger anvisningene på posen. La X være antall frø som spirer. Vi vil bestemme sannsynlighetsfordelingen for X. Det finnes i alt 3 8 mulige kombinasjoner av spiring og ikke spiring. Første tilfelle er at ingen frø spirer i noen potter:

Statistikk ver 7.nb 5 En gartner kjøper en pose med 3 solsikkefrø og planter ett frø i hver sin potte. Frøposen lover at spiresannsynligheten er p P A 0.67. I hvert delforsøk registrerer vi om frøene spirer eller ikke. Vi har da en binomisk forsøksrekke med tre forsøk, som betraktes som uavhengige av hverandre når vi følger anvisningene på posen. La X være antall frø som spirer. Vi vil bestemme sannsynlighetsfordelingen for X. Det finnes i alt 3 8 mulige kombinasjoner av spiring og ikke spiring. Første tilfelle er at ingen frø spirer i noen potter: P X 0 3 p 3 Et frø kan spire, i hver av pottene. Det gir 3 nye muligheter. P X 3 3 p p To frø kan spire i tre ulike pottekombinasjoner P X 3 3 p p Til slutt kan alle frøene spire i alle pottene P X 3 3 p 3 Vi har altså funnet + 3 + 3 + = 8 mulige utfall. Siden dette er samtlige mulige utfall, kontrollerer vi at de summerer seg opp til : Sum P X n 3, n, 0, 3 Simplify p 0.67; ListPlot Table P X n 3, n, 0, 3, Filling Axis, PlotRange 0, 0.5, Ticks, "0",, "", 3, "", 4, "3", Automatic, AxesLabel "Spirende frø", "Sannsynlighet" Sannsynlighet 0.5 0.4 0.3 0. 0. 0 3 Spirende frø Bernoullifordeling Bernoullifordelingen gir verdien x med sannsynlighet p, og x 0 med sannsynlighet p. PDF BernoulliDistribution p, x p x 0 p x

6 Statistikk ver 7.nb Mean BernoulliDistribution p p Variance BernoulliDistribution p p p Andre utfall enn x 0 eller x er umulig PDF BernoulliDistribution p, 0 Fordelingen kan benyttes til å simulere myntkast med perfekte mynter: RandomInteger BernoulliDistribution, 0 0,, 0, 0,,, 0, 0,, 0,, 0,, 0, 0, 0, 0, 0,, 0 Bernoullifordelingen er identisk med den binomiske fordeling ved ett forsøk : Table PDF BinomialDistribution, p, k, k, 0, p, p Per deltar i et lotteri hvor en gevinst er gjemt i en av 0 bokser, og han skal peke ut riktig boks. Sannsynligheten for gevinst er derfor p = 0.. PDF BernoulliDistribution 0., 0. Etter hvert forsøk skyfles boksene. Sannsynligheten for gevinst endres derfor ikke ved nye forsøk. Forsøkene er binomisk fordelt. Dersom Per satser 5 ganger, er sjansen økt til ca. 33 %. PDF BinomialDistribution 5, 0., 0.3805 Hypergeometrisk fordeling Forventningsverdi og varians er gitt ved Mean HypergeometricDistribution n, p N, N n p Variance HypergeometricDistribution n, p N, N n p p N n N Det gjøres en serie delforsøk, hver med to mulige utfall. Sannsynligheten for et gunstig utfall er p. I en gruppe med opprinnelig N elementer er det M =p N gunstige elementer. Det gjøres n delforsøk, sannsynligheten avtar med antall forsøk. I en urnemodell svarer dette til at det trekkes ut elementer uten tilbaklegging slik at det stadig blir færre elementer å trekke fra. Sannsynligheten for å oppnå k gunstige utfall i løpet av n delforsøk er gitt ved PDF HypergeometricDistribution n, p N, N, k

Statistikk ver 7.nb 7 p N k N p N n k N n Lise fisker fra en oppdrettsmerd med 0 fisker, hvorav 0 store, fine kveiter. Lise foretar 40 kast med stanga, og hun får alltid napp. Antall kveiter som hun klarer å fange er hypergeometrisk fordelt. Et gunstig utfall i dette eksemplet er altså å dra en kveite. Sannsynligheten for at Lise får 5 kveiter er da gitt ved PDF HypergeometricDistribution 40, 0, 0, 5 N 0.3686 Sannsynligheten for maks 5 kveiter i fangsten når det kastes 40 ganger mot merden som inneholder 0 gunstige elementer (kveiter) finnes fra den kumulative fordelingsfunksjonen: CDF HypergeometricDistribution 40, 0, 0, 5 N 0.93 Plus Table PDF HypergeometricDistribution 40, 0, 0, k, k, 0, 5 N 0.93 ListPlot Table PDF HypergeometricDistribution 40, 0, 0, k, k,, 0, Filling Axis, FillingStyle Red 0.5 0.0 0.5 0.0 0.05 4 6 8 0 Plot CDF HypergeometricDistribution 40, 0, 0, k, k, 0, 0, AxesOrigin 0, 0.0 0.8 0.6 0.4 0. 4 6 8 0 Når populasjonen N er stor i forhold til utvalget, vil den hypergeometriske fordelingen med parametre n, p N, N være tilnærmet lik den binomiske fordelingen med parametre n, p. Dette begrunnes slik: La X være hypergeometrisk fordelt parametre n,p, N. VI innfører også q p. Vi ser først på approksimasjonen N n N n N n N N... N n n N n n sannsynlighetstettheten for den hypergeometriske forsøksrekka. når N n. Dette bruker vi i alle binomialkoeffisientene som forekommer i P X x p N x N n q N n x p N x q N n x x n x N n n n x n x px q n x n x px q n x n x px p n x

8 Statistikk ver 7.nb Når populasjonen N er stor i forhold til utvalget, vil den hypergeometriske fordelingen med parametre n, p N, N være tilnærmet lik den binomiske fordelingen med parametre n, p. Dette begrunnes slik: La X være hypergeometrisk fordelt parametre n,p, N. VI innfører også q p. Vi ser først på approksimasjonen N n N n N n N N... N n n N n n sannsynlighetstettheten for den hypergeometriske forsøksrekka. når N n. Dette bruker vi i alle binomialkoeffisientene som forekommer i P X x p N x N n q N n x p N x q N n x x n x N n n n x n x px q n x n x px q n x n x px p n x Her er den hypergeometriske fordelingen (røde kulehoder) med n 40, N 000 og p 0.4 sammenliknet med den binomiske fordelingen (blå kulehoder) med samme verdier for n og p. Overensstemmelsen er meget god. lp ListPlot Table PDF HypergeometricDistribution 40, 400, 000, k, k,, 30, Filling Axis, PlotStyle Red ; lp ListPlot Table PDF BinomialDistribution 40, 0.4, k, k,, 30, Filling Axis, PlotStyle Blue ; Show lp, lp 0. 0.0 0.08 0.06 0.04 0.0 5 0 5 0 5 30 Gjør tilsvarende sammenlikning med andre parametre, spesielt der utvalget n er en vesentlig del av totalmengden N. Demonstrasjon : http://demonstrations.wolfram.com/binomialapproximationtoahypergeometricrandomvariable/ Geometrisk fordeling Av og til er suksessfaktorer vanskelige å oppnå, og det kan være nødvendig med flere forsøk før første instans av gunstig utfall intreffer. I slike sammenhenger er det interessant å studere fordelingen av mislykkede utfall før suksess. Hvis det er sannsynlighet p for suksess, vil denne fordelingen være geometrisk fordelt med parameter p. Sannsynligheten for suksess etter n mislykkede forsøk er gitt ved fordeliongen PDF GeometricDistribution p, n p p n Mean GeometricDistribution p p

Statistikk ver 7.nb 9 Variance GeometricDistribution p p p Den kumulative fordeling følger av partialsummen til en geometrisk rekke : n p p i FullSimplify i 0 p n Dette resultatet framkommer også fra CDF - funksjonen i programmet. Vi må spesifisere at n er et positivt heltall for å få det enkleste uttrykket. FullSimplify CDF GeometricDistribution p, n, n Integers && n 0 p n Når du kaster perfekte terninger, er sannsynligheten for alle utfall mellom og 6 øyne like sannsynlige. Sannsynligheten for å få en sekser i hvert kast, er derfor p. Sansynligheten for å få en sekser etter nøyaktig 3 mislykkete forsøk, dvs. i det 6 fjerde kastet, er da gitt ved PDF GeometricDistribution, 3 N 6 0.0964506 Alle kastene er uavhengige av hverandre. Sannsynlighetene for suksess eller fiasko multipliseres derfor sammen, og den totale sannsynlighet avtar når du spør etter suksess etter n mislykkede kast. Men sannsynligheten for at du får en sekser i løpet av de 4 første kastene er over 50%. I grafene har vi økt antall mislykkede forsøk til 30. ListPlot Table k, PDF GeometricDistribution, k, k, 0, 30, Filling Axis 6 0.5 0.0 0.05 5 0 5 0 5 30 CDF GeometricDistribution, 3 N 6 0.57747 Sannsynligheten for minst 4 kast uten suksess er tilsvarende. CDF GeometricDistribution, 3 6 0.4853

0 Statistikk ver 7.nb ListPlot Table k, CDF GeometricDistribution, k, k, 0, 30, Filling Axis 6.0 0.8 0.6 0.4 5 0 5 0 5 30 Den geometriske fordelingsfunksjonen kan benyttes til å produsere (pseudo) tilfeldige heltall. Jo mindre verdi for p, jo større område genreres heltallene fra. RandomInteger GeometricDistribution, 30 6 5, 3, 5,, 3, 0, 9, 3,,, 5,, 0,, 8, 0,, 0,, 8, 4, 0, 3, 4, 3, 6, 4,, 5, RandomInteger GeometricDistribution 3, 30 6 0, 0,, 0,, 0,,, 0, 3,, 0,,, 0,,,, 0, 0,,, 0, 0,, 0, 0,,, 0 Poissonfordeling Antall forekomster av hendelsen A er poissonfordelt dersom alle forekomster av A i ikke-overlappende tidsintervaller er uavhengige av hverandre, forventet antall forekomster av A er konstant lik Λ pr. tidsenhet, og to forekomster kan ikke inntreffe på nøyaktig samme tid. Anta vi i løpet av de neste t tidsenheter observerer X forekomster av hendelsen A. Hvis poissonforutsetningene er oppfylt, vil X være poissonfordelt med parameter Μ Λ t. For gitte verdier av Λ og t vil vi derfor klare å beskrive fordelingen med en eneste parameter Μ. Sannsynligheten for en heltallig verdi k av den stokastiske variabelen X i en Poisson-fordeling er gitt ved PDF PoissonDistribution Μ, k Μ Μ k k Det er ikke mulig å benytte fordelingen på ikke - heltallige verdier av k PDF PoissonDistribution Μ, Π 0 Forventningsverdi og varians er like i Poissonfordelingen. Mean PoissonDistribution Μ Μ Variance PoissonDistribution Μ Μ

Statistikk ver 7.nb ListPlot Table k, PDF PoissonDistribution 0, k, k, 0, 30, Filling Axis 0. 0.0 0.08 0.06 0.04 0.0 5 0 5 0 5 30 Sannsynlighetstettheten summerer opp til. Den numeriske nøyaktigheten øker med større verdier for Μ NIntegrate PDF PoissonDistribution 0, x, x, 0,. Den kumulative fordelingen kan uttrykkes ved en av spesialfunksjonene i Mathematica. Vi ser av trappeformen på grafen at den vil inneholde Floor- funksjonen, som returnerer største heltall x. Husk at tetthetsfordelingen bare er definert for heltallige verdier av x. Plot Simplify CDF PoissonDistribution 0, x, x Integers, x,, 30, AxesOrigin 0, 0 Quiet.0 0.8 0.6 0.4 0. 5 0 5 0 5 30 CDF PoissonDistribution Μ, x Q x, Μ StandardForm GammaRegularized Floor x, Μ Erstatter vi Floor x x får vi en kontinuerlig graf. Her er grafene tegnet for Μ = 5,0,5,0.

Når n vil de to siste faktorene begge gå mot. Videre er lim Λ n Λ. Tilsammen gir dette Statistikk ver 7.nb Plot GammaRegularized x, & 5, 0, 5, 0, x, 0, 30.0 0.8 0.6 0.4 0. 5 0 5 0 5 30 Dersom vi lar x variere kontinuerlig, vil programmet vise grafen til den kumulative fordeling slik : Plot CDF PoissonDistribution 0, x, x, 0, 30.0 0.8 0.6 0.4 0. 5 0 5 0 5 30 Kristine fisker kontinuerlig med en line som dras etter båten hun ror. Hun har erfart at i snitt får hun 5 napp pr. time. Siden hun bruker bare et snøre, kan hun aldri få flere fisker ad gangen. La X være hendelsen at Kristine får fisk på kroken. Variabelen X vil da være poissonfordelt. Sannsynligheten for at Kristine får 6 napp den første timen er da P[X = 6] = N PDF PoissonDistribution 5, 6 0.463 Λ t 6 6 Λ t med Λ t 5 Sannsynligheten for å få mellom 0 og 0 napp i løpet av den første timen er vist i plottet under ListPlot Table k, PDF PoissonDistribution 5, k, k, 0, 0, Filling Axis 0.5 0.0 0.05 4 6 8 0 Poissonfordelingen sammenfaller med den binomiske fordelingen når antall delforsøk n er stort og sannsynligheten p liten. La X være binomisk fordelt, og husk at p Λ n P X x n x px p n x n n x x Λ n x Λ n x Λx x Λ n n n n... n x n x Λ n x.

Statistikk ver 7.nb 3 Poissonfordelingen sammenfaller med den binomiske fordelingen når antall delforsøk n er stort og sannsynligheten p liten. La X være binomisk fordelt, og husk at p Λ n P X x n x px p n x n n x x Λ n x Λ n x Λx x Λ n n n n... n x n x Λ n x. Når n vil de to siste faktorene begge gå mot. Videre er lim n Λ n n Λ. Tilsammen gir dette lim n P X x Λx x Λ. Variabelen X er altså tilnærmet poissonfordelt med parameter Λ t Λ Λ Her ser du en sammenlikning mellom binomisk fordeling og poissonfordeling for n 00, p 0. og Λ n p 0 lp ListPlot Table PDF BinomialDistribution 00, 0., x, x,, 40, Filling Axis, PlotStyle Red ; lp ListPlot Table PDF PoissonDistribution 0, x, x,, 40, Filling Axis, PlotStyle Blue ; Show lp, lp 0.0 0.08 0.06 0.04 0.0 0 0 30 40 Prøv tilsvarende sammenlikning med n 0, p 0.6, Λ 6. Hva konkluderer du? Demonstrasjon : http://demonstrations.wolfram.com/binomialapproximationtoapoissonrandomvariable/ Diskrete fordelinger i Mathematica 7 Hvis du er interessert i flere diskrete sannsynlighetsfordelinger, kan du finne en oversikt over alle fordelinger beskrevet i Mathematica i denne demonstrasjonen: http://demonstrations.wolfram.com/mathematica7sdiscretedistributions/.3 Kontinuerlige sannsynlighetsfordelinger Vi vender oss nå til kontinuerlige fordelinger. Gå til menyvalget Help Documentation Center. Skriv inn referansen guide/continuousstatisticaldistributions i søkefeltet. Her kan du lese at det finnes svært mange ulike typer fordelinger, mange av dem tilpasset spesielle formål. Vi vil generere datasett med de gitte fordelinger, og sammenlikne histogrammer med de toeretiske kontinyuerlige fordelingsfunksjonene. I den anledning illustrerer jeg noen av de grafiske muligheter programmet har for å visualisere resultatene, selv om helt enkle histogrammer ville gi samme informasjon. Vi starter med den enkleste fordelingen, uniform fordeling

4 Statistikk ver 7.nb Uniform fordeling Når sannsynlighetstettheten er konstant, kalles fordelingen uniform. f x_ PDF UniformDistribution min, max, x max min 0 True min x max Integrate f x, x, min, max, Assumptions min max Mean UniformDistribution min, max max min Variance UniformDistribution min, max max min Plot PDF UniformDistribution,, x, x,,, PlotStyle Thick, Red 0.5 0.4 0.3 0. 0. CDF UniformDistribution min, max, x x min max min min x max x max Plot CDF UniformDistribution,, x, x,,, PlotStyle Thick, Red.0 0.8 0.6 0.4 0. Mette løper hver torsdag en rundløype på 9 km. Sist torsdag oppdaget Mette at hun hadde mistet husnøkkelen på jogeturen. I utgsngspunktet tror hun at den kan være mistet hvor som helst, dvs. alle deler av strekningen er like sannsynlige. La X være posisjonen der nøkkelen ble mistet (målt i km, som avstand fra startpunktet). Mettes antagelse betyr at X er uniformt forsdelt over intervallet [0,9].

Statistikk ver 7.nb 5 Mette løper hver torsdag en rundløype på 9 km. Sist torsdag oppdaget Mette at hun hadde mistet husnøkkelen på jogeturen. I utgsngspunktet tror hun at den kan være mistet hvor som helst, dvs. alle deler av strekningen er like sannsynlige. La X være posisjonen der nøkkelen ble mistet (målt i km, som avstand fra startpunktet). Mettes antagelse betyr at X er uniformt forsdelt over intervallet [0,9]. f x_ : 9 0 x 9 0 True F x_ f x x 0 x 0 x 9 0 x 9 True F(x) svarer til den kunmulative fordelingsfunksjonen CDF UniformDistribution 0, 9, x x 9 0 x 9 x 9 Mette tror ved nærmere ettertanke at hun kanskje har mistet nøkkelen etter etveikryss ved 4.6 km, men før neste krysss ved 8.4 km. Sannsynligheten for dette svarer til arealet av det fargede området på grafen: p Plot F x, x,, 0, PlotStyle Thick, Red ; p Plot F x, x, 4.6, 8.3, AxesOrigin 0, 0, Filling Axis ; Show p, p.0 0.8 0.6 0.4 0. 4 6 8 0 P 4.6 x 8.3 F 8.4 F 4.6 0.4 Forventningsverdien til X er rimelig midtpunktet i løypa: Μ x f x x 9 Standardaviket er roten av variansen, i dette tilfellet

6 Statistikk ver 7.nb 9 Σ Sqrt x f x x Μ 0 3 3 N.59808 Demonstrasjon: http://demonstrations.wolfram.com/thecontinuousuniformdistribution/ Trekantfordeling PDF TriangularDistribution min, max, x 4 min x min max 4 max x min max min x max min max min x max Integrate PDF TriangularDistribution min, max, x, x, min, max, Assumptions min max Mean TriangularDistribution min, max max min Variance TriangularDistribution min, max max min 4 Plot PDF TriangularDistribution 0,, x, x, 0,.0.5.0 0.5 0. 0.4 0.6 0.8.0 Middelverdien av tilfeldig uniformt fordelte variabler er trekantfordelt : vals Mean RandomReal UniformDistribution, 0,, 0 ^ 6 ; Mean vals, Variance vals 5.49935, 3.36947 dist TriangularDistribution, 0 ;

Statistikk ver 7.nb 7 Mean dist, Variance dist N 5.5, 3.375 Gitt tetthetsfordelingen f x_ x 0 x x x 0 True PDF TriangularDistribution 0,,x x 0 x x x F x_ f x x 0 x 0 x 0 x x x x True P X F 0.5 0.5 Eksponentialfordeling Eksponentialfordelingen er knyttet til poissonprosessen, som ventetiden til en bestemt hendelse inntreffer. Ventetiden T i en poissonprosess er eksponentialfordelt med parameter Λ. Sannsynlighetstettheten er gitt ved: PDF ExponentialDistribution Λ, t Λ t Λ Vi definerer sannsynlighetstettheten for seinere bruk: f t_ Λ Exp Λ t ; Plot f t. Λ 0.05, t, 0, 0, AxesOrigin 0, 0, Filling Axis 0.05 0.04 0.03 0.0 0.0 5 0 5 0 Den kumulative fordelingsfunksjonen får vi ved å integrere over alle tider da denne parameter er kontinuerlig. Husk hvordan du definerte Riemannintegrasjon som grensen for en uendelig sum over infinitesimale intervaller. t F t_ f Τ Τ 0 t Λ Sjekker svaret :

8 Statistikk ver 7.nb Sjekker svaret : CDF ExponentialDistribution Λ, t t Λ t 0 0 True Sannsynlighetstettheten summerer opp til, slik den alltid må : Simplify f Τ Τ, Λ 0 0 Plot F t. Λ 0.05, t, 0, 00.0 0.8 0.6 0.4 0. 0 40 60 80 00 Fordelingsfunksjonen representerer også arealet under sannsynlighetstettheten. Plot f t. Λ 0.05, t, 0, 00, AxesOrigin 0, 0, Filling Axis 0.05 0.04 0.03 0.0 0.0 0 40 60 80 00 Vi kan begrunne at ventetiden T i en poissonprosess er eksponentielt fordelt. La X være antall forekomster i løpet av tiden t. Hvis T t må det bety at det ikke har vært forekomster før tiden t. Dermed er P T t P X 0 Λ t 0 0 Λ t Λ t Da må F t P T t P T t Λ t Sannsynlighetstettheten kan finnes ved å derivere fordelingsfunksjonen f t_ D F t, t Λ t Λ Forventningsverdien kan beregnes ut fra formelen

Statistikk ver 7.nb 9 Μ Simplify t f t t, Λ 0 0 Λ Sjekk Mean ExponentialDistribution Λ Λ Variansen kan beregnes ut fra definisjonen Var X E X E X, der E X Μ 0 x f x x Var Simplify Τ f Τ Τ, Λ 0 Μ 0 Λ Sjekk Variance ExponentialDistribution Λ Λ Ved et sentralbord har man registrert at det gjennomsnittlig går 0 sekunder mellom hvert anrop. Kundene ringer uavhengig av hverandre, de forventes å ringe like hyppig hele tiden, og ingen ringer nøyaktig samtidig. Poissonbetingelsene er derfor oppfylt, og ventetiden T vil være eksponentielt fordelt. Opplysningene gir videre at forventningsverdien er Μ = 0, dvs. Λ = /0 = 0.05 i denne oppgaven. Sentralborddamen trenger to minutters pause for å besøke toalettet. Sannsynligheten for at noen ringer i løpet av fraværet er da P T 0 F 0 0.05 0 6 T 0; F T. Λ 0.05 0.9975 N 6 0.9975 La X være antall anrop i løpet av perioden T. Vi vet da at X er poissonfordelt med parameter Λ T. Sannsynligheten for nøyaktig 6 anrop mens damen er fraværende, er da P X 6 0.6063 Λ T 6 6 Λ T. Λ 0.05 Eksponentialfordelingen har en viktig egenskap : den husker ikke tidligere hendelsesforløp. Vi kan si at den er historieløs. Anta at det allerede har gått en tid s siden siste hendelse. Sannsynligheten for at T skal "overleve" ytterligere t tidsenheter, er uforandret lik P T t, helt uavhengig av s. Dette kan begrunnes ved å se på den betingede sannsynligheten for at T t s, gitt at T s. P T t s T s P T t s P T s Λ s t Λ s Λ t P T t En del teknisk utstyr har en levetid T som er eksponentialfordelt. Er det noe poeng å drive vedlikehold på dette utstyret? Er det grunn til å skifte en lyspære som virker?. Nei! Siden eksponentialfordelingen er uten hukommelse, betyr det at utstyret er så godt som nytt- så lenge det virker. I tekniske sammenhenger kalles parameteren Λ ofte for sviktraten. Anta en komponent fungerer ved tidspunktet t. Hvis komponentens levetid er eksponentielt fordelt, vil sannsynligheten for at komponenten svikter i neste øyeblikk være proporsjonal med Λ. Tenk derivasjon, f t F ' t

0 Statistikk ver 7.nb En del teknisk utstyr har en levetid T som er eksponentialfordelt. Er det noe poeng å drive vedlikehold på dette utstyret? Er det grunn til å skifte en lyspære som virker?. Nei! Siden eksponentialfordelingen er uten hukommelse, betyr det at utstyret er så godt som nytt- så lenge det virker. I tekniske sammenhenger kalles parameteren Λ ofte for sviktraten. Anta en komponent fungerer ved tidspunktet t. Hvis komponentens levetid er eksponentielt fordelt, vil sannsynligheten for at komponenten svikter i neste øyeblikk være proporsjonal med Λ. Tenk derivasjon, f t F ' t Demonstrasjoner : http://demonstrations.wolfram.com/theexponentialdistribution/ http://demonstrations.wolfram.com/sampleversustheoreticaldistribution/ Normalfordeling Dette er den mest vanlige fordelingen av resultater i et stokastisk forsøk bestående av n uavhengige delforsøk. Eksempler kan være den totale vekt av Kristines fiskefangst eller kroppshøyden til en tilfeldig person.normalfordelingen oppstår som en grense til den binomiske fordelingen når antall delforsøk blir stort, som en slags videreføring av tankegangen bak poissonfordelingen. La oss vende tilbake til terningkast. Terningen kastes n ganger, og X er hendelsen at du får en sekser. Da er X binomisk fordelt med p. Hvis vi tegner opp fordelingsfunksjonen for ulike verdier av n, vil vi se at kurven nærmer seg den 6 berømte klokkeformen når n. Middelverdien er tegnet inn med rød strek, Μ = n p. p 6 ; lp ListPlot Table k, PDF BinomialDistribution 0, p, k, k, 0, 6, Filling Axis, Joined True, PlotLabel "n 0", Epilog Red, Line 0 p, 0, 0 p, 0.3 ; lp ListPlot Table k, PDF BinomialDistribution 0, p, k, k, 0,, Filling Axis, Joined True, PlotLabel "n 0", Epilog Red, Line 0 p, 0, 0 p, 0.3 ; lp3 ListPlot Table k, PDF BinomialDistribution 00, p, k, k, 0, 40, Filling Axis, Joined True, PlotLabel "n 00", Epilog Red, Line 00 p, 0, 00 p, 0. ; Show GraphicsRow lp, lp, lp3 0.30 0.5 0.0 0.5 0.0 0.05 n 0 0.0 0.5 0.0 0.05 n 0 0.0 0.08 0.06 0.04 0.0 n 00 3 4 5 6 4 6 8 0 0 0 30 40 Vi genererer 000 tilfeldige, standardnormalfordelte dataverdier og ser hvordan de passer inn i den teoretiske modellen.

Statistikk ver 7.nb hist Histogram RandomReal NormalDistribution 0,, 000, Automatic, "ProbabilityDensity " ; dist Plot PDF NormalDistribution 0,, x, x, 3, 3, PlotStyle Red ; Show hist, dist 0.4 0.3 0. 0. 4 3 0 3 Fordelingsfunksjonen for normalfordeling er gitt ved pdf x_, Μ_, Σ_ PDF NormalDistribution Μ, Σ, x x Μ Σ Π Σ f (x) oppfyller kravet til tetthetsfunksjon: Simplify pdf x, Μ, Σ x, Σ 0 Forventningsverdi og varians beregnes til : Mean NormalDistribution Μ, Σ Μ Variance NormalDistribution Μ, Σ Σ Standardavviket er altså lik Σ, så parametrene i fordelingsfunksjonen angir direkte forventningsverdi og standardavvik. Hvis en stokastisk variabel X er normalfordelt med middelverdi Μ og standardavvik Σ, skriver vi X N Μ, Σ. Verdiene på parametrene bestemmer formen på klokken. Grafen er symmetrisk om x Μ, og standardavviket Σ sier noe om breddenpå klokken.

Statistikk ver 7.nb Plot pdf x, 0,, pdf x,,, x, 4, 6 0.4 0.3 0. 0. 4 4 6 Funksjonen er symmetrisk om forventningsverdien Solve D pdf x, Μ, Σ, x 0, x, InverseFunctions True x Μ Vendepunktene opptrer der x Μ ± Σ. Solve D pdf x, Μ, Σ, x, 0, x x Μ Σ, x Μ Σ I praksis er vi mest interessert i den kumulative fordelingen. Denne gir sansynligheten P X x] for at resultatet av forsøket gir verdi minder enn x. Denne kan uttrykkes matematisk ved erf- funksjonen, definert ved erf x Π 0x x x Π erf x x x x 0 Faktoren foran integralet sørger for at funksjonen uttrykker en normert sannsynlighetstetthet Erf F x_ Simplify erf x Μ Σ x pdf y, Μ, Σ y, Σ 0 Denne samsvarer med programmets kumulative fordeling. CDF NormalDistribution Μ, Σ, x erf x Μ Σ Normalfordelingskurven har egenskapen at uansett verdier av parametrene Μ og Σ, vil arealet under kurven opp til x Μ Σ z være like stort.

Statistikk ver 7.nb 3 Μ zσ Simplify pdf x, Μ, Σ x, Σ 0 erf z Vi ser at svaret er uavhengig av Μ og Σ. I figuren under har vi illustrert dette arealet for {Μ,Σ} = {0,} og {Μ,Σ} = {6,3}for z. Det røde og blå feltet har samme areal. nf Plot pdf x, 0,, x, 4, 4, Ticks 3,, "z", 3, 6, 9, "Μ Σ z",, None ; nf Plot pdf x, 0,, x, 4,, Filling Axis ; nf3 Plot pdf x, 6, 3, x, 4, 4 ; nf4 Plot pdf x, 6, 3, x, 4, 9, Filling Axis, FillingStyle Directive Red, Opacity 0.5 ; Show nf, nf, nf3, nf4, PlotRange 4, 4, 0, pdf 0, 0, 3 z 3 6 Μ Σ z Dette betyr at P X Μ z Σ kun avhenger av z. Vi kan derfor velge Μ = 0, Σ = i det videre arbeid. Statistikerne har funnet at dette valget egner seg godt for beregninger innenfor denne fordelingen. Vi kaller den standardnormalfordelingen eller gaussfordelingen. Hvis X N Μ, Σ, så vil variabelen Z X Μ være gaussfordelt: Z N 0,. Den tilhørende kumulative fordelingsfunksjonen er gitt ved Σ G z P Z z z t t Π Sannsynlighetsfordelingen til variabelen Z må ha samme kurveform som fordelingen til X, bare med en annen skalering og translasjon langs aksene. Det følger at E Z 0 og Var Z. Når vi kjenner verdiene til G z, kan vi transformere tilbake for å finne F x for enhver normalfordelt variabel X. Dersom X N Μ, Σ gjelder F x G x Μ. Siden integralene ikke er elementære, er vi avhengig av tabeller eller numerisk Σ kalkulasjonsverktøy for å beregne sannsynligheter som er normalfordelt. Uansett hvilke verdier parametrene Μ og Σ har, er det omtrent 68% sjanse for a X får en verdi mindre enn ett standardavvik fra middelverdien.

4 Statistikk ver 7.nb nf5 Plot pdf x, 0,, x, 4, 4, Ticks 4, 3,,, "Μ Σ",, "Μ Σ",, 3, 4, None ; nf6 Plot pdf x, 0,, x,,, Filling Axis, PlotRange 0, pdf 0, 0, ; Show nf5, nf6 4 3 Μ Σ Μ Σ 3 4 Her viser vi at P Μ Σ x Μ Σ 0.68 Μ Σ pdf x, Μ, Σ x Simplify Μ Σ erf N 0.68689 Det er ca. 95 % sannsynlighet for at resultatet ligger inenfor to standardavvik fra middelverdien. nf5 Plot pdf x,,, x, 3, 5, Ticks 3,,, "Μ Σ", 0,,, 3, "Μ Σ", 4, Automatic ; nf7 Plot pdf x,,, x,, 3, Filling Axis, PlotRange 0, 0.4 ; Show nf5, nf7 0.4 0.3 0. 0. 3 Μ Σ Μ Σ 4 Μ Σ pdf x, Μ, Σ x Μ Σ erf N 0.9545 Vi ser på et par eksempler:

Statistikk ver 7.nb 5 Vi ser på et par eksempler: En limtredrager brekker hvis påkjenningene er større enn styrken drageren er dimensjonert for. En drager som tåler 00 kg, utsettes for en last X som er normalfordelt med forventningsverdi Μ = 990 kg og standardavvik Σ = 0 kg. Sannsynligheten for at drageren brekker, er da P X 00 F 00 - G( 00 990 ) = - G(.75) 0 G z_ : Π z t t P X 00 G.75 0.040059 Det er 4 % sannsynlighet for at drageren ryker. Kristines fiskefangst har en total vekt V som antas normalfordelt med Μ = 84 kg ogσ = kg. Sannsynligheten for at fangsten ender mellom 00 kg og 5 kg er da P[00 < X < 5] =P[X < 5] - P[X < 00] = F(5) - F(00) = G( P 00 X 5 G.48 G 0.76 0.549 5 84 ) - G( 00 84 )= G(.48) - G(0.76) Kvantiler Verdien z Α kalles Α - kvartilet til Z når P Z z Α Α. I gaussfordelingen kan vi regne ut kvantilet som verdien - G(z Α ). G.855 0. Quantile NormalDistribution Μ, Σ, x Simplify Σ erf x Μ Svaret finner vi ved å invertere den kumulative fordelingsfunksjonen Solve CDF NormalDistribution Μ, Σ, y x, y, InverseFunctions True y Σ erf x Μ Vi har nettopp funnet at dersom z =.855 er sannsynligheten P Z z 0. Abs Quantile NormalDistribution 0,, 0..855

6 Statistikk ver 7.nb nf8 Plot pdf x, 0,, x, 4, 4, Ticks.8, "z 0. ", None ; nf9 Plot pdf x, 0,, x,.8, 4, Filling Axis, PlotRange 0, pdf 0, 0, ; Show nf8, nf9 z 0. Sannsynligheten for at v den gaussfordelte variabelen Z ( med forventet verdi Μ = 0 og spredningsmål Σ = ) får en verdi større enn.8 er derfor 0., eller 0% sannsynlighet. Hvis resultatet skal være innenfor 95,45 % sannsynlighet, kan vi beregne intervallet som verdien må ligge i ved å løse likningen FindRoot G z G z 0.9545, z, z. Dette bekrefter at verdien ligger innenfor intervallet [Μ - Σ, Μ + Σ]. Normalfordelt sum La {X n } være n uavhengige og normalfordelte variabler med forventningsverdi {Μ n } og standardardavvik {Σ n }. Da vil n enhver lineærkombinasjon av {X n } være normalfordelt. Dersom a, a,... a n er konstanter, vil variabelen Y i a i X i n være normalfordelt med Μ i a i Μ i og Σ n i a i Σ i. Det siste følger generelt fra definisjonen av forventningsverdi og varians anvendt på uavhengige variabler Et firma selger tre ulike produkter rettet mot ulike markeder. Dekningsbidragene for produktene antas uavhengige og normalfordelte, slik at D N 0.8, 0.3, D N.3, 0.4, D 3 N 0.6, 0.5 (alle tall i millioner). 3 3 Vi ser at i Μ i.7 og i Σ i = 0.5. Dersom Y er summen av dekningsbidragene, blir Y D D D 3 N.7, 0.707. Sannsynligheten for at dekningsbidraget er mindre enn en fast kostnad på millioner kroner er da P Y F G.7 G 0.99 0.707 P Y G 0.99 0.6087 La X n være uavhengige variabler fra samme normalfordeling med forventningsverdi Μ og standardavvik Σ. Da er summen n Y i X i normalfordelt, Y N n Μ, n Σ. Men vi kan forsterke utsagnet ved hjelp av sentralgrenseteoremet, et av de viktigste teoretiske resultatene i statistikkfaget.

Statistikk ver 7.nb 7 Sentralgrenseteoremet La X n være uavhengige variabler fra samme sannsynlighetsfordeling med forventningsverdi Μ og standardavvik Σ X n n i X i er normalfordelt med forventningsverdi Μ og standardavvik Sentralgrenseteormet er et sterkt resultat fordi det gjelder uansett hvilken sannsynlighetsfordeling som gjelder for X n. n En variant av dette teoremet sier at summen Y i X i er tilnærmet normalfordelt, slik at Y N n Μ, n Σ. Tilnærmelsen blir bedre når antall forsøk n er stor. En tommelfingerregel sier at vi bør kreve n 0. Σ n. Tilnærming til normalfordeling Hvis X er binomisk, hypergeometrisk eller poissonfordelt med forventningsverdi Μ og standardavvik Σ, vil X være tilnærmet normalfordelt dersom Σ 5. Da gjelder P X x F x G x Μ Σ. Vi har tidligere sett at den hypergeometriske fordelingen nærmer seg den binomiske når n øker, som i sin tur nærmer seg poissonfordelingen. Hvis vi kan vise at binomialfordelingen nærmer seg normalfordelingen, har vimindirekte vist at alle tre fordelinger nærmer seg normalfordelingen. Anta derfor X er binomisk fordelt, X bin n, p. Vi antar at X er en sum av uavhengige indikatorvariabler, X I I... I n. Sentralgrenseteoremet sier da at X er tilnærmet normalfordelt med forventningsverdi Μ = n p og varians Σ n p p når n er stor. FindMaximum p p, p 0.5, p 0.5 Vi ser derfor at Σ n 4, hvor øvre grense svarwer til p 0.5. Vi å kreve Σ 5, sikrer vi at n 0. Dette resultatet forteller oss hvorfor normalfordelingen spiller en så stor rolle i statistikkfaget. Både binomisk, hypergeometrisk og poissonfordeling er diskrete fordelinger, og denne nye erkjennelsen sier altså at diskrete sannsynligheter kan beregnes ut fra en kontinuerlig modell når antall forsøk er rimelig stort. Tilnærmingen viser seg å bli enda bedre dersom vi innfører en heltallskorreksjon, x x 0.5: P X x F x G x 0.5 Μ Σ Vi ser igjen på borettslaget som plantet n 90 juletrær. Alle juletrær som kan høstes, kalles Y og er binomisk fordelt med sannsynlighet p = 0.4. Forventningsverdi og varians beregnes til Μ n p 37.8, Σ n p p.93 4.68. Betingelsen for å foreta normaltilnærming er oppfylt. Vi finner da 39 37.8 P Y 39 G G 0.56 4.68 Med heltallskorreksjon: P Y 39 G 39 0.5 37.8 G 0.363 4.68 Den eksakte binomiske sannsynligheten er tidligere beregnet til P X 39 39 y 0 Binomial 90, y p y p 90 y med p 0.4

8 Statistikk ver 7.nb G 0.56 G 0.363 39 P Y 39 With p 0.4, Binomial 90, y p y p 90 y 0.6005 0.64698 0.643466 y 0 Svaret med heltallskorreksjon er svært nøyaktig, tatt i betraktning at dette bare er en tilnærming. Gammafordelingen Det finnes mange kontinuerlige fordelingsfunksjoner. Felles for dem er at tetthetsfordelinger og kumulative fordelinger ofte uttrykkes ved avanserte matematiske funksjoner som du bør oppsøke vitenskapelig litteratur for å studere nærmere. Vi vil kort nevne noen av disse fordelingene. Gammafordelingen er definert for x 0 og beskrives ved to positive parametre Α og Β: data RandomReal GammaDistribution 3, 5, 000 ; histogram Histogram data, Automatic, "ProbabilityDensity ", ChartStyle LightBlue ; distrib Plot PDF GammaDistribution 3, 5, x, x, 0, 50, PlotStyle Thick, Red ; Show histogram, distrib, PlotRange 0, 50, All 0.06 0.05 0.04 0.03 0.0 0.0 0 0 30 40 50 PDF GammaDistribution Α, Β, x x Α x Β Α Β Α Tetthetsfunksjonen inneholder Gammafunksjonen. Dens viktigste egenskap er at den utvider fakultetsbegrepet til ikke heltallige positive og negative verdier. For et heltall n 0 gjelder at n n Derimot er n ikke definert. Tetthetsfunksjonen er nedenfor plottet for ulike verdier av Α og Β. Den beskriver typisk skjevfordelte instanser av X.

Statistikk ver 7.nb 9 Plot Tooltip PDF GammaDistribution, 4, x, PDF GammaDistribution 3,, x, x, 0, 5 0.5 0.0 0.5 0.0 0.05 5 0 5 0 5 Arealet under kurvene summerer seg opp til : Integrate PDF GammaDistribution Α, Β, x, x, 0,, Assumptions Α 0, Β 0 Mean GammaDistribution Α, Β Α Β Variance GammaDistribution Α, Β Α Β CDF GammaDistribution Α, Β, x Q Α, 0, x Β StandardForm GammaRegularized Α, 0, x Β Plot CDF GammaDistribution, 4, x, x, 0, 5.0 0.8 0.6 0.4 0. 5 0 5 0 5 Eksponentialfordelingen er et spesialtilfelle av gammafordelingen når Α =, Β = Λ. PDF GammaDistribution,, x Λ Λ x Λ Tante Olga har en lampe i huset sitt, og lampen bruker bare en pære. Hun har kjøpt 50 lyspærer på tilbud, hver av dem med eksponentialfordelt levetid, med Μ = Σ = 500 timer. Når en pære ryker, erstattes den umiddelbart med en fra tilbudspakken. La T være den totale tida Olga har lys i lampen sin, hel til siste pære er oppbrukt. Variabelen T er da gammafordelt med parametre (Α,Β) = (n, Λ) = (50, 500). Sannsynligheten for at Olga har brukt opp alle pærene før 8 år er gått, er da:

30 Statistikk ver 7.nb Tante Olga har en lampe i huset sitt, og lampen bruker bare en pære. Hun har kjøpt 50 lyspærer på tilbud, hver av dem med eksponentialfordelt levetid, med Μ = Σ = 500 timer. Når en pære ryker, erstattes den umiddelbart med en fra tilbudspakken. La T være den totale tida Olga har lys i lampen sin, hel til siste pære er oppbrukt. Variabelen T er da gammafordelt med parametre (Α,Β) = (n, Λ) = (50, 500). Sannsynligheten for at Olga har brukt opp alle pærene før 8 år er gått, er da: P T < 8 år] = P[T < 70000 timer]=cdf[gammadistribution[50, 500],70000] CDF GammaDistribution 50, 500, 70 000 N 0.3386 T er iflg sentralgrenseteoremet tilnærmet normalfordelt med E T n Μ n Λ Α Β 50 500 75 000, SD T n Σ n Λ P T 70 000 G 70 000 75 000 G 0.47 = 0.39 0 67 Plot CDF GammaDistribution 50, 500, x, x, 0, 0 000.0 Α Β 50 500 0 607. 0.8 0.6 0.4 0. 0 000 40 000 60 000 80 000 00 000 Lyspærene varer temmelig sikkert mer enn 6 år, men neppe lenger enn år : P T 6 CDF GammaDistribution 50, 500, 50 000 N 0.0048083 P T CDF GammaDistribution 50, 500, 05 000 N 0.994859 Betafordelingen Betafordelingen er definert for 0 < x og beskrives ved to positive parametre Α og Β:

Statistikk ver 7.nb 3 data RandomReal BetaDistribution 3, 6, 000 ; histogram Histogram data, Automatic, "ProbabilityDensity ", ChartStyle 6 ; distrib Plot PDF BetaDistribution 3, 6, x, x, 0,, PlotStyle Thick, Pink ; Show histogram, distrib 3.0.5.0.5.0 0.5 0. 0.4 0.6 0.8.0 PDF BetaDistribution Α, Β, x x Α x Β Α, Β Plot Tooltip PDF BetaDistribution, 5, x, PDF BetaDistribution,, x, PDF BetaDistribution 5,, x, x, 0,.5.0.5.0 0.5 0. 0.4 0.6 0.8.0 Arealet under kurvene summerer seg opp til : Integrate PDF BetaDistribution Α, Β, x, x, 0,, Assumptions Α 0, Β 0 Mean BetaDistribution Α, Β Α Α Β Variance BetaDistribution Α, Β Α Β Α Β Α Β CDF BetaDistribution Α, Β, x I x Α, Β

3 Statistikk ver 7.nb StandardForm BetaRegularized x, Α, Β Betafordelingen med parametre Α = Β = er ekvivalent med den uniforme fordelingen. PDF BetaDistribution,, x PDF UniformDistribution 0,, x 0 x 0 True Hvis X og X er uavhengig gammafordelt med samme skaleringsfaktorer Α, Β, så vil den tilfeldig variable betadistribuert med samme skaleringsfaktorer Α og Β. X X X være Maxwellfordelingen Denne fordeling er velkjent fra lærebøker i termodynamikk, da den representerer hastighetsfordelingen blant molekyler med temperatur T i en gass. Konstanten k som inngår i uttrykket, er Bolzmann's konstant. Hvert molekyl har masse m. Den midlere termiske bevegelsen til molekylene når de farer fram og tilbake i gassen er fordelt etter formelen: data RandomReal MaxwellDistribution 3, 000 ; histogram Histogram data, Automatic, "ProbabilityDensity ", ChartStyle ; distrib Plot PDF MaxwellDistribution 3, x, x, 0,, PlotStyle Thick, Green ; Show histogram, distrib 0.0 0.5 0.0 0.05 4 6 8 0 f v_ PDF MaxwellDistribution k T m, v Π v m v k T k T m 3 Midlere molekylhastighet i gassen beregnes til v 8 k T Π m :

Statistikk ver 7.nb 33 v Integrate v f v, v, 0,, Assumptions m k T 0 Π k T m Mean MaxwellDistribution k T m Π k T m Variance MaxwellDistribution 3 Π 8 k T Π m k T m Med x v, Α = k T m får vi: PDF MaxwellDistribution Α, x Π x x Α Α 3 Plot Evaluate PDF MaxwellDistribution, x &, 4, 6, x, 0, 0, Filling Axis, FillingStyle Automatic, PlotLabel "T T T 3 ", AxesLabel "v", "f v ", LabelStyle Italic, Larger, Epilog Text "T ", 4, 0.8, Text "T ", 7, 0.5, Text "T 3 ",, 0.0 f v 0.30 0.5 0.0 T T T T 3 0.5 T 0.0 T 3 0.05 5 0 5 0 v Ved høyere temperatur vil kurven bli flatere og midlere molekylfart forskyves mot høyere hastigheter. Weibullfordelingen Denne fordelingen blir mye brukt av ingeniører til å beskrive levetida til et produkt.

34 Statistikk ver 7.nb PDF WeibullDistribution Α, Β, x Α x Α Β Α x Β Α data RandomReal WeibullDistribution 3,, 000 ; histogram Histogram data, Automatic, "ProbabilityDensity ", ChartElementFunction "GradientRectangle " ; distrib Plot PDF WeibullDistribution 3,, x, x, 0, 4, PlotStyle Thick, Magenta ; Show histogram, distrib 0.6 0.5 0.4 0.3 0. 0. 3 4 Plot PDF WeibullDistribution,, x, PDF WeibullDistribution 3,, x, PDF WeibullDistribution 5, 3, x, x, 0, 5 0.8 0.6 0.4 0. 3 4 5 Integrate PDF WeibullDistribution Α, Β, x, x, 0,, Assumptions Α 0, Β 0 Mean WeibullDistribution Α, Β Β Α Variance WeibullDistribution Α, Β Β Α Α Weibullfordelingen kan relateres til eksponentialfordelingen gjennom en potensfunksjon wpdf PDF WeibullDistribution Α, Β, x Α x Α Β Α x Β Α

Statistikk ver 7.nb 35 epdf D x Β Α, x PDF ExponentialDistribution, x Β Α Α x Β Α x Β Α Β wpdf epdf PowerExpand True Χ - fordeling n La X n være uavhengige, standardnormaliserte variabler. Da er summen Y i X i kjikvadratfordelt med n frihetsgrader. Hvis X / ene er delvis avhengige av hveerandre, vil Y v're kjikvadratfordelt med f'rre frihetsgrader. Fordelingen er veldig skjevfordelt ved få frihetsfgrader. data RandomReal ChiSquareDistribution 5, 000 ; hist Histogram data, Automatic, "ProbabilityDensity ", ChartElementFunction "GlassRectangle" ; dist Plot PDF ChiSquareDistribution 5, x, x, 0, 0, PlotStyle Red ; Show hist, dist 0.5 0.0 0.05 5 0 5 0 5 PDF ChiSquareDistribution Ν, x x Ν Ν x Ν Integrate PDF ChiSquareDistribution Ν, x, x, 0,, Assumptions Ν 0

36 Statistikk ver 7.nb Plot PDF ChiSquareDistribution 5, x, PDF ChiSquareDistribution 0, x, PDF ChiSquareDistribution 0, x, x, 0, 40 0.5 0.0 0.05 0 0 30 40 Middelverdien er lik antall frihetsgrader, mens variansen er det dobbelte av antallet. Mean ChiSquareDistribution Ν Ν Variance ChiSquareDistribution Ν Ν Χ - fordelingen er et spesialtilfelle av Gammafordelingen. PDF GammaDistribution n,, x n x n x n Mengden av stokastiske variabler X n kan oppfattes som et tilfeldig utvalg av størrelse n fra en normalfordeling. Utvalgets varians er også en stokastisk variabel og er definert ved uttrykket S n n i X X. Siden uttrykket for S inneholder n summen i X i, er det naturlig å gjenfinne Χ - fordelingen også for variasjonen i datasettet. Dersom Z i X i Μ, blir Z i standardnormalfordelt. Det betyr at Z i X i Μ er Χ - fordelt med n frihetsgrader. Hvis vi erstatter den ukjente Σ forventningen Μ med gjennomsnittet X, som er vår beste gjetning på forventningen, har vi brukt opp en av frihetsgradene til å beregne gjennomsnittet. Da er det tilbake n frihetsgrader. Det betyr at X i X Σ Sagt på en annen måte: Y n S er kjikvadratfordelt med n frihetsgrader. Σ er Χ - fordelt med n frihetsgrader. Σ I praktisk bruk er vi mest interessert i kvantiler. Disse defineres som for normalfordelingen. Α- kvantilet til Χ - fordelingen er gitt ved )P[Y > Χ Α ] = Α. Eksempel: Når vi har 8 frihetsgrader, vil 0.75 - kvantilet være Quantile ChiSquareDistribution 8, 0.75 0.89

Statistikk ver 7.nb 37 Student T fordeling Vi studerer igjen et tilfeldig utvalg {X n } fra en tilnærmet normalfordelt populasjon. Normalfordelingen gir ikke alltid ønskelig resultat når utvalgene er små. Fra sentralgrenseteoremet vet vi at X er tilnærmet normalfordelt, slik at Z X Μ Σ Η er tilnærmet normalfordelt. Da vi sjelden kjenner populasjonens standardavvik Σ, baserer vi oss på utvalgets standardavvik S for å anslå Σ. Vi er derfor interessert i fordelingen til variabelen T X Μ S Η. Sannsynlighetsfordelingen til S avhenger av antall observasjoner i datasettet. Derfor vil også standardavviket til T rimeligvis også gjøre dette. Siden variablene S og T er svært like, forventer vi også at fordelingene til disse variable er rimelig like. Jo større utvalget n er, jo mer bør de sammenfalle. Sannsynlighetsfordelingen for T går under navnet Student T - fordelingen. Navnet skyldes at oppdageren William Gosset publiserter sine resultater ( basertpå eksperimenter i et bryggeri) under pseudonymet "Student". Fordelingstettheten avhenger av Betafunksjonen, som er ralatert til Gammafunksjonen. PDF StudentTDistribution n, t n n t n n n, FunctionExpand Beta n Π n n, Integrate PDF StudentTDistribution Ν, x, x,,, Assumptions Ν 0 Vi kan også skrive fordelingsfunksjonen som pdf t K for riktig normalisering. t n, der K n n Beta n, n Π n n sørger Mathematica kan bygge opp histogrammene med andre grafiske objekter enn rektangler. For å vise en slik mulighet, illustreres histogrammet denne gang med sirkelskiver. Du kan også bruke 3- dimensjonale kuler om du vil.

38 Statistikk ver 7.nb histogram Histogram RandomReal StudentTDistribution 4, 000, 50, "ProbabilityDensity ", ChartElements Graphics Disk, ChartStyle Red ; distribution Plot PDF StudentTDistribution 4, x, x, 5, 5, PlotStyle Black, Thick ; Show histogram, distribution, PlotRange 5, 5, All 4 0 4 Fordelingen avhenger av datasettets frihetsgrader Ν, og er symmetrisk om y- aksen. Forventningaverdien er derfor alltid lik null. Variansen er alltid større enn, fordi fordelingen har "tyngre haler" og lavere maksimalverdi enn standardnormalfordelingen. Det er derfor større sannsynlighet å observere store verdier av T - variabelen enn Z - variabelen. Mean StudentTDistribution Ν 0 Ν Indeterminate True Variance StudentTDistribution Ν Ν Ν Indeterminate Ν True Plot PDF StudentTDistribution, x, PDF StudentTDistribution 5, x, PDF NormalDistribution 0,, x, x, 5, 5, PlotStyle Dashed, Gray, Dotted, Red, Blue 0.4 0.3 0. 0. 4 4 For økende antall frihetsgrader vil Student T - fordelingen nærme seg mer og mer standardnormalfordelingen. Det er igjen kvantilene til fordelingen som er mest nyttige for statistiske beregninger, definert ved at P T t Α Α Disse kan igjen enten slås opp i store tabeller, eller du kan bruke programmets innebygde kommando: Quantile StudentTDistribution 5, 0.95.0505 Sammenlignet med tilsvarende kvantil i normalfordelingen, ser du at StudentT - fordelingen har "tyngre haler".

Statistikk ver 7.nb 39 Sammenlignet med tilsvarende kvantil i normalfordelingen, ser du at StudentT - fordelingen har "tyngre haler". Quantile NormalDistribution 0,, 0.95.64485 Den kumulative fordeling har et analytisk uttrykk som inneholder modifiserte Betafunksjoner. Vi kan beregne p- verdier for en t - test med n frihetsgrader og alternativ hypotese X t: CDF StudentTDistribution Ν, x sgn x I Ν x Ν, StandardForm Ν, BetaRegularized Ν,, Ν x Ν, Sign x Plot CDF StudentTDistribution 5, x, x, 0, 5.0 0.9 0.8 0.7 0.6 3 4 5 Vi kan vise matematisk at Student T - fordelingen nærmer seg asymptotisk til standardnormalfordelingen. Limit PDF StudentTDistribution Ν, x, Ν x Π PDF NormalDistribution 0,, x x Π Det finnes en mer generell Student T - fordeling med forventningsverdi Μ og varians generelle normalfordelingen N Μ, Σ når størrelsen på utvalgert øker. PDF StudentTDistribution Μ, Σ, Ν, x Ν Ν Σ som approksimerer den Ν x Μ Ν Σ Ν Ν Σ Ν,

40 Statistikk ver 7.nb Mean StudentTDistribution Μ, Σ, Ν Μ Ν Indeterminate True Variance StudentTDistribution Μ, Σ, Ν Ν Σ Ν Indeterminate Ν True Limit PDF StudentTDistribution Μ, Σ, Ν, x, Ν x Μ Σ Π Σ Demonstrasjon : http : // demonstrations.wolfram.com/studentstdistribution/ Fisher F fordeling Studier av variasjonen i et datamateriale innen landbruksforskning ledet engelskmannen Ronald Fisher fram til denne fordelingen som bærer hans navn. F står for forhold, fordi det dreier seg om å sammenligne variansen i to ulike populasjoner ( eller to grupper innen samme populasjon). Anta {X n } og {Y m } er to uavhengige, tilfeldige utvalg fra to normalfordelte populasjoner med varians hhv Σ x og Σ Y. Utvalgene behøver ikke være like store. Utvalgenes varianser kalles på vanlig måte S x og S y. V ariansene sammenlignes ved å studere brøken mellom utvalgsvariansene, F S y. S x Dersom populasjonsvariansene er like, dvs. Σ X n og m frihetsgrader. f x_ PDF FRatioDistribution n, m, x m m n n n x m n x n, m m n Σ Y, forventer vi at E F. F vil være Fisherfordelt med Konstanten i utrykker ( som inneholder den modifiserte Betafunksjonen) sørger for at arealet under tetthetskurven blir. Integrate PDF FRatioDistribution n, m, x, x, 0,, Assumptions n 0, m 0

Statistikk ver 7.nb 4 data RandomReal FRatioDistribution 30, 5, 000 ; hist Histogram data, Automatic, "ProbabilityDensity ", ChartElementFunction "FadingRectangle ", ChartStyle Orange ; dist Plot PDF FRatioDistribution 30, 5, x, x, 0, 4, PlotStyle Dashed, Thick, Blue ; Show hist, dist, PlotRange All.0 0.8 0.6 0.4 0. 0 3 4 5 Plot PDF FRatioDistribution 4, 4, x, PDF FRatioDistribution 0, 0, x, PDF FRatioDistribution 30, 30, x, x, 0, 5.0 0.8 0.6 0.4 0. 3 4 5 Forventningsverdien viser seg å være uavhengig av n, og nærmer seg når m. I motsetning til Χ - fordelingen befinner forventningsverdien seg innenfor relativt smale bånd av fordelingen. Mean FRatioDistribution n, m m m Indeterminate m True Variance FRatioDistribution n, m m m n m 4 m n Indeterminate m 4 True

4 Statistikk ver 7.nb Plot CDF FRatioDistribution 4, 4, x, CDF FRatioDistribution 0, 0, x, CDF FRatioDistribution 30, 30, x, x, 0, 5.0 0.8 0.6 0.4 0. 3 4 5 Fisherfordelingen spiller en viktig rolle innenfor hypotesetesting innenfor økonomi og statistikk. Demonstrasjon : http://demonstrations.wolfram.com/thefratiodistribution/ Multinomialfordelingen Multivariate statistikkfordelinger beskriver situasjoner hvor flere stokastiske variabler er involvert. Generelt antas disse enten å være multinomisk, multinormalfordelt eller multi t - fordelt. Vi har en multinomisk forsøksrekke med n delforsøk dersom. hvert delforsøk har k utfallskategorier: A, A,...... A n n. sannsynlighetene p i P A i er like i alle delforsøk, og i p i 3. Delforsøkene er uavhengige av hverandre. Sannsynlighetsfordelingen for multinomisk fordelte variabler A i er gitt ved P X x, X x,...... X k x k n p x x...x k x x p...... x pk k der i x i n k Forventningsverdiene er gitt ved E X i n p i, variansene ved Var X i n p i p i Foreløbig er ikke kommandoene angående multivariat statistikk lagt inn i kjernen, så du må hente dem i en pakke. (Dette kan endre seg i framtidige versjoner). Needs "MultivariateStatistics` " MultinomialDistribution n, p represents a multinomial distribution with n trials and probability vector p. Med k 3 : PDF MultinomialDistribution n, p, p, p 3, x, y, n x y p x y n x y p p3 x n x y y; x, n x y, y Mean MultinomialDistribution n, p, p, p 3 n p, n p, n p 3

Statistikk ver 7.nb 43 Variance MultinomialDistribution n, p, p, p 3 n p p, n p p, n p 3 p 3 Kovariansen mellom to binomisk fordelte variable er Covariance MultinomialDistribution n, p, p, n p p Sannsynlighetstettheten summerer seg til : Sum PDF MultinomialDistribution 0, 3, 6,, x, y, 0 x y, x, 0, 0, y, 0, 0 En bivariat multinomial fordeling ( k ), reduseres til binomialfordelingen PDF MultinomialDistribution n, p, p, x, n x p n x p x Multinomial n x, x PDF BinomialDistribution n, p, x p n x p x Binomial n, x FullSimplify True Demonstrasjon : http://demonstrations.wolfram.com/thetrinomialdistribution/ Binormalfordelingen Vi vil se på et eksempel hvor to normalfordelte variabler inngår. Fordelingen kalles da binormalfordelingen, eller multinormalfordelingen med to variabler. Slike multivariate fordelinger er bare interessante når det er en korelasjon ( sammenheng) mellom variablene. Et eksempel kan være et studium av høyde og vekt av årets rekrutter i forsvaret. Vanligvis registreres verdien til den ene variabelen først. Gitt at vi måler X x, da angis den betingede sannsynligheten for Y som Y x for å fortelle at verdien x alerede er registrert. Det kan vises at Y x er normalfordelt med forventning og varians gitt ved uttrykkene: Μ Y x Μ Y Ρ Σ Y Σ X x Μ x, Σ Y x Σ Y Ρ Ρ 0 forteller at variablene er korrelerte. Av uttrykkene ser vi at forventningsverdien til Y når X x er kjent er en lineær funksjon av verdien x. Det betyr at vi et stykke på vei kan forutsi kroppsvekten når vi kjenner kroppshøyden. Variansen til Y når X x er kjent, er mindre enn når X er ukjent. Hvis korrelasjonen er stor, får vi god kunnskap om kroppsvekten når høyden er kjent. Er sammenhengen utydelig, er informasjonen av liten verdi. Binormalfordelingens simultantetthet f x, y kan skrives som formel: f x, y f X x. Exp y Μ Y x Π Σ Y x Σ Y x der f X x y ΜX Exp Π Σ X Σ X Formen på uttrykket stemmer med den generelle multiplikasjonsregelen som krever at f x, y f X x. f y x. Formelen viser derfoer at sannsynligheten Y x er normalfordelt med forventning og varians som angitt. Med Mathematica kan vi enkelt plotte tredimensjonale grafer av denne bivariate fordelingen for ulike verdier av Ρ. Needs "MultivariateStatistics` "

44 Statistikk ver 7.nb MultinormalDistribution Μ, represents a multivariate normal (Gaussian) distribution with mean vector Μ and covariance matrix. PDF MultinormalDistribution Μ, Μ, Σ, Ρ Σ Σ, Ρ Σ Σ, Σ, x, y exp y Μ Σ y Μ Σ Σ Ρ Σ Σ Ρ Σ Σ x Μ Σ Σ Ρ Σ Σ x Μ Σ x Μ Σ Σ Ρ Σ Σ Ρ Σ Σ y Μ Σ Σ Ρ Σ Σ Π Σ Σ Ρ Σ Σ Plot3D PDF MultinormalDistribution 0, 0,,,,, x, y, x, 4, 4, y,,, PlotPoints 30 0.0 0.05 0.00 4 0 0 4 Simultanfordelingen av to standardnormalfordelte variabler Z og Z er symmetrisk om origo og beskrives derfor enklest i polrkoordinater. PDF MultinormalDistribution 0, 0,, 0, 0,, x, y x y Π PDF MultinormalDistribution 0, 0,, 0, 0,, x, y. x r Cos Θ, y r Sin Θ Simplify r Π

Statistikk ver 7.nb 45 Plot3D PDF MultinormalDistribution 0, 0,, 0, 0,, x, y, x,,, y,, 0.5 0.0 0.05 0.00 0 0 Med Σ Σ vil konturene bli ellipser. Med Ρ 0 vil ellipsene være rotert i forhold til koordinataksene. Her er eksempler med Ρ < 0, Ρ = 0 og Ρ >0. GraphicsRow ContourPlot PDF MultinormalDistribution 0, 0,,,,, x, y, x, 3, 3, y, 3, 3, AspectRatio Automatic & 0.5, 0, 0.5 3 0 3 3 0 3 3 0 3 3 0 3 3 0 3 3 0 3 GraphicsRow ContourPlot PDF MultinormalDistribution,,,,,, x, y, x, 4, 4, y, 4, 4, AspectRatio Automatic & 0.5, 0, 0.5 4 4 4 0 0 0 4 4 0 4 4 4 0 4 4 4 0 4.4 Estimering

46 Statistikk ver 7.nb.4 Estimering I forrige kapittel studerte vi ulike sannsynlighetsmodeller med gitte parametre; p ved binomisk fordeling, Λ ved poissonfordeling og eksponentialfordeling, Μ og Σ ved normalfordeling, Μ og S ved student t - fordelingen. Ofte er det slik at parametrene er ukjente i problemstillingene vi møter. Vi må da estimere (anslå) verdiene etter beste skjønn. I statistikkfaget lærer du om estimatorer og punktestimater. En estimator Θ er en funksjon av X, X,....., X n, som benyttes til å estimere verdien til den ukjente parameteren Θ. Verdien til estimatoren kalles et punktestimat for Θ, som beregnes fra datasettet. Da Θ er en stokastisk varaiabel, har den en sannsynlighetsfordeling, og vi kan snakke om estimatorens forventningsverdi og varians. Vi ønsker at estimatoren skal gjengi parameterverdien mest mulig nøyaktig, med minst mulig spredning. Vi krever derfor. Estimatoren skal være forventningsrett, dvs. E(Θ ) = Θ. Variansen skal være minst mulig, og gå mot null når størrelsen på utvalget øker. Når vi kan velge mellom flere estimatorer som er forventningsrette, kommer punkt til anvendelse. Estimering av Μ Anta vi ønsker å måle en rørdiameter så nøyaktig som mulig. Til det kreves spesialutstyr, f.eks. en mikrometerskrue. Avlesningsnøyaktigheten avhenger av observatørens ferdigheter. Hvis flere personer måler, kan vi fort ende opp med litt avvikende verdier. Midlere måleresultat svarer til forventningsverdien, og usikkerheten i målingene angis ved standardavviket. Når vi har målt n ganger, sitter vi igjen med verdier til de stokastiske variablene {X n }. Hver variable har forventningsverdi Μ og varians Σ. Utvalgets gjennomsnitt er vår beste gjetning på diameterens korrekte verdi. Den naturlige estimator er derfor X n n i X i Denne estimatoren er forventningsrett: E X E n n i Variansen til estimatoren blir X i ) = n n i E X i n Μ Μ n Var (X ) = Var n n i X i n n i Var X i n n Σ n Σ Vi ser at variansen går mot null når n, dvs. begge krav er oppfylt.

Statistikk ver 7.nb 47 Estimering av Σ Når standardavviket er ukjent, prøver vi først å bestemme en forventningsrett estimator for variansen. Utvalgets varians er vår beste gjetning på populasjonens varians. Den er også forventningsrett: S n n i n X i X n i X i X n i X i n X n n i X i n X n X n n i X i n X E S n n i E X i n E X i n Σ Μ n Σ n n Μ n Σ Μ Σ n Μ n n Σ n Σ I utledningen ovenfor har jeg benyttet at Σ Var X i E X i X E X i Μ, dvs. E X i Σ Μ. Tilsvarende får vi E X Σ n Μ. Selv om S er forventningsrett estimator av Σ, vil ikke S være forventningsrett estimator for standardavviket Σ. Dette skyldes at kvadratrotfunksjonen ikke r lineær. Det er likevel å neglisjere denne forskjellen, og bruke utvalgets standardavvik som estimator for populasjonens standardavvik. Estimering av sannsynligheten p Dersom en hendelse A inntreffer X ganger i løpet av n forsøk, vil den relative frekvensen av hendelsen være vår beste gjetning på sannsynligheten p p A for at hendelsen inntreffer. Den naturlige estimatoren for sannsynligheten p er derfor p = X n Variabelen X er binomisk fordelt med forventningsverdi p. Vår estimator er forventningsrett: E p E X n n E X n n p p Var p Var X Var X p p n p p n n n n Igjen ser vi at variansen avtar med økende antall forsøk. Vi kan derfor få den nøyaktighet vi ønsker ved å øke antall forsøk. Vi kan telle antall øyne i et termningkast ( tilfeldige heltall mellom og 6 ) ved kommandoen eyes RandomInteger 5 4 Vår estimator for å angi sannsynligheten for å få en sekser kan derfor beregnes ved å telle antall seksere i n terningkast. Vi prøver med n 000, 0 000, 000 000, og ser at estimatet nærmer seg mer og mer mot den teoretiske verdien /6 = 0.66666... når n øker. estimator 0.48, 0.69, 0.66386 Count Table RandomInteger 5,, 6 Demonstrasjon: http : // demonstrations.wolfram.com/montecarloestimateforpi/ & 000, 0 000, 000 000 N Estimering av Λ

48 Statistikk ver 7.nb Estimering av Λ Vi observerer en poissonprosess over et tidsrom over t tidsenheter. En hendelse inntreffer X ganger i løpet av denne perioden. Raten tilsvarer forventet antall hendelser per tidsenhet. Det gjennomsnittlige antall hendelser per tidsenhet er en forventningsrett estimator for raten Λ. Λ X t E Λ t E X t Λ t Λ Var Λ t Var X t Λ t Λ t.5 Hypotesetesting Det er ofte nødvendig å ta stilling til en påstand (hypotese) om verdien av en parameter. Den generelle toerien rundt hypotesetesting antas kjent. Jeg vil bare illustrere hvordan du kan benytte Mathematica programmet for å gjennomføre slik testing i praksis. Spesielt er det lettvint at gausskurven og kvantiler er lett tilgjengelige, slik at du ikke lenger er avhengig av oppslag i tabeller. Som vanlig lar vi H 0 betegne nullhypotesen. Arbiedshypotesen som vi ønsker å teste, betegnes H. Det er den siste som krever bevis. Nullhypotesen antas korrekt helt til det motsatte er bervist. Begge hypoteser må knyttes til den ukjente parameter Θ. Vi må identifisere en stokastisk variabel som vi baserer våre beslutnbinger på. En slik variabel kalles en testobservator, og målte verdier av observatoren utgjør testens statistikk. Et eksempel kan være fartskontroll på landeveien. Politiet kontrollerer bilistene med lasermålinger som er stokastisk fordelt. Testobservatoren vil være den målte verdi laseren registrerer. Det foretas flere fortløpende målinger over en oversiktlig strekning, og middelverdien av målingene vil være den beste estimator Θ for bilens hastighet. Dersom fartsgrensen på stedet er 80 km/t, vil en naturlig nullhypotese og arbeidshypotese være H 0 : Bilføreren kjører lovlig ( Θ 0 80) H : Bilføreren kjører for fort og skal bøtelegges (Θ 0 80) Selv om politiets laser er meget nøyaktig, må man alltid ta høyde for forkastningsfeil. Det er alltid en mulighet for at politiets middelmåling ( estimatoren) Θ > 80 selv om bilen holder lovlig fart. Denne risiko er selvsagt størst når bilistens hastighet er meget nær oppunder eller eksakt 80 km/t. I dette tilfellet forkastes nullhypotesen på feil grunnlag. Sannsynligheten for at dette skjer, utrykkes i styrkefunksjonen. Slike feil (type feil) vil av de fleste oppfattes som alvorlig, man dømmer en uskyldig person, og man prøver å minimere denne feiltypen ved å legge inn en sikkerhetsmargin i målingene. Vi må på forhånd bestemme hvor stor sannsynlighet for forkastningsfeil vi er villig til å akseptere. Denne sannsynlighet kalles testens signifikansnivå Α. Ved lasermålinger av hastighet er det vanlig å trekke fra 3 km/t fra det observerte resultat, som "bonus" til bilføreren for å unngå forkastningsfeil. Ulempen er at muligheten for godtakingsfeil øker, noen de fakto lovbrytere går fri. Måles du til 8 km/t, blir det altså bokført som 79 km/t, og dermed kan ikke nullhypotesen forkastes. Sikkerhetsmarginen er gitt ved k Θ 0 z Α P Z z Α Α. Σ n når signifikansnivået er Α. Husk at kvantilet er definert ved at Styrkefunksjonen til en Z - test er definert ved: Γ(Θ) = P( bilisten bøtelegges i fartskontroll) = P (X k) = - P (X k) = - P( X Θ Σ n k Θ ) = P Z k Θ Σ n Σ n G Σ k Θ n G z Α Θ Θ 0 Σ n G er gaussfunksjonen for standardnormalfordelingen som Z følger. Det følger videre at Γ(Θ 0 G z Α P Z z Α P Z z Α Α Med signifikansnivå Α = 0.05 får vi kvantilet

Statistikk ver 7.nb 49 Med signifikansnivå Α = 0.05 får vi kvantilet z 0.05 Abs Quantile NormalDistribution 0,, 0.05.64485 Signifikansnivået Α kan kontrolleres ved å regne ut gaussfunkjonen for dette kvantilet: G z_ : Π z u u G.64485 0.0500004 Laserpistolen gjør 5 målinger i tett rekkefølge, og registrerer middelverdien. Vi antar Σ = 4 kjent fra tilsvarende lasermålinger. Med Α = 0.05 får vi k 80.64485 4 5 k 80.645 8.947 4 5 Vi setter derfor feilmarginen til k 3 km/t. Bilistene bøtelegges hvis laseren måler en verdi Θ > 83 km/t. Γ Θ_ : G.645 Θ 80 4 5 Kontrollerer at Γ(Θ 0 ) = Α innenfor numerisk avrundingsfeil Γ 80 0.0499849 Vi ser at det er 5 % sannsynlig at bilisten bøtelegges selv om hun holder lovlig hastighet. Dette er hva vi har definert når vi satte signifikansnivået. Hva er sannsynligheten for å bli tatt når X k? Γ 83 0.5784 Selv om bilisten holder 83 km/t, er det bare 5 % sannsynlig at han blir tatt. Det betyr også at nesten halvparten av disse bilistene med denne hastigheten vil slippe unna kontrollen uten bøter. Dersom vi aldri gjorde forkastingsfeil, ville alle bilister som kjører over 80 km/t bøtelegges, og alle lovlydige gå fri. Kurven ville da blitt en trinnfunksjon. Denne hypotetiske kurven er tegnet inn sammen med styrkefunksjonen i følgende plott. Her er også signifikansnivået markert.

50 Statistikk ver 7.nb p Plot Evaluate Γ Θ, Θ, 60, 00, Ticks Automatic, 0.05, "Α", 0., 0.4, 0, 6, 0.8,.0, Epilog Blue, Line 60, 0.05, 80, Γ 80, 80, 0 ; p Plot UnitStep Θ 80, Θ, 60, 00, PlotStyle Directive Red, Dashing 0.0, Thickness 0.0 ; Show p, p. 0.8 0.4 0. Α 70 80 90 00 Ved flere målinger kan vi avsløre flere syndere. Γ Θ_ : G.645 Θ 80 4 0 p Plot Evaluate Γ Θ, Γ Θ, Θ, 50, 00, PlotStyle, Dashed, Epilog Text "n 5", 86, 0.5, Text "n 0", 80, 0.8.0 0.8 n 0 0.6 n 5 0.4 0. 60 70 80 90 00 Nå vil bare en fjerdedel av bilister som faktisk kjører 83 km/t, slippe unna. Γ 83 0.76698 Kurvene skjærer hverandre i Θ = 80. Begge er basert på samme signifikansnivå. Γ 80 Γ 80 True Du kan finne flere testfunksjoner for hypotesetesting i pakken HypothesisTesting.m. Du laster denne inn i kjernen ved kommandoen ( husk avsluttende apostrof, plassert ved siden av Backspace- tasten på tastaturet).funksjonene returnerer som default ensidige p - verdier. Gitt en nullhypoteseverdi Θ 0 for en parameter Θ og et estimat Θ for Θ oppnådd fra måledata, så vil funksjonene altså returnere sannsynligheten for å observere en så ekstrem verdi som Θ hvis Θ 0 er sann verdi av Θ

Statistikk ver 7.nb 5 Du kan finne flere testfunksjoner for hypotesetesting i pakken HypothesisTesting.m. Du laster denne inn i kjernen ved kommandoen ( husk avsluttende apostrof, plassert ved siden av Backspace- tasten på tastaturet).funksjonene returnerer som default ensidige p - verdier. Gitt en nullhypoteseverdi Θ 0 for en parameter Θ og et estimat Θ for Θ oppnådd fra måledata, så vil funksjonene altså returnere sannsynligheten for å observere en så ekstrem verdi som Θ hvis Θ 0 er sann verdi av Θ HypothesisTesting` data 34, 37, 44, 3, 4, 4, 38, 45, 4, 38.0 ; mean Mean data 39. Nullhypotesen er at Θ 0 39.. Her beregnes sannsynligheten for å måle verdien Θ =35 når middelverdien er minst 39. MeanTest data, 35 OneSidedPValue 0.0076034 Dataene er t - fordelt med 0 - = 9 frihetsgrader. Med opsjonen FullReport True får du oversikt over middelverdi, testobservatorens verdi, datafordelingen og signifikanssannsynlighet ( p - verdi). Vi ser at middelverditesten baserer seg på StudentT- fordelingen med n frihetsgrader fordi spredningsmålet Σ barer baserer seg på estimatoren S fra utvalget. MeanTest data, 35, FullReport True FullReport Mean TestStat Distribution, OneSidedPValue 0.0076034 39..98985 StudentTDistribution 9 Testobservatorens verdi registreres i rapporten under TestStat : T 39. 35 9.7333 0 Θ0 Θ S n.98985 Når vi angir signifikansnivå, vil programmet konkludere med om nullhypotesen skal forkastes eller ikke. Her er nullhypotesen Μ = 35. MeanTest data, 35, SignificanceLevel 0.05 OneSidedPValue 0.0076034, Reject null hypothesis at significance level 0.05 En så liten sannsynlighet tyder på at utvalgets middelverdi er vesentlig forskjellig fra 35. Vi må derfor forkaste nullhypotesen. Vi forkaster nullhypotesen når T t Α. Med signifikansnivå Α = 0.05 må vi derfor forkaste nullhypotesen. t 0.05 Abs Quantile StudentTDistribution 9, 0.05.833 p - verdien er minste Α - verdi som gir forkasting av nullhypotesen. FindRoot Abs Quantile StudentTDistribution 9, p.98985, p, 0.005 p 0.007603 Med Α = 0.007 kan vi ikke forkaste nullhypotesen. t 0.007 Abs Quantile StudentTDistribution 9, 0.007 3.04079

5 Statistikk ver 7.nb MeanTest data, 35, SignificanceLevel 0.007, FullReport True FullReport Mean TestStat Distribution 39..98985 StudentTDistribution 9, OneSidedPValue 0.0076034, Fail to reject null hypothesis at significance level 0.007 Da Α < p-verdi kan vi ikke forkaste nullhypotesen på dette nivå. Når vi kjenner testobservatorens verdi, kan den ensidige p - verdien beregnes ved: StudentTPValue.98985, 9 OneSidedPValue 0.007603 Vi kan også teste avviket fra beregnet varians : Variance data 9.7333 S StandardDeviation data 4.44 S Variance data True VarianceTest data, 40 OneSidedPValue 0.9855 Vi kan estimere standardavviket fra middelverdien av datasettet, basert på t- fordeling med n = 0 frihetsgrader: se StandardDeviation data Sqrt Length data.40475 S n t 0.05 Abs Quantile StudentTDistribution 9, 0.05.66 Her beregnes et 0.95 % konfidensintervall ( T - intervall) for datasettet. Testobservatoren baserer seg på StudentT- fordeling fordi ingen antagelser om spredningsmål er gitt. mean t 0.05 se, mean t 0.05 se 36.0, 4.3778 Programpakken inneholder også nyttige kommandoer for beregning av konfidensintervaller. Når Σ er ukjent, beregnes et T- intervall. MeanCI data 36.0, 4.3778 Denne kommando er ekvivalent med MeanCI[data]. Defaultverdi er 0.95 % T- intervall. Options MeanCI ConfidenceLevel 0.95, KnownVariance None StudentTCI mean, se, Length data 36.0, 4.3778 Antagelser om variansen til populasjonen som utvalget hentes fra, vil påvirke testobservatoren. Når variansen antas kjent, baseres testen på standardnormalfordelingen.

Statistikk ver 7.nb 53 Antagelser om variansen til populasjonen som utvalget hentes fra, vil påvirke testobservatoren. Når variansen antas kjent, baseres testen på standardnormalfordelingen. MeanTest data, 35, KnownVariance 0, FullReport True FullReport Mean TestStat Distribution, OneSidedPValue 0.0048973 39..96985 NormalDistribution 0, Z 39. 35 0 0 Θ0 Θ Σ n.96985 Kjennskap til Σ kan legges inn som en opsjon til kommandoen MeanCI. Når vi kjenner variansen, beregnes statistikken fra normalfordelingen. Standardavviket beregnet ut fra kjent populasjonsvarians Σ 0 var 0; Σ var ; sd Σ 0 z 0.05 Abs Quantile NormalDistribution 0,, 0.05.95996 Et 0.95 % Z - intervall for middelverdien er definert ved mean z 0.05 sd, mean z 0.05 sd 36.48, 4.978 Programmet kan gi svaret direkte, men vår detaljkode viser at normalfordeling ligger til grunn. MeanCI data, KnownVariance 0 36.48, 4.978 Denne kommando gir samme resultat som MeanCI data, KnownVariance 0. NormalCI mean, sd 36.48, 4.978 Demonstrasjon : http://demonstrations.wolfram.com/hypothesistestsaboutapopulationmean/.6 Tilfeldige tall og simuleringer Kaste mynt eller kron Når du kaster en perfekt mynt, vil sannsynligheten for å lande på en bestemt sideflate være like stor for begge flater, dvs. p 0.5 for begge utfall "mynt" eller "kron". Vi kan generere et tilfeldig tall ved Random - kommandoen i programmet. Random[Integer] gir 0 eeller med sannsynlighet p =.

54 Statistikk ver 7.nb cointoss : If Random Integer, "Head", "Tail" ; Table cointoss, 8 Tail, Tail, Head, Head, Head, Head, Tail, Head For å reprodusere den nøyaktige sannsynligheten, må du simulere et stort antall kast. Når N, vil p Count Table cointoss, 00, "Head" 59 Count Table cointoss, 00 000, "Head" 49 987 I versjon 7 kan du benytte kommandoene RandomReal og RandomInteger i stedet for Random[Real] og Random[Integer]. RandomInteger[ ] gir svaret 0 eller med sannsynlighet p. cointoss : If RandomReal 0.5, "Head", "Tail" ; cointoss : If RandomInteger 0, "Head", "Tail" ; Table cointoss, 8 Head, Tail, Head, Tail, Tail, Head, Tail, Head Count Table cointoss, 00 000, "Head" 50 00 Fødselsdagsproblemet Dette er en velkjent problemstilling i sannsynlighetsregningen. Blant en gruppe på n mennesker, hva er sannsynligheten for at minst to personer har fødselsdag på samme dato? Svaret kan virke litt overraskende. Vi velger n 30. For enkelthets skyld ser vi bort fra skuddårsbarn. Problemet med 30 tilfeldige fødselsdager kan formuleres som uttrekk av 30 tilfeldige tall mellom og 365. Dette kan modelleres i Mathematica slik: birthdays : RandomInteger, 365, 30 Vi foretar en rask sjekk for å se at alt fungerer som det skal. b birthdays, 78, 7, 40, 45, 08, 44,, 03, 5, 338, 34, 9, 36, 63, 63,, 330, 85, 356, 9, 54, 86, 300, 3, 63, 54, 36, 305, 4 Vi lagrer dette eksemplet i listen b. Husk at hver gang du utfører kommandoen birthdays, genereres en ny liste av datoer. Listen b er derimot uforandret. Kommandoen Union både sorterer og fjerner duplikater fra listen. Vi kan derfor sjekke duplikater ved å sammenligne lengden av listene b og Union b Vi ser at to personer har fødselsdag på dag 63. Den siste listen inneholder derfor bare 9 datoer. Length b Length Union b Den felles fødselsdagen til de to personene er forøvrig 3.juni: DatePlus 00,,, 63 00, 6, 3 Vi gjentar eksperimentet 000 ganger. Husk å avslutte med semikolon, ellers skrives den lange listen ut. (Listen består av 000 sublister, hver med 30 datoer).

Statistikk ver 7.nb 55 Vi gjentar eksperimentet 000 ganger. Husk å avslutte med semikolon, ellers skrives den lange listen ut. (Listen består av 000 sublister, hver med 30 datoer). data Table birthdays, 0 000 ; Når vi har duplikater, vil sublistene ha mindre enn 30 elementer. Dette kan vi ha som søkekriterium. hasduplicate experiment_ : Length Union experiment 30 Kommandoen er en logisk funksjon som returnerer True hvis betingelsen er oppfylt. Vi anvender kommandoen på hver av sublistene, og teller opp resultatet. Count Map hasduplicate, data, True 7055 Vi ser altså at det er over 70 % sannsynlighet for at minst personer blant gruppen på 30 har felles fødselsdag. Den teoretiske sannsynlighet for dette tilfellet er 70,6 %, så simuleringen er svært god. La oss først bestemme sannsynligheten for atingen har fødselsdasg på samme dato. Problemet gjenkjennes som 30 tilfeldige uttrekk blant tallene,, ---. 365 med tilbakelegging. Antall gunstige utfall er 365*364*... 336 = 365.Det mulige utfallsrom 335 består av 365 30 muligheter, slik at sannsynligheten for at ingen av de uttrekte numrene er like, er gitt ved brøken gunstige utfall 365 365 30. Sannsynligheten for at minst to uttrekte tall er like, er derfor mulige utfall 335 365 30 30 30 365 p. 0.70636 Binomial 365, 30 30 365 30 Dette eksemplet illustrerer også hvordan effektiv programmering ofte avhenger av en god løsningsalgoritme. Sannsynligheten for at to personer har fødselsdag på samme dag, øker naturligvis med gruppestørrelsen vi betrakter. Vi setter sammen koden til en rutine som kan anvendes på vilkårlig antall personer: multiplebirthdays n_ : Module, birthdays : RandomInteger, 365, n ; experiments : Table birthdays, 0 000 ; hasduplicate exp_ : Length Union exp n; Count Map hasduplicate, experiments, True En ny simulering med 30 personer gir : multiplebirthdays 30 7065 Vi ser at når gruppen består av mer enn 50 personer, er sannsynligheten for felles fødselsdager tilnærmet lik. Vi sammenligner simuleringen ( blå kurve) med teoretisk resultat ( rød kurve):

56 Statistikk ver 7.nb lp ListPlot Table multiplebirthdays n, n, 0, 00 ; 0 000 Binomial 365, n n lp ListPlot Table., n,, 00, PlotStyle Red ; 365 n Show lp, lp.0 0.8 0.6 0.4 0. 0 40 60 80 00 Simulering av stokastiske variable Eksponentialfordeling Levetida X for en lyspære er eksponentialfordelt med parameter Μ = = 500 timer. Vi ønsker å generere tilfeldige levetider Λ for en slik lyspære. CDF ExponentialDistribution Λ, x x Λ x 0 0 True Fordelingsfunksjonen er derfor gitt ved F x_ : Λ x Vi ønsker å finne den inverse fordelingsfunksjonen g y F y : Solve F x y, x, InverseFunctions True log y x Λ g x_ : Log x Λ Først genererer 50 slumptall mellom 0 og rnd Sort Table RandomReal, 50 ; Den inverse fordelingsfunksjonen anvendes på hvert slumptall data Map g, rnd. Λ 500 ; Vi vil lage tallpar hvor dataverdiene er x- koordinater, og slumptallene mellom 0 og er y- vedier. Disse tallparene skal da være punkter på den kumulative fordelingskurven hvis dataene er eksponentielt fordelt.

Statistikk ver 7.nb 57 lp ListPlot Transpose data, rnd, PlotStyle PointSize 0.05 ; pl Plot CDF ExponentialDistribution, x, x, 0, Max data, PlotStyle Red ; 500 Show lp, pl.0 0.8 0.6 0.4 0. 000 000 3000 4000 5000 Fordelingen kan også illustreres ved å vise at målingene tilnærmet følger tetthetsfordelingskurven. zeroes Table 0, 50 ; lp ListPlot Transpose data, zeroes, PlotStyle PointSize 0.05 ; pl Plot PDF ExponentialDistribution, x, x, 0, Max data, PlotStyle Red ; 500 gr Graphics Line 500, 0, 500, ; 500 Show lp, pl, gr, Ticks 000, 500, " Λ", 000, 3000, 4000, 5000, Automatic 0.0006 0.0005 0.0004 0.0003 0.000 0.000 000 Λ 000 3000 4000 5000 Denne metoden å generere stokastiske data som har en kjent fordeling fungerer bare når vi kan finne den inverse fordelingsfunksjonen. Vi er spesielt interessert i å generere normalfordelte data, siden normalfordelingen er så sentral i statistiske analyser. Ved hjelp av Mathematica finner vi et uttrykk for den inverse fordelingsfunksjonen og kan derfor gå fram som i forrige eksempel. Men vi kan også benytte en annen, smart metode. Simulering av normalfordeling CDF NormalDistribution Μ, Σ, x erf x Μ Σ Fordelingsfunksjonen er derfor gitt ved

58 Statistikk ver 7.nb Solve CDF NormalDistribution Μ, Σ, x y, x, InverseFunctions True x Σ erf y Μ StandardForm x Μ Σ InverseErf y Clear g g x_ : Μ Σ InverseErf x Først genererer 50 slumptall mellom 0 og rnd Sort Table RandomReal, 50 ; Den inverse fordelingsfunksjonen anvendes på hvert slumptall data Map g, rnd. Μ 0, Σ 3 ; Vi vil lage tallpar hvor dataverdiene er x- koordinater, og slumptallene mellom 0 og er y- vedier. Disse tallparene skal da være punkter på den kumulative fordelingskurven hvis dataene er eksponentielt fordelt. lp ListPlot Transpose data, rnd, PlotStyle PointSize 0.05 ; pl Plot CDF NormalDistribution 0, 3, x, x, Min data, Max data, PlotStyle Red ; Show lp, pl 0.8 0.6 0.4 0. 6 4 4 Viser også at punktene sentrerer seg om Μ = 0 og spres hovedsakelig innenfor intervallet <-3,3>. zeroes : Table 0, Length data

Statistikk ver 7.nb 59 lp ListPlot Transpose data, zeroes, PlotStyle PointSize 0.05 ; pl Plot PDF NormalDistribution 0, 3, x, x, Min data, Max data, PlotStyle Red ; Show lp, pl, Ticks Range 7, 7,, Automatic 0. 0.0 0.08 0.06 0.04 0.0 5 3 3 5 Simulering av normalfordeling Vi har sett under behandlingen av den binormale simultanfordelingen av to standardnormalfordelte stokastiske variable at fordelingen er radialsymmetrisk, og beskrives enklest i polarkoordinater. Tetthetsfunksjonen for den binormale fordeling er f x, y f x f y x Π y Π Π x y. Et tilfeldig punkt i planet beskrives ved vinkelen Θ og r. Vi oppfatter Θ og r som uavhengige stokastiske variable. I polarkoordinater blir da f r, Θ f Θ f r r Π Variabelen Θ er uniformt fordelt. Da 0 Π f Θ Θ, blir f(θ) = Π. Den kumulative fordelingen følger av dette: F Θ(Θ) = Θ Θ 0 f Θ Θ Θ Θ 0. De kumulative fordelingsfunksjoner blir derfor: Π Π F Θ Θ Θ, 0 Θ Π og F r r Π r r 0 r r r, r 0 De inverse kumulative fordelingene blir da : th u_ Solve u Π u Θ, Θ,, Π Ρ u_ Solve u Exp r, r, InverseFunctions True,, log u Vi ønsker å generere to observasjoner av X N Μ, Σ. La oss først generere to tilfeldige tall u og u mellom 0 og. Deretter beregner vi en tilfeldig radius og vinkel ved r ln u, Θ Π u Da vil z r cos Θ og z r sin Θ være to tilfeldige, uavhengige observasjoner fra standardnormalfordelingen. Dvs. vi har to observasjoner av Z N 0,. To observasjoner av X N Μ, Σ vil da være x Μ Σ z, x Μ Σ z. z, z r Cos Θ, Sin Θ 0.436,.7856

60 Statistikk ver 7.nb x, x Μ Σ z, z Μ 0.436 Σ, Μ.7856 Σ Denne parvise prosessen gjentas til vi har genert det ønskede antall X - verdier.vi ser på et eksempel med n = 60 = 30 par. u Table RandomReal, RandomReal, 30 ; u First Transpose u ; u Last Transpose u ; z Log u Cos Π u ; z Log u Sin Π u ; z z, z ; x Μ Σ z. Μ 5, Σ 3 ; Tallene genereres parvis, men alle tall er normalfordelte, uavhengige verdier av X. Vi fjerner derfor partilhørigheten ved å flate ut listen. data Flatten x 5.49538,.53766, 7.7683, 3.83543, 8.73074, 4.6305, 9.97,.69457, 5.974, 7.85755,.5959, 5.46638, 7.36, 4.75333, 4.04, 5.46947,.6506,.9565, 3.3597,.86459, 0.5984, 7.85,.93349, 4.6087, 0.9008, 6.0533,.69, 7.758,.0073, 3.033, 5.60575, 9.36747, 6.84075, 4.437, 7.57675, 4.4639, 4.777, 8.9088, 5.85686, 4.46409, 5.097, 3.65076, 3.7859, 5.7709, 8.43656, 8.5754, 5.96, 4.9866, 4.44338, 7.66579,.5666, 5.94008, 5.0605, 4.549,.38888,.44394, 3.355, 4.0758, 5.6779, 3.9095 zeroes : Table 0, Length data lp3 ListPlot Transpose data, zeroes, PlotStyle PointSize 0.05 ; pl3 Plot PDF NormalDistribution 5, 3, x, x, 5, 5, PlotStyle Red ; Show lp3, pl3, Ticks Range 5, 3,, Automatic 0. 0.0 0.08 0.06 0.04 0.0 5 3 3 5 7 9 3 Figuren viser at testobervatoren X er normalfordelt med Μ = 5 og Σ = 3.

Statistikk ver 7.nb 6 Simulering av integral Vi kan benytte simulering til å beregne tilnærmet verdi av et integral. Anta for enkelhets skyld at integranden g x 0 over hele det aktuelle intervallet [a,b]. Vi vet at det bestemte integralet fra a til b kan tolkes som arealet mellom grafen og x-aksen. Hvis intervallet deles opp i n partisjoner, kan det tilnærmes med arealet av søyler fra x- aksen opp til grafen (Riemannintegrasjon).. Integralet blir en grenseverdi for summen av søylearealene, når antall søyler øker mens bredden går mot null. Vi får derfor I I b a n n j g x j. Når vi trekker tilfeldige x - verdier i intervallet [a,b], genererer vi observasjoner av en uniformt fordelt variabel X med sannsynlighetstetthet f x. Vårt tilnærmede integral kan derfor skrives b a I n n j g x j f x j Vi er ikke bundet til den uniforme sannsynlighetstettheten. Det viser dseg at enhver sannsynlighetstetthet f x kan benyttes, og estimatoren blir faktisk bedre jo mer lik f x er integranden g x. Vi må bare huske på å kreve at a b f x x =. Vi vil illustrere denne teknikken med funksjonen g x_ : Π x x Vi ønsker å beregne verdien av integralet 0 3.8446 g x x så nøyaktig som mulig ved simuleringsmetoden beskrevet ovenfor. Vi deler først intervallet i 5 deler for å vise utviklingen. n 5; u Table RandomReal, 5 0.87307, 0.53474, 0.50477, 0.00946566, 0.9864, 0.403843, 0.0545495, 0.08803, 0.70386, 0.060045, 0.67833, 0.898353, 0.77033, 0.0949, 0.36675 f x_ : k x Fordelingsfunksjonen er gitt ved F x 0 x f Χ Χ = k x For å generere verdier fra fordelingen må vi finne den inverse fordelingsfunksjonen : Solve u k x, x, InverseFunctions True Simplify First x log u k 3.8446 Konstanten k bestemmes av normaliseringsbetingelsen 0 f x x Integrate f x, x, 0, 3.8446 0.978538 k k k. FindRoot Integrate f x, x, 0, 3.8446, k,.093

6 Statistikk ver 7.nb x Log u k.9735, 0.74079, 0.680, 0.00930567, 0.3457, 0.5088, 0.054856, 0.0844974,.879, 0.06065,.0899,.56, 0.9034, 0.0967, 0.4438 I n k Π FoldList Plus, 0, x x 0, 0.049399, 0.099334, 0.3764, 0.4083, 0.460954, 0.50847, 0.6355, 0.7575, 0.758997, 0.867957, 0.90948, 0.96438,.0806,.589,.6466 Det er det siste elementet som er vårt approksimative svar, da har vi summert over alle n intervaller. Last I.6466 Metoden konvergerer langsomt fordi g x og f x) ikke er like nok når x er liten. Vi øker derfor antall delepunkter til million. n 0 6 ; Clear u, x u Table RandomReal, n ; x Log u k ; I n k Last I Π FoldList Plus, 0, x x ; 0.950006 Det nøyaktigste svaret vi kan få, er 0.95 int NIntegrate g x, x, 0, 3.8446 0.95 Tallet bør vekke mistanke om at det ligger noe kjent bak funksjonen g x og den spesielle grensen. Fra kapitlet om kontinuerlige fordelinger gjenkjenner vi g x som sannsynlighetstettheten til en Χ - fordelt variabel X med en frihetsgrad: Clear x PDF ChiSquareDistribution, x x Π x g x PDF ChiSquareDistribution, x True CDF ChiSquareDistribution, 3.8446 0.95 Derfor er I P X 3.8446 0.95

Statistikk ver 7.nb 63 Quantile ChiSquareDistribution, 0.95 3.8446 p Plot PDF ChiSquareDistribution, x, x, 0, 5, PlotStyle Dashed ; p Plot PDF ChiSquareDistribution, x, x, 0, 3.8446, Filling Axis ; Show p, p 0.6 0.5 0.4 0.3 0. 0. 3 4 5.7 Regresjon og interpolasjon Lineær og polynomisk tilpasning Det er ofte en sammenheng mellom elementene i en dataliste. Metoden med minste kvadraters metode er en kjent metode for å finne den beste lineære kurven gjennom data som teoretisk skulle ligge på en rett linje. I Mathematica kan du implementere metoden med kommandoen Fit. Listen under er hentet fra rapport om forventet levealder for menn og kvinner i noen utvalgte land. data 70.6, 77.7, 76.4, 8.0, 43.0, 43.3, 68., 7.3, 38.8, 4.5, 6.8, 66.0, 64.0, 7.6, 75.7, 8.9, 6.0, 6.8, 38.9, 40.5, 55., 59.5 ; bestfit x_ Fit data,, x, x.665 x 3.46988 pict ListPlot data, PlotStyle Red, PointSize 0.0 ; pict Plot bestfit x, x, 30, 80 ; Show pict, pict, PlotRange 30, 90, 30, 90 90 80 70 60 50 40 30 30 40 50 60 70 80 90 Når sammenhengen mellom dataene antas ikkelineær, kan man likevel benytte Fit kommandoen. I neste eksempel er det forventet en kvadratisk sammenheng mellom dataene:

64 Statistikk ver 7.nb data Table x, x 3 x 5 RandomReal x, x, 0, 0 ; quadfit x_ Fit data,, x, x, x 0.78808 x 9.40444 x 7.8968 pict ListPlot data, PlotStyle Red, PointSize 0.0 ; pict Plot quadfit x, x, 0, 0 ; Show pict, pict 500 400 300 00 00 5 0 5 0 Interpolasjon Gitt n punkter x, y, x, y,....., x n, y n i planet. Vi ønsker å finne et polynom av grad n som går nøyaktig gjennom disse punktene. Da må vi interpolere mellom punktene: data 0, 0,, 6,, 0, 3, 8, 4, 30, 5,, 6, ; perfectfit x_ N InterpolatingPolynomial data, x ; Expand perfectfit x N.66 x 6 9.9 x 5 0. x 4 63.333 x 3 900.8 x 457.767 x Polynomet går gjennom de ønskede punkter : Table x, perfectfit x, x, 0, 6 0 0 6. 0. 3 8. 4 30. 5. 6.

Statistikk ver 7.nb 65 pict ListPlot data, PlotStyle Red, PointSize 0.0 ; pict Plot perfectfit x, x, 0, 6 ; Show pict, pict 60 40 0 0 3 4 5 6 40 I dette tilfellet fant programmet selv ut at et polynom av grad 6 var optimalt, så hvis vi prøver dette, får vi tydeligvis samme kurvetilpasning (og dermed det algebraiske uttrykket for den interpolerende funksjonen): g x_ Fit data, Table x n, n, 0, 6, x.66 x 6 9.9 x 5 0. x 4 63.333 x 3 900.8 x 457.767 x.3348 0 De to funksjonene er like når vi ser bort fra numerisk avrunding Likheten vises også lett ved å plotte kurvene i samme graf; de overlapper fullstendig. Chop Expand g x perfectfit x 0 Plot g x, perfectfit x, x, 0, 6 60 40 0 0 3 4 5 6 40 I dette tilfellet er det også mulig å tenke andre (bedre?) tilpasninger enn polynomiske :

66 Statistikk ver 7.nb h x_ Fit data,, Sin x, Sin x, Sin 3 x, Sin 4 x, x pict ListPlot data, PlotStyle Red, PointSize 0.0 ; pict Plot h x, x, 0, 6 ; Show pict, pict 4.073 sin x 7.5738 sin x 30.3964 sin 3 x 7.907 sin 4 x.80386 60 40 0 0 3 4 5 6 40 60 En interpolerende funksjon vil ofte oppføre seg "vilt" utenfor de gitte referansepunktene, og er derfor ikke nødvendigvis beste tilpasningspolynom mellom punktene slik vi ønsket i regresjonsanalysen. Den beste tilpasning i forbindelse med regresjon er den som mininaliserer kvadrtatet av avstanden mellom referansepunktenes y - verdier og funksjonsverdiene i regresjonspolynomet, altså den funksjon som i gjennomsnitt gir beste tilpasning, men som ikke behøver matche eksakt referansepunktene. Regresjon kontra interpolasjon La oss sammenligne interpolasjon og lineær tilpasning i eksemplet med gjennomsnittlig levealder for menn og kvinner. perfectfit x_ : InterpolatingPolynomial data, x linearfit x_ Fit data,, x, x ; pict ListPlot data, PlotStyle Red, PointSize 0.0 ; pict Plot linearfit x, x, 30, 80 ; pict3 Plot perfectfit x, x, 30, 80 ; Show pict, pict, pict3.665 x 3.46988 50 00 50 40 50 60 70 80 Her er regresjon det beste alternativet for å predikere levealder.

Statistikk ver 7.nb 67 Regresjonsanalyse i versjon 7 Det har skjedd større endringer i statistikkfunksjonene i de siste versjonene av Mathematica. I versjon 5. måtte du laste inn pakken Statistics`LinearRegression`for å få tilgang til kommandoen Regress. Du kan fortsatt gjøre dette i nyere versjoner, men programmet vil henvise deg til Compatibility Guide Statistics`LinearRegression` General::obspkg: Statistics` is now obsolete. The legacy version being loaded may conflict with current Mathematica functionality. See the Compatibility Guide for updating information. Sett markøren på forrige input, og klikk F. Klikk på første emne. Du kommer da inn i guiden: Dersom du har arbeidet med statistikk i tidligere versjoner, kan du fortsatt evaluere dine notebooks, men det anbefales at du setter deg inn i nyeste kode via denne guiden. Vi fortsetter med eksemplet med stipulert levealder, og bruker kode fra versjon 7 og oppover. lm LinearModelFit data, x, x FittedModel.665 x 3.46988 Resultatet framkommer som en spesiell datatype, FittedModel. Du får fram funksjonsformen ved å anvende Normal - kommandoen. Resultatet er det samme som du fikk med Fit- kommandoen. Normal lm Fit data,, x, x.665 x 3.46988.665 x 3.46988 data 70.6, 77.7, 76.4, 8.0, 43.0, 43.3, 68., 7.3, 38.8, 4.5, 6.8, 66.0, 64.0, 7.6, 75.7, 8.9, 6.0, 6.8, 38.9, 40.5, 55., 59.5 ; LinearModelFit data,, x, x FittedModel.665 x 3.46988 Vi kan se hvordan dataene er korrelert LinearModelFit data,, x, x "RSquared", "EstimatedVariance " 0.984005, 4.39376 Vi kan beregne konfidensintervallet ved hver verdi av den uavhengig variable og plotte en graf som viser aktuelle data sammen med beste lineære tilpasning og konfidensintervallene. Dette gir et mye mer detaljert bilde av dataspredningen.