Kapittel 12 Statistikk og sannsynlighetsregning

Størrelse: px
Begynne med side:

Download "Kapittel 12 Statistikk og sannsynlighetsregning"

Transkript

1 Kapittel Statistikk og sannsynlighetsregning. Stokastiske variable En stokastisk variabel antar forskjelligee verdier fra et utfallsrom til en hendelse, ( f.eks. måleresultater fra et eksperiment). Verdiene har en diskret elller kontinuerlig fordeling. Forventningsverdien uttrykker noe om det mest sannsynlige utfallet, mens variansen og standardavviket sier noe om spredningen av målingene rundt forventningsverdien. Forventningsverdi og varians til en diskret fordeling x Range 0, 7 0,,, 3, 4, 5, 6, 7 Diskret fordelingsfunksjon : pdf x 0., 0., 0.7, 0.7, 0., 0.07, 0.03, 0.0 ; Sannsynlighetene summerer seg opp til som de skal : Sum pdf x i, i, 8. En mer elegant programeringskode benytter seg av funksjonal programmeringsteknikk : Fold Plus, 0, pdf x. n Kumulativ fordelingsfunksjon i pdf x i kan beregnes enkelt ved FoldList- kommandoen: cdf x FoldList Plus, 0, pdf x 0, 0., 0.33, 0.6, 0.77, 0.89, 0.96, 0.99,. x pdf x 0, 0., 0.54, 0.5, 0.48, 0.35, 0.8, Forventningsverdien, i 0 x i pdf x i kan beregnes ved Fold - kommandoen : Μ Fold Plus, 0, x pdf x.35 x pdf x 0, 0.,.08,.53,.9,.75,.08, 0.49

2 Statistikk ver 7.nb TableForm Transpose x, pdf x, x pdf x, x pdf x, TableHeadings None, "x", "P X x ", "x P X x ", "x P X x ", TableSpacing, x P X x x P X x x P X x Kontrollerer at sannsynlighetene summeres opp til som påkrevd : Apply Plus, pdf x. Alternativ kode for forventningsverdien : X Apply Plus, x pdf x.35 X Apply Plus, x pdf x 8.07 Beregning av utvalgets varians og standardavvik : Var X X X.5475 SD X Var X Grafisk illustrasjon av fordelingsfunksjonen BarChart pdf x, ChartStyle "GrayYellowTones " n Den kumulative fordelingen i p x i illustreres her :

3 Statistikk ver 7.nb 3 BarChart cdf x, ChartStyle "Rainbow" Programmet leverer en rekke skjemaer for diagramstiler. Merk ordet ChartStyle og klikk F- tasten for mer informasjon. Forventningsverdi og varians til en uniform fordeling Følgende data antas generert med lik sannsynlighet. Forventningsverdien er da lik middelverdien til datasettet. data 34, 37, 44, 3, 4, 4, 38, 45, 4, 38.0 ; mean Plus data Length data 39. Mean data 39. Beregning av varians til et utvalg kan du lett programmere selv når du husker hvordan lister behandles i Mathematica. Lister subtraheres og kvadreres elementvis: lst Range 5,, 3, 4, 5 Μ Mean lst 3 lst Μ,, 0,, lst Μ 4,, 0,, 4 Vi summerer kvadratet av differansene ved å anvende Plus - operatoren mellom elementene. Apply Plus, lst Μ 0 Derfor kan variansen til en liste defineres slik : myvariance data_ : Plus data Mean data Length data

4 4 Statistikk ver 7.nb myvariance data Vi kan sjekke svaret mot programmets egen beregning Variance data Diskrete sannsynlighetsfordelinger Vi vil først studere de mest benyttede diskrete fordelingene. Binomisk fordeling Et stokastisk forsøk består av n uavhengige delforsøk. Dersom hvert forsøk bare gir to utfall, A og A, og sannsynligheten p P A er lik i alle forsøk, kalles forsøksrekken binomisk. I løpet av delforsøkene vil hendelsen A forekomme X ganger. Da er X en binomisk fordelt variabel. Vi kan f.eks. trekke kuler fra en beholder som bare inneholder røde og blå kuler. Etter hvert delforsøk legges den uttrukne kula tilbake i beholderen slik at sannsynligheten er lik i alle delforsøk. Fordelingsfunksjonen for binomisk fordeling er gitt ved P X k_ n_ PDF BinomialDistribution n, p, k p k n p n k k P X n n n p p n Forventningsverdi og varians beregnes til : Mean BinomialDistribution n, p n p Variance BinomialDistribution n, p n p p ListPlot Table PDF BinomialDistribution 50, 0.4, x, x,, 50, Filling Axis En gartner kjøper en pose med 3 solsikkefrø og planter ett frø i hver sin potte. Frøposen lover at spiresannsynligheten er p P A I hvert delforsøk registrerer vi om frøene spirer eller ikke. Vi har da en binomisk forsøksrekke med tre forsøk, som betraktes som uavhengige av hverandre når vi følger anvisningene på posen. La X være antall frø som spirer. Vi vil bestemme sannsynlighetsfordelingen for X. Det finnes i alt 3 8 mulige kombinasjoner av spiring og ikke spiring. Første tilfelle er at ingen frø spirer i noen potter:

5 Statistikk ver 7.nb 5 En gartner kjøper en pose med 3 solsikkefrø og planter ett frø i hver sin potte. Frøposen lover at spiresannsynligheten er p P A I hvert delforsøk registrerer vi om frøene spirer eller ikke. Vi har da en binomisk forsøksrekke med tre forsøk, som betraktes som uavhengige av hverandre når vi følger anvisningene på posen. La X være antall frø som spirer. Vi vil bestemme sannsynlighetsfordelingen for X. Det finnes i alt 3 8 mulige kombinasjoner av spiring og ikke spiring. Første tilfelle er at ingen frø spirer i noen potter: P X 0 3 p 3 Et frø kan spire, i hver av pottene. Det gir 3 nye muligheter. P X 3 3 p p To frø kan spire i tre ulike pottekombinasjoner P X 3 3 p p Til slutt kan alle frøene spire i alle pottene P X 3 3 p 3 Vi har altså funnet = 8 mulige utfall. Siden dette er samtlige mulige utfall, kontrollerer vi at de summerer seg opp til : Sum P X n 3, n, 0, 3 Simplify p 0.67; ListPlot Table P X n 3, n, 0, 3, Filling Axis, PlotRange 0, 0.5, Ticks, "0",, "", 3, "", 4, "3", Automatic, AxesLabel "Spirende frø", "Sannsynlighet" Sannsynlighet Spirende frø Bernoullifordeling Bernoullifordelingen gir verdien x med sannsynlighet p, og x 0 med sannsynlighet p. PDF BernoulliDistribution p, x p x 0 p x

6 6 Statistikk ver 7.nb Mean BernoulliDistribution p p Variance BernoulliDistribution p p p Andre utfall enn x 0 eller x er umulig PDF BernoulliDistribution p, 0 Fordelingen kan benyttes til å simulere myntkast med perfekte mynter: RandomInteger BernoulliDistribution, 0 0,, 0, 0,,, 0, 0,, 0,, 0,, 0, 0, 0, 0, 0,, 0 Bernoullifordelingen er identisk med den binomiske fordeling ved ett forsøk : Table PDF BinomialDistribution, p, k, k, 0, p, p Per deltar i et lotteri hvor en gevinst er gjemt i en av 0 bokser, og han skal peke ut riktig boks. Sannsynligheten for gevinst er derfor p = 0.. PDF BernoulliDistribution 0., 0. Etter hvert forsøk skyfles boksene. Sannsynligheten for gevinst endres derfor ikke ved nye forsøk. Forsøkene er binomisk fordelt. Dersom Per satser 5 ganger, er sjansen økt til ca. 33 %. PDF BinomialDistribution 5, 0., Hypergeometrisk fordeling Forventningsverdi og varians er gitt ved Mean HypergeometricDistribution n, p N, N n p Variance HypergeometricDistribution n, p N, N n p p N n N Det gjøres en serie delforsøk, hver med to mulige utfall. Sannsynligheten for et gunstig utfall er p. I en gruppe med opprinnelig N elementer er det M =p N gunstige elementer. Det gjøres n delforsøk, sannsynligheten avtar med antall forsøk. I en urnemodell svarer dette til at det trekkes ut elementer uten tilbaklegging slik at det stadig blir færre elementer å trekke fra. Sannsynligheten for å oppnå k gunstige utfall i løpet av n delforsøk er gitt ved PDF HypergeometricDistribution n, p N, N, k

7 Statistikk ver 7.nb 7 p N k N p N n k N n Lise fisker fra en oppdrettsmerd med 0 fisker, hvorav 0 store, fine kveiter. Lise foretar 40 kast med stanga, og hun får alltid napp. Antall kveiter som hun klarer å fange er hypergeometrisk fordelt. Et gunstig utfall i dette eksemplet er altså å dra en kveite. Sannsynligheten for at Lise får 5 kveiter er da gitt ved PDF HypergeometricDistribution 40, 0, 0, 5 N Sannsynligheten for maks 5 kveiter i fangsten når det kastes 40 ganger mot merden som inneholder 0 gunstige elementer (kveiter) finnes fra den kumulative fordelingsfunksjonen: CDF HypergeometricDistribution 40, 0, 0, 5 N 0.93 Plus Table PDF HypergeometricDistribution 40, 0, 0, k, k, 0, 5 N 0.93 ListPlot Table PDF HypergeometricDistribution 40, 0, 0, k, k,, 0, Filling Axis, FillingStyle Red Plot CDF HypergeometricDistribution 40, 0, 0, k, k, 0, 0, AxesOrigin 0, Når populasjonen N er stor i forhold til utvalget, vil den hypergeometriske fordelingen med parametre n, p N, N være tilnærmet lik den binomiske fordelingen med parametre n, p. Dette begrunnes slik: La X være hypergeometrisk fordelt parametre n,p, N. VI innfører også q p. Vi ser først på approksimasjonen N n N n N n N N... N n n N n n sannsynlighetstettheten for den hypergeometriske forsøksrekka. når N n. Dette bruker vi i alle binomialkoeffisientene som forekommer i P X x p N x N n q N n x p N x q N n x x n x N n n n x n x px q n x n x px q n x n x px p n x

8 8 Statistikk ver 7.nb Når populasjonen N er stor i forhold til utvalget, vil den hypergeometriske fordelingen med parametre n, p N, N være tilnærmet lik den binomiske fordelingen med parametre n, p. Dette begrunnes slik: La X være hypergeometrisk fordelt parametre n,p, N. VI innfører også q p. Vi ser først på approksimasjonen N n N n N n N N... N n n N n n sannsynlighetstettheten for den hypergeometriske forsøksrekka. når N n. Dette bruker vi i alle binomialkoeffisientene som forekommer i P X x p N x N n q N n x p N x q N n x x n x N n n n x n x px q n x n x px q n x n x px p n x Her er den hypergeometriske fordelingen (røde kulehoder) med n 40, N 000 og p 0.4 sammenliknet med den binomiske fordelingen (blå kulehoder) med samme verdier for n og p. Overensstemmelsen er meget god. lp ListPlot Table PDF HypergeometricDistribution 40, 400, 000, k, k,, 30, Filling Axis, PlotStyle Red ; lp ListPlot Table PDF BinomialDistribution 40, 0.4, k, k,, 30, Filling Axis, PlotStyle Blue ; Show lp, lp Gjør tilsvarende sammenlikning med andre parametre, spesielt der utvalget n er en vesentlig del av totalmengden N. Demonstrasjon : Geometrisk fordeling Av og til er suksessfaktorer vanskelige å oppnå, og det kan være nødvendig med flere forsøk før første instans av gunstig utfall intreffer. I slike sammenhenger er det interessant å studere fordelingen av mislykkede utfall før suksess. Hvis det er sannsynlighet p for suksess, vil denne fordelingen være geometrisk fordelt med parameter p. Sannsynligheten for suksess etter n mislykkede forsøk er gitt ved fordeliongen PDF GeometricDistribution p, n p p n Mean GeometricDistribution p p

9 Statistikk ver 7.nb 9 Variance GeometricDistribution p p p Den kumulative fordeling følger av partialsummen til en geometrisk rekke : n p p i FullSimplify i 0 p n Dette resultatet framkommer også fra CDF - funksjonen i programmet. Vi må spesifisere at n er et positivt heltall for å få det enkleste uttrykket. FullSimplify CDF GeometricDistribution p, n, n Integers && n 0 p n Når du kaster perfekte terninger, er sannsynligheten for alle utfall mellom og 6 øyne like sannsynlige. Sannsynligheten for å få en sekser i hvert kast, er derfor p. Sansynligheten for å få en sekser etter nøyaktig 3 mislykkete forsøk, dvs. i det 6 fjerde kastet, er da gitt ved PDF GeometricDistribution, 3 N Alle kastene er uavhengige av hverandre. Sannsynlighetene for suksess eller fiasko multipliseres derfor sammen, og den totale sannsynlighet avtar når du spør etter suksess etter n mislykkede kast. Men sannsynligheten for at du får en sekser i løpet av de 4 første kastene er over 50%. I grafene har vi økt antall mislykkede forsøk til 30. ListPlot Table k, PDF GeometricDistribution, k, k, 0, 30, Filling Axis CDF GeometricDistribution, 3 N Sannsynligheten for minst 4 kast uten suksess er tilsvarende. CDF GeometricDistribution,

10 0 Statistikk ver 7.nb ListPlot Table k, CDF GeometricDistribution, k, k, 0, 30, Filling Axis Den geometriske fordelingsfunksjonen kan benyttes til å produsere (pseudo) tilfeldige heltall. Jo mindre verdi for p, jo større område genreres heltallene fra. RandomInteger GeometricDistribution, , 3, 5,, 3, 0, 9, 3,,, 5,, 0,, 8, 0,, 0,, 8, 4, 0, 3, 4, 3, 6, 4,, 5, RandomInteger GeometricDistribution 3, , 0,, 0,, 0,,, 0, 3,, 0,,, 0,,,, 0, 0,,, 0, 0,, 0, 0,,, 0 Poissonfordeling Antall forekomster av hendelsen A er poissonfordelt dersom alle forekomster av A i ikke-overlappende tidsintervaller er uavhengige av hverandre, forventet antall forekomster av A er konstant lik Λ pr. tidsenhet, og to forekomster kan ikke inntreffe på nøyaktig samme tid. Anta vi i løpet av de neste t tidsenheter observerer X forekomster av hendelsen A. Hvis poissonforutsetningene er oppfylt, vil X være poissonfordelt med parameter Μ Λ t. For gitte verdier av Λ og t vil vi derfor klare å beskrive fordelingen med en eneste parameter Μ. Sannsynligheten for en heltallig verdi k av den stokastiske variabelen X i en Poisson-fordeling er gitt ved PDF PoissonDistribution Μ, k Μ Μ k k Det er ikke mulig å benytte fordelingen på ikke - heltallige verdier av k PDF PoissonDistribution Μ, Π 0 Forventningsverdi og varians er like i Poissonfordelingen. Mean PoissonDistribution Μ Μ Variance PoissonDistribution Μ Μ

11 Statistikk ver 7.nb ListPlot Table k, PDF PoissonDistribution 0, k, k, 0, 30, Filling Axis Sannsynlighetstettheten summerer opp til. Den numeriske nøyaktigheten øker med større verdier for Μ NIntegrate PDF PoissonDistribution 0, x, x, 0,. Den kumulative fordelingen kan uttrykkes ved en av spesialfunksjonene i Mathematica. Vi ser av trappeformen på grafen at den vil inneholde Floor- funksjonen, som returnerer største heltall x. Husk at tetthetsfordelingen bare er definert for heltallige verdier av x. Plot Simplify CDF PoissonDistribution 0, x, x Integers, x,, 30, AxesOrigin 0, 0 Quiet CDF PoissonDistribution Μ, x Q x, Μ StandardForm GammaRegularized Floor x, Μ Erstatter vi Floor x x får vi en kontinuerlig graf. Her er grafene tegnet for Μ = 5,0,5,0.

12 Når n vil de to siste faktorene begge gå mot. Videre er lim Λ n Λ. Tilsammen gir dette Statistikk ver 7.nb Plot GammaRegularized x, & 5, 0, 5, 0, x, 0, Dersom vi lar x variere kontinuerlig, vil programmet vise grafen til den kumulative fordeling slik : Plot CDF PoissonDistribution 0, x, x, 0, Kristine fisker kontinuerlig med en line som dras etter båten hun ror. Hun har erfart at i snitt får hun 5 napp pr. time. Siden hun bruker bare et snøre, kan hun aldri få flere fisker ad gangen. La X være hendelsen at Kristine får fisk på kroken. Variabelen X vil da være poissonfordelt. Sannsynligheten for at Kristine får 6 napp den første timen er da P[X = 6] = N PDF PoissonDistribution 5, Λ t 6 6 Λ t med Λ t 5 Sannsynligheten for å få mellom 0 og 0 napp i løpet av den første timen er vist i plottet under ListPlot Table k, PDF PoissonDistribution 5, k, k, 0, 0, Filling Axis Poissonfordelingen sammenfaller med den binomiske fordelingen når antall delforsøk n er stort og sannsynligheten p liten. La X være binomisk fordelt, og husk at p Λ n P X x n x px p n x n n x x Λ n x Λ n x Λx x Λ n n n n... n x n x Λ n x.

13 Statistikk ver 7.nb 3 Poissonfordelingen sammenfaller med den binomiske fordelingen når antall delforsøk n er stort og sannsynligheten p liten. La X være binomisk fordelt, og husk at p Λ n P X x n x px p n x n n x x Λ n x Λ n x Λx x Λ n n n n... n x n x Λ n x. Når n vil de to siste faktorene begge gå mot. Videre er lim n Λ n n Λ. Tilsammen gir dette lim n P X x Λx x Λ. Variabelen X er altså tilnærmet poissonfordelt med parameter Λ t Λ Λ Her ser du en sammenlikning mellom binomisk fordeling og poissonfordeling for n 00, p 0. og Λ n p 0 lp ListPlot Table PDF BinomialDistribution 00, 0., x, x,, 40, Filling Axis, PlotStyle Red ; lp ListPlot Table PDF PoissonDistribution 0, x, x,, 40, Filling Axis, PlotStyle Blue ; Show lp, lp Prøv tilsvarende sammenlikning med n 0, p 0.6, Λ 6. Hva konkluderer du? Demonstrasjon : Diskrete fordelinger i Mathematica 7 Hvis du er interessert i flere diskrete sannsynlighetsfordelinger, kan du finne en oversikt over alle fordelinger beskrevet i Mathematica i denne demonstrasjonen: Kontinuerlige sannsynlighetsfordelinger Vi vender oss nå til kontinuerlige fordelinger. Gå til menyvalget Help Documentation Center. Skriv inn referansen guide/continuousstatisticaldistributions i søkefeltet. Her kan du lese at det finnes svært mange ulike typer fordelinger, mange av dem tilpasset spesielle formål. Vi vil generere datasett med de gitte fordelinger, og sammenlikne histogrammer med de toeretiske kontinyuerlige fordelingsfunksjonene. I den anledning illustrerer jeg noen av de grafiske muligheter programmet har for å visualisere resultatene, selv om helt enkle histogrammer ville gi samme informasjon. Vi starter med den enkleste fordelingen, uniform fordeling

14 4 Statistikk ver 7.nb Uniform fordeling Når sannsynlighetstettheten er konstant, kalles fordelingen uniform. f x_ PDF UniformDistribution min, max, x max min 0 True min x max Integrate f x, x, min, max, Assumptions min max Mean UniformDistribution min, max max min Variance UniformDistribution min, max max min Plot PDF UniformDistribution,, x, x,,, PlotStyle Thick, Red CDF UniformDistribution min, max, x x min max min min x max x max Plot CDF UniformDistribution,, x, x,,, PlotStyle Thick, Red Mette løper hver torsdag en rundløype på 9 km. Sist torsdag oppdaget Mette at hun hadde mistet husnøkkelen på jogeturen. I utgsngspunktet tror hun at den kan være mistet hvor som helst, dvs. alle deler av strekningen er like sannsynlige. La X være posisjonen der nøkkelen ble mistet (målt i km, som avstand fra startpunktet). Mettes antagelse betyr at X er uniformt forsdelt over intervallet [0,9].

15 Statistikk ver 7.nb 5 Mette løper hver torsdag en rundløype på 9 km. Sist torsdag oppdaget Mette at hun hadde mistet husnøkkelen på jogeturen. I utgsngspunktet tror hun at den kan være mistet hvor som helst, dvs. alle deler av strekningen er like sannsynlige. La X være posisjonen der nøkkelen ble mistet (målt i km, som avstand fra startpunktet). Mettes antagelse betyr at X er uniformt forsdelt over intervallet [0,9]. f x_ : 9 0 x 9 0 True F x_ f x x 0 x 0 x 9 0 x 9 True F(x) svarer til den kunmulative fordelingsfunksjonen CDF UniformDistribution 0, 9, x x 9 0 x 9 x 9 Mette tror ved nærmere ettertanke at hun kanskje har mistet nøkkelen etter etveikryss ved 4.6 km, men før neste krysss ved 8.4 km. Sannsynligheten for dette svarer til arealet av det fargede området på grafen: p Plot F x, x,, 0, PlotStyle Thick, Red ; p Plot F x, x, 4.6, 8.3, AxesOrigin 0, 0, Filling Axis ; Show p, p P 4.6 x 8.3 F 8.4 F Forventningsverdien til X er rimelig midtpunktet i løypa: Μ x f x x 9 Standardaviket er roten av variansen, i dette tilfellet

16 6 Statistikk ver 7.nb 9 Σ Sqrt x f x x Μ N Demonstrasjon: Trekantfordeling PDF TriangularDistribution min, max, x 4 min x min max 4 max x min max min x max min max min x max Integrate PDF TriangularDistribution min, max, x, x, min, max, Assumptions min max Mean TriangularDistribution min, max max min Variance TriangularDistribution min, max max min 4 Plot PDF TriangularDistribution 0,, x, x, 0, Middelverdien av tilfeldig uniformt fordelte variabler er trekantfordelt : vals Mean RandomReal UniformDistribution, 0,, 0 ^ 6 ; Mean vals, Variance vals , dist TriangularDistribution, 0 ;

17 Statistikk ver 7.nb 7 Mean dist, Variance dist N 5.5, Gitt tetthetsfordelingen f x_ x 0 x x x 0 True PDF TriangularDistribution 0,,x x 0 x x x F x_ f x x 0 x 0 x 0 x x x x True P X F Eksponentialfordeling Eksponentialfordelingen er knyttet til poissonprosessen, som ventetiden til en bestemt hendelse inntreffer. Ventetiden T i en poissonprosess er eksponentialfordelt med parameter Λ. Sannsynlighetstettheten er gitt ved: PDF ExponentialDistribution Λ, t Λ t Λ Vi definerer sannsynlighetstettheten for seinere bruk: f t_ Λ Exp Λ t ; Plot f t. Λ 0.05, t, 0, 0, AxesOrigin 0, 0, Filling Axis Den kumulative fordelingsfunksjonen får vi ved å integrere over alle tider da denne parameter er kontinuerlig. Husk hvordan du definerte Riemannintegrasjon som grensen for en uendelig sum over infinitesimale intervaller. t F t_ f Τ Τ 0 t Λ Sjekker svaret :

18 8 Statistikk ver 7.nb Sjekker svaret : CDF ExponentialDistribution Λ, t t Λ t 0 0 True Sannsynlighetstettheten summerer opp til, slik den alltid må : Simplify f Τ Τ, Λ 0 0 Plot F t. Λ 0.05, t, 0, Fordelingsfunksjonen representerer også arealet under sannsynlighetstettheten. Plot f t. Λ 0.05, t, 0, 00, AxesOrigin 0, 0, Filling Axis Vi kan begrunne at ventetiden T i en poissonprosess er eksponentielt fordelt. La X være antall forekomster i løpet av tiden t. Hvis T t må det bety at det ikke har vært forekomster før tiden t. Dermed er P T t P X 0 Λ t 0 0 Λ t Λ t Da må F t P T t P T t Λ t Sannsynlighetstettheten kan finnes ved å derivere fordelingsfunksjonen f t_ D F t, t Λ t Λ Forventningsverdien kan beregnes ut fra formelen

19 Statistikk ver 7.nb 9 Μ Simplify t f t t, Λ 0 0 Λ Sjekk Mean ExponentialDistribution Λ Λ Variansen kan beregnes ut fra definisjonen Var X E X E X, der E X Μ 0 x f x x Var Simplify Τ f Τ Τ, Λ 0 Μ 0 Λ Sjekk Variance ExponentialDistribution Λ Λ Ved et sentralbord har man registrert at det gjennomsnittlig går 0 sekunder mellom hvert anrop. Kundene ringer uavhengig av hverandre, de forventes å ringe like hyppig hele tiden, og ingen ringer nøyaktig samtidig. Poissonbetingelsene er derfor oppfylt, og ventetiden T vil være eksponentielt fordelt. Opplysningene gir videre at forventningsverdien er Μ = 0, dvs. Λ = /0 = 0.05 i denne oppgaven. Sentralborddamen trenger to minutters pause for å besøke toalettet. Sannsynligheten for at noen ringer i løpet av fraværet er da P T 0 F T 0; F T. Λ N La X være antall anrop i løpet av perioden T. Vi vet da at X er poissonfordelt med parameter Λ T. Sannsynligheten for nøyaktig 6 anrop mens damen er fraværende, er da P X Λ T 6 6 Λ T. Λ 0.05 Eksponentialfordelingen har en viktig egenskap : den husker ikke tidligere hendelsesforløp. Vi kan si at den er historieløs. Anta at det allerede har gått en tid s siden siste hendelse. Sannsynligheten for at T skal "overleve" ytterligere t tidsenheter, er uforandret lik P T t, helt uavhengig av s. Dette kan begrunnes ved å se på den betingede sannsynligheten for at T t s, gitt at T s. P T t s T s P T t s P T s Λ s t Λ s Λ t P T t En del teknisk utstyr har en levetid T som er eksponentialfordelt. Er det noe poeng å drive vedlikehold på dette utstyret? Er det grunn til å skifte en lyspære som virker?. Nei! Siden eksponentialfordelingen er uten hukommelse, betyr det at utstyret er så godt som nytt- så lenge det virker. I tekniske sammenhenger kalles parameteren Λ ofte for sviktraten. Anta en komponent fungerer ved tidspunktet t. Hvis komponentens levetid er eksponentielt fordelt, vil sannsynligheten for at komponenten svikter i neste øyeblikk være proporsjonal med Λ. Tenk derivasjon, f t F ' t

20 0 Statistikk ver 7.nb En del teknisk utstyr har en levetid T som er eksponentialfordelt. Er det noe poeng å drive vedlikehold på dette utstyret? Er det grunn til å skifte en lyspære som virker?. Nei! Siden eksponentialfordelingen er uten hukommelse, betyr det at utstyret er så godt som nytt- så lenge det virker. I tekniske sammenhenger kalles parameteren Λ ofte for sviktraten. Anta en komponent fungerer ved tidspunktet t. Hvis komponentens levetid er eksponentielt fordelt, vil sannsynligheten for at komponenten svikter i neste øyeblikk være proporsjonal med Λ. Tenk derivasjon, f t F ' t Demonstrasjoner : Normalfordeling Dette er den mest vanlige fordelingen av resultater i et stokastisk forsøk bestående av n uavhengige delforsøk. Eksempler kan være den totale vekt av Kristines fiskefangst eller kroppshøyden til en tilfeldig person.normalfordelingen oppstår som en grense til den binomiske fordelingen når antall delforsøk blir stort, som en slags videreføring av tankegangen bak poissonfordelingen. La oss vende tilbake til terningkast. Terningen kastes n ganger, og X er hendelsen at du får en sekser. Da er X binomisk fordelt med p. Hvis vi tegner opp fordelingsfunksjonen for ulike verdier av n, vil vi se at kurven nærmer seg den 6 berømte klokkeformen når n. Middelverdien er tegnet inn med rød strek, Μ = n p. p 6 ; lp ListPlot Table k, PDF BinomialDistribution 0, p, k, k, 0, 6, Filling Axis, Joined True, PlotLabel "n 0", Epilog Red, Line 0 p, 0, 0 p, 0.3 ; lp ListPlot Table k, PDF BinomialDistribution 0, p, k, k, 0,, Filling Axis, Joined True, PlotLabel "n 0", Epilog Red, Line 0 p, 0, 0 p, 0.3 ; lp3 ListPlot Table k, PDF BinomialDistribution 00, p, k, k, 0, 40, Filling Axis, Joined True, PlotLabel "n 00", Epilog Red, Line 00 p, 0, 00 p, 0. ; Show GraphicsRow lp, lp, lp n n n Vi genererer 000 tilfeldige, standardnormalfordelte dataverdier og ser hvordan de passer inn i den teoretiske modellen.

21 Statistikk ver 7.nb hist Histogram RandomReal NormalDistribution 0,, 000, Automatic, "ProbabilityDensity " ; dist Plot PDF NormalDistribution 0,, x, x, 3, 3, PlotStyle Red ; Show hist, dist Fordelingsfunksjonen for normalfordeling er gitt ved pdf x_, Μ_, Σ_ PDF NormalDistribution Μ, Σ, x x Μ Σ Π Σ f (x) oppfyller kravet til tetthetsfunksjon: Simplify pdf x, Μ, Σ x, Σ 0 Forventningsverdi og varians beregnes til : Mean NormalDistribution Μ, Σ Μ Variance NormalDistribution Μ, Σ Σ Standardavviket er altså lik Σ, så parametrene i fordelingsfunksjonen angir direkte forventningsverdi og standardavvik. Hvis en stokastisk variabel X er normalfordelt med middelverdi Μ og standardavvik Σ, skriver vi X N Μ, Σ. Verdiene på parametrene bestemmer formen på klokken. Grafen er symmetrisk om x Μ, og standardavviket Σ sier noe om breddenpå klokken.

22 Statistikk ver 7.nb Plot pdf x, 0,, pdf x,,, x, 4, Funksjonen er symmetrisk om forventningsverdien Solve D pdf x, Μ, Σ, x 0, x, InverseFunctions True x Μ Vendepunktene opptrer der x Μ ± Σ. Solve D pdf x, Μ, Σ, x, 0, x x Μ Σ, x Μ Σ I praksis er vi mest interessert i den kumulative fordelingen. Denne gir sansynligheten P X x] for at resultatet av forsøket gir verdi minder enn x. Denne kan uttrykkes matematisk ved erf- funksjonen, definert ved erf x Π 0x x x Π erf x x x x 0 Faktoren foran integralet sørger for at funksjonen uttrykker en normert sannsynlighetstetthet Erf F x_ Simplify erf x Μ Σ x pdf y, Μ, Σ y, Σ 0 Denne samsvarer med programmets kumulative fordeling. CDF NormalDistribution Μ, Σ, x erf x Μ Σ Normalfordelingskurven har egenskapen at uansett verdier av parametrene Μ og Σ, vil arealet under kurven opp til x Μ Σ z være like stort.

23 Statistikk ver 7.nb 3 Μ zσ Simplify pdf x, Μ, Σ x, Σ 0 erf z Vi ser at svaret er uavhengig av Μ og Σ. I figuren under har vi illustrert dette arealet for {Μ,Σ} = {0,} og {Μ,Σ} = {6,3}for z. Det røde og blå feltet har samme areal. nf Plot pdf x, 0,, x, 4, 4, Ticks 3,, "z", 3, 6, 9, "Μ Σ z",, None ; nf Plot pdf x, 0,, x, 4,, Filling Axis ; nf3 Plot pdf x, 6, 3, x, 4, 4 ; nf4 Plot pdf x, 6, 3, x, 4, 9, Filling Axis, FillingStyle Directive Red, Opacity 0.5 ; Show nf, nf, nf3, nf4, PlotRange 4, 4, 0, pdf 0, 0, 3 z 3 6 Μ Σ z Dette betyr at P X Μ z Σ kun avhenger av z. Vi kan derfor velge Μ = 0, Σ = i det videre arbeid. Statistikerne har funnet at dette valget egner seg godt for beregninger innenfor denne fordelingen. Vi kaller den standardnormalfordelingen eller gaussfordelingen. Hvis X N Μ, Σ, så vil variabelen Z X Μ være gaussfordelt: Z N 0,. Den tilhørende kumulative fordelingsfunksjonen er gitt ved Σ G z P Z z z t t Π Sannsynlighetsfordelingen til variabelen Z må ha samme kurveform som fordelingen til X, bare med en annen skalering og translasjon langs aksene. Det følger at E Z 0 og Var Z. Når vi kjenner verdiene til G z, kan vi transformere tilbake for å finne F x for enhver normalfordelt variabel X. Dersom X N Μ, Σ gjelder F x G x Μ. Siden integralene ikke er elementære, er vi avhengig av tabeller eller numerisk Σ kalkulasjonsverktøy for å beregne sannsynligheter som er normalfordelt. Uansett hvilke verdier parametrene Μ og Σ har, er det omtrent 68% sjanse for a X får en verdi mindre enn ett standardavvik fra middelverdien.

24 4 Statistikk ver 7.nb nf5 Plot pdf x, 0,, x, 4, 4, Ticks 4, 3,,, "Μ Σ",, "Μ Σ",, 3, 4, None ; nf6 Plot pdf x, 0,, x,,, Filling Axis, PlotRange 0, pdf 0, 0, ; Show nf5, nf6 4 3 Μ Σ Μ Σ 3 4 Her viser vi at P Μ Σ x Μ Σ 0.68 Μ Σ pdf x, Μ, Σ x Simplify Μ Σ erf N Det er ca. 95 % sannsynlighet for at resultatet ligger inenfor to standardavvik fra middelverdien. nf5 Plot pdf x,,, x, 3, 5, Ticks 3,,, "Μ Σ", 0,,, 3, "Μ Σ", 4, Automatic ; nf7 Plot pdf x,,, x,, 3, Filling Axis, PlotRange 0, 0.4 ; Show nf5, nf Μ Σ Μ Σ 4 Μ Σ pdf x, Μ, Σ x Μ Σ erf N Vi ser på et par eksempler:

25 Statistikk ver 7.nb 5 Vi ser på et par eksempler: En limtredrager brekker hvis påkjenningene er større enn styrken drageren er dimensjonert for. En drager som tåler 00 kg, utsettes for en last X som er normalfordelt med forventningsverdi Μ = 990 kg og standardavvik Σ = 0 kg. Sannsynligheten for at drageren brekker, er da P X 00 F 00 - G( ) = - G(.75) 0 G z_ : Π z t t P X 00 G Det er 4 % sannsynlighet for at drageren ryker. Kristines fiskefangst har en total vekt V som antas normalfordelt med Μ = 84 kg ogσ = kg. Sannsynligheten for at fangsten ender mellom 00 kg og 5 kg er da P[00 < X < 5] =P[X < 5] - P[X < 00] = F(5) - F(00) = G( P 00 X 5 G.48 G ) - G( )= G(.48) - G(0.76) Kvantiler Verdien z Α kalles Α - kvartilet til Z når P Z z Α Α. I gaussfordelingen kan vi regne ut kvantilet som verdien - G(z Α ). G Quantile NormalDistribution Μ, Σ, x Simplify Σ erf x Μ Svaret finner vi ved å invertere den kumulative fordelingsfunksjonen Solve CDF NormalDistribution Μ, Σ, y x, y, InverseFunctions True y Σ erf x Μ Vi har nettopp funnet at dersom z =.855 er sannsynligheten P Z z 0. Abs Quantile NormalDistribution 0,,

26 6 Statistikk ver 7.nb nf8 Plot pdf x, 0,, x, 4, 4, Ticks.8, "z 0. ", None ; nf9 Plot pdf x, 0,, x,.8, 4, Filling Axis, PlotRange 0, pdf 0, 0, ; Show nf8, nf9 z 0. Sannsynligheten for at v den gaussfordelte variabelen Z ( med forventet verdi Μ = 0 og spredningsmål Σ = ) får en verdi større enn.8 er derfor 0., eller 0% sannsynlighet. Hvis resultatet skal være innenfor 95,45 % sannsynlighet, kan vi beregne intervallet som verdien må ligge i ved å løse likningen FindRoot G z G z , z, z. Dette bekrefter at verdien ligger innenfor intervallet [Μ - Σ, Μ + Σ]. Normalfordelt sum La {X n } være n uavhengige og normalfordelte variabler med forventningsverdi {Μ n } og standardardavvik {Σ n }. Da vil n enhver lineærkombinasjon av {X n } være normalfordelt. Dersom a, a,... a n er konstanter, vil variabelen Y i a i X i n være normalfordelt med Μ i a i Μ i og Σ n i a i Σ i. Det siste følger generelt fra definisjonen av forventningsverdi og varians anvendt på uavhengige variabler Et firma selger tre ulike produkter rettet mot ulike markeder. Dekningsbidragene for produktene antas uavhengige og normalfordelte, slik at D N 0.8, 0.3, D N.3, 0.4, D 3 N 0.6, 0.5 (alle tall i millioner). 3 3 Vi ser at i Μ i.7 og i Σ i = 0.5. Dersom Y er summen av dekningsbidragene, blir Y D D D 3 N.7, Sannsynligheten for at dekningsbidraget er mindre enn en fast kostnad på millioner kroner er da P Y F G.7 G P Y G La X n være uavhengige variabler fra samme normalfordeling med forventningsverdi Μ og standardavvik Σ. Da er summen n Y i X i normalfordelt, Y N n Μ, n Σ. Men vi kan forsterke utsagnet ved hjelp av sentralgrenseteoremet, et av de viktigste teoretiske resultatene i statistikkfaget.

27 Statistikk ver 7.nb 7 Sentralgrenseteoremet La X n være uavhengige variabler fra samme sannsynlighetsfordeling med forventningsverdi Μ og standardavvik Σ X n n i X i er normalfordelt med forventningsverdi Μ og standardavvik Sentralgrenseteormet er et sterkt resultat fordi det gjelder uansett hvilken sannsynlighetsfordeling som gjelder for X n. n En variant av dette teoremet sier at summen Y i X i er tilnærmet normalfordelt, slik at Y N n Μ, n Σ. Tilnærmelsen blir bedre når antall forsøk n er stor. En tommelfingerregel sier at vi bør kreve n 0. Σ n. Tilnærming til normalfordeling Hvis X er binomisk, hypergeometrisk eller poissonfordelt med forventningsverdi Μ og standardavvik Σ, vil X være tilnærmet normalfordelt dersom Σ 5. Da gjelder P X x F x G x Μ Σ. Vi har tidligere sett at den hypergeometriske fordelingen nærmer seg den binomiske når n øker, som i sin tur nærmer seg poissonfordelingen. Hvis vi kan vise at binomialfordelingen nærmer seg normalfordelingen, har vimindirekte vist at alle tre fordelinger nærmer seg normalfordelingen. Anta derfor X er binomisk fordelt, X bin n, p. Vi antar at X er en sum av uavhengige indikatorvariabler, X I I... I n. Sentralgrenseteoremet sier da at X er tilnærmet normalfordelt med forventningsverdi Μ = n p og varians Σ n p p når n er stor. FindMaximum p p, p 0.5, p 0.5 Vi ser derfor at Σ n 4, hvor øvre grense svarwer til p 0.5. Vi å kreve Σ 5, sikrer vi at n 0. Dette resultatet forteller oss hvorfor normalfordelingen spiller en så stor rolle i statistikkfaget. Både binomisk, hypergeometrisk og poissonfordeling er diskrete fordelinger, og denne nye erkjennelsen sier altså at diskrete sannsynligheter kan beregnes ut fra en kontinuerlig modell når antall forsøk er rimelig stort. Tilnærmingen viser seg å bli enda bedre dersom vi innfører en heltallskorreksjon, x x 0.5: P X x F x G x 0.5 Μ Σ Vi ser igjen på borettslaget som plantet n 90 juletrær. Alle juletrær som kan høstes, kalles Y og er binomisk fordelt med sannsynlighet p = 0.4. Forventningsverdi og varians beregnes til Μ n p 37.8, Σ n p p Betingelsen for å foreta normaltilnærming er oppfylt. Vi finner da P Y 39 G G Med heltallskorreksjon: P Y 39 G G Den eksakte binomiske sannsynligheten er tidligere beregnet til P X y 0 Binomial 90, y p y p 90 y med p 0.4

28 8 Statistikk ver 7.nb G 0.56 G P Y 39 With p 0.4, Binomial 90, y p y p 90 y y 0 Svaret med heltallskorreksjon er svært nøyaktig, tatt i betraktning at dette bare er en tilnærming. Gammafordelingen Det finnes mange kontinuerlige fordelingsfunksjoner. Felles for dem er at tetthetsfordelinger og kumulative fordelinger ofte uttrykkes ved avanserte matematiske funksjoner som du bør oppsøke vitenskapelig litteratur for å studere nærmere. Vi vil kort nevne noen av disse fordelingene. Gammafordelingen er definert for x 0 og beskrives ved to positive parametre Α og Β: data RandomReal GammaDistribution 3, 5, 000 ; histogram Histogram data, Automatic, "ProbabilityDensity ", ChartStyle LightBlue ; distrib Plot PDF GammaDistribution 3, 5, x, x, 0, 50, PlotStyle Thick, Red ; Show histogram, distrib, PlotRange 0, 50, All PDF GammaDistribution Α, Β, x x Α x Β Α Β Α Tetthetsfunksjonen inneholder Gammafunksjonen. Dens viktigste egenskap er at den utvider fakultetsbegrepet til ikke heltallige positive og negative verdier. For et heltall n 0 gjelder at n n Derimot er n ikke definert. Tetthetsfunksjonen er nedenfor plottet for ulike verdier av Α og Β. Den beskriver typisk skjevfordelte instanser av X.

29 Statistikk ver 7.nb 9 Plot Tooltip PDF GammaDistribution, 4, x, PDF GammaDistribution 3,, x, x, 0, Arealet under kurvene summerer seg opp til : Integrate PDF GammaDistribution Α, Β, x, x, 0,, Assumptions Α 0, Β 0 Mean GammaDistribution Α, Β Α Β Variance GammaDistribution Α, Β Α Β CDF GammaDistribution Α, Β, x Q Α, 0, x Β StandardForm GammaRegularized Α, 0, x Β Plot CDF GammaDistribution, 4, x, x, 0, Eksponentialfordelingen er et spesialtilfelle av gammafordelingen når Α =, Β = Λ. PDF GammaDistribution,, x Λ Λ x Λ Tante Olga har en lampe i huset sitt, og lampen bruker bare en pære. Hun har kjøpt 50 lyspærer på tilbud, hver av dem med eksponentialfordelt levetid, med Μ = Σ = 500 timer. Når en pære ryker, erstattes den umiddelbart med en fra tilbudspakken. La T være den totale tida Olga har lys i lampen sin, hel til siste pære er oppbrukt. Variabelen T er da gammafordelt med parametre (Α,Β) = (n, Λ) = (50, 500). Sannsynligheten for at Olga har brukt opp alle pærene før 8 år er gått, er da:

30 30 Statistikk ver 7.nb Tante Olga har en lampe i huset sitt, og lampen bruker bare en pære. Hun har kjøpt 50 lyspærer på tilbud, hver av dem med eksponentialfordelt levetid, med Μ = Σ = 500 timer. Når en pære ryker, erstattes den umiddelbart med en fra tilbudspakken. La T være den totale tida Olga har lys i lampen sin, hel til siste pære er oppbrukt. Variabelen T er da gammafordelt med parametre (Α,Β) = (n, Λ) = (50, 500). Sannsynligheten for at Olga har brukt opp alle pærene før 8 år er gått, er da: P T < 8 år] = P[T < timer]=cdf[gammadistribution[50, 500],70000] CDF GammaDistribution 50, 500, N T er iflg sentralgrenseteoremet tilnærmet normalfordelt med E T n Μ n Λ Α Β , SD T n Σ n Λ P T G G 0.47 = Plot CDF GammaDistribution 50, 500, x, x, 0, Α Β Lyspærene varer temmelig sikkert mer enn 6 år, men neppe lenger enn år : P T 6 CDF GammaDistribution 50, 500, N P T CDF GammaDistribution 50, 500, N Betafordelingen Betafordelingen er definert for 0 < x og beskrives ved to positive parametre Α og Β:

31 Statistikk ver 7.nb 3 data RandomReal BetaDistribution 3, 6, 000 ; histogram Histogram data, Automatic, "ProbabilityDensity ", ChartStyle 6 ; distrib Plot PDF BetaDistribution 3, 6, x, x, 0,, PlotStyle Thick, Pink ; Show histogram, distrib PDF BetaDistribution Α, Β, x x Α x Β Α, Β Plot Tooltip PDF BetaDistribution, 5, x, PDF BetaDistribution,, x, PDF BetaDistribution 5,, x, x, 0, Arealet under kurvene summerer seg opp til : Integrate PDF BetaDistribution Α, Β, x, x, 0,, Assumptions Α 0, Β 0 Mean BetaDistribution Α, Β Α Α Β Variance BetaDistribution Α, Β Α Β Α Β Α Β CDF BetaDistribution Α, Β, x I x Α, Β

32 3 Statistikk ver 7.nb StandardForm BetaRegularized x, Α, Β Betafordelingen med parametre Α = Β = er ekvivalent med den uniforme fordelingen. PDF BetaDistribution,, x PDF UniformDistribution 0,, x 0 x 0 True Hvis X og X er uavhengig gammafordelt med samme skaleringsfaktorer Α, Β, så vil den tilfeldig variable betadistribuert med samme skaleringsfaktorer Α og Β. X X X være Maxwellfordelingen Denne fordeling er velkjent fra lærebøker i termodynamikk, da den representerer hastighetsfordelingen blant molekyler med temperatur T i en gass. Konstanten k som inngår i uttrykket, er Bolzmann's konstant. Hvert molekyl har masse m. Den midlere termiske bevegelsen til molekylene når de farer fram og tilbake i gassen er fordelt etter formelen: data RandomReal MaxwellDistribution 3, 000 ; histogram Histogram data, Automatic, "ProbabilityDensity ", ChartStyle ; distrib Plot PDF MaxwellDistribution 3, x, x, 0,, PlotStyle Thick, Green ; Show histogram, distrib f v_ PDF MaxwellDistribution k T m, v Π v m v k T k T m 3 Midlere molekylhastighet i gassen beregnes til v 8 k T Π m :

33 Statistikk ver 7.nb 33 v Integrate v f v, v, 0,, Assumptions m k T 0 Π k T m Mean MaxwellDistribution k T m Π k T m Variance MaxwellDistribution 3 Π 8 k T Π m k T m Med x v, Α = k T m får vi: PDF MaxwellDistribution Α, x Π x x Α Α 3 Plot Evaluate PDF MaxwellDistribution, x &, 4, 6, x, 0, 0, Filling Axis, FillingStyle Automatic, PlotLabel "T T T 3 ", AxesLabel "v", "f v ", LabelStyle Italic, Larger, Epilog Text "T ", 4, 0.8, Text "T ", 7, 0.5, Text "T 3 ",, 0.0 f v T T T T T 0.0 T v Ved høyere temperatur vil kurven bli flatere og midlere molekylfart forskyves mot høyere hastigheter. Weibullfordelingen Denne fordelingen blir mye brukt av ingeniører til å beskrive levetida til et produkt.

34 34 Statistikk ver 7.nb PDF WeibullDistribution Α, Β, x Α x Α Β Α x Β Α data RandomReal WeibullDistribution 3,, 000 ; histogram Histogram data, Automatic, "ProbabilityDensity ", ChartElementFunction "GradientRectangle " ; distrib Plot PDF WeibullDistribution 3,, x, x, 0, 4, PlotStyle Thick, Magenta ; Show histogram, distrib Plot PDF WeibullDistribution,, x, PDF WeibullDistribution 3,, x, PDF WeibullDistribution 5, 3, x, x, 0, Integrate PDF WeibullDistribution Α, Β, x, x, 0,, Assumptions Α 0, Β 0 Mean WeibullDistribution Α, Β Β Α Variance WeibullDistribution Α, Β Β Α Α Weibullfordelingen kan relateres til eksponentialfordelingen gjennom en potensfunksjon wpdf PDF WeibullDistribution Α, Β, x Α x Α Β Α x Β Α

35 Statistikk ver 7.nb 35 epdf D x Β Α, x PDF ExponentialDistribution, x Β Α Α x Β Α x Β Α Β wpdf epdf PowerExpand True Χ - fordeling n La X n være uavhengige, standardnormaliserte variabler. Da er summen Y i X i kjikvadratfordelt med n frihetsgrader. Hvis X / ene er delvis avhengige av hveerandre, vil Y v're kjikvadratfordelt med f'rre frihetsgrader. Fordelingen er veldig skjevfordelt ved få frihetsfgrader. data RandomReal ChiSquareDistribution 5, 000 ; hist Histogram data, Automatic, "ProbabilityDensity ", ChartElementFunction "GlassRectangle" ; dist Plot PDF ChiSquareDistribution 5, x, x, 0, 0, PlotStyle Red ; Show hist, dist PDF ChiSquareDistribution Ν, x x Ν Ν x Ν Integrate PDF ChiSquareDistribution Ν, x, x, 0,, Assumptions Ν 0

36 36 Statistikk ver 7.nb Plot PDF ChiSquareDistribution 5, x, PDF ChiSquareDistribution 0, x, PDF ChiSquareDistribution 0, x, x, 0, Middelverdien er lik antall frihetsgrader, mens variansen er det dobbelte av antallet. Mean ChiSquareDistribution Ν Ν Variance ChiSquareDistribution Ν Ν Χ - fordelingen er et spesialtilfelle av Gammafordelingen. PDF GammaDistribution n,, x n x n x n Mengden av stokastiske variabler X n kan oppfattes som et tilfeldig utvalg av størrelse n fra en normalfordeling. Utvalgets varians er også en stokastisk variabel og er definert ved uttrykket S n n i X X. Siden uttrykket for S inneholder n summen i X i, er det naturlig å gjenfinne Χ - fordelingen også for variasjonen i datasettet. Dersom Z i X i Μ, blir Z i standardnormalfordelt. Det betyr at Z i X i Μ er Χ - fordelt med n frihetsgrader. Hvis vi erstatter den ukjente Σ forventningen Μ med gjennomsnittet X, som er vår beste gjetning på forventningen, har vi brukt opp en av frihetsgradene til å beregne gjennomsnittet. Da er det tilbake n frihetsgrader. Det betyr at X i X Σ Sagt på en annen måte: Y n S er kjikvadratfordelt med n frihetsgrader. Σ er Χ - fordelt med n frihetsgrader. Σ I praktisk bruk er vi mest interessert i kvantiler. Disse defineres som for normalfordelingen. Α- kvantilet til Χ - fordelingen er gitt ved )P[Y > Χ Α ] = Α. Eksempel: Når vi har 8 frihetsgrader, vil kvantilet være Quantile ChiSquareDistribution 8,

37 Statistikk ver 7.nb 37 Student T fordeling Vi studerer igjen et tilfeldig utvalg {X n } fra en tilnærmet normalfordelt populasjon. Normalfordelingen gir ikke alltid ønskelig resultat når utvalgene er små. Fra sentralgrenseteoremet vet vi at X er tilnærmet normalfordelt, slik at Z X Μ Σ Η er tilnærmet normalfordelt. Da vi sjelden kjenner populasjonens standardavvik Σ, baserer vi oss på utvalgets standardavvik S for å anslå Σ. Vi er derfor interessert i fordelingen til variabelen T X Μ S Η. Sannsynlighetsfordelingen til S avhenger av antall observasjoner i datasettet. Derfor vil også standardavviket til T rimeligvis også gjøre dette. Siden variablene S og T er svært like, forventer vi også at fordelingene til disse variable er rimelig like. Jo større utvalget n er, jo mer bør de sammenfalle. Sannsynlighetsfordelingen for T går under navnet Student T - fordelingen. Navnet skyldes at oppdageren William Gosset publiserter sine resultater ( basertpå eksperimenter i et bryggeri) under pseudonymet "Student". Fordelingstettheten avhenger av Betafunksjonen, som er ralatert til Gammafunksjonen. PDF StudentTDistribution n, t n n t n n n, FunctionExpand Beta n Π n n, Integrate PDF StudentTDistribution Ν, x, x,,, Assumptions Ν 0 Vi kan også skrive fordelingsfunksjonen som pdf t K for riktig normalisering. t n, der K n n Beta n, n Π n n sørger Mathematica kan bygge opp histogrammene med andre grafiske objekter enn rektangler. For å vise en slik mulighet, illustreres histogrammet denne gang med sirkelskiver. Du kan også bruke 3- dimensjonale kuler om du vil.

38 38 Statistikk ver 7.nb histogram Histogram RandomReal StudentTDistribution 4, 000, 50, "ProbabilityDensity ", ChartElements Graphics Disk, ChartStyle Red ; distribution Plot PDF StudentTDistribution 4, x, x, 5, 5, PlotStyle Black, Thick ; Show histogram, distribution, PlotRange 5, 5, All Fordelingen avhenger av datasettets frihetsgrader Ν, og er symmetrisk om y- aksen. Forventningaverdien er derfor alltid lik null. Variansen er alltid større enn, fordi fordelingen har "tyngre haler" og lavere maksimalverdi enn standardnormalfordelingen. Det er derfor større sannsynlighet å observere store verdier av T - variabelen enn Z - variabelen. Mean StudentTDistribution Ν 0 Ν Indeterminate True Variance StudentTDistribution Ν Ν Ν Indeterminate Ν True Plot PDF StudentTDistribution, x, PDF StudentTDistribution 5, x, PDF NormalDistribution 0,, x, x, 5, 5, PlotStyle Dashed, Gray, Dotted, Red, Blue For økende antall frihetsgrader vil Student T - fordelingen nærme seg mer og mer standardnormalfordelingen. Det er igjen kvantilene til fordelingen som er mest nyttige for statistiske beregninger, definert ved at P T t Α Α Disse kan igjen enten slås opp i store tabeller, eller du kan bruke programmets innebygde kommando: Quantile StudentTDistribution 5, Sammenlignet med tilsvarende kvantil i normalfordelingen, ser du at StudentT - fordelingen har "tyngre haler".

39 Statistikk ver 7.nb 39 Sammenlignet med tilsvarende kvantil i normalfordelingen, ser du at StudentT - fordelingen har "tyngre haler". Quantile NormalDistribution 0,, Den kumulative fordeling har et analytisk uttrykk som inneholder modifiserte Betafunksjoner. Vi kan beregne p- verdier for en t - test med n frihetsgrader og alternativ hypotese X t: CDF StudentTDistribution Ν, x sgn x I Ν x Ν, StandardForm Ν, BetaRegularized Ν,, Ν x Ν, Sign x Plot CDF StudentTDistribution 5, x, x, 0, Vi kan vise matematisk at Student T - fordelingen nærmer seg asymptotisk til standardnormalfordelingen. Limit PDF StudentTDistribution Ν, x, Ν x Π PDF NormalDistribution 0,, x x Π Det finnes en mer generell Student T - fordeling med forventningsverdi Μ og varians generelle normalfordelingen N Μ, Σ når størrelsen på utvalgert øker. PDF StudentTDistribution Μ, Σ, Ν, x Ν Ν Σ som approksimerer den Ν x Μ Ν Σ Ν Ν Σ Ν,

40 40 Statistikk ver 7.nb Mean StudentTDistribution Μ, Σ, Ν Μ Ν Indeterminate True Variance StudentTDistribution Μ, Σ, Ν Ν Σ Ν Indeterminate Ν True Limit PDF StudentTDistribution Μ, Σ, Ν, x, Ν x Μ Σ Π Σ Demonstrasjon : http : // demonstrations.wolfram.com/studentstdistribution/ Fisher F fordeling Studier av variasjonen i et datamateriale innen landbruksforskning ledet engelskmannen Ronald Fisher fram til denne fordelingen som bærer hans navn. F står for forhold, fordi det dreier seg om å sammenligne variansen i to ulike populasjoner ( eller to grupper innen samme populasjon). Anta {X n } og {Y m } er to uavhengige, tilfeldige utvalg fra to normalfordelte populasjoner med varians hhv Σ x og Σ Y. Utvalgene behøver ikke være like store. Utvalgenes varianser kalles på vanlig måte S x og S y. V ariansene sammenlignes ved å studere brøken mellom utvalgsvariansene, F S y. S x Dersom populasjonsvariansene er like, dvs. Σ X n og m frihetsgrader. f x_ PDF FRatioDistribution n, m, x m m n n n x m n x n, m m n Σ Y, forventer vi at E F. F vil være Fisherfordelt med Konstanten i utrykker ( som inneholder den modifiserte Betafunksjonen) sørger for at arealet under tetthetskurven blir. Integrate PDF FRatioDistribution n, m, x, x, 0,, Assumptions n 0, m 0

41 Statistikk ver 7.nb 4 data RandomReal FRatioDistribution 30, 5, 000 ; hist Histogram data, Automatic, "ProbabilityDensity ", ChartElementFunction "FadingRectangle ", ChartStyle Orange ; dist Plot PDF FRatioDistribution 30, 5, x, x, 0, 4, PlotStyle Dashed, Thick, Blue ; Show hist, dist, PlotRange All Plot PDF FRatioDistribution 4, 4, x, PDF FRatioDistribution 0, 0, x, PDF FRatioDistribution 30, 30, x, x, 0, Forventningsverdien viser seg å være uavhengig av n, og nærmer seg når m. I motsetning til Χ - fordelingen befinner forventningsverdien seg innenfor relativt smale bånd av fordelingen. Mean FRatioDistribution n, m m m Indeterminate m True Variance FRatioDistribution n, m m m n m 4 m n Indeterminate m 4 True

42 4 Statistikk ver 7.nb Plot CDF FRatioDistribution 4, 4, x, CDF FRatioDistribution 0, 0, x, CDF FRatioDistribution 30, 30, x, x, 0, Fisherfordelingen spiller en viktig rolle innenfor hypotesetesting innenfor økonomi og statistikk. Demonstrasjon : Multinomialfordelingen Multivariate statistikkfordelinger beskriver situasjoner hvor flere stokastiske variabler er involvert. Generelt antas disse enten å være multinomisk, multinormalfordelt eller multi t - fordelt. Vi har en multinomisk forsøksrekke med n delforsøk dersom. hvert delforsøk har k utfallskategorier: A, A, A n n. sannsynlighetene p i P A i er like i alle delforsøk, og i p i 3. Delforsøkene er uavhengige av hverandre. Sannsynlighetsfordelingen for multinomisk fordelte variabler A i er gitt ved P X x, X x, X k x k n p x x...x k x x p x pk k der i x i n k Forventningsverdiene er gitt ved E X i n p i, variansene ved Var X i n p i p i Foreløbig er ikke kommandoene angående multivariat statistikk lagt inn i kjernen, så du må hente dem i en pakke. (Dette kan endre seg i framtidige versjoner). Needs "MultivariateStatistics` " MultinomialDistribution n, p represents a multinomial distribution with n trials and probability vector p. Med k 3 : PDF MultinomialDistribution n, p, p, p 3, x, y, n x y p x y n x y p p3 x n x y y; x, n x y, y Mean MultinomialDistribution n, p, p, p 3 n p, n p, n p 3

43 Statistikk ver 7.nb 43 Variance MultinomialDistribution n, p, p, p 3 n p p, n p p, n p 3 p 3 Kovariansen mellom to binomisk fordelte variable er Covariance MultinomialDistribution n, p, p, n p p Sannsynlighetstettheten summerer seg til : Sum PDF MultinomialDistribution 0, 3, 6,, x, y, 0 x y, x, 0, 0, y, 0, 0 En bivariat multinomial fordeling ( k ), reduseres til binomialfordelingen PDF MultinomialDistribution n, p, p, x, n x p n x p x Multinomial n x, x PDF BinomialDistribution n, p, x p n x p x Binomial n, x FullSimplify True Demonstrasjon : Binormalfordelingen Vi vil se på et eksempel hvor to normalfordelte variabler inngår. Fordelingen kalles da binormalfordelingen, eller multinormalfordelingen med to variabler. Slike multivariate fordelinger er bare interessante når det er en korelasjon ( sammenheng) mellom variablene. Et eksempel kan være et studium av høyde og vekt av årets rekrutter i forsvaret. Vanligvis registreres verdien til den ene variabelen først. Gitt at vi måler X x, da angis den betingede sannsynligheten for Y som Y x for å fortelle at verdien x alerede er registrert. Det kan vises at Y x er normalfordelt med forventning og varians gitt ved uttrykkene: Μ Y x Μ Y Ρ Σ Y Σ X x Μ x, Σ Y x Σ Y Ρ Ρ 0 forteller at variablene er korrelerte. Av uttrykkene ser vi at forventningsverdien til Y når X x er kjent er en lineær funksjon av verdien x. Det betyr at vi et stykke på vei kan forutsi kroppsvekten når vi kjenner kroppshøyden. Variansen til Y når X x er kjent, er mindre enn når X er ukjent. Hvis korrelasjonen er stor, får vi god kunnskap om kroppsvekten når høyden er kjent. Er sammenhengen utydelig, er informasjonen av liten verdi. Binormalfordelingens simultantetthet f x, y kan skrives som formel: f x, y f X x. Exp y Μ Y x Π Σ Y x Σ Y x der f X x y ΜX Exp Π Σ X Σ X Formen på uttrykket stemmer med den generelle multiplikasjonsregelen som krever at f x, y f X x. f y x. Formelen viser derfoer at sannsynligheten Y x er normalfordelt med forventning og varians som angitt. Med Mathematica kan vi enkelt plotte tredimensjonale grafer av denne bivariate fordelingen for ulike verdier av Ρ. Needs "MultivariateStatistics` "

44 44 Statistikk ver 7.nb MultinormalDistribution Μ, represents a multivariate normal (Gaussian) distribution with mean vector Μ and covariance matrix. PDF MultinormalDistribution Μ, Μ, Σ, Ρ Σ Σ, Ρ Σ Σ, Σ, x, y exp y Μ Σ y Μ Σ Σ Ρ Σ Σ Ρ Σ Σ x Μ Σ Σ Ρ Σ Σ x Μ Σ x Μ Σ Σ Ρ Σ Σ Ρ Σ Σ y Μ Σ Σ Ρ Σ Σ Π Σ Σ Ρ Σ Σ Plot3D PDF MultinormalDistribution 0, 0,,,,, x, y, x, 4, 4, y,,, PlotPoints Simultanfordelingen av to standardnormalfordelte variabler Z og Z er symmetrisk om origo og beskrives derfor enklest i polrkoordinater. PDF MultinormalDistribution 0, 0,, 0, 0,, x, y x y Π PDF MultinormalDistribution 0, 0,, 0, 0,, x, y. x r Cos Θ, y r Sin Θ Simplify r Π

45 Statistikk ver 7.nb 45 Plot3D PDF MultinormalDistribution 0, 0,, 0, 0,, x, y, x,,, y,, Med Σ Σ vil konturene bli ellipser. Med Ρ 0 vil ellipsene være rotert i forhold til koordinataksene. Her er eksempler med Ρ < 0, Ρ = 0 og Ρ >0. GraphicsRow ContourPlot PDF MultinormalDistribution 0, 0,,,,, x, y, x, 3, 3, y, 3, 3, AspectRatio Automatic & 0.5, 0, GraphicsRow ContourPlot PDF MultinormalDistribution,,,,,, x, y, x, 4, 4, y, 4, 4, AspectRatio Automatic & 0.5, 0, Estimering

46 46 Statistikk ver 7.nb.4 Estimering I forrige kapittel studerte vi ulike sannsynlighetsmodeller med gitte parametre; p ved binomisk fordeling, Λ ved poissonfordeling og eksponentialfordeling, Μ og Σ ved normalfordeling, Μ og S ved student t - fordelingen. Ofte er det slik at parametrene er ukjente i problemstillingene vi møter. Vi må da estimere (anslå) verdiene etter beste skjønn. I statistikkfaget lærer du om estimatorer og punktestimater. En estimator Θ er en funksjon av X, X,....., X n, som benyttes til å estimere verdien til den ukjente parameteren Θ. Verdien til estimatoren kalles et punktestimat for Θ, som beregnes fra datasettet. Da Θ er en stokastisk varaiabel, har den en sannsynlighetsfordeling, og vi kan snakke om estimatorens forventningsverdi og varians. Vi ønsker at estimatoren skal gjengi parameterverdien mest mulig nøyaktig, med minst mulig spredning. Vi krever derfor. Estimatoren skal være forventningsrett, dvs. E(Θ ) = Θ. Variansen skal være minst mulig, og gå mot null når størrelsen på utvalget øker. Når vi kan velge mellom flere estimatorer som er forventningsrette, kommer punkt til anvendelse. Estimering av Μ Anta vi ønsker å måle en rørdiameter så nøyaktig som mulig. Til det kreves spesialutstyr, f.eks. en mikrometerskrue. Avlesningsnøyaktigheten avhenger av observatørens ferdigheter. Hvis flere personer måler, kan vi fort ende opp med litt avvikende verdier. Midlere måleresultat svarer til forventningsverdien, og usikkerheten i målingene angis ved standardavviket. Når vi har målt n ganger, sitter vi igjen med verdier til de stokastiske variablene {X n }. Hver variable har forventningsverdi Μ og varians Σ. Utvalgets gjennomsnitt er vår beste gjetning på diameterens korrekte verdi. Den naturlige estimator er derfor X n n i X i Denne estimatoren er forventningsrett: E X E n n i Variansen til estimatoren blir X i ) = n n i E X i n Μ Μ n Var (X ) = Var n n i X i n n i Var X i n n Σ n Σ Vi ser at variansen går mot null når n, dvs. begge krav er oppfylt.

47 Statistikk ver 7.nb 47 Estimering av Σ Når standardavviket er ukjent, prøver vi først å bestemme en forventningsrett estimator for variansen. Utvalgets varians er vår beste gjetning på populasjonens varians. Den er også forventningsrett: S n n i n X i X n i X i X n i X i n X n n i X i n X n X n n i X i n X E S n n i E X i n E X i n Σ Μ n Σ n n Μ n Σ Μ Σ n Μ n n Σ n Σ I utledningen ovenfor har jeg benyttet at Σ Var X i E X i X E X i Μ, dvs. E X i Σ Μ. Tilsvarende får vi E X Σ n Μ. Selv om S er forventningsrett estimator av Σ, vil ikke S være forventningsrett estimator for standardavviket Σ. Dette skyldes at kvadratrotfunksjonen ikke r lineær. Det er likevel å neglisjere denne forskjellen, og bruke utvalgets standardavvik som estimator for populasjonens standardavvik. Estimering av sannsynligheten p Dersom en hendelse A inntreffer X ganger i løpet av n forsøk, vil den relative frekvensen av hendelsen være vår beste gjetning på sannsynligheten p p A for at hendelsen inntreffer. Den naturlige estimatoren for sannsynligheten p er derfor p = X n Variabelen X er binomisk fordelt med forventningsverdi p. Vår estimator er forventningsrett: E p E X n n E X n n p p Var p Var X Var X p p n p p n n n n Igjen ser vi at variansen avtar med økende antall forsøk. Vi kan derfor få den nøyaktighet vi ønsker ved å øke antall forsøk. Vi kan telle antall øyne i et termningkast ( tilfeldige heltall mellom og 6 ) ved kommandoen eyes RandomInteger 5 4 Vår estimator for å angi sannsynligheten for å få en sekser kan derfor beregnes ved å telle antall seksere i n terningkast. Vi prøver med n 000, 0 000, , og ser at estimatet nærmer seg mer og mer mot den teoretiske verdien /6 = når n øker. estimator 0.48, 0.69, Count Table RandomInteger 5,, 6 Demonstrasjon: http : // demonstrations.wolfram.com/montecarloestimateforpi/ & 000, 0 000, N Estimering av Λ

48 48 Statistikk ver 7.nb Estimering av Λ Vi observerer en poissonprosess over et tidsrom over t tidsenheter. En hendelse inntreffer X ganger i løpet av denne perioden. Raten tilsvarer forventet antall hendelser per tidsenhet. Det gjennomsnittlige antall hendelser per tidsenhet er en forventningsrett estimator for raten Λ. Λ X t E Λ t E X t Λ t Λ Var Λ t Var X t Λ t Λ t.5 Hypotesetesting Det er ofte nødvendig å ta stilling til en påstand (hypotese) om verdien av en parameter. Den generelle toerien rundt hypotesetesting antas kjent. Jeg vil bare illustrere hvordan du kan benytte Mathematica programmet for å gjennomføre slik testing i praksis. Spesielt er det lettvint at gausskurven og kvantiler er lett tilgjengelige, slik at du ikke lenger er avhengig av oppslag i tabeller. Som vanlig lar vi H 0 betegne nullhypotesen. Arbiedshypotesen som vi ønsker å teste, betegnes H. Det er den siste som krever bevis. Nullhypotesen antas korrekt helt til det motsatte er bervist. Begge hypoteser må knyttes til den ukjente parameter Θ. Vi må identifisere en stokastisk variabel som vi baserer våre beslutnbinger på. En slik variabel kalles en testobservator, og målte verdier av observatoren utgjør testens statistikk. Et eksempel kan være fartskontroll på landeveien. Politiet kontrollerer bilistene med lasermålinger som er stokastisk fordelt. Testobservatoren vil være den målte verdi laseren registrerer. Det foretas flere fortløpende målinger over en oversiktlig strekning, og middelverdien av målingene vil være den beste estimator Θ for bilens hastighet. Dersom fartsgrensen på stedet er 80 km/t, vil en naturlig nullhypotese og arbeidshypotese være H 0 : Bilføreren kjører lovlig ( Θ 0 80) H : Bilføreren kjører for fort og skal bøtelegges (Θ 0 80) Selv om politiets laser er meget nøyaktig, må man alltid ta høyde for forkastningsfeil. Det er alltid en mulighet for at politiets middelmåling ( estimatoren) Θ > 80 selv om bilen holder lovlig fart. Denne risiko er selvsagt størst når bilistens hastighet er meget nær oppunder eller eksakt 80 km/t. I dette tilfellet forkastes nullhypotesen på feil grunnlag. Sannsynligheten for at dette skjer, utrykkes i styrkefunksjonen. Slike feil (type feil) vil av de fleste oppfattes som alvorlig, man dømmer en uskyldig person, og man prøver å minimere denne feiltypen ved å legge inn en sikkerhetsmargin i målingene. Vi må på forhånd bestemme hvor stor sannsynlighet for forkastningsfeil vi er villig til å akseptere. Denne sannsynlighet kalles testens signifikansnivå Α. Ved lasermålinger av hastighet er det vanlig å trekke fra 3 km/t fra det observerte resultat, som "bonus" til bilføreren for å unngå forkastningsfeil. Ulempen er at muligheten for godtakingsfeil øker, noen de fakto lovbrytere går fri. Måles du til 8 km/t, blir det altså bokført som 79 km/t, og dermed kan ikke nullhypotesen forkastes. Sikkerhetsmarginen er gitt ved k Θ 0 z Α P Z z Α Α. Σ n når signifikansnivået er Α. Husk at kvantilet er definert ved at Styrkefunksjonen til en Z - test er definert ved: Γ(Θ) = P( bilisten bøtelegges i fartskontroll) = P (X k) = - P (X k) = - P( X Θ Σ n k Θ ) = P Z k Θ Σ n Σ n G Σ k Θ n G z Α Θ Θ 0 Σ n G er gaussfunksjonen for standardnormalfordelingen som Z følger. Det følger videre at Γ(Θ 0 G z Α P Z z Α P Z z Α Α Med signifikansnivå Α = 0.05 får vi kvantilet

49 Statistikk ver 7.nb 49 Med signifikansnivå Α = 0.05 får vi kvantilet z 0.05 Abs Quantile NormalDistribution 0,, Signifikansnivået Α kan kontrolleres ved å regne ut gaussfunkjonen for dette kvantilet: G z_ : Π z u u G Laserpistolen gjør 5 målinger i tett rekkefølge, og registrerer middelverdien. Vi antar Σ = 4 kjent fra tilsvarende lasermålinger. Med Α = 0.05 får vi k k Vi setter derfor feilmarginen til k 3 km/t. Bilistene bøtelegges hvis laseren måler en verdi Θ > 83 km/t. Γ Θ_ : G.645 Θ Kontrollerer at Γ(Θ 0 ) = Α innenfor numerisk avrundingsfeil Γ Vi ser at det er 5 % sannsynlig at bilisten bøtelegges selv om hun holder lovlig hastighet. Dette er hva vi har definert når vi satte signifikansnivået. Hva er sannsynligheten for å bli tatt når X k? Γ Selv om bilisten holder 83 km/t, er det bare 5 % sannsynlig at han blir tatt. Det betyr også at nesten halvparten av disse bilistene med denne hastigheten vil slippe unna kontrollen uten bøter. Dersom vi aldri gjorde forkastingsfeil, ville alle bilister som kjører over 80 km/t bøtelegges, og alle lovlydige gå fri. Kurven ville da blitt en trinnfunksjon. Denne hypotetiske kurven er tegnet inn sammen med styrkefunksjonen i følgende plott. Her er også signifikansnivået markert.

50 50 Statistikk ver 7.nb p Plot Evaluate Γ Θ, Θ, 60, 00, Ticks Automatic, 0.05, "Α", 0., 0.4, 0, 6, 0.8,.0, Epilog Blue, Line 60, 0.05, 80, Γ 80, 80, 0 ; p Plot UnitStep Θ 80, Θ, 60, 00, PlotStyle Directive Red, Dashing 0.0, Thickness 0.0 ; Show p, p Α Ved flere målinger kan vi avsløre flere syndere. Γ Θ_ : G.645 Θ p Plot Evaluate Γ Θ, Γ Θ, Θ, 50, 00, PlotStyle, Dashed, Epilog Text "n 5", 86, 0.5, Text "n 0", 80, n n Nå vil bare en fjerdedel av bilister som faktisk kjører 83 km/t, slippe unna. Γ Kurvene skjærer hverandre i Θ = 80. Begge er basert på samme signifikansnivå. Γ 80 Γ 80 True Du kan finne flere testfunksjoner for hypotesetesting i pakken HypothesisTesting.m. Du laster denne inn i kjernen ved kommandoen ( husk avsluttende apostrof, plassert ved siden av Backspace- tasten på tastaturet).funksjonene returnerer som default ensidige p - verdier. Gitt en nullhypoteseverdi Θ 0 for en parameter Θ og et estimat Θ for Θ oppnådd fra måledata, så vil funksjonene altså returnere sannsynligheten for å observere en så ekstrem verdi som Θ hvis Θ 0 er sann verdi av Θ

51 Statistikk ver 7.nb 5 Du kan finne flere testfunksjoner for hypotesetesting i pakken HypothesisTesting.m. Du laster denne inn i kjernen ved kommandoen ( husk avsluttende apostrof, plassert ved siden av Backspace- tasten på tastaturet).funksjonene returnerer som default ensidige p - verdier. Gitt en nullhypoteseverdi Θ 0 for en parameter Θ og et estimat Θ for Θ oppnådd fra måledata, så vil funksjonene altså returnere sannsynligheten for å observere en så ekstrem verdi som Θ hvis Θ 0 er sann verdi av Θ HypothesisTesting` data 34, 37, 44, 3, 4, 4, 38, 45, 4, 38.0 ; mean Mean data 39. Nullhypotesen er at Θ Her beregnes sannsynligheten for å måle verdien Θ =35 når middelverdien er minst 39. MeanTest data, 35 OneSidedPValue Dataene er t - fordelt med 0 - = 9 frihetsgrader. Med opsjonen FullReport True får du oversikt over middelverdi, testobservatorens verdi, datafordelingen og signifikanssannsynlighet ( p - verdi). Vi ser at middelverditesten baserer seg på StudentT- fordelingen med n frihetsgrader fordi spredningsmålet Σ barer baserer seg på estimatoren S fra utvalget. MeanTest data, 35, FullReport True FullReport Mean TestStat Distribution, OneSidedPValue StudentTDistribution 9 Testobservatorens verdi registreres i rapporten under TestStat : T Θ0 Θ S n Når vi angir signifikansnivå, vil programmet konkludere med om nullhypotesen skal forkastes eller ikke. Her er nullhypotesen Μ = 35. MeanTest data, 35, SignificanceLevel 0.05 OneSidedPValue , Reject null hypothesis at significance level 0.05 En så liten sannsynlighet tyder på at utvalgets middelverdi er vesentlig forskjellig fra 35. Vi må derfor forkaste nullhypotesen. Vi forkaster nullhypotesen når T t Α. Med signifikansnivå Α = 0.05 må vi derfor forkaste nullhypotesen. t 0.05 Abs Quantile StudentTDistribution 9, p - verdien er minste Α - verdi som gir forkasting av nullhypotesen. FindRoot Abs Quantile StudentTDistribution 9, p.98985, p, p Med Α = kan vi ikke forkaste nullhypotesen. t Abs Quantile StudentTDistribution 9,

52 5 Statistikk ver 7.nb MeanTest data, 35, SignificanceLevel 0.007, FullReport True FullReport Mean TestStat Distribution StudentTDistribution 9, OneSidedPValue , Fail to reject null hypothesis at significance level Da Α < p-verdi kan vi ikke forkaste nullhypotesen på dette nivå. Når vi kjenner testobservatorens verdi, kan den ensidige p - verdien beregnes ved: StudentTPValue.98985, 9 OneSidedPValue Vi kan også teste avviket fra beregnet varians : Variance data S StandardDeviation data 4.44 S Variance data True VarianceTest data, 40 OneSidedPValue Vi kan estimere standardavviket fra middelverdien av datasettet, basert på t- fordeling med n = 0 frihetsgrader: se StandardDeviation data Sqrt Length data S n t 0.05 Abs Quantile StudentTDistribution 9, Her beregnes et 0.95 % konfidensintervall ( T - intervall) for datasettet. Testobservatoren baserer seg på StudentT- fordeling fordi ingen antagelser om spredningsmål er gitt. mean t 0.05 se, mean t 0.05 se 36.0, Programpakken inneholder også nyttige kommandoer for beregning av konfidensintervaller. Når Σ er ukjent, beregnes et T- intervall. MeanCI data 36.0, Denne kommando er ekvivalent med MeanCI[data]. Defaultverdi er 0.95 % T- intervall. Options MeanCI ConfidenceLevel 0.95, KnownVariance None StudentTCI mean, se, Length data 36.0, Antagelser om variansen til populasjonen som utvalget hentes fra, vil påvirke testobservatoren. Når variansen antas kjent, baseres testen på standardnormalfordelingen.

53 Statistikk ver 7.nb 53 Antagelser om variansen til populasjonen som utvalget hentes fra, vil påvirke testobservatoren. Når variansen antas kjent, baseres testen på standardnormalfordelingen. MeanTest data, 35, KnownVariance 0, FullReport True FullReport Mean TestStat Distribution, OneSidedPValue NormalDistribution 0, Z Θ0 Θ Σ n Kjennskap til Σ kan legges inn som en opsjon til kommandoen MeanCI. Når vi kjenner variansen, beregnes statistikken fra normalfordelingen. Standardavviket beregnet ut fra kjent populasjonsvarians Σ 0 var 0; Σ var ; sd Σ 0 z 0.05 Abs Quantile NormalDistribution 0,, Et 0.95 % Z - intervall for middelverdien er definert ved mean z 0.05 sd, mean z 0.05 sd 36.48, Programmet kan gi svaret direkte, men vår detaljkode viser at normalfordeling ligger til grunn. MeanCI data, KnownVariance , Denne kommando gir samme resultat som MeanCI data, KnownVariance 0. NormalCI mean, sd 36.48, Demonstrasjon : Tilfeldige tall og simuleringer Kaste mynt eller kron Når du kaster en perfekt mynt, vil sannsynligheten for å lande på en bestemt sideflate være like stor for begge flater, dvs. p 0.5 for begge utfall "mynt" eller "kron". Vi kan generere et tilfeldig tall ved Random - kommandoen i programmet. Random[Integer] gir 0 eeller med sannsynlighet p =.

54 54 Statistikk ver 7.nb cointoss : If Random Integer, "Head", "Tail" ; Table cointoss, 8 Tail, Tail, Head, Head, Head, Head, Tail, Head For å reprodusere den nøyaktige sannsynligheten, må du simulere et stort antall kast. Når N, vil p Count Table cointoss, 00, "Head" 59 Count Table cointoss, , "Head" I versjon 7 kan du benytte kommandoene RandomReal og RandomInteger i stedet for Random[Real] og Random[Integer]. RandomInteger[ ] gir svaret 0 eller med sannsynlighet p. cointoss : If RandomReal 0.5, "Head", "Tail" ; cointoss : If RandomInteger 0, "Head", "Tail" ; Table cointoss, 8 Head, Tail, Head, Tail, Tail, Head, Tail, Head Count Table cointoss, , "Head" Fødselsdagsproblemet Dette er en velkjent problemstilling i sannsynlighetsregningen. Blant en gruppe på n mennesker, hva er sannsynligheten for at minst to personer har fødselsdag på samme dato? Svaret kan virke litt overraskende. Vi velger n 30. For enkelthets skyld ser vi bort fra skuddårsbarn. Problemet med 30 tilfeldige fødselsdager kan formuleres som uttrekk av 30 tilfeldige tall mellom og 365. Dette kan modelleres i Mathematica slik: birthdays : RandomInteger, 365, 30 Vi foretar en rask sjekk for å se at alt fungerer som det skal. b birthdays, 78, 7, 40, 45, 08, 44,, 03, 5, 338, 34, 9, 36, 63, 63,, 330, 85, 356, 9, 54, 86, 300, 3, 63, 54, 36, 305, 4 Vi lagrer dette eksemplet i listen b. Husk at hver gang du utfører kommandoen birthdays, genereres en ny liste av datoer. Listen b er derimot uforandret. Kommandoen Union både sorterer og fjerner duplikater fra listen. Vi kan derfor sjekke duplikater ved å sammenligne lengden av listene b og Union b Vi ser at to personer har fødselsdag på dag 63. Den siste listen inneholder derfor bare 9 datoer. Length b Length Union b Den felles fødselsdagen til de to personene er forøvrig 3.juni: DatePlus 00,,, 63 00, 6, 3 Vi gjentar eksperimentet 000 ganger. Husk å avslutte med semikolon, ellers skrives den lange listen ut. (Listen består av 000 sublister, hver med 30 datoer).

55 Statistikk ver 7.nb 55 Vi gjentar eksperimentet 000 ganger. Husk å avslutte med semikolon, ellers skrives den lange listen ut. (Listen består av 000 sublister, hver med 30 datoer). data Table birthdays, ; Når vi har duplikater, vil sublistene ha mindre enn 30 elementer. Dette kan vi ha som søkekriterium. hasduplicate experiment_ : Length Union experiment 30 Kommandoen er en logisk funksjon som returnerer True hvis betingelsen er oppfylt. Vi anvender kommandoen på hver av sublistene, og teller opp resultatet. Count Map hasduplicate, data, True 7055 Vi ser altså at det er over 70 % sannsynlighet for at minst personer blant gruppen på 30 har felles fødselsdag. Den teoretiske sannsynlighet for dette tilfellet er 70,6 %, så simuleringen er svært god. La oss først bestemme sannsynligheten for atingen har fødselsdasg på samme dato. Problemet gjenkjennes som 30 tilfeldige uttrekk blant tallene,, med tilbakelegging. Antall gunstige utfall er 365*364* = 365.Det mulige utfallsrom 335 består av muligheter, slik at sannsynligheten for at ingen av de uttrekte numrene er like, er gitt ved brøken gunstige utfall Sannsynligheten for at minst to uttrekte tall er like, er derfor mulige utfall p Binomial 365, Dette eksemplet illustrerer også hvordan effektiv programmering ofte avhenger av en god løsningsalgoritme. Sannsynligheten for at to personer har fødselsdag på samme dag, øker naturligvis med gruppestørrelsen vi betrakter. Vi setter sammen koden til en rutine som kan anvendes på vilkårlig antall personer: multiplebirthdays n_ : Module, birthdays : RandomInteger, 365, n ; experiments : Table birthdays, ; hasduplicate exp_ : Length Union exp n; Count Map hasduplicate, experiments, True En ny simulering med 30 personer gir : multiplebirthdays Vi ser at når gruppen består av mer enn 50 personer, er sannsynligheten for felles fødselsdager tilnærmet lik. Vi sammenligner simuleringen ( blå kurve) med teoretisk resultat ( rød kurve):

56 56 Statistikk ver 7.nb lp ListPlot Table multiplebirthdays n, n, 0, 00 ; Binomial 365, n n lp ListPlot Table., n,, 00, PlotStyle Red ; 365 n Show lp, lp Simulering av stokastiske variable Eksponentialfordeling Levetida X for en lyspære er eksponentialfordelt med parameter Μ = = 500 timer. Vi ønsker å generere tilfeldige levetider Λ for en slik lyspære. CDF ExponentialDistribution Λ, x x Λ x 0 0 True Fordelingsfunksjonen er derfor gitt ved F x_ : Λ x Vi ønsker å finne den inverse fordelingsfunksjonen g y F y : Solve F x y, x, InverseFunctions True log y x Λ g x_ : Log x Λ Først genererer 50 slumptall mellom 0 og rnd Sort Table RandomReal, 50 ; Den inverse fordelingsfunksjonen anvendes på hvert slumptall data Map g, rnd. Λ 500 ; Vi vil lage tallpar hvor dataverdiene er x- koordinater, og slumptallene mellom 0 og er y- vedier. Disse tallparene skal da være punkter på den kumulative fordelingskurven hvis dataene er eksponentielt fordelt.

57 Statistikk ver 7.nb 57 lp ListPlot Transpose data, rnd, PlotStyle PointSize 0.05 ; pl Plot CDF ExponentialDistribution, x, x, 0, Max data, PlotStyle Red ; 500 Show lp, pl Fordelingen kan også illustreres ved å vise at målingene tilnærmet følger tetthetsfordelingskurven. zeroes Table 0, 50 ; lp ListPlot Transpose data, zeroes, PlotStyle PointSize 0.05 ; pl Plot PDF ExponentialDistribution, x, x, 0, Max data, PlotStyle Red ; 500 gr Graphics Line 500, 0, 500, ; 500 Show lp, pl, gr, Ticks 000, 500, " Λ", 000, 3000, 4000, 5000, Automatic Λ Denne metoden å generere stokastiske data som har en kjent fordeling fungerer bare når vi kan finne den inverse fordelingsfunksjonen. Vi er spesielt interessert i å generere normalfordelte data, siden normalfordelingen er så sentral i statistiske analyser. Ved hjelp av Mathematica finner vi et uttrykk for den inverse fordelingsfunksjonen og kan derfor gå fram som i forrige eksempel. Men vi kan også benytte en annen, smart metode. Simulering av normalfordeling CDF NormalDistribution Μ, Σ, x erf x Μ Σ Fordelingsfunksjonen er derfor gitt ved

58 58 Statistikk ver 7.nb Solve CDF NormalDistribution Μ, Σ, x y, x, InverseFunctions True x Σ erf y Μ StandardForm x Μ Σ InverseErf y Clear g g x_ : Μ Σ InverseErf x Først genererer 50 slumptall mellom 0 og rnd Sort Table RandomReal, 50 ; Den inverse fordelingsfunksjonen anvendes på hvert slumptall data Map g, rnd. Μ 0, Σ 3 ; Vi vil lage tallpar hvor dataverdiene er x- koordinater, og slumptallene mellom 0 og er y- vedier. Disse tallparene skal da være punkter på den kumulative fordelingskurven hvis dataene er eksponentielt fordelt. lp ListPlot Transpose data, rnd, PlotStyle PointSize 0.05 ; pl Plot CDF NormalDistribution 0, 3, x, x, Min data, Max data, PlotStyle Red ; Show lp, pl Viser også at punktene sentrerer seg om Μ = 0 og spres hovedsakelig innenfor intervallet <-3,3>. zeroes : Table 0, Length data

59 Statistikk ver 7.nb 59 lp ListPlot Transpose data, zeroes, PlotStyle PointSize 0.05 ; pl Plot PDF NormalDistribution 0, 3, x, x, Min data, Max data, PlotStyle Red ; Show lp, pl, Ticks Range 7, 7,, Automatic Simulering av normalfordeling Vi har sett under behandlingen av den binormale simultanfordelingen av to standardnormalfordelte stokastiske variable at fordelingen er radialsymmetrisk, og beskrives enklest i polarkoordinater. Tetthetsfunksjonen for den binormale fordeling er f x, y f x f y x Π y Π Π x y. Et tilfeldig punkt i planet beskrives ved vinkelen Θ og r. Vi oppfatter Θ og r som uavhengige stokastiske variable. I polarkoordinater blir da f r, Θ f Θ f r r Π Variabelen Θ er uniformt fordelt. Da 0 Π f Θ Θ, blir f(θ) = Π. Den kumulative fordelingen følger av dette: F Θ(Θ) = Θ Θ 0 f Θ Θ Θ Θ 0. De kumulative fordelingsfunksjoner blir derfor: Π Π F Θ Θ Θ, 0 Θ Π og F r r Π r r 0 r r r, r 0 De inverse kumulative fordelingene blir da : th u_ Solve u Π u Θ, Θ,, Π Ρ u_ Solve u Exp r, r, InverseFunctions True,, log u Vi ønsker å generere to observasjoner av X N Μ, Σ. La oss først generere to tilfeldige tall u og u mellom 0 og. Deretter beregner vi en tilfeldig radius og vinkel ved r ln u, Θ Π u Da vil z r cos Θ og z r sin Θ være to tilfeldige, uavhengige observasjoner fra standardnormalfordelingen. Dvs. vi har to observasjoner av Z N 0,. To observasjoner av X N Μ, Σ vil da være x Μ Σ z, x Μ Σ z. z, z r Cos Θ, Sin Θ 0.436,.7856

60 60 Statistikk ver 7.nb x, x Μ Σ z, z Μ Σ, Μ.7856 Σ Denne parvise prosessen gjentas til vi har genert det ønskede antall X - verdier.vi ser på et eksempel med n = 60 = 30 par. u Table RandomReal, RandomReal, 30 ; u First Transpose u ; u Last Transpose u ; z Log u Cos Π u ; z Log u Sin Π u ; z z, z ; x Μ Σ z. Μ 5, Σ 3 ; Tallene genereres parvis, men alle tall er normalfordelte, uavhengige verdier av X. Vi fjerner derfor partilhørigheten ved å flate ut listen. data Flatten x ,.53766, , , , , 9.97,.69457, 5.974, ,.5959, , 7.36, , 4.04, ,.6506,.9565, ,.86459, , 7.85,.93349, , , ,.69, 7.758,.0073, 3.033, , , , 4.437, , , 4.777, , , , 5.097, , , , , , 5.96, , , ,.5666, , , 4.549,.38888,.44394, 3.355, , , zeroes : Table 0, Length data lp3 ListPlot Transpose data, zeroes, PlotStyle PointSize 0.05 ; pl3 Plot PDF NormalDistribution 5, 3, x, x, 5, 5, PlotStyle Red ; Show lp3, pl3, Ticks Range 5, 3,, Automatic Figuren viser at testobervatoren X er normalfordelt med Μ = 5 og Σ = 3.

61 Statistikk ver 7.nb 6 Simulering av integral Vi kan benytte simulering til å beregne tilnærmet verdi av et integral. Anta for enkelhets skyld at integranden g x 0 over hele det aktuelle intervallet [a,b]. Vi vet at det bestemte integralet fra a til b kan tolkes som arealet mellom grafen og x-aksen. Hvis intervallet deles opp i n partisjoner, kan det tilnærmes med arealet av søyler fra x- aksen opp til grafen (Riemannintegrasjon).. Integralet blir en grenseverdi for summen av søylearealene, når antall søyler øker mens bredden går mot null. Vi får derfor I I b a n n j g x j. Når vi trekker tilfeldige x - verdier i intervallet [a,b], genererer vi observasjoner av en uniformt fordelt variabel X med sannsynlighetstetthet f x. Vårt tilnærmede integral kan derfor skrives b a I n n j g x j f x j Vi er ikke bundet til den uniforme sannsynlighetstettheten. Det viser dseg at enhver sannsynlighetstetthet f x kan benyttes, og estimatoren blir faktisk bedre jo mer lik f x er integranden g x. Vi må bare huske på å kreve at a b f x x =. Vi vil illustrere denne teknikken med funksjonen g x_ : Π x x Vi ønsker å beregne verdien av integralet g x x så nøyaktig som mulig ved simuleringsmetoden beskrevet ovenfor. Vi deler først intervallet i 5 deler for å vise utviklingen. n 5; u Table RandomReal, , , , , , , , , , , , , , , f x_ : k x Fordelingsfunksjonen er gitt ved F x 0 x f Χ Χ = k x For å generere verdier fra fordelingen må vi finne den inverse fordelingsfunksjonen : Solve u k x, x, InverseFunctions True Simplify First x log u k Konstanten k bestemmes av normaliseringsbetingelsen 0 f x x Integrate f x, x, 0, k k k. FindRoot Integrate f x, x, 0, , k,.093

62 6 Statistikk ver 7.nb x Log u k.9735, , 0.680, , , , , ,.879, ,.0899,.56, , , I n k Π FoldList Plus, 0, x x 0, , , , , , , , , , , , ,.0806,.589,.6466 Det er det siste elementet som er vårt approksimative svar, da har vi summert over alle n intervaller. Last I.6466 Metoden konvergerer langsomt fordi g x og f x) ikke er like nok når x er liten. Vi øker derfor antall delepunkter til million. n 0 6 ; Clear u, x u Table RandomReal, n ; x Log u k ; I n k Last I Π FoldList Plus, 0, x x ; Det nøyaktigste svaret vi kan få, er 0.95 int NIntegrate g x, x, 0, Tallet bør vekke mistanke om at det ligger noe kjent bak funksjonen g x og den spesielle grensen. Fra kapitlet om kontinuerlige fordelinger gjenkjenner vi g x som sannsynlighetstettheten til en Χ - fordelt variabel X med en frihetsgrad: Clear x PDF ChiSquareDistribution, x x Π x g x PDF ChiSquareDistribution, x True CDF ChiSquareDistribution, Derfor er I P X

63 Statistikk ver 7.nb 63 Quantile ChiSquareDistribution, p Plot PDF ChiSquareDistribution, x, x, 0, 5, PlotStyle Dashed ; p Plot PDF ChiSquareDistribution, x, x, 0, , Filling Axis ; Show p, p Regresjon og interpolasjon Lineær og polynomisk tilpasning Det er ofte en sammenheng mellom elementene i en dataliste. Metoden med minste kvadraters metode er en kjent metode for å finne den beste lineære kurven gjennom data som teoretisk skulle ligge på en rett linje. I Mathematica kan du implementere metoden med kommandoen Fit. Listen under er hentet fra rapport om forventet levealder for menn og kvinner i noen utvalgte land. data 70.6, 77.7, 76.4, 8.0, 43.0, 43.3, 68., 7.3, 38.8, 4.5, 6.8, 66.0, 64.0, 7.6, 75.7, 8.9, 6.0, 6.8, 38.9, 40.5, 55., 59.5 ; bestfit x_ Fit data,, x, x.665 x pict ListPlot data, PlotStyle Red, PointSize 0.0 ; pict Plot bestfit x, x, 30, 80 ; Show pict, pict, PlotRange 30, 90, 30, Når sammenhengen mellom dataene antas ikkelineær, kan man likevel benytte Fit kommandoen. I neste eksempel er det forventet en kvadratisk sammenheng mellom dataene:

64 64 Statistikk ver 7.nb data Table x, x 3 x 5 RandomReal x, x, 0, 0 ; quadfit x_ Fit data,, x, x, x x x pict ListPlot data, PlotStyle Red, PointSize 0.0 ; pict Plot quadfit x, x, 0, 0 ; Show pict, pict Interpolasjon Gitt n punkter x, y, x, y,....., x n, y n i planet. Vi ønsker å finne et polynom av grad n som går nøyaktig gjennom disse punktene. Da må vi interpolere mellom punktene: data 0, 0,, 6,, 0, 3, 8, 4, 30, 5,, 6, ; perfectfit x_ N InterpolatingPolynomial data, x ; Expand perfectfit x N.66 x x 5 0. x x x x Polynomet går gjennom de ønskede punkter : Table x, perfectfit x, x, 0,

65 Statistikk ver 7.nb 65 pict ListPlot data, PlotStyle Red, PointSize 0.0 ; pict Plot perfectfit x, x, 0, 6 ; Show pict, pict I dette tilfellet fant programmet selv ut at et polynom av grad 6 var optimalt, så hvis vi prøver dette, får vi tydeligvis samme kurvetilpasning (og dermed det algebraiske uttrykket for den interpolerende funksjonen): g x_ Fit data, Table x n, n, 0, 6, x.66 x x 5 0. x x x x De to funksjonene er like når vi ser bort fra numerisk avrunding Likheten vises også lett ved å plotte kurvene i samme graf; de overlapper fullstendig. Chop Expand g x perfectfit x 0 Plot g x, perfectfit x, x, 0, I dette tilfellet er det også mulig å tenke andre (bedre?) tilpasninger enn polynomiske :

66 66 Statistikk ver 7.nb h x_ Fit data,, Sin x, Sin x, Sin 3 x, Sin 4 x, x pict ListPlot data, PlotStyle Red, PointSize 0.0 ; pict Plot h x, x, 0, 6 ; Show pict, pict sin x sin x sin 3 x sin 4 x En interpolerende funksjon vil ofte oppføre seg "vilt" utenfor de gitte referansepunktene, og er derfor ikke nødvendigvis beste tilpasningspolynom mellom punktene slik vi ønsket i regresjonsanalysen. Den beste tilpasning i forbindelse med regresjon er den som mininaliserer kvadrtatet av avstanden mellom referansepunktenes y - verdier og funksjonsverdiene i regresjonspolynomet, altså den funksjon som i gjennomsnitt gir beste tilpasning, men som ikke behøver matche eksakt referansepunktene. Regresjon kontra interpolasjon La oss sammenligne interpolasjon og lineær tilpasning i eksemplet med gjennomsnittlig levealder for menn og kvinner. perfectfit x_ : InterpolatingPolynomial data, x linearfit x_ Fit data,, x, x ; pict ListPlot data, PlotStyle Red, PointSize 0.0 ; pict Plot linearfit x, x, 30, 80 ; pict3 Plot perfectfit x, x, 30, 80 ; Show pict, pict, pict3.665 x Her er regresjon det beste alternativet for å predikere levealder.

67 Statistikk ver 7.nb 67 Regresjonsanalyse i versjon 7 Det har skjedd større endringer i statistikkfunksjonene i de siste versjonene av Mathematica. I versjon 5. måtte du laste inn pakken Statistics`LinearRegression`for å få tilgang til kommandoen Regress. Du kan fortsatt gjøre dette i nyere versjoner, men programmet vil henvise deg til Compatibility Guide Statistics`LinearRegression` General::obspkg: Statistics` is now obsolete. The legacy version being loaded may conflict with current Mathematica functionality. See the Compatibility Guide for updating information. Sett markøren på forrige input, og klikk F. Klikk på første emne. Du kommer da inn i guiden: Dersom du har arbeidet med statistikk i tidligere versjoner, kan du fortsatt evaluere dine notebooks, men det anbefales at du setter deg inn i nyeste kode via denne guiden. Vi fortsetter med eksemplet med stipulert levealder, og bruker kode fra versjon 7 og oppover. lm LinearModelFit data, x, x FittedModel.665 x Resultatet framkommer som en spesiell datatype, FittedModel. Du får fram funksjonsformen ved å anvende Normal - kommandoen. Resultatet er det samme som du fikk med Fit- kommandoen. Normal lm Fit data,, x, x.665 x x data 70.6, 77.7, 76.4, 8.0, 43.0, 43.3, 68., 7.3, 38.8, 4.5, 6.8, 66.0, 64.0, 7.6, 75.7, 8.9, 6.0, 6.8, 38.9, 40.5, 55., 59.5 ; LinearModelFit data,, x, x FittedModel.665 x Vi kan se hvordan dataene er korrelert LinearModelFit data,, x, x "RSquared", "EstimatedVariance " , Vi kan beregne konfidensintervallet ved hver verdi av den uavhengig variable og plotte en graf som viser aktuelle data sammen med beste lineære tilpasning og konfidensintervallene. Dette gir et mye mer detaljert bilde av dataspredningen.

Kontinuerlige sannsynlighetsfordelinger.

Kontinuerlige sannsynlighetsfordelinger. Kontinuerlige sannsynlighetsfordelinger. Dekkes av kap. 6 og deler av kap. 8.5 i boka. Husk: f(x er sannsynlighetstettheten til en kontinuerlig X dersom:. f(x 0 for alle x R 2. f(xdx = 3. P (a

Detaljer

TMA4240/TMA4245 Statistikk: Oppsummering kontinuerlige sannsynlighetsfordelinger

TMA4240/TMA4245 Statistikk: Oppsummering kontinuerlige sannsynlighetsfordelinger TMA4240/TMA4245 Statistikk: Oppsummering kontinuerlige sannsynlighetsfordelinger Kontinuerlig uniform fordeling f() = B A, A B. En kontinuerlig størrelse (vekt, lengde, tid), som aldri kan bli mindre enn

Detaljer

Høgskolen i Gjøviks notatserie, 2001 nr 5

Høgskolen i Gjøviks notatserie, 2001 nr 5 Høgskolen i Gjøviks notatserie, 2001 nr 5 5 Java-applet s for faget Statistikk Tor Slind Avdeling for Teknologi Gjøvik 2001 ISSN 1501-3162 Sammendrag Dette notatet beskriver 5 JAVA-applets som demonstrerer

Detaljer

MAT4010 PROSJEKTOPPGAVE: Statistikk i S2. Olai Sveine Johannessen, Vegar Klem Hafnor & Torstein Mellem

MAT4010 PROSJEKTOPPGAVE: Statistikk i S2. Olai Sveine Johannessen, Vegar Klem Hafnor & Torstein Mellem MAT400 PROSJEKTOPPGAVE: Statistikk i S2 Olai Sveine Johannessen, Vegar Klem Hafnor & Torstein Mellem 20. mai 205 Innhold. Stokastisk Variabel.. Stokastiske variable som funksjoner 3 2. Forventningsverdi

Detaljer

ST0202 Statistikk for samfunnsvitere Kapittel 6: Normalfordelingen

ST0202 Statistikk for samfunnsvitere Kapittel 6: Normalfordelingen ST0202 Statistikk for samfunnsvitere Kapittel 6: Normalfordelingen Bo Lindqvist Institutt for matematiske fag 2 Kap. 6: Normalfordelingen Normalfordelingen regnes som den viktigste statistiske fordelingen!

Detaljer

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i: ST101 Innføring i statistikk og sannsynlighetsregning. Eksamensdag: Mandag 29. november 1993. Tid for eksamen: 09.00 15.00. Oppgavesettet

Detaljer

ST0202 Statistikk for samfunnsvitere Kapittel 9: Inferens om én populasjon

ST0202 Statistikk for samfunnsvitere Kapittel 9: Inferens om én populasjon ST0202 Statistikk for samfunnsvitere Kapittel 9: Inferens om én populasjon Bo Lindqvist Institutt for matematiske fag 2 Kap. 9: Inferens om én populasjon Statistisk inferens har som mål å tolke/analysere

Detaljer

6.2 Normalfordeling. Høyde kvinner og menn. 6.1 Kontinuerlig uniform fordeling. Kapittel 6

6.2 Normalfordeling. Høyde kvinner og menn. 6.1 Kontinuerlig uniform fordeling. Kapittel 6 3 6.2 Normalfordeling Kapittel 6 Noen kontinuerlige sannsynlighetsfordelinger TMA4245 V2007: Eirik Mo Normalfordeling: Sannsynlighetstettheten til en normalfordelt stokastisk variabel, X, med forventning

Detaljer

Diskrete sannsynlighetsfordelinger som histogram. Varians. Histogram og kumulativ sannsynlighet. Forventning (gjennomsnitt) (X=antall mynt i tre kast)

Diskrete sannsynlighetsfordelinger som histogram. Varians. Histogram og kumulativ sannsynlighet. Forventning (gjennomsnitt) (X=antall mynt i tre kast) Diskret sannsynlighetsfordeling (kap 1.1-1.6) Oversikt Utfallsrom (sample space) Sannsynlighetsfordeling Forventning (expectation), E(X), populasjonsgjennomsnitt Bruk av figurer og histogram Binomialfordelingen

Detaljer

Statistikk, FO242N, AMMT, HiST 2. årskurs, 30. mai 2007 side 1 ( av 8) LØSNINGSFORSLAG HØGSKOLEN I SØR-TRØNDELAG

Statistikk, FO242N, AMMT, HiST 2. årskurs, 30. mai 2007 side 1 ( av 8) LØSNINGSFORSLAG HØGSKOLEN I SØR-TRØNDELAG Statistikk, FO242N, AMMT, HiST 2. årskurs, 30. mai 2007 side 1 ( av 8) LØSNINGSFORSLAG HØGSKOLEN I SØR-TRØNDELAG AVDELING FOR MAT- OG MEDISINSK TEKNOLOGI Matteknologisk utdanning Kandidatnr: Eksamensdato:

Detaljer

Utvalgsfordelinger. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer.

Utvalgsfordelinger. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer. Utvalgsfordelinger Vi har sett at utvalgsfordelinger til en statistikk (observator) er fordelingen av verdiene statistikken tar ved mange gjenttatte utvalg av samme størrelse fra samme populasjon. Utvalg

Detaljer

1 Section 4-1: Introduksjon til sannsynlighet. 2 Section 4-2: Enkel sannsynlighetsregning. 3 Section 5-1: Introduksjon til sannsynlighetsfordelinger

1 Section 4-1: Introduksjon til sannsynlighet. 2 Section 4-2: Enkel sannsynlighetsregning. 3 Section 5-1: Introduksjon til sannsynlighetsfordelinger 1 Section 4-1: Introduksjon til sannsynlighet 2 Section 4-2: Enkel sannsynlighetsregning 3 Section 5-1: Introduksjon til sannsynlighetsfordelinger 4 Section 5-2: Tilfeldige variable 5 Section 5-3: Binomisk

Detaljer

Oppfriskning av blokk 1 i TMA4240

Oppfriskning av blokk 1 i TMA4240 Oppfriskning av blokk 1 i TMA4240 Geir-Arne Fuglstad November 21, 2016 2 Hva har vi gjort i dette kurset? Vi har studert to sterkt relaterte grener av matematikk Sannsynlighetsteori: matematisk teori for

Detaljer

Terningkast. Utfallsrommet S for et terningskast med en vanlig spillterning med 6 sider er veldefinert 1, 2, 3, 4, 5, 6

Terningkast. Utfallsrommet S for et terningskast med en vanlig spillterning med 6 sider er veldefinert 1, 2, 3, 4, 5, 6 Terningkast Halvor Aarnes, UiO, 2014 Innhold Ett terningkast og utfallsrom... 1 Union og snitt... 4 Betinget sannsynlighet... 5 Forventningsverdi E(X) og varianse Var(X)... 5 Konfidensintervall for proporsjoner...

Detaljer

Høgskolen i Telemark. Institutt for økonomi og informatikk FORMELSAMLING Statistikk I. Til bruk ved eksamen. Per Chr. Hagen

Høgskolen i Telemark. Institutt for økonomi og informatikk FORMELSAMLING Statistikk I. Til bruk ved eksamen. Per Chr. Hagen Høgskolen i Telemark Institutt for økonomi og informatikk FORMELSAMLING 6005 Statistikk I Til bruk ved eksamen Per Chr. Hagen . Sannsynlighetsregning. Regneregler Komplementsetningen: Addisjonssetningen:

Detaljer

Illustrasjon av regel 5.19 om sentralgrenseteoremet og litt om heltallskorreksjon (som i eksempel 5.20).

Illustrasjon av regel 5.19 om sentralgrenseteoremet og litt om heltallskorreksjon (som i eksempel 5.20). Econ 130 HG mars 017 Supplement til forelesningen 7. februar Illustrasjon av regel 5.19 om sentralgrenseteoremet og litt om heltallskorreksjon (som i eksempel 5.0). Regel 5.19 sier at summer, Y X1 X X

Detaljer

ST1101/ST6101 Sannsynlighetsregning og statistikk Vår 2019

ST1101/ST6101 Sannsynlighetsregning og statistikk Vår 2019 Norges teknisk naturvitenskapelige universitet Institutt for matematiske fag ST/ST Sannsynlighetsregning og statistikk Vår 9 Oppgaver fra boka 3..9 Ved et terningkast anses utfallet antall øyne lik for

Detaljer

TMA4240/TMA4245 Statistikk Oppsummering diskrete sannsynlighetsfordelinger

TMA4240/TMA4245 Statistikk Oppsummering diskrete sannsynlighetsfordelinger TMA4240/TMA4245 Statistikk Oppsummering diskrete sannsynlighetsfordelinger Binomisk fordeling* ( ) n b(x; n, p) = p x (1 p) n x = x ( ) n p x q n x, x x = 0, 1, 2,..., n Fenomén: i) n forsøk. ii) Suksess/fiasko

Detaljer

Sannsynlighetsregning og Statistikk.

Sannsynlighetsregning og Statistikk. Sannsynlighetsregning og Statistikk. Leksjon Velkommen til dette kurset i sannsynlighetsregning og statistikk! Vi vil som lærebok benytte Gunnar G. Løvås:Statistikk for universiteter og høyskoler. I den

Detaljer

Diskrete sannsynlighetsfordelinger som histogram. Varians. Histogram og kumulativ sannsynlighet. Binomial-fordelingen

Diskrete sannsynlighetsfordelinger som histogram. Varians. Histogram og kumulativ sannsynlighet. Binomial-fordelingen Diskret sannsynlighetsfordeling (kap 1.1-1.6) Oversikt Utfallsrom (sample space) Sannsynlighetsfordeling Forventning (expectation), E(, populasjonsgjennomsnitt Bruk av figurer og histogram Binomialfordelingen

Detaljer

Løsningsforslag Til Statlab 5

Løsningsforslag Til Statlab 5 Løsningsforslag Til Statlab 5 Jimmy Paul September 6, 007 Oppgave 8.1 Vi skal se på ukentlige forbruk av søtsaker blant barn i et visst område. En pilotstudie gir at standardavviket til det ukentige forbruket

Detaljer

I denne øvingen vil vi sammenlikne det teoretiske resultat med et grafisk bilde av konturlinjene til flaten. Vi tegner konturene der

I denne øvingen vil vi sammenlikne det teoretiske resultat med et grafisk bilde av konturlinjene til flaten. Vi tegner konturene der Øving uke 44 Kritiske punkter Se også Mathematicakompendiet, kap 3.8 En funksjon av to variable kan ha lokale maksimal- og minimalpunkter innenfor definisjonsmengden, akkurat som funksjoner av en variabel.

Detaljer

STK1000 Uke 36, Studentene forventes å lese Ch 1.4 ( ) i læreboka (MMC). Tetthetskurver. Eksempel: Drivstofforbruk hos 32 biler

STK1000 Uke 36, Studentene forventes å lese Ch 1.4 ( ) i læreboka (MMC). Tetthetskurver. Eksempel: Drivstofforbruk hos 32 biler STK1000 Uke 36, 2016. Studentene forventes å lese Ch 1.4 (+ 3.1-3.3 + 3.5) i læreboka (MMC). Tetthetskurver Eksempel: Drivstofforbruk hos 32 biler Fra histogram til tetthetskurver Anta at vi har kontinuerlige

Detaljer

Binomisk sannsynlighetsfunksjon

Binomisk sannsynlighetsfunksjon ST0202 Statistikk for samfunnsvitere Bo Lindqvist Institutt for matematiske fag 2 Binomisk sannsynlighetsfunksjon La det være n forsøk, sannsynlighet p for suksess og sannsynlighet q for fiasko. Den tilfeldige

Detaljer

Statistikk og dataanalyse

Statistikk og dataanalyse Njål Foldnes, Steffen Grønneberg og Gudmund Horn Hermansen Statistikk og dataanalyse En moderne innføring Kapitteloversikt del 1 INTRODUKSJON TIL STATISTIKK Kapittel 1 Populasjon og utvalg 19 Kapittel

Detaljer

Formelsamling V-2014 MAT110. Statistikk 1. Per Kristian Rekdal

Formelsamling V-2014 MAT110. Statistikk 1. Per Kristian Rekdal Formelsamling V-2014 MAT110 Statistikk 1 Per Kristian Rekdal 2 Forord Dette er formelsamlingen i emnet MAT110 Statistikk 1 ved høgskolen i Molde. Formlene i denne formelsamlingen er stort sett de formlene

Detaljer

Lær å bruke GeoGebra 4.0

Lær å bruke GeoGebra 4.0 Lær å bruke GeoGebra 4.0 av Sigbjørn Hals Innhold: Generelt om GeoGebra... 2 Innstillinger... 2 Likninger og ulikheter... 5 Implisitte likninger... 5 Ulikheter... 9 Statistikkberegninger i regnearket...

Detaljer

TMA4245 Statistikk Eksamen desember 2016

TMA4245 Statistikk Eksamen desember 2016 Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag TMA4245 Statistikk Eksamen desember 2016 Oppgave 1 En bedrift produserer elektriske komponenter. Komponentene kan ha to typer

Detaljer

Et lite notat om og rundt normalfordelingen.

Et lite notat om og rundt normalfordelingen. Et lite notat om og rundt normalfordelingen. Anta at vi har kontinuerlige data. Hva er likt og ulikt for histogrammer og fordelingskurver? Observasjoner Histogram Viser fordelingen av faktiske observerte

Detaljer

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i: STK1120 Statistiske metoder og dataanalyse 2. Eksamensdag: Tirsdag 2. juni 2009. Tid for eksamen: 14.30 17.30. Oppgavesettet

Detaljer

Løsningsforslag til obligatorisk innlevering 3.

Løsningsforslag til obligatorisk innlevering 3. svar3.nb 1 Løsningsforslag til obligatorisk innlevering 3. Oppgave 1 * Vi skal sammenlikne to sensoere A og B. Begge har rettet den samme oppgaven. Hvis populasjonen er eksamensoppgavene, har vi altså

Detaljer

Litt mer om eksponensialfordelingen

Litt mer om eksponensialfordelingen Litt mer om eksponensialfordelingen og Poissonprosesser. Dekkes av 5.6, 6.6, 6.7 og det som står under. Eksponensialfordelingen Så langt har vi lært at det finnes to parametriseringer av eksponensialfordelingen

Detaljer

Løsningsforslag AA6526 Matematikk 3MX Privatister 3. mai 2005. eksamensoppgaver.org

Løsningsforslag AA6526 Matematikk 3MX Privatister 3. mai 2005. eksamensoppgaver.org Løsningsforslag AA6526 Matematikk 3MX Privatister 3. mai 2005 eksamensoppgaver.org eksamensoppgaver.org 2 Om løsningsforslaget Løsningsforslaget for matematikk eksamen i 3MX er gratis, og det er lastet

Detaljer

Et lite notat om og rundt normalfordelingen. Anta at vi har kontinuerlige data. Hva er likt og ulikt for histogrammer og fordelingskurver?

Et lite notat om og rundt normalfordelingen. Anta at vi har kontinuerlige data. Hva er likt og ulikt for histogrammer og fordelingskurver? Et lite notat om og rundt normalfordelingen. Anta at vi har kontinuerlige data. Hva er likt og ulikt for histogrammer og fordelingskurver? Boka (Ch 1.4) motiverer dette ved å gå fra histogrammer til tetthetskurver.

Detaljer

Kontinuerlige stokastiske variable.

Kontinuerlige stokastiske variable. Kontinuerlige stokastiske variable. I forelesning har vi sett på en kontinuerlig stokastisk variabel med sannsynlighetstetthet f() =2 og sannsynlighetsfunksjon F () = 2 for. Der hadde jeg et reint regneteknisk

Detaljer

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere ST0202 Statistikk for samfunnsvitere Bo Lindqvist Institutt for matematiske fag Situasjonen er som i quiz-eksempelet: n = 4, p = 1/3 ( suksess betyr å gjette riktig alternativ), q = 2/3. Oppgave: Finn

Detaljer

EKSAMEN I TMA4245 Statistikk

EKSAMEN I TMA4245 Statistikk Norges teknisk naturvitenskapelige universitet Institutt for matematiske fag Side 1 av 5 Faglig kontakt under eksamen: Turid Follestad (98 06 68 80/73 59 35 37) Hugo Hammer (45 21 01 84/73 59 77 74) Eirik

Detaljer

Et lite notat om og rundt normalfordelingen.

Et lite notat om og rundt normalfordelingen. Et lite notat om og rundt normalfordelingen. Anta at vi har kontinuerlige data. Hva er likt og ulikt for histogrammer og fordelingskurver? Observasjoner Histogram Viser fordelingen av faktiske observerte

Detaljer

Forelesning 5: Kontinuerlige fordelinger, normalfordelingen. Jo Thori Lind

Forelesning 5: Kontinuerlige fordelinger, normalfordelingen. Jo Thori Lind Forelesning 5: Kontinuerlige fordelinger, normalfordelingen Jo Thori Lind j.t.lind@econ.uio.no Oversikt 1. Kontinuerlige fordelinger 2. Uniform fordeling 3. Normal-fordelingen 1. Kontinuerlige fordelinger

Detaljer

Gammafordelingen og χ 2 -fordelingen

Gammafordelingen og χ 2 -fordelingen Gammafordelingen og χ 2 -fordelingen Gammafunksjonen Gammafunksjonen er en funksjon som brukes ofte i sannsynlighetsregning. I mange fordelinger dukker den opp i konstantleddet. Hvis man plotter n-fakultet

Detaljer

Forelening 1, kapittel 4 Stokastiske variable

Forelening 1, kapittel 4 Stokastiske variable Forelening 1, kapittel 4 Stokastiske variable Eksempel X = "antall kron på kast med to mynter (før de er kastet)" Uniformt utfallsrom {MM, MK, KM, KK}. X = x beskriver hendelsen "antall kron på kast med

Detaljer

Medisinsk statistikk Del I høsten 2009:

Medisinsk statistikk Del I høsten 2009: Medisinsk statistikk Del I høsten 2009: Kontinuerlige sannsynlighetsfordelinger Pål Romundstad Beregning av sannsynlighet i en binomisk forsøksrekke generelt Sannsynligheten for at suksess intreffer X

Detaljer

Kapittel 4.4: Forventning og varians til stokastiske variable

Kapittel 4.4: Forventning og varians til stokastiske variable Kapittel 4.4: Forventning og varians til stokastiske variable Forventning og varians til stokastiske variable Histogrammer for observerte data: Sannsynlighets-histogrammer og tetthetskurver for stokastiske

Detaljer

TMA4240 Statistikk Høst 2008

TMA4240 Statistikk Høst 2008 TMA4240 Statistikk Høst 2008 Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag Øving nummer 7 Oppgave 1 Tippekonkurranse Denne oppgaven er ment som en kjapp test på hva du har

Detaljer

Kapittel 8: Tilfeldige utvalg, databeskrivelse og fordeling til observatorar, Kapittel 9: Estimering

Kapittel 8: Tilfeldige utvalg, databeskrivelse og fordeling til observatorar, Kapittel 9: Estimering Kapittel 8: Tilfeldige utvalg, databeskrivelse og fordeling til observatorar, Kapittel 9: Estimering TMA4245 Statistikk Kapittel 8.1-8.5. Kapittel 9.1-9.3+9.15 Turid.Follestad@math.ntnu.no p.1/21 Har sett

Detaljer

Kapittel 4.3: Tilfeldige/stokastiske variable

Kapittel 4.3: Tilfeldige/stokastiske variable Kapittel 4.3: Tilfeldige/stokastiske variable Litt repetisjon: Sannsynlighetsteori Stokastisk forsøk og sannsynlighet Tilfeldig fenomen Individuelle utfall er usikre, men likevel et regulært mønster for

Detaljer

Utvalgsfordelinger; utvalg, populasjon, grafiske metoder, X, S 2, t-fordeling, χ 2 -fordeling

Utvalgsfordelinger; utvalg, populasjon, grafiske metoder, X, S 2, t-fordeling, χ 2 -fordeling Kapittel 8 Utvalgsfordelinger; utvalg, populasjon, grafiske metoder, X, S 2, t-fordeling, χ 2 -fordeling TMA4240 H2006: Eirik Mo 2 Til nå... Definert sannsynlighet og stokastiske variabler (kap. 2 & 3).

Detaljer

A) B) 400 C) 120 D) 60 E) 10. Rett svar: C. Fasit: ( 5 6 = 60. Hvis A, B, C er en partisjon av utfallsrommet S, så er P (A B) lik.

A) B) 400 C) 120 D) 60 E) 10. Rett svar: C. Fasit: ( 5 6 = 60. Hvis A, B, C er en partisjon av utfallsrommet S, så er P (A B) lik. Oppgave 1 Det skal velges en komité bestående av 2 menn og 1 kvinne. Komitéen skal velges fra totalt 5 menn og 6 kvinner. Hvor mange ulike komitéer kan dannes? A) 86400 B) 400 C) 120 D) 60 E) 10 Rett svar:

Detaljer

MAT 100a - LAB 3. Vi skal først illustrerere hvordan Newtons metode kan brukes til å approksimere n-te roten av et positivt tall.

MAT 100a - LAB 3. Vi skal først illustrerere hvordan Newtons metode kan brukes til å approksimere n-te roten av et positivt tall. MAT 100a - LAB 3 I denne øvelsen skal vi bruke Maple til å illustrere noen anvendelser av derivasjon, først og fremst Newtons metode til å løse likninger og lokalisering av min. og max. punkter. Vi skal

Detaljer

Sted Gj.snitt Median St.avvik Varians Trondheim 6.86 7.50 6.52 42.49 Værnes 7.07 7.20 6.79 46.05 Oppdal 4.98 5.80 7.00 48.96

Sted Gj.snitt Median St.avvik Varians Trondheim 6.86 7.50 6.52 42.49 Værnes 7.07 7.20 6.79 46.05 Oppdal 4.98 5.80 7.00 48.96 Vår 213 Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag Øving nummer 8, blokk II Matlabøving Løsningsskisse Oppgave 1 a) Ingen løsningsskisse. b) Finn, for hvert datasett,

Detaljer

Statistikk 1 kapittel 5

Statistikk 1 kapittel 5 Statistikk 1 kapittel 5 Nico Keilman ECON 2130 Vår 2017 Kapittel 5 Sannsynlighetsmodeller I kap. 4 så vi et eksempel med en s.v. X som hadde en uniform sannsynlighetsfordeling: alle verdier av x har like

Detaljer

ST0103 Brukerkurs i statistikk Høst 2014

ST0103 Brukerkurs i statistikk Høst 2014 Norges teknisk naturvitenskapelige univsitet Institutt for matematiske fag ST0103 Brukkurs i statistikk Høst 2014 Løsningsforslag Øving 6 5.2 Antall sprukne pøls X binomialfordelt med n 8 og p 0.2, og

Detaljer

Mer om hypotesetesting

Mer om hypotesetesting Mer om hypotesetesting I underkapittel 36 i læreboka gir vi en kort innføring i tankegangen ved hypotesetesting Vi gir her en grundigere framstilling av temaet Problemstilling Vi forklarer problemstillingen

Detaljer

ECON Statistikk 1 Forelesning 4: Stokastiske variable, fordelinger. Jo Thori Lind

ECON Statistikk 1 Forelesning 4: Stokastiske variable, fordelinger. Jo Thori Lind ECON2130 - Statistikk 1 Forelesning 4: Stokastiske variable, fordelinger Jo Thori Lind j.t.lind@econ.uio.no Oversikt 1. Betinget sannsynlighet 2. Stokastiske variable 3. Forventning og varians 4. Regneregler

Detaljer

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere ST0202 Statistikk for samfunnsvitere Bo Lindqvist Institutt for matematiske fag 2 Tilfeldige variable (5.2) Dersom vi til hvert utfall av eksperimentet tilordner et tall, har vi laget en tilfeldig variabel.

Detaljer

Tilfeldige variable (5.2)

Tilfeldige variable (5.2) Tilfeldige variable (5.) Dersom vi til hvert utfall av eksperimentet tilordner et tall, har vi laget en tilfeldig variabel. Tilfeldig variabel: En variabel som har en numerisk verdi for hvert utfall i

Detaljer

Statistisk beskrivelse av enkeltvariabler. SOS1120 Kvantitativ metode. Disposisjon. Datamatrisen. Forelesningsnotater 6. forelesning høsten 2005

Statistisk beskrivelse av enkeltvariabler. SOS1120 Kvantitativ metode. Disposisjon. Datamatrisen. Forelesningsnotater 6. forelesning høsten 2005 SOS110 Kvantitativ metode Forelesningsnotater 6 forelesning høsten 005 Statistisk beskrivelse av enkeltvariabler (Univariat analyse) Per Arne Tufte Disposisjon Datamatrisen Variabler Datamatrisen Frekvensfordelinger

Detaljer

Oppgave 1: Feil på mobiltelefoner

Oppgave 1: Feil på mobiltelefoner Oppgave 1: Feil på mobiltelefoner a) Sannsynlighetene i oppgaven blir P (F 1 F 2 ) P (F 1 ) + P (F 2 ) P (F 1 F 2 ) P (F 1 ) + 1 P (F2 C ) P (F 1 F 2 ) 0.080 + 0.075 0.006 0.149 P (F 1 F 2 ) P (F 1 F 2

Detaljer

Kapittel 3: Studieopplegg

Kapittel 3: Studieopplegg Oversikt over pensum Kapittel 1: Empirisk fordeling for en variabel o Begrepet fordeling o Mål for senter (gj.snitt, median) + persentiler/kvartiler o Mål for spredning (Standardavvik s, IQR) o Outliere

Detaljer

ÅMA110 Sannsynlighetsregning med statistikk, våren Kp. 3 Diskrete tilfeldige variable. Diskrete tilfeldige variable, varians (kp. 3.

ÅMA110 Sannsynlighetsregning med statistikk, våren Kp. 3 Diskrete tilfeldige variable. Diskrete tilfeldige variable, varians (kp. 3. ÅMA Sannsynlighetsregning med statistikk, våren 8 Kp. Diskrete tilfeldige variable Kp. Diskrete tilfeldige variable Har sett på (tidligere: begrep/definisjoner; tilfeldig (stokastisk variabel sannsynlighetsfordeling

Detaljer

TMA4240 Statistikk Høst 2012

TMA4240 Statistikk Høst 2012 TMA424 Statistikk Høst 212 Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag Øving 5 blokk I Løsningsskisse Oppgave 1 X N(18,2.5 2 ) P(X < 15) = P ( X 18 < 15 18 ) = P(Z < 1.2)

Detaljer

Statistikk 1 kapittel 5

Statistikk 1 kapittel 5 Statistikk 1 kapittel 5 Nico Keilman ECON 2130 Vår 2016 Kapittel 5 Sannsynlighetsmodeller I kap. 4 så vi et eksempel med en s.v. X som hadde en uniform sannsynlighetsfordeling: alle verdier av x har like

Detaljer

Eksamensoppgave i TMA4240 Statistikk

Eksamensoppgave i TMA4240 Statistikk Institutt for matematiske fag Eksamensoppgave i TMA4240 Statistikk Faglig kontakt under eksamen: Mette Langaas a, Ingelin Steinsland b, Geir-Arne Fuglstad c Tlf: a 988 47 649, b 926 63 096, c 452 70 806

Detaljer

ST0103 Brukerkurs i statistikk Høst 2014

ST0103 Brukerkurs i statistikk Høst 2014 Norges teknisk naturvitenskapelige universitet Institutt for matematiske fag ST0103 Brukerkurs i statistikk Høst 2014 Løsningsforslag Øving 1 2.1 Frekvenstabell For å lage en frekvenstabell må vi telle

Detaljer

1 Section 7-2: Estimere populasjonsandelen. 2 Section 7-4: Estimere µ når σ er ukjent

1 Section 7-2: Estimere populasjonsandelen. 2 Section 7-4: Estimere µ når σ er ukjent 1 Section 7-2: Estimere populasjonsandelen 2 Section 7-4: Estimere µ når σ er ukjent Kapittel 7 Nå begynner vi med statistisk inferens! Bruke stikkprøven til å 1 Estimere verdien til en parameter i populasjonen.

Detaljer

TMA4240 Statistikk H2010 Kapittel 5: Diskrete sannsynlighetsfordelinger : Uniform, binomisk, hypergeometrisk fordeling

TMA4240 Statistikk H2010 Kapittel 5: Diskrete sannsynlighetsfordelinger : Uniform, binomisk, hypergeometrisk fordeling TMA4240 Statistikk H2010 Kapittel 5: Diskrete sannsynlighetsfordelinger 5.1-5.4: Uniform, binomisk, hypergeometrisk fordeling Mette Langaas 2 Arbeidshverdag etter endt studium Studere et fenomen (f.eks.

Detaljer

Tabell 1: Beskrivende statistikker for dataene

Tabell 1: Beskrivende statistikker for dataene Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag Øving nummer 7, blokk II Løsningsskisse Oppgave 1 a) Utfør en beskrivende analyse av datasettet % Data for Trondheim: TRD_mean=mean(TRD);

Detaljer

Medisinsk statistikk Del I høsten 2008:

Medisinsk statistikk Del I høsten 2008: Medisinsk statistikk Del I høsten 2008: Kontinuerlige sannsynlighetsfordelinger Pål Romundstad Noen tips Boka Summary etter hvert kapittel forteller hvor dere har vært og hva som er sentralt Øvingene Overdriv

Detaljer

Kontinuerlige sannsynlighetsfordelinger.

Kontinuerlige sannsynlighetsfordelinger. Kontinuerlige sannsynlighetsfordelinger. Dekkes av kap. 6 og deler av kap. 8.5 i boka. Husk: f(x) er sannsynlighetstettheten til en kontinuerlig X dersom: 1. f(x) 0 for alle x R 2. f(x)dx =1 3. P (a

Detaljer

Utvalgsfordelinger. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer.

Utvalgsfordelinger. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer. Utvalgsfordelinger Vi har sett at utvalgsfordelinger til en observator er fordelingen av verdiene observatoren tar ved mange gjenttatte utvalg av samme størrelse fra samme populasjon. Utvalg er en tilfeldig

Detaljer

Løsning på Dårlige egg med bruk av Tabell 2 i Appendix B

Løsning på Dårlige egg med bruk av Tabell 2 i Appendix B Situasjonen er som i quiz-eksempelet: n = 4, p = 1/3 ( suksess betyr å gjette riktig alternativ), q = 2/3. Oppgave: Finn P(x), x=0,1,2,3,4 fra den generelle formelen for binomisk sannsynlighetsfordeling

Detaljer

Sannsynlighet og statistikk S2 Løsninger

Sannsynlighet og statistikk S2 Løsninger Sannsynlighet og statistikk S2 Løsninger Innhold 3. Stokastiske variabler og sannsynlighetsfordelinger... 2 3.2 Forventningsverdi Varians Standardavvik... 9 3.3 Normalfordelingen... 7 3.4 Sentralgrensesetningen...

Detaljer

Eksamen REA3028 S2, Høsten 2012

Eksamen REA3028 S2, Høsten 2012 Eksamen REA308 S, Høsten 01 Del 1 Tid: timer Hjelpemidler: Vanlige skrivesaker, passer, linjal med centimetermål og vinkelmåler er tillatt. Oppgave 1 (6 poeng) Deriver funksjonene 3x x a) gx 3 3x x 3x

Detaljer

Kapittel 6: Kontinuerlige sannsynlighetsfordelinger 6.4-5.7: Normalfordelingen, normalapproksimasjon, eksponensial og gamma.

Kapittel 6: Kontinuerlige sannsynlighetsfordelinger 6.4-5.7: Normalfordelingen, normalapproksimasjon, eksponensial og gamma. TMA4240 Statistikk H2010 Kapittel 6: Kontinuerlige sannsynlighetsfordelinger 6.4-5.7: Normalfordelingen, normalapproksimasjon, eksponensial og gamma. Mette Langaas Foreleses mandag 27. september 2010 2

Detaljer

TMA4240 Statistikk H2010

TMA4240 Statistikk H2010 TMA4240 Statistikk H2010 Statistisk inferens: 8.1: Tilfeldig utvalg 9.1-9.3: Estimering Mette Langaas Foreleses uke 40, 2010 2 Utfordring Ved en bedrift produseres en elektrisk komponent. Komponenten må

Detaljer

Utfordring. TMA4240 Statistikk H2010. Mette Langaas. Foreleses uke 40, 2010

Utfordring. TMA4240 Statistikk H2010. Mette Langaas. Foreleses uke 40, 2010 TMA4240 Statistikk H2010 Statistisk inferens: 8.1: Tilfeldig utvalg 9.1-9.3: Estimering Mette Langaas Foreleses uke 40, 2010 2 Utfordring Ved en bedrift produseres en elektrisk komponent. Komponenten må

Detaljer

Regler i statistikk STAT 100

Regler i statistikk STAT 100 TORIL FJELDAAS RYGG - VÅREN 2010 Regler i statistikk STAT 100 Innhold side Sannsynlighetsregning 3 - Uttrykk 3 - Betinget sannsynlighet 4 - Regler for sannsynlighet 4 - Bayes teorem 4 - Uavhengige begivenheter

Detaljer

Løsning eksamen desember 2016

Løsning eksamen desember 2016 Løsning eksamen desember 016 Oppgave 1 a) En drone har to uavhengige motorer. Vi innfører hendelsene A: motor 1 svikter B: motor svikter Dronen er avhengig av at begge virker, slik at sannsynligheten for

Detaljer

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010. ÅMA110 Sannsynlighetsregning med statistikk, våren 2010

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010. ÅMA110 Sannsynlighetsregning med statistikk, våren 2010 ÅMA Sannsynlighetsregning med statistikk, våren Kp. Diskrete tilfeldige variable ÅMA Sannsynlighetsregning med statistikk, våren Kp. Diskrete tilfeldige variable Diskrete tilfeldige variable, innledning

Detaljer

Sannsynlighet og statistikk

Sannsynlighet og statistikk Sannsynlighet og statistikk Innhold Kompetansemål Sannsynlighet og statistikk, S... 3. Stokastiske variabler og sannsynlighetsfordelinger... 3 Stokastisk forsøk... 3 Definisjon av sannsynlighet og sannsynlighetsmodell...

Detaljer

: subs x = 2, f n x end do

: subs x = 2, f n x end do Oppgave 2..5 a) Vi starter med å finne de deriverte til funksjonen av orden opp til og med 5 i punktet x = 2. Det gjør vi ved å bruke kommandoen diff f x, x$n der f x er uttrykket som skal deriveres, x

Detaljer

Statistikk 1. Nico Keilman. ECON 2130 Vår 2014

Statistikk 1. Nico Keilman. ECON 2130 Vår 2014 Statistikk 1 Nico Keilman ECON 2130 Vår 2014 Pensum Kap 1-7.3.6 fra Løvås «Statistikk for universiteter og høgskoler» 3. utgave 2013 (eventuelt 2. utgave) Se overspringelsesliste på emnesiden Supplerende

Detaljer

Sentralverdi av dataverdi i et utvalg Vi tenker oss et utvalg med datapar. I vårt eksempel har vi 5 datapar.

Sentralverdi av dataverdi i et utvalg Vi tenker oss et utvalg med datapar. I vårt eksempel har vi 5 datapar. Statistisk behandling av kalibreringsresultatene Del 4. v/ Rune Øverland, Trainor Elsikkerhet AS Denne artikkelserien handler om statistisk behandling av kalibreringsresultatene. Dennne artikkelen tar

Detaljer

EKSAMEN. Flexibel ingeniørutdanning, 2kl. Bygg m.fl.

EKSAMEN. Flexibel ingeniørutdanning, 2kl. Bygg m.fl. KANDIDATNUMMER: EKSAMEN FAGNAVN: FAGNUMMER: Statistikk. REA 1081 og REA1081F EKSAMENSDATO: 1. juni 2011. KLASSE: Flexibel ingeniørutdanning, 2kl. Bygg m.fl. TID: kl. 9.00 12.00. FAGLÆRER: Hans Petter Hornæs

Detaljer

TMA4245 Statistikk Høst 2016

TMA4245 Statistikk Høst 2016 TMA5 Statistikk Høst 6 Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag Anbefalt øving Løsningsskisse Oppgave a) Den tilfeldige variabelen X er kontinuerlig fordelt med sannsynlighetstetthet

Detaljer

Bernoulli forsøksrekke og binomisk fordeling

Bernoulli forsøksrekke og binomisk fordeling Bernoulli forsøksrekke og binomisk fordeling Bernoulli forsøksrekke i) gjentar et forsøk n ganger ii) hvert forsøk gir enten suksess eller fiasko iii) sannsynligheten for suksess er p i alle forsøkene

Detaljer

TMA4240 Statistikk 2014

TMA4240 Statistikk 2014 Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag Øving nummer 5, blokk I Løsningsskisse Oppgave 1 X og Y er uavhengige Poisson-fordelte stokastiske variable, X p(x;5 og Y p(y;1.

Detaljer

Togforsinkelsen (Eksamen Des2003.1a) I denne oppgaven kan du bruke uten å vise det at

Togforsinkelsen (Eksamen Des2003.1a) I denne oppgaven kan du bruke uten å vise det at Kapittel 4 Forventningsverdi, varians, kovarians for én stokastisk variabel og funksjoner av stokastiske variabler TMA4245 V2007: Eirik Mo 2 4.1 Forventing til en stokastisk variabel DEF 4.1: La X være

Detaljer

Betinget sannsynlighet

Betinget sannsynlighet Betinget sannsynlighet Multiplikasjonsloven for sannsynligheter (s. 49 i bok): P( AB ) = P( A B ) P(B) Veldig viktig verktøy for å finne sannsynligheter for snitt. (Bevises ved rett fram manipulering av

Detaljer

Siden vi her har brukt første momentet i fordelingen (EX = EX 1 ) til å konstruere estimatoren kalles denne metoden for momentmetoden.

Siden vi her har brukt første momentet i fordelingen (EX = EX 1 ) til å konstruere estimatoren kalles denne metoden for momentmetoden. Estimeringsmetoder Momentmetoden La X, X 2,..., X n være uavhengige variable som er rektangulært fordelte på intervallet [0, θ]. Vi vet da at forventningsverdiene til hver observasjon og forventningen

Detaljer

Introduksjon til statistikk og dataanalyse. Arild Brandrud Næss TMA4240 Statistikk NTNU, høsten 2013

Introduksjon til statistikk og dataanalyse. Arild Brandrud Næss TMA4240 Statistikk NTNU, høsten 2013 Introduksjon til statistikk og dataanalyse Arild Brandrud Næss TMA4240 Statistikk NTNU, høsten 2013 Introduksjon til statistikk og dataanalyse Hollywood-filmer fra 2011 135 filmer Samla budsjett: $ 7 166

Detaljer

Første sett med obligatoriske oppgaver i STK1110 høsten 2015

Første sett med obligatoriske oppgaver i STK1110 høsten 2015 Første sett med obligatoriske oppgaver i STK1110 høsten 2015 Dette er det første obligatoriske oppgavesettet i STK1110 høsten 2015. Oppgavesettet består av fire oppgaver. Du må bruke Matematisk institutts

Detaljer

ÅMA110 Sannsynlighetsregning med statistikk, våren 2011

ÅMA110 Sannsynlighetsregning med statistikk, våren 2011 ÅMA0 Sannsynlighetsregning med statistikk, våren 0 Kp. 3 Diskrete tilfeldige variable Noen viktige sannsynlighetsmodeller Noen viktige sannsynlighetsmodeller ( Sanns.modell : nå betyr det klasse/type sanns.fordeling.

Detaljer

Hypotesetesting. Hvorfor og hvordan? Gardermoen 21. april 2016 Ørnulf Borgan. H. Aschehoug & Co Sehesteds gate 3, 0102 Oslo Tlf:

Hypotesetesting. Hvorfor og hvordan? Gardermoen 21. april 2016 Ørnulf Borgan. H. Aschehoug & Co Sehesteds gate 3, 0102 Oslo Tlf: Hypotesetesting Hvorfor og hvordan? Gardermoen 21. april 2016 Ørnulf Borgan H. Aschehoug & Co Sehesteds gate 3, 0102 Oslo Tlf: 22 400 400 www.aschehoug.no 1 Oversikt Sannsynlighetsregning og statistikk

Detaljer

Galton-brett og sentralgrenseteorem

Galton-brett og sentralgrenseteorem Halvor Aarnes, IBV, 2014 Galton-brett og sentralgrenseteorem På et Galton-brett (Sir Francis Galton) beveger kuler for eksempel erter eller klinkekuler seg som følge av tyngdekraften på et skråstilt brett

Detaljer

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Underveiseksamen i: STK1000 Innføring i anvendt statistikk. Eksamensdag: Onsdag 13/10, 2004. Tid for eksamen: Kl. 09.00 11.00. Vedlegg:

Detaljer

Dekkes av pensumsidene i kap. lesingsnotatene. Hypotesetesting er en systematisk fremgangsmåte

Dekkes av pensumsidene i kap. lesingsnotatene. Hypotesetesting er en systematisk fremgangsmåte Hypotesetesting. 10 og fore- Dekkes av pensumsidene i kap. lesingsnotatene. Hypotesetesting er en systematisk fremgangsmåte for å undersøke hypoteser (påstander) knyttet til parametre i sannsynlighetsfordelinger.

Detaljer

TALLSVAR. Det anbefales at de 9 deloppgavene merket med A, B, teller likt uansett variasjon i vanskelighetsgrad. Svarene er gitt i <<< >>>.

TALLSVAR. Det anbefales at de 9 deloppgavene merket med A, B, teller likt uansett variasjon i vanskelighetsgrad. Svarene er gitt i <<< >>>. 1 ECON213: EKSAMEN 217 VÅR - UTSATT PRØVE TALLSVAR. Det anbefales at de 9 deloppgavene merket med A, B, teller likt uansett variasjon i vanskelighetsgrad. Svarene er gitt i

Detaljer

Konfidensintervall for µ med ukjent σ (t intervall)

Konfidensintervall for µ med ukjent σ (t intervall) Forelesning 3, kapittel 6 Konfidensintervall for µ med ukjent σ (t intervall) Konfidensintervall for µ basert på n observasjoner fra uavhengige N( µ, σ) fordelinger når σ er kjent : Hvis σ er ukjent har

Detaljer

ÅMA110 Sannsynlighetsregning med statistikk, våren 2008

ÅMA110 Sannsynlighetsregning med statistikk, våren 2008 ÅMA0 Sannsynlighetsregning med statistikk, våren 008 Kp. Sannsynlighetsregning (sannsynlighetsteori).5 Betinget sannsynlighet Betinget sannsynlighet (kp..5) - innledning Eks.: Et terningkast; {,, 3, 4,

Detaljer