Q-Q plott. Insitutt for matematiske fag, NTNU 15. august Notat for TMA4240/TMA4245 Statistikk. Kvantiler fra sannsynlighetsfordeling

Like dokumenter
Snøtetthet. Institutt for matematiske fag, NTNU 15. august Notat for TMA4240/TMA4245 Statistikk

TMA4240 Statistikk Høst 2015

TMA4240 Statistikk H2015

Utvalgsfordelinger; utvalg, populasjon, grafiske metoder, X, S 2, t-fordeling, χ 2 -fordeling

TMA4245 Statistikk Vår 2015

Binomisk fordeling. Hypergeometrisk fordeling. MAT0100V Sannsynlighetsregning og kombinatorikk. Vi har følgende situasjon: = = 2

Gruvedrift. Institutt for matematiske fag, NTNU. Notat for TMA4240/TMA4245 Statistikk

Kapittel 8: Tilfeldige utvalg, databeskrivelse og fordeling til observatorar, Kapittel 9: Estimering

Et lite notat om og rundt normalfordelingen.

Notasjon. Løsninger. Problem. Kapittel 7

Forslag til endringar

STK1100 våren Normalfordelingen. Normalfordelingen er den viktigste av alle sannsynlighetsfordelinger

Et lite notat om og rundt normalfordelingen. Anta at vi har kontinuerlige data. Hva er likt og ulikt for histogrammer og fordelingskurver?

Et lite notat om og rundt normalfordelingen.

TMA4240 Statistikk Høst 2016

STK juni 2018

Løsningsforslag AA6524/AA6526 Matematikk 3MX Elever/Privatister - 7. desember eksamensoppgaver.org

x λe λt dt = 1 e λx for x > 0 uavh = P (X 1 v)p (X 2 v) = F X (v) 2 = (1 e λv ) 2 = 1 2e λv + e 2λv = 2 1 λ 1 2λ = 3

Introduksjon til statistikk og dataanalyse. Arild Brandrud Næss TMA4240 Statistikk NTNU, høsten 2013

Gammafordelingen og χ 2 -fordelingen

Fasit for tilleggsoppgaver

Klassisering. Insitutt for matematiske fag, NTNU 21. august Klassiseringsproblemet. Notat for TMA4240/TMA4245 Statistikk

STK1100 våren Kontinuerlige stokastiske variabler Forventning og varians Momentgenererende funksjoner

Forkurs, Avdeling for Ingeniørutdanning

Løsningsforslag AA6524 Matematikk 3MX Elever 7. juni eksamensoppgaver.org

Utvalgsfordelinger (Kapittel 5)

Løsningsforslag Eksamen S2, våren 2017 Laget av Tommy O. Sist oppdatert: 25. mai 2017

STK1000 Uke 36, Studentene forventes å lese Ch 1.4 ( ) i læreboka (MMC). Tetthetskurver. Eksempel: Drivstofforbruk hos 32 biler

Løsningsforslag ECON 2130 Obligatorisk semesteroppgave 2017 vår

for x 0 F X (x) = 0 ellers Figur 1: Parallellsystem med to komponenter Figur 2: Seriesystem med n komponenter

Høgskolen i Gjøviks notatserie, 2001 nr 5

UNIVERSITETET I OSLO

(Det tas forbehold om feil i løsningsforslaget.) Oppgave 1

Løsningsforslag AA6526 Matematikk 3MX - 5. mai eksamensoppgaver.org

eksamensoppgaver.org x = x = x lg(10) = lg(350) x = lg(350) 5 x x + 1 > 0 Avfortegnsskjemaetkanvileseatulikhetenstemmerfor

f(x)dx = F(x) = f(u)du. 1 (4u + 1) du = 3 0 for x < 0, 2 + for x [0,1], 1 for x > 1. = 1 F 4 = P ( X > 1 2 X > 1 ) 4 X > 1 ) =

A) B) 400 C) 120 D) 60 E) 10. Rett svar: C. Fasit: ( 5 6 = 60. Hvis A, B, C er en partisjon av utfallsrommet S, så er P (A B) lik.

Eksamensoppgave i TMA4245 Statistikk

Kapittel 4.4: Forventning og varians til stokastiske variable

Høgskolen i Telemark. Institutt for økonomi og informatikk FORMELSAMLING Statistikk I. Til bruk ved eksamen. Per Chr. Hagen

Gråtone-transformasjoner Hovedsakelig fra kap i DIP

TMA4245 Statistikk Eksamen august 2014

ECON Statistikk 1 Forelesning 2: Innledning

Løsningsforslag AA6526 Matematikk 3MX Privatister 3. mai eksamensoppgaver.org

Kort overblikk over kurset sålangt

Oppfriskning av blokk 1 i TMA4240

Kap. 8: Utvalsfordelingar og databeskrivelse

Weibullfordelingen. Kjetil L. Nielsen. Innhold. 1 Teori. 1.1 Tetthetsfunksjon og fordelingsfunksjon

TMA4245 Statistikk Høst 2016

TMA4240 Statistikk Høst 2015

Løsningsforslag for eksamen i REA3026 Matematikk S eksamensoppgaver.org

Seksjon 1.3 Tetthetskurver og normalfordelingen

I et eksperiment er det målt følgende sammenheng mellom to størrelser x og y. x Y = ax + b:

EKSAMEN I FAG TMA4275 LEVETIDSANALYSE Xxxdag xx. juni 2008 Tid: 09:0013:00

Eksamen vår 2009 Løsning Del 1

Kapittel 6: Kontinuerlige sannsynlighetsfordelinger

Løsningsforslag AA6516 Matematikk 2MX - 5. mai eksamensoppgaver.org

MOT310 Statistiske metoder 1, høsten 2011 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 1. n + (x 0 x) 1 2 ) = 1 γ

Medisinsk statistikk Del I høsten 2009:

MA1102 Grunnkurs i analyse II Vår 2014

Løsningsforslag Eksamen 3MX - AA

TMA4240 Statistikk H2015

Løsningsforslag AA6524 Matematikk 3MX Elever AA6526 Matematikk 3MX Privatister eksamensoppgaver.org

ST1201 Statistiske metoder

Løsningsforslag til andre sett med obligatoriske oppgaver i STK1110 høsten 2010

Algoritme-Analyse. Asymptotisk ytelse. Sammenligning av kjøretid. Konstanter mot n. Algoritme-kompeksitet. Hva er størrelsen (n) av et problem?

ting å gjøre å prøve å oppsummere informasjonen i Hva som er hensiktsmessig måter å beskrive dataene på en hensiktsmessig måte.

Løsningsforslag til obligatorisk oppgave i ECON 2130

TMA4240 Statistikk Høst 2015

Andre sett med obligatoriske oppgaver i STK1110 høsten 2010

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

TMA4240 Statistikk Eksamen desember 2015

Eksamen S2, Va ren 2013

BYFE DAFE Matematikk 1000 HIOA Obligatorisk innlevering 5 Innleveringsfrist Fredag 15. april 2016 kl 14 Antall oppgaver: 8

eksamensoppgaver.org 4 2e x = 7 e x = 7 2 ln e x = ln 2 x = ln 7 ln 2 ln x 2 ln x = 2 2 ln x ln x = 2 ln x = 2 x = e 2

Eksamen S2 vår 2009 Del 1

EKSAMEN Løsningsforslag

TMA4240 Statistikk 2014

FORMELSAMLING TIL STK1100 OG STK1110

Statistikk 1 kapittel 5

Konfidensintervall for µ med ukjent σ (t intervall)

TMA4240 Statistikk H2010

Utfordring. TMA4240 Statistikk H2010. Mette Langaas. Foreleses uke 40, 2010

FYS2130. Tillegg til kapittel 13. Harmonisk oscillator. Løsning med komplekse tall

Alle svar skal grunngis. Alle deloppgaver har lik vekt.

Prøve i Matte 1000 BYFE DAFE 1000 Dato: 03. mars 2016 Hjelpemiddel: Kalkulator og formelark. Alle svar skal grunngis. Alle deloppgaver har lik vekt.

TMA4240 Statistikk 2014

Sentralmål og spredningsmål

ØVINGER 2017 Løsninger til oppgaver. Øving 1

ST0202 Statistikk for samfunnsvitere

Eksamensoppgave i TMA4240 Statistikk

eksamensoppgaver.org 4 oppgave1 a.i) Viharulikheten 2x 4 x + 5 > 0 2(x 2) x + 5 > 0 Sådaserviatløsningenpådenneulikhetenblir

TMA4240 Statistikk H2010

3.1 Stokastisk variabel (repetisjon)

Matematikk 1 (TMA4100)

Forelesning 5: Kontinuerlige fordelinger, normalfordelingen. Jo Thori Lind

Løsningsforslag. og B =

Løsningsforslag AA6516 Matematikk 2MX desember eksamensoppgaver.org

ST0202 Statistikk for samfunnsvitere

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

Transkript:

Q-Q plott Notat for TMA/TMA Statistikk Insitutt for ateatiske fag, NTNU. august En ønsker ofte å trekke slutninger o populasjonen til en stokastisk variabel basert på et forholdsvis lite antall observasjoner, so antas å være et tilfeldig utvalg. Spesielt er det interessant å vite hva slags sannsynlighetsfordeling variabelen følger. Det er da vanlig å plotte et histogra av observasjonene. Vi ser på observasjonene so realisasjoner fra sannsynlighetsfordelingen, og histograet gir dered et inntrykk av hvordan sannsynlighetstetthetsfunksjonen ser ut. En annen ulighet er å plotte observasjonene på en slik åte at an får et bilde av den kuulative fordelingsfunksjonen til utvalget. Dette kan oppnås ved å lage et kvantilplott. En annen vanlig problestilling er å kontrollere hvorvidt en variabel so antas å følge en gitt fordeling, faktisk gjør det. Man ønsker ed andre ord å sjekke hvor godt antakelsen steer. Man kan da bruke et Q-Q plott eller et P-P plott for å saenlikne observasjonene ed den antatte fordelingen. Kvantiler fra sannsynlighetsfordeling Betrakt den stokastiske variabelen X. Vi kaller k,q den kte q-kvantilen til X hvis P (X k,q ) = k/q. Alternativt: k,q = F X (k/q) hvor F X() er den kuulative fordelingsfunksjonen til X. Se gur. k/q.8.6 F(). F (k/q). k/q 3 Figur Plott av grafen til den kuulative fordelingsfunksjonen F () til kjikvadratfordelingen ed frihetsgrader. k/q og k/q er arkert for k = 9 og q =. Notatet er skrevet av Jacob Skauvold i saarbeid ed Arvid Næss og Ingelin Steinsland. Derso du nner feil eller har forslag til forbedringer, ta kontakt ed Ingelin Steinsland, ingelins@ath.ntnu.no.

Eksepel: Gitt den trekantede sannsynlighetstetthetsfunksjonen {, < / f X () = ( ), / < <, nn den 9. persentilen, dvs. nn u (, ) slik at P (X u) = 9/ =.9. Løsning: Finner først den kuulative fordelingsfunksjonen ved integrasjon. {, < / F X () =, / < < Se gur for et plott av f X () og F X (). Ser at vi å ha / < u <. Bruker F X () for f X () F X ().....3...6.7.8.9 Figur Plott av f X () og F X () for. Laget ed trekantford.. å nne u. P (X u) =.9 F (u) =.9 u u =.9 Denne likningen har løsningene u =.89 og u =.8. Siden u (, ) ser vi bort fra denne løsningen, og konkluderer ed at den 9. persentilen er 9, =.89. Siden denne sannsynlighetsfordelingen har en spesielt enkel for, er det lett å kontrollere svaret ved å betrakte arealet under grafen. la A være arealet under grafen til f X () og til høyre for den vertikale linja = u, se g. 3. Da er A = ( u)f X(u) = ( u) ( u) = ( u). Hvis an så krever at arealet til venstre for = u skal være A =.9 får an ( u) = u = ± so gir de sae verdiene u og u so før. Kvantiler fra observasjoner Hvis et antall observasjoner av en stokastisk variabel X sorteres i stigende rekkefølge og deles opp i q like store bolker, så er den kte q-kvantilen til observasjonene den verdien av X so skiller bolk nr. k fra bolk nr. k +, der < k < q. Hvis q for eksepel er lik, deles observasjonene inn i to like store bolker, og den første (og eneste) -kvantilen er edianen til utvalget. Hvis q = får an re bolker adskilt av de tre kvartilene Q, Q og Q 3. erk at Q, den andre kvartilen, også er edianen.

Figur 3 Kvantil so vertikal skillelinje. Eksepel: Gitt følgende utvalg trukket tilfeldig fra den unifore fordelingen over heltallene til, 9 8 7 nn alle tre kvartilene, og beregn kvartildieransen Q 3 Q so er et ål for spredningen i dataene. Løsning: I stigende rekkefølge er tallene 7 8 9 Siden vi har et odde antall observasjoner, å vi bruke gjenosnittet av de to idterste observasjonene for å nne edianen. La de ti tallene i sortert rekkefølge være,,...,. Da er Q = + 6 = 7 + 8 = = 7.. Q deler observasjonene inn i to bolker, hver bestående av fe observasjoner. Q og Q 3 vil være i idten av hver sin bolk, slik at Q = 3 = og Q 3 = 8 =. Kvartildieransen blir Q 3 Q = =. Kvantilplott Anta at den stokastiske variabelen X følger en fordeling f X () og at vi trekker et tilfeldig utvalg X, X,..., X n. Derso utvalget sorteres fra laveste til høyeste verdi, får en ordningsvariablene X (), X (),..., X (n). La µ () = E [ F X (X () ) ] hvor F X () er den kuulative fordelingsfunksjonen til populasjonen. Altså: µ () er den andelen av populasjonen so forventes å ligge under X (). Det er ulig å nne et uttrykk for µ () selv o f X () og F X () er ukjente. Fra denisjonen av forventningsverdi for kontinuerlige variable har en µ () = E [ F X (X () ) ] = F X ()f X() ()d. Tetthetsfunksjonen til ordningsvariabelen X () er ( ) n f X() = n F X () ( F ()) n f X () n! = ( )!(n )! F X() ( F ()) n f X (), 3

(se notat o ordningsvariabler) slik at en ved innsetting får n! µ () = F X () ( F ()) n f X ()d. ( )!(n )! Hvis en lar y = F X () så blir dy = df X() d d = f X ()d, og integralet kan skrives o til µ () = n! ( )!(n )! y ( y) n dy = n! B( +, n + ). ( )!(n )! Integrasjonsgrensene er endret siden F X () kun antar verdier på intervallet [, ] når gjennoløper R. B er betafunksjonen B(, y) = t ( t) y dt. Når og y er positive heltall, er B(, y) = ( )!(y )! (+y )!. Dered blir uttrykket for µ () n!!(n )! = ( )!(n )! (n + )! n +. ( ) Et plott av (), n+ for =,,..., n gir et bilde av kurven til F X (), og gir på den åten inforasjon o hva slags fordeling utvalget kan tenkes å koe fra. Eksepel: La n =. De sorte kryssene på g. har -koorinater () og y-koordinater.8 ( (),/) Φ().6.. Figur Kvantilplott av ot () for =,,...,. Laget ed cdfplott.. for =,,...,. Tallene,,..., n er trukket fra standard noralfordelingen. Den kuulative fordelingsfunksjonen, Φ() er plottet so en rød heltrukken linje for saenlikning. Kvantil-kvantilplott ønsker vi å undersøke hvorvidt utvalget følger en bestet fordeling f X () ed tilhørende kuulativ fordeling F X (), kan vi bruke et kvantil-kvantilplott, eller Q-Q plott. Vi gjør da det sae so over, en i stedet for n+ plotter vi nå FX ( n+ ) på y-aksen, dvs. inversfunksjonen til F X () evaluert i punktene n+, =,,..., n. Hvis utvalget koer fra en fordeling so er nær f X () vil plottet bli tilnæret lineært. Q-Q plott er derfor nyttig for å kontrollere antakelser o hvordan stokastiske variable er fordelt. Eksepel: Plottet i gur viser sae utvalg so tidligere, en y-koordinatene er nå Φ ( ) for =,,...,. Linja y = er plottet for saenlikning.

( (),Φ (/)) Figur Q-Q plott av Φ ( ) ot () for =,,...,. Laget ed cdfplott.. Noralfordeling ed andre paraetre La X N(µ, ) og Z N(, ) være to noralfordelte stokastiske variable. Da har X µ og Z sae fordeling, og de kuulative fordelingsfunksjonene F X () og F Z (z) = Φ(z) til X og Z er relatert på følgende åte. ( X µ F X () = P (X ) = P µ ) ( = P Z µ ) ( ) µ = Φ Anta at F X () = Φ( µ ) = p. Da er FX (p) =, ens Φ (p) = µ. Det følger at F X (p) = µ + Φ (p). Når vi bruker plotteposisjonene p = n+ og plotter Φ (p ) ot () får vi, siden n+ F X( () ), Φ (p ) = F X (p ) µ () µ so er lineært i (). Hvis X, X,..., X n følger en annen noralfordeling enn N(, ) vil altså plottet fortsatt se lineært ut, en linja punktene ligger langs vil da ha et annet stigningstall og et annet konstantledd. Φ (p) kan altså brukes for å undersøke o et utvalg koer fra en noralfordelt populasjon uansett hvilke paraetre den åtte ha. Saenlikne to sett ed observasjoner Anta at vi har to sett ed observasjoner,,,..., n og y, y,..., y, og at vi ønsker å sjekke o det er rielig å anta at de koer fra sae fordeling. Vi kan da bruke et epirisk Q-Q plott, hvor kvantilene til det ene utvalget plottes ot kvantilene til det andre. Resultatet blir et plott so det i g. 6. Plottet tolkes på sae åte so når an saenlikner ed teoretiske kvantiler; jo er rettlinjet plottet ser ut, jo større likhet ello fordelingene. Eksepler på Q-Q plott En svært vanlig anvendelse av Q-Q plott er å kontrollere antakelser o noralitet, dvs. sjekke o data er noralfordelte. En plotter da kvantilene til dataene ot de teoretiske

6 Y Quantiles 6 3 3 X Quantiles Figur 6 Epirisk Q-Q plott for to sett data fra t-fordelingen. kvantilene i standard noralfordelingen. Ekseplene nedenfor viser histogra og Q-Q plott av n = observasjoner fra ulike fordelinger. Et plott av tetthetsfunksjonen er tatt ed for saenlikning. Den generelle regelen er at kruning i Q-Q plottet tilsier avvik fra noralitet.. 3.3.3..... 3 3 3 3 3 3 3 Figur 7 Standard noralfordeling, X N(, )....8.6. 8 6. 6 6 8 6 3 3 Figur 8 Noralfordeling, X N(, 3 ) 6

. 6.8.6....8.6 3 3..... 3 3.. 3 3 Figur 9 Γ-fordeling, X Gaa(, ).9 3 3.8.7.6...3.. 3 3 3 3 Figur χ -fordeling, X χ.8 6.6...8.6 3 3..... 3 3..... 3 3.. 3 3 Figur Eksponentialfordeling, X ep(.6) 7

. 6.3.3... 3.. 8 6 6 8 3 3 3 3 Figur t-fordeling, X t 8