Q-Q plott. Insitutt for matematiske fag, NTNU 15. august Notat for TMA4240/TMA4245 Statistikk. Kvantiler fra sannsynlighetsfordeling

Q-Q plott Notat for TMA/TMA Statistikk Insitutt for ateatiske fag, NTNU. august En ønsker ofte å trekke slutninger o populasjonen til en stokastisk variabel basert på et forholdsvis lite antall observasjoner, so antas å være et tilfeldig utvalg. Spesielt er det interessant å vite hva slags sannsynlighetsfordeling variabelen følger. Det er da vanlig å plotte et histogra av observasjonene. Vi ser på observasjonene so realisasjoner fra sannsynlighetsfordelingen, og histograet gir dered et inntrykk av hvordan sannsynlighetstetthetsfunksjonen ser ut. En annen ulighet er å plotte observasjonene på en slik åte at an får et bilde av den kuulative fordelingsfunksjonen til utvalget. Dette kan oppnås ved å lage et kvantilplott. En annen vanlig problestilling er å kontrollere hvorvidt en variabel so antas å følge en gitt fordeling, faktisk gjør det. Man ønsker ed andre ord å sjekke hvor godt antakelsen steer. Man kan da bruke et Q-Q plott eller et P-P plott for å saenlikne observasjonene ed den antatte fordelingen. Kvantiler fra sannsynlighetsfordeling Betrakt den stokastiske variabelen X. Vi kaller k,q den kte q-kvantilen til X hvis P (X k,q ) = k/q. Alternativt: k,q = F X (k/q) hvor F X() er den kuulative fordelingsfunksjonen til X. Se gur. k/q.8.6 F(). F (k/q). k/q 3 Figur Plott av grafen til den kuulative fordelingsfunksjonen F () til kjikvadratfordelingen ed frihetsgrader. k/q og k/q er arkert for k = 9 og q =. Notatet er skrevet av Jacob Skauvold i saarbeid ed Arvid Næss og Ingelin Steinsland. Derso du nner feil eller har forslag til forbedringer, ta kontakt ed Ingelin Steinsland, ingelins@ath.ntnu.no.

Eksepel: Gitt den trekantede sannsynlighetstetthetsfunksjonen {, < / f X () = ( ), / < <, nn den 9. persentilen, dvs. nn u (, ) slik at P (X u) = 9/ =.9. Løsning: Finner først den kuulative fordelingsfunksjonen ved integrasjon. {, < / F X () =, / < < Se gur for et plott av f X () og F X (). Ser at vi å ha / < u <. Bruker F X () for f X () F X ().....3...6.7.8.9 Figur Plott av f X () og F X () for. Laget ed trekantford.. å nne u. P (X u) =.9 F (u) =.9 u u =.9 Denne likningen har løsningene u =.89 og u =.8. Siden u (, ) ser vi bort fra denne løsningen, og konkluderer ed at den 9. persentilen er 9, =.89. Siden denne sannsynlighetsfordelingen har en spesielt enkel for, er det lett å kontrollere svaret ved å betrakte arealet under grafen. la A være arealet under grafen til f X () og til høyre for den vertikale linja = u, se g. 3. Da er A = ( u)f X(u) = ( u) ( u) = ( u). Hvis an så krever at arealet til venstre for = u skal være A =.9 får an ( u) = u = ± so gir de sae verdiene u og u so før. Kvantiler fra observasjoner Hvis et antall observasjoner av en stokastisk variabel X sorteres i stigende rekkefølge og deles opp i q like store bolker, så er den kte q-kvantilen til observasjonene den verdien av X so skiller bolk nr. k fra bolk nr. k +, der < k < q. Hvis q for eksepel er lik, deles observasjonene inn i to like store bolker, og den første (og eneste) -kvantilen er edianen til utvalget. Hvis q = får an re bolker adskilt av de tre kvartilene Q, Q og Q 3. erk at Q, den andre kvartilen, også er edianen.

Figur 3 Kvantil so vertikal skillelinje. Eksepel: Gitt følgende utvalg trukket tilfeldig fra den unifore fordelingen over heltallene til, 9 8 7 nn alle tre kvartilene, og beregn kvartildieransen Q 3 Q so er et ål for spredningen i dataene. Løsning: I stigende rekkefølge er tallene 7 8 9 Siden vi har et odde antall observasjoner, å vi bruke gjenosnittet av de to idterste observasjonene for å nne edianen. La de ti tallene i sortert rekkefølge være,,...,. Da er Q = + 6 = 7 + 8 = = 7.. Q deler observasjonene inn i to bolker, hver bestående av fe observasjoner. Q og Q 3 vil være i idten av hver sin bolk, slik at Q = 3 = og Q 3 = 8 =. Kvartildieransen blir Q 3 Q = =. Kvantilplott Anta at den stokastiske variabelen X følger en fordeling f X () og at vi trekker et tilfeldig utvalg X, X,..., X n. Derso utvalget sorteres fra laveste til høyeste verdi, får en ordningsvariablene X (), X (),..., X (n). La µ () = E [ F X (X () ) ] hvor F X () er den kuulative fordelingsfunksjonen til populasjonen. Altså: µ () er den andelen av populasjonen so forventes å ligge under X (). Det er ulig å nne et uttrykk for µ () selv o f X () og F X () er ukjente. Fra denisjonen av forventningsverdi for kontinuerlige variable har en µ () = E [ F X (X () ) ] = F X ()f X() ()d. Tetthetsfunksjonen til ordningsvariabelen X () er ( ) n f X() = n F X () ( F ()) n f X () n! = ( )!(n )! F X() ( F ()) n f X (), 3

(se notat o ordningsvariabler) slik at en ved innsetting får n! µ () = F X () ( F ()) n f X ()d. ( )!(n )! Hvis en lar y = F X () så blir dy = df X() d d = f X ()d, og integralet kan skrives o til µ () = n! ( )!(n )! y ( y) n dy = n! B( +, n + ). ( )!(n )! Integrasjonsgrensene er endret siden F X () kun antar verdier på intervallet [, ] når gjennoløper R. B er betafunksjonen B(, y) = t ( t) y dt. Når og y er positive heltall, er B(, y) = ( )!(y )! (+y )!. Dered blir uttrykket for µ () n!!(n )! = ( )!(n )! (n + )! n +. ( ) Et plott av (), n+ for =,,..., n gir et bilde av kurven til F X (), og gir på den åten inforasjon o hva slags fordeling utvalget kan tenkes å koe fra. Eksepel: La n =. De sorte kryssene på g. har -koorinater () og y-koordinater.8 ( (),/) Φ().6.. Figur Kvantilplott av ot () for =,,...,. Laget ed cdfplott.. for =,,...,. Tallene,,..., n er trukket fra standard noralfordelingen. Den kuulative fordelingsfunksjonen, Φ() er plottet so en rød heltrukken linje for saenlikning. Kvantil-kvantilplott ønsker vi å undersøke hvorvidt utvalget følger en bestet fordeling f X () ed tilhørende kuulativ fordeling F X (), kan vi bruke et kvantil-kvantilplott, eller Q-Q plott. Vi gjør da det sae so over, en i stedet for n+ plotter vi nå FX ( n+ ) på y-aksen, dvs. inversfunksjonen til F X () evaluert i punktene n+, =,,..., n. Hvis utvalget koer fra en fordeling so er nær f X () vil plottet bli tilnæret lineært. Q-Q plott er derfor nyttig for å kontrollere antakelser o hvordan stokastiske variable er fordelt. Eksepel: Plottet i gur viser sae utvalg so tidligere, en y-koordinatene er nå Φ ( ) for =,,...,. Linja y = er plottet for saenlikning.

( (),Φ (/)) Figur Q-Q plott av Φ ( ) ot () for =,,...,. Laget ed cdfplott.. Noralfordeling ed andre paraetre La X N(µ, ) og Z N(, ) være to noralfordelte stokastiske variable. Da har X µ og Z sae fordeling, og de kuulative fordelingsfunksjonene F X () og F Z (z) = Φ(z) til X og Z er relatert på følgende åte. ( X µ F X () = P (X ) = P µ ) ( = P Z µ ) ( ) µ = Φ Anta at F X () = Φ( µ ) = p. Da er FX (p) =, ens Φ (p) = µ. Det følger at F X (p) = µ + Φ (p). Når vi bruker plotteposisjonene p = n+ og plotter Φ (p ) ot () får vi, siden n+ F X( () ), Φ (p ) = F X (p ) µ () µ so er lineært i (). Hvis X, X,..., X n følger en annen noralfordeling enn N(, ) vil altså plottet fortsatt se lineært ut, en linja punktene ligger langs vil da ha et annet stigningstall og et annet konstantledd. Φ (p) kan altså brukes for å undersøke o et utvalg koer fra en noralfordelt populasjon uansett hvilke paraetre den åtte ha. Saenlikne to sett ed observasjoner Anta at vi har to sett ed observasjoner,,,..., n og y, y,..., y, og at vi ønsker å sjekke o det er rielig å anta at de koer fra sae fordeling. Vi kan da bruke et epirisk Q-Q plott, hvor kvantilene til det ene utvalget plottes ot kvantilene til det andre. Resultatet blir et plott so det i g. 6. Plottet tolkes på sae åte so når an saenlikner ed teoretiske kvantiler; jo er rettlinjet plottet ser ut, jo større likhet ello fordelingene. Eksepler på Q-Q plott En svært vanlig anvendelse av Q-Q plott er å kontrollere antakelser o noralitet, dvs. sjekke o data er noralfordelte. En plotter da kvantilene til dataene ot de teoretiske

6 Y Quantiles 6 3 3 X Quantiles Figur 6 Epirisk Q-Q plott for to sett data fra t-fordelingen. kvantilene i standard noralfordelingen. Ekseplene nedenfor viser histogra og Q-Q plott av n = observasjoner fra ulike fordelinger. Et plott av tetthetsfunksjonen er tatt ed for saenlikning. Den generelle regelen er at kruning i Q-Q plottet tilsier avvik fra noralitet.. 3.3.3..... 3 3 3 3 3 3 3 Figur 7 Standard noralfordeling, X N(, )....8.6. 8 6. 6 6 8 6 3 3 Figur 8 Noralfordeling, X N(, 3 ) 6

. 6.8.6....8.6 3 3..... 3 3.. 3 3 Figur 9 Γ-fordeling, X Gaa(, ).9 3 3.8.7.6...3.. 3 3 3 3 Figur χ -fordeling, X χ.8 6.6...8.6 3 3..... 3 3..... 3 3.. 3 3 Figur Eksponentialfordeling, X ep(.6) 7

. 6.3.3... 3.. 8 6 6 8 3 3 3 3 Figur t-fordeling, X t 8