Statistikk og forsøksplanlegging Kurs for ansatte ved Raufoss Technology AS. Hans Petter Hornæs E-post: hans.hornaes@hig.no



Like dokumenter
Hypotesetesting av λ og p. p verdi.

MAT4010 PROSJEKTOPPGAVE: Statistikk i S2. Olai Sveine Johannessen, Vegar Klem Hafnor & Torstein Mellem

EKSAMEN. TILLATTE HJELPEMIDLER: Kalkulator. Hornæs: Formelsamling statistikk HiG. John Haugan: Formler og tabeller.

Forelening 1, kapittel 4 Stokastiske variable

Hypotesetesting. Hvorfor og hvordan? Gardermoen 21. april 2016 Ørnulf Borgan. H. Aschehoug & Co Sehesteds gate 3, 0102 Oslo Tlf:

Konfidensintervall for µ med ukjent σ (t intervall)

EKSAMEN KANDIDATNUMMER: EKSAMENSDATO: 26. mai SENSURFRIST: 16. juni KLASSE: HIS TID: kl

Formelsamling i medisinsk statistikk

Kap. 10: Inferens om to populasjoner. Eksempel. ST0202 Statistikk for samfunnsvitere

Beskrivende statistikk.

ST0202 Statistikk for samfunnsvitere

Statistikk og dataanalyse

ÅMA110 Sannsynlighetsregning med statistikk, våren Kp. 3 Diskrete tilfeldige variable. Diskrete tilfeldige variable, varians (kp. 3.

Fasit for tilleggsoppgaver

Tilfeldige variabler. MAT0100V Sannsynlighetsregning og kombinatorikk

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere Kapittel 9: Inferens om én populasjon

Løsningsforslag ECON 2130 Obligatorisk semesteroppgave 2017 vår

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

Utvalgsfordelinger. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer.

Sannsynlighet og statistikk S2 Løsninger

QED Matematikk for grunnskolelærerutdanningen. Bind 2. Fasit kapittel 4 Statistikk og kvantitativ metode

QED 1 7. Matematikk for grunnskolelærerutdanningen. Bind 2. Fasit kapittel 4 Statistikk og kvantitativ metode

EKSAMEN. TILLATTE HJELPEMIDLER: Kalkulator. Hornæs: Formelsamling statistikk HiG. John Haugan: Formler og tabeller.

TMA4245 Statistikk Eksamen desember 2016

1 Section 4-1: Introduksjon til sannsynlighet. 2 Section 4-2: Enkel sannsynlighetsregning. 3 Section 5-1: Introduksjon til sannsynlighetsfordelinger

6.2 Signifikanstester

EKSAMEN. TILLATTE HJELPEMIDLER: Kalkulator. Hornæs: Formelsamling statistikk HiG. John Haugan: Formler og tabeller.

ST0202 Statistikk for samfunnsvitere

ÅMA110 Sannsynlighetsregning med statistikk, våren ÅMA110 Sannsynlighetsregning med statistikk, våren 2010

ECON2130 Kommentarer til oblig

EKSAMEN. TILLATTE HJELPEMIDLER: Kalkulator. Hornæs: Formelsamling statistikk HiG. John Haugan: Formler og tabeller.

Et lite notat om og rundt normalfordelingen.

Løsning eksamen desember 2017

Eksamensoppgave i Løsningsskisse TMA4240 Statistikk

TMA4240 Statistikk Høst 2016

i x i

ST0202 Statistikk for samfunnsvitere

Illustrasjon av regel 5.19 om sentralgrenseteoremet og litt om heltallskorreksjon (som i eksempel 5.20).

Et lite notat om og rundt normalfordelingen. Anta at vi har kontinuerlige data. Hva er likt og ulikt for histogrammer og fordelingskurver?

statistikk, våren 2011

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 3

EKSAMEN. TILLATTE HJELPEMIDLER: Kalkulator. Hornæs: Formelsamling statistikk HiG. John Haugan: Formler og tabeller.

Forelesning 5: Kontinuerlige fordelinger, normalfordelingen. Jo Thori Lind

Løsningsforslag til obligatorisk oppgave i ECON 2130

Høgskolen i Telemark. Institutt for økonomi og informatikk FORMELSAMLING Statistikk I. Til bruk ved eksamen. Per Chr. Hagen

Emnekode: LGU Emnenavn: Matematikk 2 (5 10), emne 2. Semester: VÅR År: 2016 Eksamenstype: Skriftlig

Test, 3 Sannsynlighet og statistikk

ST0202 Statistikk for samfunnsvitere

Sannsynlighet og statistikk S2 Oppgaver

Ferdig før tiden 4 7 Ferdig til avtalt tid 12 7 Forsinket 1 måned 2 6 Forsinket 2 måneder 4 4 Forsinket 3 måneder 6 2 Forsinket 4 måneder 0 2

Kapittel 3: Studieopplegg

TMA4240 Statistikk Høst 2015

FORMELSAMLING STATISTIKK, HiG

= 5, forventet inntekt er 26

EKSAMEN. EMNEANSVARLIG: Terje Bokalrud og Hans Petter Hornæs. TILLATTE HJELPEMIDLER: Kalkulator og alle trykte og skrevne hjelpemidler.

Kontinuerlige stokastiske variable.

HØGSKOLEN I STAVANGER

Supplement til power-point presentasjonen i medisinsk statistikk, forelesning 7 januar Skrevet av Stian Lydersen 16 januar 2013

TMA4240 Statistikk H2010 (20)

TALLSVAR. Det anbefales at de 9 deloppgavene merket med A, B, teller likt uansett variasjon i vanskelighetsgrad. Svarene er gitt i <<< >>>.

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

Fra første forelesning:

EKSAMEN KANDIDATNUMMER: EKSAMENSDATO: 10. juni Ingeniørutdanning. TID: kl EMNEANSVARLIG: Hans Petter Hornæs

Medisinsk statistikk Del I høsten 2009:

Statistikk 1 kapittel 5

Løsningsforslag Eksamen S2, våren 2017 Laget av Tommy O. Sist oppdatert: 25. mai 2017

Kapittel 4.4: Forventning og varians til stokastiske variable

Forelesning 23 og 24 Wilcoxon test, Bivariate Normal fordeling

Regneregler for forventning og varians

Et lite notat om og rundt normalfordelingen.

Sannsynlighetsbegrepet

TMA4240 Statistikk H2010

Utfordring. TMA4240 Statistikk H2010. Mette Langaas. Foreleses uke 40, 2010

Observatorer. STK Observatorer - Kap 6. Utgangspunkt. Eksempel høyde Oxford studenter

STK1000 Uke 36, Studentene forventes å lese Ch 1.4 ( ) i læreboka (MMC). Tetthetskurver. Eksempel: Drivstofforbruk hos 32 biler

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Statistikk 1 kapittel 5

Snøtetthet. Institutt for matematiske fag, NTNU 15. august Notat for TMA4240/TMA4245 Statistikk

Betinget sannsynlighet

Tyngdepunkt. Togforsinkelsen (Eksamen Des2003.1a) I denne oppgaven kan du bruke uten å vise det at. Kapittel 4

ST0202 Statistikk for samfunnsvitere

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 4

Kap. 5.2: Utvalgsfordelinger for antall og andeler

1 10-2: Korrelasjon : Regresjon

Tilfeldige variable (5.2)

Utvalgsfordelinger. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer.

Normalfordeling. Høgskolen i Gjøvik Avdeling for teknologi, økonomi og ledelse. Statistikk Ukeoppgaver uke 7

Mer om hypotesetesting

Sannsynlighet og statistikk

Kort overblikk over kurset sålangt

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Forelesning 5, kapittel 3. : 3.5: Uavhengige hendelser.

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Eksamensoppgave i TMA4240 Statistikk

1.1.1 Rekke med konstante ledd. En rekke med konstante ledd er gitt som. a n (1) n=m

ÅMA110 Sannsynlighetsregning med statistikk, våren 2008

Løsningsforslag Til Statlab 5

Kapittel 2: Hendelser

Transkript:

Statistikk og forsøksplanlegging Kurs for ansatte ved Raufoss Technology AS Hans Petter Hornæs E-post: hans.hornaes@hig.no Rondablikk Høyfjellshotell 10. oktober 1998

Innhold 1 Innledning 4 1.1 Mål......................................... 4 1.2 Hovedeksempel 1, feilandeler........................... 4 1.3 Hovedeksempel 2, presisjon............................ 5 1.3.1 Pilkasteksperiment............................ 6 1.4 Hovedeksempel 3, forsøk med mange faktorer.................. 7 2 Sannsynlighet 8 2.1 Terninger og binomisk fordeling......................... 8 2.1.1 Sannsynlighet og tilfeldig variasjon................... 8 2.1.2 Binomisk fordeling............................ 8 2.1.3 Delvis spesifisert modell og observasjoner................ 10 2.2 Fordelinger.................................... 11 2.2.1 Fordelinger og parametre......................... 11 2.2.2 Forventning og varians.......................... 11 2.2.3 Teoretisk varians og standardavvik................... 12 2.2.4 Regneregler for forventningsverdi og varians.............. 13 3 Normalfordeling 15 3.1 Fordeler med normalfordeling.......................... 15 3.2 Fra diskret til kontinuerlig fordeling....................... 15 3.3 Normalfordeling og parametre.......................... 16 3.4 Sentralgrenseteoremet.............................. 17 3.4.1 Tilpasning til normalfordeling...................... 18 4 Hypotesetesting 19 4.1 Hypotesetesting generelt............................. 19 4.1.1 Har vi en jukseterning?.......................... 19 4.1.2 Testobservator, nullhypotese og alternativ hypotese.......... 20 4.1.3 Signifikansnivå og teststyrke....................... 20 4.2 Hypotesetesting av p 1 = p 2............................ 21 4.3 Hypotesetesting av σx 2 = σ2 y........................... 22 4.3.1 Fishers F fordeling............................ 22 2

INNHOLD 3 5 Faktoranalyse og forsøksplanlegging 24 5.1 Faktorer og nivåer................................ 24 5.1.1 Design................................... 24 5.1.2 Fullfaktorforsøk.............................. 25 5.2 Modell....................................... 26 5.2.1 Hovedidé.................................. 26 5.2.2 Samvirkninger............................... 26 5.2.3 En modell for 2 2-design........................ 27 5.2.4 Modellbeskrivelse, sporlyseksempel................... 28 5.2.5 Talleksempel............................... 29 5.3 Analyse av et eksempel.............................. 29 5.3.1 Analyse av gjennomsnittsverdier..................... 30 5.4 Variansanalyse ANOVA............................. 31 5.5 Balanserte matriser................................ 34 5.6 Taguchi metoder................................. 35 A Tabeller 37 A.1 Normalfordeling.................................. 37 A.1.1 Kumulativ normalfordeling Φ(z)..................... 37 A.1.2 Fraktiler, normalfordeling........................ 38 A.1.3 Kort forklaring til normalfordelingstabellen............... 38 A.2 Fishers F-fordeling................................ 39 A.2.1 Fraktiltabell, Fishers F-fordeling på 2.5% nivået............ 39 A.2.2 Fraktiltabell, Fishers F-fordeling på 5% nivået............. 40 B Referanser 41

Kapittel 1 Innledning 1.1 Mål Første del av dette seminaret dreier seg om tilfeldig variasjon, og matematikken til å skaffe oss kontrol over dette: Sannsynlighetsregning. Spesielt skal vi se på forventning, standardavvik og varians, sannsynlighet, binomisk fordeling og normalfordeling. Videre skal vi se hva vi mener med hypotesetesting. Spesielt skal dette gjennomføres i problemstillingene i hovedeksemplene i denne innledningen. Mesteparten av ettermiddagen skal brukes på det siste eksemplet med flere faktorer. Temaene er både hvordan vi organiserer forsøket og hvordan vi analyserer det. Påetsåpass kort seminar blir gjennomgangen ganske fragmentarisk. Det er selvfølgelig ikke mulig med et fullstendig grunnkurs i sannsynlighetsregning på denne tiden. Jeg forventer også sterkt varierende forkunnskaper, så noe vil bli banalt for enkelte, mens andre deler vil mange ikke forstå. Jeg håper å kunne legge det opp slik at det er mulig åfåmedsegnoe selv etter å ha falt av lasset en stund. 1.2 Hovedeksempel 1, feilandeler En type undersøkelse som ofte gjøres er å undersøke n objekter, og klassifisere hvert som OK eller IKKE OK. Vi registrerer så antall IKKE OK (et tall som bør være lavt hvis kvaliteten er god). For eksempel kan vi skye granater gjennom en plate, og registrere om de eksploderer som de skal like etter treff. Vi skal her betrakte en situasjonen der vi typisk ender opp med noen feil (enten fordi feilprosenten er høy, eller fordi vi undersøker svært mange). I granateksemplet kan dette kanskje oppstå tidlig i designfasen 1. Et spørsmål til dere(som vi skal forsøke å besvare etterhvert): Anta vi skyter 15 testgranater av en type, og registrere 2 feil. Deretter skyter vi 15 testgranater av en annen type og registrerer 6 feil. Er dette nok til å slutte at det er forskjellig kvalitet, eller er forskjellen innefor normal, tilfeldig variasjon. En måte åtenkepå hva vi mener med normal tilfeldig variasjon her: Anta noen tok 30 granater fra 1 For produkter i regulær masseproduksjon (f.eks patroner) vil feilprosenten være svært liten, og en testserie vil vanligvis gi ingen feil. Dette krever helt andre angrepsvinkler som vi ikke skal gå inn på her. 4

1.3. HOVEDEKSEMPEL 2, PRESISJON 5 samme produksjon, og delte tilfeldig i to kasser med 15 granater. Er det over et normal resultat hvis vi på denne måten har to like kasser. Terningmodell: En situasjon som likner på dette er om vi kaster en terning gjentatte ganger, og registrerer antall 6 ere (som tilsvarer IKKE OK ). Forskjellen er i utgangspunktet at for terningen er feilandelen kjent som 1/6. Vi skal også se litt nærmere på terningen i fortsettelsen. 1.3 Hovedeksempel 2, presisjon Et viktig kvalitetskriterium for mange typer ammunisjon er selvfølgelig treffsikkerhet. For å underøke dette tar man med en stikkprøve med prosjektiler og prøveskyter disse på forsøksfeltet. Her er kanonene fininnstilt og grundig testet, så avvik fra blinken skyldes i hovedsak ammunisjonen. Vi skal her ikke ta opp eventuelle problemer rundt mulige feilinnstillinger av disse eller påvirkning fra ytre faktorer som for eksempel vind. Den situasjonen vi skal se på konkret her er at vi skyter skuddserie fra to produksjonsvarianter 2 Vi ønsker å avgjøre hvorvidt det er forskjell på disse. Det som gjør at vi må bruke noe kompliserete statistiske metoder her er at det vil være tilfeldig variasjon inne i bildet, og vi må prøve å skille effekten av tilfeldig variasjon fra effekten av virkelige forskjeller. I figur 1.1 viser jeg et (datakonstruert) av tre mulige slike skudserier: Figur 1.1: Resultat av tre skuddserier, 12 skudd pr. serie. 2 En litt annen situasjon har vi om vi har en veletablert type, med veldokumentert spredning. Problemstillingen blir da å avgjøre om den nye testtypen er forskjelig. Da har vi et problem med en tilfeldig variabel, som er litt enklere.

6 KAPITTEL 1. INNLEDNING Hvis vi sammenlikner den øverst med den til venstre, ser vi at spredningen er ganske lik, mens den ene i gjennomsnitt treffer dårligere. Mål for spredning vil være standardavvik og varians, mensmål for gjennomsnitt vil væreforventingsverdi. At den ene bommer på målet i gjennomsnitt skyldes antagelig ikke ammunisjonen, men innstillingen av kanonene, så kvaliteten på ammunisjonen er antagelig ganske lik i de to første skuddseriene. I skuddserien til høyre, derimot, er spredningen mye større. Vi ser fra figuren at denne ammunisjonen har klart dårligere presisjon. Et naturlig mål for ammunisjonskvaliteten er spredningen (uttrykt ved standardavvik eller varians). I praksis vil eventuelle forskjeller ofte ikke være så tydelig, og vi må bruke statistiske metoder for å avgjøre om det er noen reell forskjell. For hvert skudd registrerer vi to tall- horisontalt og vertikalt avvik fra blinken. Hvis vi med rimelighet kan betrakte spredningen i horisontal og vertikal retning som like, kan vi slå sammen dette til to resultater. Vi skal se litt på effekten av dette. 1.3.1 Pilkasteksperiment Vi skal her gjøre et forsøk der to personer (som tilsvarer to ammunisjonstyper) kaster 3 piler hver. Vi skal måle resultatene, og seiner regne litt på dem. Her registrere vi resultatene (og skal fylle ut de 5 siste kolonnene etterhvert.): Første kaster Resultater Snitt Spredning Pil 1 Pil 2 Pil 3 x s n 1 s n Samlet x s n 1 s n Horisontalt x h Vertikalt x v Andre kaster Resultater Snitt Spredning Pil 1 Pil 2 Pil 3 ȳ s n 1 s n Samlet ȳ s n 1 s n Horisontalt y h Vertikalt y v Resultatene kommer vi tilbake til, men nevner her regneformlene: x =(x 1 + x 2 + x 3 )/3 derx i er tallet for i-te pil (i vedkomne rekke) Spredninger, hver for seg : s n 1 =(x 2 1 + x2 2 + x2 3 3 x2 ) /2 og s n =(x 2 1 + x2 2 + x2 3 ) /3 Spredning, samlet pr. person: (x 1,...,x 6 er alle de 6 observasjonene for den enkelte kaster), og x er snittet for alle disse 6 observasjonene: s n 1 =(x 2 1 + + x2 6 6 x2 ) /5 og s n =(x 2 1 + + x2 6 ) /6

1.4. HOVEDEKSEMPEL 3, FORSØK MED MANGE FAKTORER 7 1.4 Hovedeksempel 3, forsøk med mange faktorer I industriell produksjon har vi ofte situasjoner hvor enheter produseres, og der det er mange faktorer som kan påvirke kvaliteten. Virkningen av disse faktorene kjenner vi kanskje ikke, og heller ikke vorvidt det å endre på dem kan være egnet til å regulere mot ønsket kvalitet. Vi skal se på et eksempel med sporlys. En viktig ting med sporlys er at de skal lyse en viss tid, la oss si 4 sekunder. Et kvalitetsmål for disse er altså at brenntiden er så nær 4 sekunder som mulig, og vi skal gjøre forsøk der vi registrerer brenntider. Det kan være mange ting som påvirker denne, for eksempel: Blandingsforholdet mellom de kjemiske stoffene, trykket de er stappet inn i hylsen med eller formen på verktøyet som stapper kruttet. Det finnes kanskje mange fler også 3. Dette kan gi et utall av mulige kombinasjoner, og ikke minst vil samvirkningene mellom faktorene kunne ha betydning, og forstyrre undersøkelsene av faktorene. Testmetoden vil basere seg på at vi produserer sporlys med forskjellige kombinasjoner av faktoren, og tester disse. Det er imidlertid viktig for analysen at vi planlegger nøye hvilke kombinasjoner som skal testes. Hvisikkeerfarenstorforatvienderoppmedenseriedatavikanfå langt mindre ut av enn det som er mulig. Mange av de spørsmålene vi ønsker å spørre oss kan vi kanskje ikke besvare ut fra dataene i det hele tatt. Vi skal derfor snakke litt om hvordan dette gjøres (forsøksplanlegging) og hvordan vi analyserer resultatene (middelverdianalyse og variansanalyse.) Dette henger selvfølgelig sammen, forsøket må planlegges i forhold til den analysen vi skal gjøre. I en første undersøkelse er vi vanligvis mest interessert i å finne ut hvilke faktorer som kan brukes til å styre resultatet (variansanalyse). Dette er den typen undersøkelse vi skal snakke mest om i dag. I neste omgang kan det tenkes at man ønsker åplukkeutnoenfå av de viktigste faktorene, og skaffe seg bedre forståelse for nøyaktig hvordan disse påvirker resultatet (multippel regresjon). 3 Ikke minst er det mulig at ytre omstendigheter, eller noise factors, som for eksempel utetemperatur eller alder kan spille inn. I dag skal vi imidlertid begrense oss til åsepå de faktorene vi kan styre under produksjonen.

Kapittel 2 Sannsynlighet 2.1 Terninger og binomisk fordeling 2.1.1 Sannsynlighet og tilfeldig variasjon Terningkast brukes ofte som eksempel på tilfeldig variasjon og sannsynølighetsregning. En grunn er at terningen har er oppførsel alle kan forstå. En annen er at problemer i forbindelse med terningsspill 1 var den historiske opprinnelsen til sannsynlighetsregningen (Fermat og Pascal i 1654). Sannsynligheten for åfå 6-er ved kast med vanlig terning er 1/6 0.1667, ofte angitt i prosent (16.67%). Dette tolkes som at andelen 6-eere ved mange terningkast er omtrent 1/6. Dette vil kanskje ikke stemme for en dårlig terning, men her skal vi se på enperfekt terning- en terningmodell. For et enkelt terningkast er det umulig å forutsi hva utfallet blir. Også for et begrenset antall kast kan andelen av seksere avvike sterkt fra 1/6, større enn folk ofte tenker seg. 2.1.2 Binomisk fordeling Terningkastmodell For å kunne ressonere rundt hva som skjer med mange terningkast undersøker vi sannsynligheten for åfå et visst antall seksere i et gitt antall terningkast: n p(x) = p x (1 p) n x (2.1) x n Antall kast p(x) Sannsynligheten for åfå nøyaktig x seksere i de n kastene x Antall seksere ( p =1/6 Sannsynligheten for 6 er i hvert enkelt kast. n x) = n! der k! =1 2 3 k for k>0 heltall, mens 0! = 1 x!(n x)! Forutsetningen for at dette skal gjelde er at sannsynligheten p = 1/6 for 6 er er uendret gjennom kastserien. Dette kalles uavhengighet (mer presist stokastisk uavhengighet. Visier 1 For eksempel: Hvorfor vinner vi ikke oftere enn vi taper når spillet er å kaste 2 terninger, og vi vinner hvis vi klarer åfå dobbel sekser i løpet av 24 kast 8

2.1. TERNINGER OG BINOMISK FORDELING 9 noen ganger at terningen ikke har noen hukommelse (et faktum enkelte overtroiske spillere nekter å godta). Det ligger altså også inne en antagelse om at p =1/6 oguavhengighet her, og ut fra dette er det matematiske definisjoner og resonnementer som gir denne formelen. Den kalles en modell for denne situasjonen. Det er en matematisk modell (siden den er beskrevet i matematikkens språk), og siden den inneholder tilfeldig variasjon, beskrevet ved sannsynlighet, kalles det en stokastisk modell. Modellen er riktig ut fra sine egne indre forutsetninger. Hvis resultatene fra praktisk forsøk likevel synes å være i dårlig overenstemmelse med denne, skyldes det at modellen ikke er noen god beskrivelse av virkeligheten. Dette skyldes formodentlig at vi bør velge en annen verdi på p. Det kan også skyldes at antagelsen om uavhengighet likevel ikke er oppfyllt, men det skal vi ikke problematisere her. Et regneeksempel Hvis vi kaster en terning 6 ganger, får vi følgende sannsynligheter: ( ) 0 ( ) 6 p(0) = 6! 1 5 0!6! 6 6 = 720 5 6 = 0.3349 1 720 6 6 ( ) 1 ( ) 5 p(1) = 6! 1 5 1!5! 6 6 = 720 5 5 = 0.4019 1 120 6 ( ) 6 2 ( ) 4 p(2) = 6! 1 5 2!4! 6 6 = 720 5 4 = 0.2009 2 24 6 ( ) 6 3 ( ) 3 p(3) = 6! 1 5 3!3! 6 6 = 720 5 3 = 0.0536 6 6 6 ( ) 6 4 ( ) 2 p(4) = 6! 1 5 4!2! 6 6 = 720 5 2 = 0.0080 24 2 6 ( ) 6 5 ( ) 1 p(5) = 6! 1 5 5!1! 6 6 = 720 5 = 0.0006 120 1 6 6 ( ) 6 ( ) 0 p(6) = 6! 1 5 5!0! 6 6 = 720 1 = 0.00002 720 1 6 6 Tilsvarende regning vil for 15 terningkast gi resultater som kan oppsummeres i stolpediagrammet i figur 2.1: Figur 2.1: Sannsynlighetsfordeling, antall seksere i 15 terningkast Størrelsene n og p kalles fordelingens parametre.

10 KAPITTEL 2. SANNSYNLIGHET 2.1.3 Delvis spesifisert modell og observasjoner I en situasjon der vi skyter n granater, og observerer x, hvor mange som ikke virker tilfredsstillende, har vi en liknende situasjon. Vi tolker da p som et mål for hvor gode granatene er (hvor stor andel av alle som produseres som er defekte). Det er antagelig ikke problematisk å anta at hvorvidt en granat virker eller ikke er uavhengig. Antall granater n vi skal skyte ut har vi også kontroll over, mens derimot parametren p er ukjent. Formel 2.1 gir fremdeles sannsynlighetsfordelingen, når vi lar p stå som en ukjent. Det vi ønsker er informasjon om p, og vil forsøke å bruke observasjoner til å finne dette. På grunn av tilfeldig variasjon er det imidlertid ikke mulig å finne p eksakt. Figur 2.2 viser fordeling for p =0.1 ogp =0.3 (med n = 15. For eksempel er en observasjon av x = 3 innenfor normal variasjon av begge disse p verdiene. Figur 2.2: Sannsynlighetsfordeling, antall feil 15 granater (p =0.1 ogp =0.3) Et utfall av et forsøk kaller vi altså enobservasjon.. Før forsøket er gjort 2 betegner vi gjerne verdien av observasjonenmed store bokstaver, f.eks X. Vi kan da snakke om sannsynligheten for å observere minst 4 feil som sannsynligheten for at X 4, forkortet Pr(X 4) (Pr står for Probability). Hvis vi skal snakke om faktisk verdi av en observasjon generelt bruker vi små bokstaver, og kan f.eks skrive Pr(X = x) (som er det samme som p(x) i formel 2.1) for sannsynligheten for å observere nøyaktig x feil. Vi kaller X for en stokastisk variabel. I mange situasjoner har vi gjentatte obsertvasjoner i serier (av lengde n). Før observasjon betegnes disse som {X 1,X 2,...,X n }, og etter observasjon som {x 1,x 2,...,x n } (i det siste tilfellet har vi tall å sette inn). For den binomiske situasjonene må vitenkeossatvigjentarstikkprøven 3 (f.eks. i en ukentlig stikkprøve fra produksjonen), og kan få for eksempel {x 1,x 2,x 3,x 4 } = {4, 0, 2, 2} som en 2 Eller snarere før vi tar hensyn til resultatet i våre beregninger 3 Binomisk fordeling er jo egenttlig selv hentet fra en observasjonsserie som kan se ut som f.eks {0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0}, der 1 tallene står for observasajon av feil. Summerer vi disse får vi en observasjon, her x = 3, av den binomiske variablen.

2.2. FORDELINGER 11 observasjonsserie. (I akkurat denne situasjonen er dette kanskje litt kunstig, men vi skal tenke oss dette når vi forklarer noen begreper her. 2.2 Fordelinger 2.2.1 Fordelinger og parametre En modell der vi kan ha et endelig eller tellbart antall, med en fordeling av sannsynlighetene på disse gitt som en funksjon p(x) kalles en diskret sannsynlighetsfordeling. Disse er gjerne angitt som familier der de enkelte fordelingene skiller seg fra hverandre via noen parametre. Familien av binomiske fordelinger er en slik familie, med parametrene n og p. En annen relevant fordeling er Poissonfordeling, som bare har en parameter λ. Poissonfordeling brukes blant annet som tilnærming til binomisk fordeling hvis n er stor, og kanskje til og med ukjent, mens p er liten. På vel etablerte standarprodukter (f.eks patroner) er det sjelden feil, og i en testskyting vil vi antagelig ikke observere noen feil. Antall feil pr. million eller kanskje heller pr. år er mer beskrivende, og λ er forventet antall feil i en slik periode. Jeg skal ikke ta opp denne fordelingen i dag. 2.2.2 Forventning og varians Empirisk forventning (gjennomsnitt) Hvis vi har n observasjoner x 1,x 2,...,x n kan vi regne ut gjennomsnittet av disse som n x =(x 1 + x 2 + + x n )/n eller ved bruk av summenotasjonen x = x i (2.2) i=1 Gjennomsnittsverdien kan oppfattes som et mål som forenklet forteller hvor på tallaksen observasjonene ligger ( tyngdepunktet for tallene, om vi bruker en analogi fra mekanikken). Vi skal også kalle dette empirisk forventningsverdi Hvis vi for eksempel har en slik tallserie: {3, 1, 0, 2, 2, 1, 4, 1} fårvigjennomsnittet(3+1+0+2+2+1+4+1)/8 =1.75. Forventningsverdi (teoretisk gjennomsnitt) Det siste gjennomsnittet kan også skrives 0+1+1+1+2+2+3+4 8 = 1 0+3 1+2 2+1 3+1 4 8 = 1 8 0+3 8 1+2 8 2+1 8 3+1 8 4 Brøkene i siste uttrykk er andelene av hvert tall. Hvis vi tenker oss at vi har en sannsynlighetsfordeling, og erstatter disse andelene med sannsynligheten for å få disse verdiene har vi den teoretiske gjennomsnittsverdien, eller modellens forventningsverdi. Vi bruker ofte den greske bokstaven µ for dette, og definerer da 4 µ = n xp(x) (2.3) x=0 4 Noen enkle justeringer må selvfølgelig til om x verdiene ikke akkurat er 0, 1, 2,...,n.Vikantilogmed ha (tellbart) uendelig antall verdier.

12 KAPITTEL 2. SANNSYNLIGHET For kast med 6 terninger får vi da (fra tallene på side9) 0.4019 1+0.2009 2+0.0536 3+0.0080 4+0.0006 5+0.0000 6 1.000 Dette virker jo naturlig, 1 sekser på 6kast. For de vanligste fordelingstypene er imidlertid forventningsverdien regnet ut som en generell formel en gang for alle: For binomisk fordeling med parametre n og p er µ = np (2.4) I eksemplet over får vi da enklere µ =6 1 6 =1nøyaktig. Oppgave Regn ut de 6 gjennomsnittene i skjemaene for pilkastresultater. I mange sammenhenger er det hensiktsmessig åbrukee(x) istedenfor µ som navn på forventningsverdien til X. 2.2.3 Teoretisk varians og standardavvik I tillegg til beliggenhetsmålene over er det viktig åhaetmål for hvor spredd tallmaterialet er. Dette kan jo også oppfattes som et mål for hvor stor den tilfeldige variasjonen er. Jeg starter nå med det teoretiske begrepet. Vi ønsker et slags mål på hvor stor avstand observasjonene får fra forventningsverdien. For en enkelt verdi x er denne avstanden naturlig gitt som kvadratroten av (x µ) 2. Dette er det samme som tallverdien til x µ, men også itråd med avstandsformelen for punkter i planet (eller generelt R n ), der avstanden mellom punktet (x, y) og(µ, µ) ergittvedkvadratrotenav(x µ) 2 +(y µ) 2. I første omgang ser vi på kvadratet av denne avstanden. Vi skal da bruke forventningsverdien av denne kvadratiske avstanden. Det vilsigjennomsnittetsomiformel2.3,medx erstattet med (x µ) 2.Detmålet vi da kommer fram til kalles variansen. Dette målet er ikke det eneste mulige, eller det eneste som brukes, men er det klart vanligste. Det er matematisk hensiktsmessig (spesielt i forbindelse med normalfordelinger og metoder basert på denne), og vil erfaringsmessig vanligvis virke intuitivt fornuftig i anvendelser. Dette leder da til følgende definisjon Definisjon av (teoretisk) varians σ 2 : σ 2 def = 0 µ) 2 p(0) + (1 µ) ( 2 p(1) + +(n µ 2 )p(n) n n ) = (x µ) 2 p(x) = x 2 p(x) µ 2 (2.5) x=0 x=0 Første likhet er definisjonen, andre bare en omskrivning ved hjelp av summetegn, mens det ligger noe mellomregning som ikke er gjennomført her bak siste likhet. Noen enkle justeringer må selvfølgelig også hertilomx verdiene ikke akkurat er 0, 1, 2,...,n Varians har et par svakheter i forhold til en intuitiv tolkning. Det har feil dimensjon, hvis alle måleverdiene har enhet meter vil variansen ha enhet meter 2. Dessuten, om vi multipliserer alle verdier med et (positivt) tall a oppfatter vi naturlig spredningen som a ganger så stor, mens variansen vil bli a 2 ganger så stor. Dette fikser vi med å ofte bruke kvadratroten av variansen som spredningsmål. Dette målet kalles standardavviket. Standardavvik: σ = σ 2

2.2. FORDELINGER 13 Formelen ser ut som en utregning snarere enn en definisjon, men det er en definisjon da hele σ 2 i utgangspunktet må betraktes som et enkelt symbol. For de vanlige fordelingsmodellene er også varians og standardavvik regnet ut generelt en gang for alle. For binomisk fordeling har vi: For binomisk fordeling med parametre n og p er σ 2 = np(1 p) ogσ = np(1 p) (2.6) Hvis vi har 15 terningkast, og teller opp x = antall seksere har vi µ =15 1 =2.5 og 6 σ = 15 1 5 =1.44. Vi kan markere µ inn på x aksen, og σ ved piler med lengde σ ihver 6 6 retning ut fra denne. Ved åsepå noen slike figurer bygger man seg opp en intuisjon om hva σ er i praksis. Vi bruker også betegnelsene σ 2 =Var(X) ogσ = Sd(X). Empirisk varians og standardavvik Varians og standardavvik basert på observasjonene kaller vi empirisk varians og standardavvik, og bruker notasjonen s og s 2 om disse. Vi kan oppfatte disse som en estimering av varians og standardavvik i den teoretiske modellen. Vi får da naturlig følgende definisjon, av detviskalkalles n : s 2 n =((x 1 µ) 2 +(x 2 µ) 2 + +(x n µ) 2 ) /n =( n i=1 (x i µ) 2 ) /n og s n = s 2 n. Denne formelen krever at vi kjenner µ. For presisjonseksemplet vårt kan vi tenkes å velge en modell der vi betrakter µ = 0 som kjent, men vanligvis må vinøyeossmedåanslå µ med x. Via resonnementer og utregninger vi ikke skal gå innpå herfår vi da imidlertid at n-en i nevner bør erstattes med n 1, og vi får den vanlige formelen for varians og standardavvik: s 2 = s 2 n 1 Def = ( n ) (x i x) 2 /(n 1) = ( n i=1 x 2 i ) n x2 og s n 1 = i=1 n 1 s 2 n 1 (2.7) Siste likhet i definisjonen av s 2 er en algebraisk omforming som vi ikke tar med her. Den gir en formel som er greiere å hanskes med regnemessig sett 5. Oppgave Regn ut de 12 standardavvikenene i skjemaene for pilkastresultater. 2.2.4 Regneregler for forventningsverdi og varians Vi skal her bruke betegnelsene µ =E(X), σ =Sd(X) ogσ 2 =Var(X), hvis vi har en stokastisk variabel (en fordeling med resultat før observasjon) X. Gjennomsnittsverdien av n observasjoner er da (før observasjon) X =(X 1 + X 2 + + X n )/n, der alle X i ene har samme fordeling som X. 5 Den kan lett regnes ut bare vi har lagret x i, x 2 i og n. Får vi nye observasjoner kan vi da legge til verdiene på disse, uten ågå tilbake og regne ut med alle de tidligere verdiene.

14 KAPITTEL 2. SANNSYNLIGHET (a) E(aX + b) = ae(x)+b (b) E(X 1 + X 2 + + X n ) = E(X 1 )+E(X 2 )+ +E(X n ) (c) E( X) = E(X) (d) Var(aX + b) = a 2 Var(X) (e) Sd(aX + b) = asd(x) 0m a 0 De tre neste formlene forutsetter uavhengighet (f) Var(X 1 + X 2 + + X n ) = Var(X 1 )+Var(X 2 )+ +Var(X n ) (g) Var( X) = Var(X)/n (h) Sd( X) = Sd(X)/ n (2.8) For eksempel får vi formel (g) i 2.8 ved åskrive Var( 1 n X 1 + 1 n X 2 + + 1 n X n) 2.8(f) = Var( 1 n X 1)+Var( 1 n X 2)+ +Var( 1 n X n)) 2.8(d) = 1 Var( 1 n 2 n X 1)+ 1 Var(X n 2 2 )+ + 1 Var(X n 2 n )) = 1 (σ 2 + σ 2 + + σ 2 )=σ 2 /n n 2 En viktig konsekvens av formlene for forventningsverdi og standardavvik for gjennomsnittene er at om vi tar gjennomsnittet av n observasjoner vil dette ha en tendens til å komme nærmere forventningsverdien jo større n er, siden gjennomsnittet også har denne som forventningsverdi, men mindre standradavvik (= σ/ n). Dette er hovedgrunnen til at det er bedre jo flere observasjoner vi har når vi skal trekke statistiske slutninger. De store talls lov Anta vi gjør n gjentatte terningkast, og kaller antall seksere for X(n). For en binomisk fordeling er E(X) =np og Var(X) =p(1 p). Hvis vi nå tar gjennomsnittlig antall seksere er dette 1 nx(n), og E( 1 n X(n)) = 1 n E(X(n)) = 1 n np = p, mensvar(1 n X(n)) = 1 Var(X(n)) = 1 np(1 p) =p(1 p)/n. n 2 n 2 Når n vokser vil gjennomsnittsverdien derfor nærme seg p, med mindre og mindre variasjon 6. Dette er en mer presis formulering av utsagnet sannsynligheten er andelen forekomster når antall gjentakelser går mot uendelig., som mange steder brukes som (en matematisk høyst tvilsom) definisjon av sannsynlighet. 6 Dette kan presiseres til at uansett hvor liten vi velger ɛ>0ogα>0, kan vi ved åvelgen stor nok sikre at sannsynligheten for at p ɛ<x(n)/n < p + ɛ er større enn 1 α. Dette kalles konvergens i sannsynlighet

Kapittel 3 Normalfordeling 3.1 Fordeler med normalfordeling Den aller viktigste fordeling i statistikk er normalfordeling. Fordeler på grunn av at den så ofte kan brukes Mange data er erfaringsmessig tilnærmet normalfordelt (Quetelet). Måleverdier, med måleunøyaktighet, er spesielt ofte eksempler på normalfordelte data (Laplace). Mange størrelser beregnet fra data blir tilnærmet normalfordelt på grunn av sentralgrenseteoremet. Normalfordeling er en hensiktsmessig tilnærming til mange fordelinger. Fordeler med at den er matematisk hensiktsmessig Om vi adderer samme tall til hver observasjon, er resultatet fortsatt normalfordelt. Om vi multipliserer hver observasjon med samme tall er resultatet fortsatt normalfordelt Om vi adderer (uavhengige) normalfordelinger, får vi fortsatt en normalfordeling Viktige størrelser basert på normalfordelinger har fordelinger med analytisk formel (f.eks Students t-fordeling, χ 2 -fordeling, Fishers F-fordeling) Oppfører seg pent ved naturlig generalisering til flere variable (binormal og multinormal fordeling) Viktige statistiske metoder oppfører seg pent ved normalfordelingsantakelser (f.eks variansanalyse og (multippel) regresjon) 3.2 Fra diskret til kontinuerlig fordeling Normalfordeling ble opprinnelig konstruert som tilnærmingsformel til binomisk fordeling (De Moivre, 1718): 15

16 KAPITTEL 3. NORMALFORDELING Figur 3.1: Normalfordeling som tilnærming til binomisk fordeling. Normalfordelingen er en kontinuerlig fordeling. Det er ikke bare heltallsverdier (eller verdier der alle kan indekseres med forskjellige heltall) som er mulige utfall. I slike situasjoner bruker vi ikke sannsynligheter for at x skal få bestemte verdier (disse er vanligvis 0), men for at x skal havne i et intervall, Pr(a X b). Disse sannsynlighetene er arealer (integraler) av området under sannsynlighetskurven, som i disse tilfellene kalles sannsynlighetstettheter. I figuren har vi illustrert dette ved å markere området fra 5.5 til 6.5. Det er dette arealet som er tilnærmet lik sannsynligheten for 6 seksere i 30 terningkast. 3.3 Normalfordeling og parametre Normalfordelingen har to parametre, µ og σ. Som symbolbruken antyder er forventningsverdien µ og standardavviket σ. Figur 3.2 og 3.3 illustrere virkningen av å endre disse: Figur 3.2: Normalfordeling, virkning av å endre µ

3.4. SENTRALGRENSETEOREMET 17 Figur 3.3: Normalfordeling, virkning av å endre σ Fasongen er stort sett lik, µ gir hvor toppen skal ligge. Standardavviket σ viserhvormyeden skal strekkes ut horisontalt. Den tilsvarende vertikale sammentrykningen skyldes at arealet under hele kurven alltid må være 1, sannsynligheten for åfå <x< (som er helt sikkert). Dette gjør at vi kan skalere om alle normalfordelinger til en normalfordeling med µ =0 og σ = 1. Denne kalles standard normalfordeling. Dette får vi til ved først å trekke fra µ (såforventningsverdien blir 0) og dividere med σ (så standardavviket blir 1), og dette skrives Z =(X µ)/σ (der X er den opprinnelige og Z den standariserte variablen. Dette bruker vi blant annet om vi skal bruke tabeller for å beregne normalfordelte sannsynligheter. Vi klarer oss med en tabell (som er vedlagt i vedlegg A.1 på side 37. Et regneeksempel kommer på side 18. 3.4 Sentralgrenseteoremet En viktig setning som delvis forklarer hvorfor normalfordeling så ofte opptrer er sentralgrenseteoremet Det finnes egentlig flere varianter av dette (med separate og kompliserte bevis), men den viktigste varianten sier: Hvis X 1,X 2,...,X n,... er uavhengige fordelinger med forventningsverdi µ og standardavvik σ, ogviforhvern danner gjennomsnittet X n, vil, om Z er standard normalfordelt, Pr X n µ σ/ n <x Pr(Z <x)når n (3.1) Dette sier et gjennomsnittet går mot en normalfordeling når n går mot uendelig, og betyr i praksis at for store n er gjennomsnittet tilnærmet normalfordelt (med forventningsverdi µ og standardavvik σ/ n). En variant blir at summer X 1 +X 2 + X n blir (tilnærmet) normalfordelt med forventningsverdi nµ og standardavvik σ n for store n.

18 KAPITTEL 3. NORMALFORDELING 3.4.1 Tilpasning til normalfordeling Ikke minst som en mer eller mindre skjult konsekvens av sentralgrenseteoremet vil mange fordelinger kunne tilnærmes ved normalfordeling (ofte når n blir stor, men det gjelder også f.eks Poissonfordeling når λ blir stor). Strategien er da (vanligvis) å bruke den normalfordelinga som har samme forventningsverdi og samme standardavvik som den som skal tilnærmes. Eksempel, tilnærming til binomisk fordeling Vi skal se på bruken av normalfordeling som tilnærmingsformel til 30 terningkast, der X er antall seksere 1 : Forventningsverdien er i binomisk fordeling np =30 1 =5,såvibrukerµ =5. 6 Standardavviket er np(1 p) = 30 1 5 2, så vi setter σ = 2. Det er denne normalfordelingen som er tegnet inn i figur 3.1 på side 16. 6 6 For å regne ut (tilnærmet) sannsynligheten for åfå 6 eller færre seksere, finner vi Pr(X <6.5), sannsynligheten for åfå utfall mindre enn 6.5 i den tilnærmede fordelingen 2. Dette omformes til: ( X µ Pr(X <6.5) = Pr < 6.5 µ ) ( =Pr z< 6.5 5 ) =Pr(z<0.75) σ σ 2 Den siste sannsynligheten kan vi finne fra tabellen på side 37, der jeg har markert den med fet skrift. Den er 0.7734 På tilsvarende måte finner vi at sannsynligheten for åfåhøyst5seksereerpr(z< 5.5 5 )= 2 Pr(Z <0.25) = 0.5987. Siden sannsynligheten får åfå minst 6 seksere er sannsynligheten for minst 5 seksere + sannsynligheten for nøyaktig 6 seksere, er sannsynligheten for nøyaktig 6 seksere 0.7734 0.5987 = 0.1747 Direkte bruk av binomisk fordeling gir 30! 6!24! (1/6)6 (5/6) 2 4=0.1601, så vi ser at tilnærmingen ikke er så kjempegod. Som en tommelfingerregel for når tilnærmingen kan brukes har vi at np og n(1 p) begge bør være større enn 5, helst større enn 10. Dette eksemplet er altså i grenseland, noe den moderat gode tilnærmingen i eksemplet også antyder. I praksis brukes nok også tilnærmingen ofte for enda mindre np og n(1 p). Vi klarer oss da vanligvis fint uten tilnærmingsformel for å beregne sannsynligheter av typen i dette eksemplet, men mange statistiske metoder legger en antagelse om normalfordeling til grunn. Denne antagelsen vil (og kan) nok i praksis strekkes en del, men det er også sikkert at den av og til strekkes for langt. 1 Dette er sentralgrenseteoremet da dette antallet kan sees på som summen av antallet seksere i hver av de n enkeltkastene. Hvert enkeltforsøk har da to mulige utfall: 0 = ikke seks og 1 = seks, med forventningsverdi p =1/6 og standardavvik p(1 p) = 5/36. 2 Vi bruker 6.5 i steden for 6 da sannsynligheten for 6 tilnærmes med Pr(5.5 <X<6.5)

Kapittel 4 Hypotesetesting 4.1 Hypotesetesting generelt 4.1.1 Har vi en jukseterning? La oss tenke oss at vi har en terning som vi mistenker at noen har tuklet med, slik at den gir sekser for ofte. Vi vil forsøke åbeviseatvår mistanke er riktig ved å kaste den 15 ganger, og sjekke om vi får unormalt mange seksere. Problemet er her at selv om vi ikke har noen jukseterning, kan resultatet fort tilfeldigvis bli en del flere seksere enn forventningsverdien. Hvis vi regner litt på den binomiske sannsynlighetesfordelinga vi har om terningen er OK finner vi ut at Pr(X 5) 9%, mens Pr(X 6) 2.7%), jfr. figur 2.1 på side9. Vi må akseptere at bevisbyrden ligger hos oss, og et resultat som kan oppstå med9%sansynlighet selv uten jukseterning vil neppe regnes som tilstrekkelig støtte for vår påstand. Grensen settes ofte ved 5%, og om vi da setter grensen ved 6 seksere oppnår vi dette. Prosedyren blir derfor å kaste terningen 15 ganger, og klassifisere den som jukseterning hvis det blir minst 6 seksere. Det er selvfølgelig fremdeles en liten, men ikke neglisjerbar, sannsynlighet for at vi får 6 eller fler seksere med en normal terning, og at vi således feilaktig konkluderer med at det er en jukseterning. En slik feil vil kalles en type 1-feil. Vi kan redusere men ikke eliminere risikoen for å gjøre en slik feil ved å sette grensen enda høyere. Hvis terningen bare er moderat fikset med, slik at sannsynligheten for sekser er 1/3, dobbelt så stor som den bør være, er forventningsverdien np =15 1 =5,så i dette tilfellet er 5 seksere 3 helt normalt, og faren er stor for at vi ikke oppdager det. I så fallgjørvien type2feil. For å redusere muligheten for denne typen feil må vi sette grensen lavere, altsådetstikk motsatte av det som skal til for å minske risikoen for type 1 feil. Vi står altså overforen avveiing her, og kan ikke så lettfåibåde pose og sekk. Det finnes imidlertid en måte å gjøre det mindre sannsynlig å gjøre begge typer feil, nemlig ved å øke antall kast i serien vår. Hvis vi for eksempel øker dette til 150 kast, og setter grensen ved 37 seksere er sannsynligheten for å gjøre type 1 feil litt mindre enn 1%. Hvis sannsynligheten er 1/3 for sekser, er det også mindre enn 1% sannsynlighet for åfåså lite som 36 eller færre seksere. Hvorvidt det lar seg gjøre å øke antall forsøk er selvfølgelig et spørsmål om (blant annet) tid og penger i praktiske situasjoner. Det er grenser for hvor mange testgranater dere kan skyte ut. 19

20 KAPITTEL 4. HYPOTESETESTING 4.1.2 Testobservator, nullhypotese og alternativ hypotese En hypotesetesting består i at vi setter opp to alternativer som vi tester mot hverandre. Disse alternativene går verdier av parametre (eller funksjoner av disse) i delvis spesifiserte modeller. Det ene alternativet kalles nullhypotesen H 0, den andre den alternative hypotesen H 1. Vi ønsker en størrelse, beregnet fra dataene, som sammen med metoder fra sannsynlighetsregning, forteller oss hvilke av alternativene vi velger å tru på. Denne størrelsen kalles testobservator. Eksempler på tesobservatorer kan være gjennomsnitt, (empirisk) varians eller andel(feil).deterikke likegyldig hva vi kaller H 0 og H 1. Noen eksempler: Hypotese Eksempel 1 Eksempel 2 Eksempel 3 H 0 Terningen er OK Presisjonen er lik Ammunisjonslageret går i lufta H 1 Vi har en jukseterning Presisjonen er forskjellig Ammunisjonslageret går ikke i lufta Det er H 0 vi har best kontroll over, og velger denne først. Det siste, dramatiske eksemplet antyder dette klart: Vi må for enhver pris unngå å gjøre feil på H 0,ogfå en utilsiktet eksplosjon. Det er mye mindre alvorlig om vi trur sikkerheten ikke er god nok, og setter i gangekstra sikkerhetstiltak somkanskje ikke egentlig er nødvendig. Under mindre dramatiske omstendigheter er det gjerne det konservative standpunktet ( nye metoder virker ikke ) som velges som H 0, bevisbyrden ligger på forbedringsforslagene. 4.1.3 Signifikansnivå ogteststyrke Hvis foretar en test er det to typer feilkonklusjoner vi kan gjøre, type 1 feil og type 2 feil (også kalt godtaknings- og forkastningsfeil). Vi kan illustrere dette ved en tabell: H 0 sann H 1 sann H 0 godtas OK Type 2 feil H 1 godtas Type 1 feil OK Vi ønsker selvfølgelig å gjøre sannsynligheten for å gjøre såvel type 1 som type 2 feil liten. Dette er imidlertid litt motstridende interesser. Når vi konstruerer en testobservator tar vi først for oss H 0, og tenker oss at det er dette alternativet som er sant. Vi bestemmer oss så for en akseptabel sannsynlighet for å gjøre type 1 feil. Denne sannsynligheten kalles signifikansnivået (eller bare nivået) for testen. Det er vanlig åvelge0.05 = 5%, men også 0.01 = 1% er vanlig. Uttrykkene signifikant og meget signifikant brukes ofte når H 0 er forkastet på disse nivåene 1. Testobservatoren velges slik at den har stor sannsynlighet for å komme i et visst område når H 0 er sann, mens den vil ha mindre sannsynlighet for å havne her når H 0 er sann. Teststyrken er sannsynligheten for åikkegjøretype2feil(når H 1 er sann). Denne vil gjerne avhenge av verdien på parametren (er vi nære grenseområdet mellom H 0 og H 1 er det 1 Det kan være et problem at denne sannsynligheten ikke bare avhenger av parametren hypotesen gjelder (og som vi fastsetter når vi antar H 0 ), men også for andre, ukjente parametre. Vi forsøker åkonstruere testobservatoren så dette problemet blir (mer eller mindre) eliminert.

4.2. HYPOTESETESTING AV P 1 = P 2 21 vanskeligere å oppdage H 1 ). Vi ønsker å velge testobservator så styrken blir så storsom mulig. Metoder for å finne slike faller utenfor rammen av dette korte seminaret. 4.2 Hypotesetesting av p 1 = p 2 Hvis vi skal sammenlikne andeler, for eksempel finne ut om feilprosenten er forskjellig på to typer granater, setter vi opp at de er like som null-hypotesen: H 0 p 2 p 1 = 0 H 1 p 2 p 1 0 Vi gjør n tester av første type, og lar x være antall granater med feil, og tilsvarende m stykker, hvorav y med feil, på den andre typen. Det er naturlig åestimerep 1 med x/n og p 2 med y/m. Det er nærliggende å ta utgangspunkt i t = x/n y/m som testobservator. Hvis t er nær 0 beholdes H 0,menst langt fra 0 tilsier H 1. Problemet blir å avgjøre hvor langt fra 0 grensen skal settes. Dette er egentlig svært problematisk, for sannsynlighesfordelingen til t avhenger ikke bare av p 1 p 2,menavp 1 og p 2 hver for seg. I praksis løser vi dette ved å bruke tilnærmingsformler, basert på normalfordelingen. En direkte metode her er åanta(når p 1 = p 2 = p) atx/n og y/m er tilnærmet normalfordelt, begge med forventning p, ogvariansernp(1 p)/n 2 = p(1 p)/n og mp(1 p)/m 2 = p(1 p)/m. Når vi trekker disse fra hverandre blir forventningsverdien 0 og variansen p(1 p)/n + p(1 p)/m = p(1 p)(m + n)/mn), slik at (x/n y/m)/ p(1 p(m + n)/mn) blir (tilnærmet) standard normalfordelt. Vi estimerer p ved åtenkepå dette som en lang forsøksrekke med n + m enkeltforsøk, hvorav x + y observasjoner av feil. Derfor setter vi inn p =(x + y)/(n + m). Dermed får vi testobservatoren z = ( x+y m+n x/n y/m )( 1 x+y m+n ) m+n mn Vi beholder H 0 hvis z er nær 0, og forkaster H 0 ellers. Fra normalfordelingstabellene i tillegg A.1 har vi at sannsynligheten for at z>1.96 er 0.025, og ved symmetri får vi også at sannsynligheten for at z < 1.96 = 0.025. Det er derfor tilsammen bare 0.05 = 5% sannsynlig at vi havner utebfor dette, om H 0 er sann. Testprosedyren (på 5%-nivået) blir da: Behold H 0 om 1.96 z 1.96. Forkast H 0 ellers. Eksempel I det innledende eksempelet hadde vi n = m = 15, og x =2,y = 6. Dette gir z = ( 8 30 2/15 6/15 )( 1 8 30 ) 30 15 15 = 1.65 som vi ser gir at H 0 beholdes Forskjellen vi observerte er godt innenfor tilfeldig variasjon for lik feilprosent for de to geranattypene.

22 KAPITTEL 4. HYPOTESETESTING Vi bruker ofte at både np 1, n(1 p 1 ), np 2 og n(1 p 2 ) skal være større enn 5 for at normaltilnærminga skal være god. Dette er ikke oppfyllt her. Resultatet gir likevel en klar pekepinn om at forskjellen ikke er signifikant. 2 4.3 Hypotesetesting av σ 2 x = σ2 y Når vi skal sammenlikne to spredninger er nullhypotesen σ x = σ y eller σx 2 = σ2 y. Disse kan også omskrives til: H 0 : H 1 : σx 2 σy 2 σx 2 σy 2 = 1 1 Det er naturlig (og nær optimalt) å se på forholdet mellom de empiriske variansene. Hvis s x er empirisk standardavvik av den ene, og s y av den andre, lar vi testobservatoren være t = s 2 x /s2 y.viforkasterh 0 hvis t er langt fra 1. Hvis H 0 er sann er fordelingen til s 2 x /s2 y er en Fishers F-fordeling med n 1ogm 1 frihetsgrader 3 (n og m er antall observasjoner i de to forsøksseriene). Vi må derfor se litt på denne: 4.3.1 Fishers F fordeling Fishers F fordeling er i utgangspunktet fordelingen vi kan betrakte ( n i=1 x2 i /n)/( m i=1 y2 i /m) som en observasjon fra, hvis x 1,...,,x n,y 1,...,y m er observasjoner fra uavhengige standard normalfordelinger. Det er ikke håpløst vanskelig, men litt plundrete å finne en formel for denne fordelinga. Vi skal her bare forholde oss til det å behandle denne via tabeller eller dataprogram. Fishers F-fordeling brukes i sammenhenger hvor forhold mellom to spredninger, eller beslektede størrelser, sammenliknes. Den har to heltallsparametre, frihetsgrader, en for teller og en for nevner. Figuren viser hvordan denne ser ut for 5 og 5 frihetsgrader. Fraktilen for 0.975 og 0.025 er avmerket. Hvis vi har denne fordelingen (hvis H 0 er sann) er sannsynligheten for at brøken blir større enn 7.15 2.5%, det samme er sannsynligheten for at t blir mindre enn 0.14. Til sammen er dette da bare 5%, mens det er 95% sannsynlig at vi havner mellom disse. I det siste tilfellet beholder vi H 0, mens vi ellers forkaster H 0. Fraktilene kan for eksempel finnes via tabell A.2, i tillegget bak. Vi har der en tabell for k 0.025, som for 5 og 5 frihetsgrader gir k 0.025 =7.15 (som jeg har uthevet der). Vi kan finne 2 Testenhererikkeoptimalmedhensynpå teststyrke. Via lengre teoretiske utlegninger kan det vises at det beste er å basere seg på testobservatoren ( [(x + y)/(n + m) x+y ][1 (x + y)/(n + m)] n+m x x ) t = 2 ln (x/n) x [1 x/n] n x (y/m) y [1 y/m)] m y For store x og y er t tilnærmet kji-kvadratfordelt med 1 frihetsgrad, og H 0 forkastes for store t (t >3.84 på5% nivået). I vårt eksempel ville vi fått t =2.82 som også gir godtaking av H 0 (enda klarere enn med z observatoren). 3 I tilfellet med kjent forventningsverdi, kan spredningen σ n brukes, og vi får en frihetsgrad mer i teller og nevner. Dette er en fordel.

4.3. HYPOTESETESTING AV σ 2 X = σ 2 Y 23 Figur 4.1: Fishers F-fordeling med 5 og 5 frihetsgrader. 0.025 og 0.975 fraktilen inntegnet. 0.975 fraktilen fra k 0.975 =1/k 0.025 =1/7.15 = 0.14. Vi har også med en 0.050-fraktiltabell, for ensidige tester. Fishers F-fordeling har forventningsverdi E(X) =m/(m 2) (hvis m>2) og varians Var(X) = 2m2 (k+m 2) k(m 2) 2 (m 4) (hvis m>4), der k er tellerens og m nevnerens frihetsgrader. For store k blir F-fordelingen tilnærmet normalfordelt, som en konsekvens av sentralgrenseteoremet, men k må være flere hundre før tilnærmingen blir god.

Kapittel 5 Faktoranalyse og forsøksplanlegging Vi vil i dette kapitlet se nærmere på eksempel 3 fra innledningen, der vi skal eksperimentere for å finne sporlys med brenntid 4s. Vi vil forenkle situasjonen litt, og også innimellom se på en enda enklere kunstig 2 2-situasjon for å illustrere visse begreper. 5.1 Faktorer og nivåer For å gjøre eksemplet tilstrekkelig generelt, men ikke unødig komplisert skal vi se på virkningen av tre faktorer: Mengden av et stoff (S), typen verktøy (V) og trykk ved kompromering av stoffet (P). Vi velger tre nivåer på S, et med forholdsvis lite, et med middels mye og et med foroldsvis mye av dette stoffet. Vi skal bare prøve to verktøy i denne oversiktsanalysen, og bare to forskjellige trykk. Dette oppsummeres i følgende tabell: Faktorer Stoff Verktøy trykk S V P Nivåer 1 Lite Type 1 Lavt 2 Middels Type 2 Høyt 3 Høyt 5.1.1 Design Vi kan nå lage sporlys med forskjellige kombinasjoner av disse faktorene, for å undersøke virkningen av de forskjellige faktorene. Det er imidlertid ikke likegyldig hvordan vi organiserer dette. Et nærliggende design er å velge et verktøy og et trykk, og prøve de tre nivåene for stoff for åprøveå finne ut hvordan virkningen av mengden av dette er. Deretter velger vi den mest passende mengden her,og finner virkning av verktøy og trykk etter tur på samme måten. Dette er til sammen 7 oppsett. Dette er imidlertid en lite effektiv måte å organisere det på. 24

5.1. FAKTORER OG NIVÅER 25 Dette skyldes hovedaklig at det (antagelig) er en viss grad av samvirkning mellom faktorene. Denne er det umulig å få kontroll over ved dette oppsettet. Det er også matematiske grunner til å passe på hvordan designen er. For å kunne få den informasjonen vi er ute etter fra en variansanalyse må dataene være organisert på en hensiktsmessig måte for dette. Hvis vi forsøker alle kombinasjonene får vi et fullfaktorforsøk. Dette er det ideelle, bortsett fra at det lett kan bli urimelig mange oppsett. Vi kan rasjonalisere på antall oppsett om vi velger ågå ut fra at visse samvariasjoner er ubetydelige. Oppsettet må da være i henhold til balanserte matriser (orthogonal arrays i engelskspråklig litteratur). Vi kommer kort inn på dette mot slutten, men det er viktig å vite at det skal gjøres på denmåten. Vi skal bruke mest tid på å se hvordan vi analyserer et fullfaktorforsøk. Den samme type analyse kan brukes om vi velger balanserte matriser, mens vesentlige sider av den ikke virker om vi velger andre design. 5.1.2 Fullfaktorforsøk Hvis vi skal teste alle kombinasjoner av disse får vi tilsammne 3 2 2 = 12 oppsett. For å kunne få kontroll over den tilfeldige variasjonen må vi teste flere sporlys med hvert oppsett. For å kunne få svarpåså mange spørsmål som mulig må vi organisere det slik at vi prøver like mange sporlys fra hvert oppsett. Foreløbig veit vi ikke hvor lang tid disse sporlysene virker, og kaller disse t (med en passende indeksering så vi kan holde dem fra hverandre). Nr. i S V P Observasjoner 1 1 1 1 t 1,1,t 1,2,...,t 1,n 2 1 1 2 t 2,1,t 2,2,...,t 2,n 3 1 2 1 t 3,1,t 3,2,...,t 3,n 4 1 2 2 t 4,1,t 4,2,...,t 4,n 5 2 1 1 t 5,1,t 5,2,...,t 5,n 6 2 1 2 t 6,1,t 6,2,...,t 6,n 7 2 2 1 t 7,1,t 7,2,...,t 7,n 8 2 2 2 t 8,1,t 8,2,...,t 8,n 9 3 1 1 t 9,1,t 9,2,...,t 9,n 10 3 1 2 t 10,1,t 10,2,...,t 10,n 11 3 2 1 t 11,1,t 11,2,...,t 11,n 12 3 2 2 t 12,1,t 12,2,...,t 12,n Feltet med nivåene (fet skrift i oppsettet over) kalles designmatrisen. Detertilsammen 3 2 2=12 kombinasjoner. Dette kalles = 3 2 2 design, fullfaktorforsøk. (5.1)

26 KAPITTEL 5. FAKTORANALYSE OG FORSØKSPLANLEGGING 5.2 Modell 5.2.1 Hovedidé Hovedidéen er å betrakte verdien av hver observasjon som summen av Virkning av hver av hovedfaktorene Samvirkning mellom hovedfaktorene Tilfeldig variasjon Observasjonene brukes så til å trekke slutninger om virkninger og samvirkninger av faktorene. 5.2.2 Samvirkninger Samvirkning (korrelasjon) mellom faktorer kan spille en støre eller mindre rolle. Samvirkningene vil komme inn som egne faktorer, så vi vil ofte referere til de tre faktorene S, V og P som hovedfaktorer. Her er et par enkle eksempler som illustrerer samvirkning. Vi ser i disse bort fra tilfeldig variasjon, og tenker oss at en enkelt observasjon forteller hele sannheten. I eksemplene er det to faktorer A og B, med to nivåer 1 og 2. Dette kan vi da sette opp slik (der 30, 50, 40 og 60 er verdien av observasjonene) Ingen samvirkning A1 A2 B1 30 50 B2 70 90 (5.2) Viseratvirkningenavå endre A fra nivå 1 til 2 er 10, enten vi har nivå 1 eller 2 på B. Gjennomsnittsendringen blir også 10. Tilsvarende hvis vi ser på B: Endring fra nivå 1 til 2 er 40, uansett nivå påa. Det totale gjennomsnitt over er 60, og vi kan splitte opp resultatet over i en sum av matriser: En for totalt gjennomsnitt, en for virkningen av A, en for virkningen av B og en for resten som i dette eksemplet er samvariasjon, som er 0 (generelt vil vi også trenge en for tilfeldig variasjon) : [ 30 50 70 90 ] = [ ] 60 60 60 60 } {{ } Gjennomsnittsvirkning [ ] [ ] 5 5 20 20 + + + 5 5 20 20 } {{ } } {{ } Virkning av A Virkning av B [ ] 0 0 0 0 } {{ } Samvirkning (5.3) Dette er satt opp slik at i matrisa for virkningen av A er rekkevis sum 0, mens kolonnene er konstante. For B blir det omvendt. Dette er i tråd med modellen vi setter opp seinere. Kun samvirkning A1 A2 B1 40 80 B2 80 40 (5.4)

5.2. MODELL 27 Hvis vi ser bort fra virkningen av B og tar gjennomsnittet av A-ene aleine blir de 60 på begge nivåer. Det samme gjelder B, så en sjekk av disse alene vil resultatet tyde på atde ikke påvirker resultatet. Et blikk på matrisen viser imidlertid at det er tydelig sammenheng mellom nivåer og virkning. Denne sammenhengen er i dette forenklede eksemplet i helhet en samvariasjon. På matriseform får vi da summen: [ 40 80 80 40 ] = [ ] 60 60 60 60 } {{ } Gjennomsnittsvirkning + [ ] 0 0 0 0 } {{ } + Virkning av A [ ] 0 0 0 0 } {{ } Virkning av B [ ] 20 20 + 20 20 } {{ } Samvirkning (5.5) 5.2.3 En modell for 2 2-design Før vi definerer modellen i hovedeksemplet skal vi se på en enklere variant i 2 2 tilfellet, som over. Vi tenker oss konstruksjonen går motsatt veg, at vi bestemmer gjennomsnitt, virkning av A og B og samvirkning først og så regner ut hva observasjonene blir (uten tilfeldig variasjon). [ ] [ ] [ ] [ ] 60 60 5 5 20 20 10 10 + + + 60 60 5 5 20 20 10 10 } {{ } } {{ } } {{ } } {{ } Gjennomsnittsvirkning Virkning av A Virkning av B Samvirkning = [ 25 55 85 75 ] (5.6) Dette kan også skrives 60 [ 1 1 1 1 Eller mer generelt ] +5 [ 1 1 1 1 ] +20 [ 1 1 1 1 ] +10 [ 1 1 1 1 ] = [ 25 55 85 75 ] (5.7) µ [ 1 1 1 1 ] [ ] 1 1 + µ A 1 1 + µ B [ 1 1 1 1 ] [ ] 1 1 + γ A B 1 1 (5.8) Hvis man har litt kjennskap til generell lineær algebra vil man vite at alle 2 2 matriser kan skrives entydig på denne måten. Dette er fordi dimensjonen er 4. En slik opptelling av dimensjoner kalles en oppdeling i frihetsgrader. Dette regnestykket må gå opp. Hvis vi mangler observasjoner fra et av feltene er det en av parametrene vi ikke kan finne. Dette kan være akseptabelt hvis vi har god grunn til å tru at denne ikke er vesentlig forskjellig fra 0, og brukes mye når antall faktorer er stort. Man vil også kunne se at disse matrisene er ortogonale (har parvis prikkprodukt 0), noe som er av vesentlig betydning for viktige deler av analysen (derav navnet orthogonal arrays). Det er ikke egentlig observasjonene vi tenker oss framkommet på denne måten, men forventningsverdiene til observasjonene. Vi får i tillegg en tilfeldig variasjon for hvert enkelt eksperiment. Skal vi fra eksperiment kunne si noe om denne må vi ha mer enn en observasjon fra hver gruppe. Da øker vi dimensjonen, eller antall frihetsgrader, så vi får noen til overs etter åhaestimertµ, µ A, µ B og γ A B