HYPOTESETESTING for mastergradsstudium i informasjonssikkerhet

Transkript

1 HYPOTESETESTING for mastergradsstudium i informasjonssikkerhet Hans Petter Hornæs E-post: hansh@hig.no Høgskolen i Gjøvik. Versjon per Dette er notater, oppgaver og formelsamling til støtte for et kortkurs i statistikk innenfor faget IMT5011 Sikkerhetsmetrikker på mastergradsstudiet i informasjonssikkerhet ved Høgskolen i Gjøvik 5. november For ordens skyld: Se på dette notatet som litt uformelle forelesningsnotater. Det er litt hastverkspreget, halvferdig og mangelfult, og sikkert fullt av skrivefeil. Notatet er på ingen måte så gjennomarbeidet at det erstatter eller fortjener å bli sammenliknet med en ordentlig lærebok.

2 Innhold 1 INNLEDNING Litteratur og dataprogram Annen litteratur Andre dataprogrammer Målsetting og metode T ilbakemelding Hypotesetesting Hypoteser Signifikansnivå og teststyrke p verdi Reliabilitet og validitet Datatyper og modeller KRYSSTABELLER Krysstabeller og kjikvadrattester Krysstabeller Uavhengighet og uavhengighetstabeller Kjikvadrattest Variansanalyse Litt om ANOVA generelt Modellforutsetninger generelt Varians og kvadratsummer Noen notasjoner Enveis variansanalyse Datastuktur og modellforutsetninger ANOVAtabeller Ideene med ANOVA Kvadratsummer og frihetsgrader T oveis variansanalyse k faktor variansanalyse REGRESJON OG KORRELASJON Korrelasjon Binormal modell Lineær modell Multippel regresjon

3 3 5 IKKE PARAMETRISKE METODER Uparet Mann-Whitney-Wilcoxon-test Paret Wilcoxon test P 6 OP GAVER Regresjon og korrelasjon (kap. 7) Lineær modell (kap. 7) Uparet og paret T test (kap og 8.2.3) Enveis variansanalyse (kap ) T oveis variansanlyse, ANOVA-tabeller (kap ) Ikke parametriske metoder (kap. 8.4) Kjikvadrattester FASIT 32 8 Formelsamling EMPIRISKE STATISTISKE MÅL Forventningsverdi, varians og standardavvik Ordnede data, median og kvartiler Regresjon SANNSYNLIGHETSREGNING Definisjon av sannsynlighet - Kolmogoroffs aksiomer Kombinatorikk Diskrete sannsynlighetsfordelinger Kontinuerlige sannsynlighetsfordelinger Forventningsverdi og varians Regneregler for forventningsverdi og varians Sentralgrenseteoremet ST AT IST ISKE MET ODER Generelle definisjoner T ifeldig utvalg, en variabel (eller paret modell) T ilfeldig utvalg, to variable (Uparet modell): Lineær regresjonsmodell Variansanalyse (ANOVA) Ikke parametriske tester χ 2 -tester (kjikvadrattester) T ABELLER Kumulativ normalfordeling Φ(z) Fraktiler, normalfordeling Student T fordeling, fraktiltabell χ 2 fordeling, fraktiltabell Fishers F fordeling, fraktiltabell Utskrift av Excelfiler 56

4 Kapittel 1 INNLEDNING 1.1 Litteratur og dataprogram Forelesningen og dette notatet forholder seg til læreboka Gunnar G. Løvås: Statistikk -for universiteter og høgskoler, Universitetsforlaget 2000 som hovedlitteratur. Spesielt kapittel 7 og 8. Beregningene og eksemplene blir utført i dataprogrammet EXCEL, og læreboka har også med avsnitt om bruk av dette verktøyet Annen litteratur Det finnes mange bøker som dekker emnene som taes opp her på forskjellige måter, så detbesteer å bla litt selv på biblioteket og plukke ut noe passende. Dessuten finnes det en litteraturliste bak i boka til Løvås. Følgende liste er basert på hva jeg tilfeldigvis har i min bokhylle, og ikke på noen vurdering om dette faktisk er de beste alternativene (eller en sjekk på om de fremdeles er i handelen): Et alternativ som kanskje har et mer samfunnsvitenskapelig perpektiv enn Løvås er Per Chr. Hagen: Innføring i sannsynlighetsregning og statistikk, Cappelen Akad. forlag (4. utg. 2003). Selv liker jeg godt Larsen & Marx: An Introduction to Mathematical Statistics and its Applications, PrenticeHall (1986, vet ikke om nyere utgaver finnes). Denne har stort sett samme emner som Løvås, men går mer i dybden og har noen flere metoder. En bok som går mer direkte på metodene, og som blant annet inneholder litt om k faktor variansanalyse er Montgomery, Runger, Hubele: Engineering Statistics (Wiley, Kanskje finnes nyere utgaver.) En bok som blant annet inneholder tabeller for kritiske verdier i de ikke-parametriske metodene vi kommer inn på her er Weiss, Hasset: Introductory Statistics, Addison-Wesley Andre dataprogrammer EXCEL er først og fremst et regneark, med en del statistiske funksjoner som tillegg. Det velges her da mange har tilgang på det, og fordi læreboka gir eksempler fra dette. Programmet har imidlertid begrenset antall metoder ferdig programmert, og det kan tenkes at man ønsker et mer spesialisert statistikkverktøy. Her nevnes et par, uten å hevde at de er bedre enn andre som finnes: 4

5 1.2. MÅLSETTING OG METODE 5 Minitab Et forholdsvis enkelt verktøy, men likevel med langt flere muligheter enn Excel. Brukes blant annet mye ved BI. Selv kjenner jeg dette bare fra mange år tilbake, og er ikke oppdatert på hvordan nyere versjoner fungerer. Boka til Løvås har med avsnitt om dataanalyse i Minitab. SPSS Statistical Package for Social Sciences. Endel brukt ved HiG, spesielt ved Avdeling for Helsefag. HiG har en slags avtale så denne kan skaffes for overkommelig pris. Jeg kjenner ikke detaljene, men kan på forespørsel være behjelpelig med å henvise til personer som kjenner programmet og avtalen. 1.2 Målsetting og metode I fagene Vitenskapelige metoder og Sikkerhetsmetrikker vil dere ha diskutert metoder for åsamle inn data, krav til data og sagt litt om metoder for å analysere data osv. På et av lysbildene i faget Vitenskapelige metoder står det: Grad av avhengighet mellom variabler Korrelasjon, regresjonsanalyse, krysstabeller, ikke-parametriske metoder Signifikans av forskjeller mellom variabler T-test, ANOVA, ikke-parametriske tester Avdekking av latente variabler Faktoranalyse Analyser av data Min forståelse av dagens tema er primært å utdype dette, ved å vise hvordan disse metodene utføres ipraksis. Dette vil i hovedsak gjøres ved å vise eksempler i Excel. Mange av eksemplene baserer seg på kunstige data som har til hensikt åfå fram egenskapene til metodene. Vi vil derfor vite hva som egentlig skjuler seg bak dataene. Problemet med om vi har valgt riktig metode, som alltid er tilstede med realistiske data, blir dermed feid under teppet. Håpet er at en forståelse for hvordan metodene virker kan bidra også tilåvelge rett metode, men at dette ellers blir tatt opp på en god og fagrelatert måte i andre deler av faget Tilbakemelding Jegernoeusikkerpå hva dere har mest bruk for, og også på hvor mye statistikk dere kan fra før. For å forbedre eventuelle tilsvarende kurs for senere kull vil det være verdifullt med tilbakemeldinger. Noen, men sikkert ikke alle, aktuelle spørsmål er: Vanskelighetsgrad og omfang: For vanskelig/ for lett (i forhold til DINE forkunnskaper)? For rask/ for langsom gjennomgang? For mange/ for få temaer? Valg av temaer Temaer som vi ikke behøvde ta med?

6 6 KAPITTEL 1. INNLEDNING Temaer som kunne trengt lengere, eller klart seg med kortere tid? Temaer som burde vært med? Relevans Er min forståelse av hva denne dagen burde inneholde forfeilet? Burde temaene vært lagt fram på en essensielt annen måte? Send gjerne direkte tilbakemelding til meg på mail, Kanskje dere foretrekker å gå sammen om å lage en felles tilbakemelding, gjerne anonymt og via Snekkenes. 1.3 Hypotesetesting Hypoteser I en hypotese konkluderer vi med en av to mulige hypoteser: Nullhypotesen som kalles H 0 og den alternative hypotesen som kalles H 1. Det er ikke symmetrisk forhold mellom disse, og ikke likegyldig hvilken av alternativene som kalles nullhypotesen H 0. Generelt er H 0 den konservative hypotesen, og den vi konkluderer med hvis dataene ikke gir noen tydelig signal i noen retning. Den alternative hypotesen H 1 er ofte den vi håper eller prøver åvise.vikansiatvikonkluderer med H 1 hvis dataene viser at H 0 med stor sannsynlighet er usann Signifikansnivå ogteststyrke På grunn av usikkerheten knyttet til tilfeldig variasjon er det alltid en fare for at vi konkluderer feil, og kan sette opp dette i følgende tabell: Virkelighet H 0 sann H 1 sann Testresultat H 0 sann OK Type II feil H 1 sann Type I feil OK Det er Type I feil som først bringes under kontroll. Sannsynligheten for å gjøre denne (hvis H 0 er sann) er signifikansnivået α som velges som en liten sannsylighet. Ofte α =0.05 = 5%, eller α =0.01 = 1%. Hvis H 0 faktisk er sann, ønsker vi selvfølgelig at det skal bli testens konklusjon. Sannsynligheten for dette, altsåå ikke gjøre Type II feil, kalles teststyrken. Teststyrken avhenger selvfølgelig av størrelsen på parametrene (hvor langt fra H 0 virkeligheten er), men også på typen test. Konstruksjonen av tester, og valg mellom alternative tester, er oftest motivert av ønske om stor teststyrke. Hvis vi for eksempel har valget mellom en parametrisk metode (f.eks ANOVA eller T-test) og en ikke parametrisk metode gir den parametriske metoden vanligvis størst teststyrke, og foretrekkes om mulig. Problemet er at dataene kan være fordelt svært forskjellig fra (normal)fordelingen som ligger til grunn for de parametriske metodene. Da er selvfølgelig ikke resultater fra de parametriske metodene gyldige, selv om disse metodene er robuste mot moderate avvik fra (normal)fordelingsantagelsen.

7 1.4. RELIABILITET OG VALIDITET p verdi Istedenforå angi signifikansnivået angis ofte p verdien. Dette er det minste signifikansnivået α vi kan velge, og likevel konkludere med H 1 med de foreliggende data. Hvis p verdien er mindre eller lik 0.05, betyr det at vi kan konkludere med H 1 hvis vi har valgt α =5%.IsåfallsierviofteatH 1 er signifikant. Hvis p verdien er mindre eller lik 0.01, betyr det at vi kan konkludere med H 1 hvis vi har valgt α =1%.IsåfallsierviofteatH 1 er meget signifikant. I dataprogrammer er det ofte p verdien som returneres som testresultat. 1.4 Reliabilitet og validitet Reliabilitet (pålitelighet): Kan resultatet gjenskapes ved å bruke tilsvarende metoder på tilsvarende populasjon? Validitet (gyldighet): Måler vi egentlig det vi ønsker å måle? Begrepene omtales primært i andre deler av kursene. For å sjekke om disse kriteriene er oppfylt statistisk, må vihanoeå sammenlikne med. For eksempel kan vi sammenlikne om resultatene fra to forskjellige undersøkelser viser det samme. Indre sammenheng, for eksempel at et spørreskjema gir samme resultat om vi spør om (nesten) det samme på tomåter- er resultatene like? Kanskje er vi så heldigeå ha testsituasjoner, der vi kjenner virkeligheten, å prøve ut våre metoder på. I alle situasjoner trenger vi statistiske metoder til å sammenlikne resultater. 1.5 Datatyper og modeller Kategoriske data (Nominal scale): For eksempel Gul, Rød, Grønn som mulige svaralternativer i en spørreundersøkelse (om foretrukket farge på et produkt. De har (normalt) ingen rekkefølge, det er meningsløst å si at Rød er mellom Gul og Grønn (selv om man f.eks koder dem som henholdsvis 1, 2 og 3). Ordnede data (Ordinal scale): For eksempel svaralternativene Meget god, God, Middels, Dårlig, Meget dårlig. Det er opplagt en naturlig rekkefølge, men det er neppe riktig å si at det er like langt fra God til Dårlig som det er fra Middels til Meget dårlig. Et annet eksempel er det nye karaktersystemmet med bokstavkarakterene A, B, C, D, E og F. Hvis en sluttkarakter skal settes på basis av tre (like mye vektlagte) delkarakterer, der resultatet er to B er og en D har man et problem. Hva er gjennomsnittet av dette? B eller C? Intervalldata (Interval scale): Ordnede data der også avstanden gir mening. For eksempel det gamle karaktersystemet med tallkarakterer. Det er ingen kunst å bli enige om at delkarakterene 1.6, 1.9 og3.1 gir gjennomsnittskarakteren 2.2. Forholdsdata (Ratio data): Intervalldata der alle de fire regningsartene gir fornuftig mening. For ordnede (intervall- og forholds-) data skiller vi mellom diskrete data og kontinuerlige data. Diskrete data er for eksempel antall (heltall). Kontinuerlige data er i prinsippet reelle tall (desimaltall), men brukes gjerne også på diskrete data når det trengs et relativt stort antall verdier for å dekke opp de mulighetene som dekker opp hovedelen av den samlede sannsynligheten (eller det naturlige variasjonsområdet for dataene).

8 8 KAPITTEL 1. INNLEDNING De statistiske metodene som kan brukes avhenger av datatypene. Det beste er som regel om vi har kontinuerlige data. Da er det ofte uproblematisk å anta normalfordeling (hvis ikke datasettet er påfallende skjevt), og bruke metodene basert på dette. På grunn av sentralgrenseteoremet kan disse metodene ofte brukes også på diskrete data, hvis antall datapunkter er relativt stort, og antall mulige verdier ikke er svært lite. Går vi lenger oppover på lista blir det mer og mer tvilsomt å bruke disse metodene. For ordnede data (som ikke er intervalldata) brukes gjerne ikke parametriske metoder. Kategoriske data er enda vanskeligere, men ved å gå over til antall (antall respondenter som foretrekker Rød ) har vi visse metoder til disposisjon (for eksempel χ 2 tester).

9 Kapittel 2 KRYSSTABELLER Excelfil til dette kapitlet: Krysstab.xls Krysstabeller og χ 2 tester er behandlet i Løvås: Statistikk, kapittel (og 8.5.2). 2.1 Krysstabeller og kjikvadrattester Krysstabeller Krysstabeller (contingency tables påengelsk)brukesforåsepå sammenhengen mellom egenskaper, ofte kategoriske, for eksempel svaralternativer i et spørreskjema. Vi skal bruke et eksempel fra en virkelig undersøkelse. Eksemplet er nok ikke direkte relevant for studiet i informasjonssikkerhet, men måten å sammenlikne svar fra spørreskjemaer kan lett tilpasses mange situasjoner. Foruten å undersøkesammenhenger mellom egenskaper brukesdenne teknikken også forå undersøke den indre sammenhengen i svaralternativene (jfr. reliabilitet og validitet): Det stilles ofte spørsmål som egentlig er nesten like, men med litt forskjellig ordlyd og på forskjellige steder i skjemaet. Hvis det er god sammenheng mellom disse svarene, styrker det tiltroen til kvaliteten på svarene i sin helhet. Hvis det er dårlig sammenheng har respondentene enten ikke forstått spørsmålene slik vi har tenkt, eller de har ikke lagt noen energi i å gi presisie svar. I eksemplet tar vi svar fra to (av mange) spørsmål som var: Hvilket kjønn er du?, med alternativene Mann og Kvinne, og Hvordan ser du på nytten av dataprogrammer for matematikk i studiesituasjonen?, med svaralternativene Bortkastet tid, Unyttig, Nyttig og Meget nyttig (som her skal forkortes til henholdsvis B, U, N og M). Disse er fra en spørreundersøkelse blant ingeniørstudenter i Av 1779 svar var det 300 som hadde svart blankt eller ubrukelig på et eller begge spørsmålene, og disse er ikke regnet med. For de resterende 1449 svarene er resultatet satt opp i en krysstabell. Hvis et svarskjema f.eks. har avkrysset for Mann og Meget nyttig er dette registrert som en av de251ifeltetøversttilvenstre. I høyre marg og bunnmargen summeres henholdsvis radene og kolonnene. I disse sumkolonnene får vi resultatene fra enkeltspørsmålene alene (blant de 1479 som er talt med her). I nedre venstre hjørne får vi det totale antall svar (enten ved å summere raden eller kolonne tallet ligger i): 1 Publisert i artikkelen Hornæs og Røyrvik: Gender, Aptitude, and Computer Algebra Systems, Journal of Engineering Education, July

10 10 KAPITTEL 2. KRYSSTABELLER Meget nyttig Nyttig Unyttig Bortkastet tid Total Mann Kvinne Totalt Det er ikke vesentlig hvilke av spørsmålene som er plassert i radene, og hvilket i kolonnene. Det er heller ikke vesentlig at det bare er to rader, det kan være hvilket som helst antall ( 2) rader og kolonner Uavhengighet og uavhengighetstabeller Det man gjerne vil undersøke med slike tabeller er om det er noen sammenheng mellom svarene pådetospørsmålene. I dette tilfellet betyr det om det er noen forskjell på holdninger til bruk av dataverktøy i matematikk mellom de to kjønnene. Det vil være hypotesen, H 1 vi ønsket 2 åvise. Nullhypotesen H 0 er da at det er uavhengighet mellom svarene. I så fallvilviforventeå finne omtrent samme fordeling av svarene på spørmålet om nytte blant kvinner og menn. Vi tar som eksempel tar utganspunkt i feltet øverst til venstre, Mann og Meget nyttig : Den totale andelen som svarer Meget nyttig er 277/1479, som vi finnerved å dividere sumkolonnen for Meget nyttig med det totale antall svar. Hvis denne andelen var lik for begge kjønn ville antall menn som svarte meget nyttig være samme 277 andel av totalt antall menn, det vil si = 235, 0. Dette kaller vi forventet antall i dette feltet. På grunn av tilfeldig variasjon trur vi ikke antallet blir nøyaktig dette selv om det er uavhengighet, men hvis avviket er for stort (alle feltene sett samlet) vil vi konkludere med avhengighet. Forventet antall ved uavhengighet regner vi så utmed: Mann Meget nyttig Nyttig Unyttig Bortkastet tid Total Kvinne Totalt Dette gir sammenregnet (og der vi bare tar med det indre av tabellen) Forventningstabellen: I Excel regnes ikke denne ut automatisk, slik at man er nødt til å lage denne tabellen manuelt. Med litt trening går det raskt ved hjelp av litt drakopiering og bruk av $-tegn foran de referansene som ikke skal endres i takt med i drakopieringa. 2 Dette betyr ikke at vi ønsket at det skulle være forskjell, men det er greit å dokumentere om den eventuelle forskjellen er der, for eksempel med tanke på om vi skal bruke ressurser på kjønnsbestemte tiltak. Dessuten vil resultatet være med å bygge opp under en mer generell teori om kjønnsforskjeller i holdninger både til matematikk og data. Svaret er i utgangspunktet ikke opplagt, da dette er kvinner som i utgangspunktet har valgt ingeniørutdanning, og dermed ikke i utgangspunktet er blant de med dårlig forhold til realfag.

11 2.1. KRYSSTABELLER OG KJIKVADRATTESTER Kjikvadrattest For å avgjøre om det indre av den faktisk observerte tabellen avviker mer fra denne forventningstabellen enn det som kan tilskrives naturlig tilfeldig variasjon brukes en χ 2 test for (u)avhengighet. Denne testen baserer seg på en fordeling som kalles χ 2 fordeling, der den greske bokstaven χ leses Kji. Denne fordelingen er fordelingen til summen av kvadratene av uavhengige standard normalfordelte variable. Det ligger altså en tilnærming til normalfordeling og lurer et sted her. For at denne tilnærminga skal være akseptabelt god må det være et visst minste antall observasjoner ifeltene. Tommelfingerregelen er at det må være minst 5 i hvert felt i forventningstabellen. Det er godt oppfyllt i eksemplet da den minste verdien er Er dette ikke oppfylt kan det (kanskje) hjelpe å slå sammen noen (nabo) kolonner eller rader, men det trengs jo et visst omfang på datasettet i utgangspunktet. Litt om mekanismen i kjikvadrattesten I feltet øverst til venstre er antallet observasjoner 251, mens forventet antall observasjoner, forutsatt uavhengighet, er tallet Ved å ta kvadratet av avstanden, ( ) 2, oppnår vi for det første at det sikkert blir positivt (så positive og negative bidrag ikke nuller hverandre ut), og også å forsterke virkningen av store og redusere virkningen av små avvik. Vi normaliserer så dette tallet ved å dividere med forventet antall, til ( ) 2 /235.0 = Dette er et slags mål for avviket i dette feltet, og er også tilnærmet en tilfeldig verdi fra en standard normalfordeling, kvadrert, hvis H 0 er sann. Som testobesrvator brukes så summen av verdiene av disse verdiene for alle feltene, og dette tallet kalles q (for kvadratsum). Denne (kan det da vises) har tilnærmet χ 2 fordeling med (2 1)(4 1) = 3 frihetsgrader (antall rader minus 1 multiplisert med antall kolonner minus 1) hvis H 0 er sann. Hvis det er uavhengighet blir ikke q såstor,såviforkasterh 0 hvis q er stor. Grensen for hva som er stort kan vi finne i en χ 2 -tabell (som finnes i dette notatet). Velger vi signifikansnivå α = 5% finner vi kritisk verdi 7, 82 i tabellen, med α = 1% finner vi kritisk verdi 11, 34. I dette tilfellet kan vi regne ut ( )2 q = som langt overskrider de kritiske verdiene. + + ( ) =29.6, Konklusjon: Vi forkaster H 0 (uavhengighet) og godtar H 1, avhengighet. Dataene viser klart et det er kjønnsforskjeller blant ingeniørstudente i holdningen til dataprogrammer for matematikk. Kjikvadrattest i praktiske anvendelser. De tekniske detaljene er ferdig programmert i Excel, og andre programmer med brukbart utvalg av statistikkfunksjoner. Det er dermed ikke nødvendig åvitesåmyeomχ 2 fordeling, utregning av q og kritiske verdier for å gjennomføre dette. Det som trengs er å kunne sette opp dataene i en krysstabell. I Excel må man også kunne sette opp uavhengighetstabellen

12 12 KAPITTEL 2. KRYSSTABELLER I forelesningen og på regnearket er fokus på denne praktiske gjennomføringen (mens vi her har med litt mer bakgrunnsstoff).

13 Kapittel 3 Variansanalyse Excelfil til dette kapitlet: ANOVA.xls Excelfil til dette kapitlet: Krysstab.xls ANOVA er behandlet i Løvås: Statistikk, kapittel Litt om ANOVA generelt Variansanalyse er en familie tester som på engelsk heter ANalysiz Of VAriance, der den rotete bruken av store bokstaver viser bakgrunnen for standardforkortelsen ANOVA. ANOVA er svært mye brukt, og H 1 er i utgangspunktet om det er forskjeller på forventningsverdiene på forskjellige naturlige undergrupper av datasettet. Dette kan ofte indirekte være det samme som å spørre om gruppene er like. Vi kan også undersøke samvariasjon mellom grupper med ANOVA. Vi deler ofte inn ANOVA i enveis, toveis og k faktor analyse, og skal se litt på disse etter tur Modellforutsetninger generelt Variansanalysen bygger på at alle dataene er uavhengige observasjoner fra normalfordelinger N(µ g,σ). Standardavviket σ er det samme over alt. Forventningsverdien µ g varierer muligens mellom gruppene, det er det H 1 hevder. I praksis er metodene nokså robust for moderate avvik fra normalfordelingsantagelsen. Her, som ellers, er tankegangen ofte: Er det noen god grunn til at dataene ikke stammer fra noe som er tilnærmet normalfordelt. Hvis det er intervalldata er det ofte ikke noe problem, mens man må være mer kritisk hvis det bare er ordnede data. Det samme gjelder kravet om felles standardavvik. Er det god grunn (fra situasjonen, eller ved å se på dataene) til å tru at det er påfallende stor forskjell på spredningen i gruppene må vi være forsiktige, men som regel er dette i orden i tilstrekkelig grad Varians og kvadratsummer I en normalfordeling er variansen σ 2. Fra et sett med y 1,y 2,...,y n av n uavhengige observasjoner fra en N(µ g,σ)- fordeling estimeres (anslås) forventningsverdien µ g med gjennomsnittet y: y = 1 n n y i = y 1 + y y n n 13

14 14 KAPITTEL 3. VARIANSANALYSE Variansen σ 2 estimeres ut fra følgende formel: S 2 = 1 n 1 n (y i y) 2 = (y 1 y) 2 +(y 2 y) 2 + +(y n y) 2 n 1 Telleren n (y i y)) 2 kalles kvadratsummen for gruppen. Den betegnes ofte SS, eller SS g hvis vi skal ha med en henvisning til hvilken gruppe det er snakk om. På norsk brukes også SK istedendfor SS, blant annet i Excel. I ANOVA, der vi har flere grupper, brukes mange kvadratsummer, der vi får litt varianter ved at gjennomsnittet y kan variere (om det er for gruppen eller tallmaterialet som helhet), og der y i ene noen steder erstattes med gjennomsnitt for gruppene. Et ledd (y i y) 2 gir den kvadratiske avstanden fra gjennomsnittsverdien (sentum i tallmaterialet), så litt forenklet kan vi si variansestimatet gir gjennomsnittlig kvadratisk avstand fra sentrum i tallmaterialet, og er således naturlig er uttrykk for spredningen. Som spredningsmål brukes ofte standardavviket, kvadratroten av variansen, men i variansanalyse forholder vi oss til variansene. Kvadratsummene er dermed også indirekte et uttrykk for hvor stor spredning det er på tallmaterialet. Hvis x 1,x 2,...,x m er et annet tallmateriale uavhengig av det første, men fra en normalfordeling med samme σ, har forholdet mellom det to variansestimatene en fordeling som kalles Fishers F fordeling med n og m frihetsgrader. I variansanalyse er det forhold mellom varianser som er testobservatorene (gjerne kalt F ), og det er tabeller eller dataprogram for denne fordelingen som ligger til grunn for kritiske verdier. Generelt forkaster vi H 0 når F er stor. I toveis og k faktor analyse forekommer flere slike F er Noen notasjoner I ANOVA er dataene organisert i flere grupper, og når de beskrives generelt har veridene to eller flere indekser. For eksempel vil y 3,5 betegne 5. observasjon i 3. gruppe i en enveis variansanalyse. I toveis variansanalyse kan en observasjon f.eks. betegnes y 2,3,5,5.observasjoni2.gruppeog3. blokk. Vi skal danne forskjellige summer og gjennomsnitt basert på denne gruppe/blokk inndelingen. En notasjon som da brukes er at hvis en indeks erstattes med en prikk, er dette summen av alle verdiene vi får ved å gi prikken alle mulige verdier, og tilsvarende med gjennomsnitt. For eksempel er y 3, summen av alle verdiene med 3. i første indeks, det vil si alle verdiene i 3. gruppe. y 3, er gjennomsnittet av disse verdiene. y, og y, blir da summen og gjennomsnittet av alle verdiene. 3.2 Enveis variansanalyse Datastuktur og modellforutsetninger I enveis variansanalyse er dataene sortert i forskjellige grupper, som representerer stikkprøver fra forskjellige populasjoner (for eksempel under forskjellige sikkerhetstiltak, der alle dataene for en type sikkerhetstiltak er en gruppe). I enveis variansanalyse behøver det ikke være like mange observasjoner i hver gruppe.

15 3.2. ENVEIS VARIANSANALYSE 15 Dette kan settes opp i følgende tabell, der jeg i margene også har angitt notasjonen for gjennomsnittene: Observasjoner Snitt Gruppe 1 y 11 y y 1n1 y 1 Gruppe 2 y 21 y y 2n2 y 2. Gruppe r y r1 y r2... y rnr y r Totalt y Det som her er skrevet som rader (i Excel eksemplene er de organisert i kolonner) er gruppene. Modellantagelsen er at alle dataene er uavhengige og normalfordelte, med samme varians σ 2. Dermed er alle dataene fra første gruppe en N(µ 1,σ) fordeling, alle dataene fra andre gruppe en N(µ 2,σ), og generelt alle dataene fra gruppe nummer g en N(µ g,σ) fordeling. Nullhypotesen er at alle de r gruppene er like (det vil si har samme forventningsverdi): H 0 : µ 1 = µ 2 = = µ r Den alternative hypotesen H 1 er at det er forskjell på gruppene, ihvertfall er minst en av dem forskjellige fra andre. I praktiske anvendelser er vi ikke altfor kritiske til disse antagelsene, men det må værenoei nærheten av situasjonen. Hvis det er tydelig at dataene er påfallende skjevfordelte (enkeltdata langt ut på den ene siden av haugen med data), eller det er påfallende stor forskjell på spredningen mellom gruppene bør vi være litt kritiske til bruk av metoden. (Hva vi da må gjøre tar vi ikke opp her). Noe annet som gjør at vi ikke bør bruke ANOVA er om dataene er svært langt fra forholdstall, for eksempel hvis alle dataene er relativt små heltall. I det siste tilfellet må vi antagelig ty til ikke parametriske metoder (f.eks. Kruskal-Wallis test, se Løvås kap ) ANOVAtabeller Resultatet av en variansanalyse opsummeres i et nokså standarisert oppsett som kalles ANOVAtabell. I Excel produseres disse ved kommandoen verktøy->dataanalyse-> Varaiansanalyse: en faktor. For enveis variansanalyse i EXCEL ser ANOVA-tabellen slik ut, der det med fet skrift er teksten i Excel, mens resten er formler for tall som framkommer i tabellen. Variasjonskilde SK fg GK F P-verdi F-krit Mellom grupper SS G fg G = g 1 GK G = SS G /fg G GK G /GK E p k Innenfor grupper SS E fg E = n g GK E = SS E /fg E Totalt SS T fg T = n 1 Forklaring, rad- og kolonneetiketter: SK : Kvadratsum fg : Frihetsgrader GK : Gjennomsnittlig kvadratsum. kvadratsum / frihetsgrader. F : Testobservator F er observasjon fra Fisher-fordeling hvis H 0 er sann.

16 16 KAPITTEL 3. VARIANSANALYSE P-verdi : p verdi. F-krit : Kritisk verdi for F for valgt signifikansnivå, forkast H 0 om F F-krit. Mellom grupper : Variasjonen mellom gruppene. Innenfor Grupper : Variasjonen innenfor gruppene, det vil si den tilfeldige (uforklarte) variasjonen. Kalles også residual, påengelskofteerror (derav forkortelsen E i indeksene). Totalt : Den totale variasjone, hele tallmaterialet sett som en enkelt tallserie. Forklaring, formler i ANOVA-tabellen : g SS G : Kvadratsum mellom grupper, (y i y ) 2 fg G : Frihetsgrader mellom grupper, antall grupper g minus 1. GK G : Variansen om vi ser på deg gruppegjennomsnittene som g enkeltobesrvasjoner. F :GK G /GK S, variasjon mellom grupper/tilfeldig variasjon. Testobservator som vanligvis blir liten om gruppene er like, stor om gruppene har forskjellig forventningsverdi. p : p verdi. Om p<0.05 kan H 0 forkastes med α = 5%, signifikant forskjell på gruppene. Om p<0.01 kan også H 0 forkastes med α = 1%, meget signifikant forskjell på gruppene. Det er nok p verdien som er det viktigte tallet i ANOVA-tabellen. k : Kritisk verdi (som også kan finnes i Fisher-tabellen bakerst i heftet, med fg G og fg E frihetsgrader). g n g SS E : Kvadratsum innen grupper, (y ij y i ) 2. j=1 Det vil si kvadratasummen for alle dataene, der det er gjennomsnittsverdien i den gruppen datapunktet tilhører som subtraheres. Kan også (enklere) regnes ut som SS E = SS T SS G fg E : Frihetsgrader til Innen grupper, Antal observasjoner totalt minus antall grupper, men også fg E = fg T fg G. GK E : Estimat av variansen σ 2, det vil si den tilfeldige variasjonen i tallmaterialet. I andre varianter av ANOVA (tofaktor og k faktor) er det flere rader. Innen grupper er alltid nest nederste rad, og GK E er alltid det vi dividerer de andre GK ene med for åfå F observatorene. g n g SS T : Total kvadratsum. (y ij y ) 2. j=1 Telleren i variansen om vi betrakter hele datasettet som et enkelt sett med verdier. Hvis H 0 er sann er også SS T /(n 1) et estimat av σ 2, mens den øker i forhold til σ 2 når forskjellene mellom gruppene øker (H 1 er sann). fg T Totalt antall frihetsgrader, antall observasjoner totalt minus 1. Merk at SS G + SS E = SS T og gf G + fg E = fg T, for disse to kolonnene er nederste rad summen av de to over. I alle varianter av variansanalyse (dvs. også toveis- og k-faktor) regnes Totalt ut etter samme formelen, og blir også summen av alle frihetsgrader og kvadratsummer over Ideene med ANOVA Hvis H 0 er sann er tallene som om alle dataene er fra samme N(µ, σ) fordeling. Gjennomsnittene til høyre i tabellen over er estimater av henholdsvis µ 1,µ 2,...,µ r og µ. Hvis H 0 er sann blir de dermed nokså like. Problemet (som ANOVA løser) er imidlertid åavgjøreomde ikke er mer forskjellige enn det vi kan forklare med tilfeldig variasjon (H 0 ), eller om de er så forskjellige at vi med god grunn kan slutte at det isteden er H 1 som er sann.

17 3.3. TOVEIS VARIANSANALYSE 17 Vi kan estimere σ 2 ved å regne ut variansen i hver enkelt gruppe, eller (bedre) ved å ta et (passende veid) gjennomsnitt av disse. Dette gjelder enten H 0 eller H 1 er sann,og det er denne variansen som kalles GK innenfor grupper i ANOVA tabellene i Excel. GK innenfor grupper er således et uttrykk for den tilfeldige variasjonen (støyen) som ligger i tallmaterialet. Hvis H 0 er sann kan vi også estimereσ 2 ved å beregne variansen som om alle dataene er er en lang serie med tall (med gjennomsnitt y ). Telleren i dette variansestimatet er tallet for SK totalt i ANOVA tabellen i Excel. Dividerer vi dette med antall frihetsgrader (fg) får vi variansestimetat, som er i nærheten av GK innefor grupper hvis H 0 er sann. Hvis H 1 er sann vil imidlertid verdiene ligger relativt mye lenger unna det totale gjennomsnittet enn gruppegjennomsnittet, og variansestimatet basert på hele tallmaterialet vil bli (betydelig) større enn det basert på gjennomsnittet av variansene i gruppene. Det kommer imidlertid en kvadratsum til inn i bildet, nemlig den vi får om vi betrakter gruppegjennomsnittene som et eget sett med datapunkter. Dette er et uttrykk for variasjonen mellom gruppene. Er denne stor, i forhold til den tilfeldige variasjonen, støtter dette H 1. Denne kvadratsummen kalles SK mellom grupper, og variansestimatet GK mellom grupper. Det som er testobservatoren F er GK mellom grupper dividert med GK innen grupper. Denne har en Fisher-fordeling (om H 0 er sann). Er denne stor er det stor variasjon mellom gruppene i forhold til den tilfeldige variasjonen uttrykt ved variasjonen innen gruppene, og vi konkluderer med H 0. For ordens skylde: Det ligger en ordentlig matematisk teori til grunn for dette, det som er sagt her er bare en litt uformell og intuitiv forståelse av denne matematiske teorien Kvadratsummer og frihetsgrader Kvadratsummene har den (ikke trivielle egenskapen) at summen av kvadratsummene innen gruppene og og mellom gruppene er den totale kvadratsummen. I ANOVA-tabellen betyr det at SK totalt er summen av alle SK-ene over. Dette er en generell egenskap for alle typer ANOVA. Tallet vi dividerer kvadratsummene med for åfå variansestimatene kalles frihetsgrader. De inngår som parametre i F fordelingen. Disse har også den egenskapen at de summeres til det totale antall frihetsgrader, som er totalt antall observasjoner minus 1. For Mellom grupper er frihetsgraden antall grupper minus 1. Innen hver grupper er dette antall observasjoner innen gruppen minus 1, og for Innen grupper er antall frihetsgrader summen av antall frihetsgrader innen alle gruppene. Det er en fordel åhaså mange frihetsgrader som mulig innen gruppene, da flere frihetsgrader gir oss bedre kontroll på støyen og øker teststyrken. I enveis variansanalyse er dette det samme som å si at det er en fordel med så mange observasjoner som mulig. I andre varianter av variansanalyse (k faktor analyse) har dette også betydning for hvor mange delspørsmål vi kan besvare fra datasettet. Flere undergrupper koster frihetsgrader, det blir færre igjen til Innen grupper, og dårligere teststyrke (hvis vi ikke får det igjen av andre årsaker). Det er ihvertfall en øvre grense på at antall frihetsgrader mellom undergruppene ikke kan overstige det totale antall frihetsgrader (og det må være minst en, helst en del flere, igjen til Innen grupper ) 3.3 Toveis variansanalyse I toveis variansanalyse er dataene gruppert etter to kriterier som kalles Grupper og Blokker. Alle dataene som tilhører samme gruppe og blokk kalles et Felt. Itoveis(ogk-faktor) analyse må det være like mange observasjoner i hvert felt. Det er ofte bare en observasjon i hvert felt. Dette må man tenke på allerede før man starter datainnsamlingen! Hvis ikke risikerer man å sitte med mange ubrukelige data, en ikke helt uvanlig situasjon. Datastrukturen (hvis det er to observasjoner i hvert felt, for å spare litt på prikker og indekser i tabellen):

18 18 KAPITTEL 3. VARIANSANALYSE Grupper Blokker B1 B1 B s Grupper G1 y 111,y 112 y 121,y y 1s1,y 1s2 y 1 G2 y 211,y 212 y 221,y y 2s1,y 1s2 y 2.. G r y r11,y r12 y r21,y r22... y rs1,y rs2 y r Blokker y 1 y 2 y s y Modellantagelsene som for enveis variansanalyse. Hvis vi ignorerer blokkene og utfører enveis ANOVA på dataene vil variasjon mellom blokkene inngå i Innen grupper, altså støyen eller den tyilfeldige variasjonen. Det kalles da også Uforklart variasjon. Hvis det er en forskjell på blokkene vil dette medføre mindre teststyrke enn ved enveis ANOVA. Kvadratsum og frihetsgrader for Mellom grupper og Totalt er den samme om vi bruker enveis eller toveis ANOVA. Vi får en kvadratsum for Mellom blokker, som taes ut fra Innen grupper i forhold til enveis ANOVA. Dermed får vi mindre støy, og større teststyrke. Hvis det ikke er noen forskjell mellom blokkene øker ikke dette teststyrken. Tvert imot, siden det koster frihetsgrader. I tillegg får vi muligheten til å utføre en selvstendig test på om blokkene er forskjellige (hvis vi ønsker dette). Vi kan også få en test på samvariasjon mellom blokker og grupper. Dette krever mer enn et datapunkt i hvert felt, og koster frihetsgrader k faktor variansanalyse Fellesnavn på Blokker og Grupper er Faktorer. Dette er altså to faktorer(som gjør at vi kaller det toveis variansanalyse). Dette kan utvides til vilkårlig antall faktorer, såkalt k faktor analyse. I k faktor analyse kan mange samvirkninger også undersøkes, men det koster frihetsgrader (og vi kan risikere å ønske å ha med flere kombinasjoner enn det finnes frihetsgrader til). I oppgaven på side 29 er det eteksempel med en ANOVA-tabell på 4 faktor analyse. Det er mulig å lage forsøksoppsett der det ikke samles data innen alle mulige kombinasjoner av faktorene (fraksjonelle forsøk), men det må skje etter bestemte mønstre. Undersøk derfor om dette før du begynner med datainnsamlingen hvis det er aktuelt. I Excel er det ingen kommando for automatisk k faktor analyse. Med litt manuell hjelp, enveis variansanalyse og kunnskap om hvordan ANOVA-tabeller bygges opp er det mulig å få til k faktor ANOVA-tabeller i Excel med litt mer arbeid. Jeg vil likevel tru at om du trenger k faktor analyse er det på tideå vurdere en annen programpakke. Vi tar ikke med flere detaljer om dette her. Det står bl.a. litt om k faktor analyse i boka Montgomery, Runger, Hubele: Engineering Statistics.

19 Kapittel 4 REGRESJON OG KORRELASJON Excelfil til dette kapitlet: korr-reg.xls Regresjon og korrelasjon er behandlet i Løvås: Statistikk, kapittel 7.2, 7.3og Korrelasjon Situasjonen i dette kapitlet er at vi har n observasjoner av par, { (x 1,y 1 ), (x 2,y 2 ),..., (x n,y n ) } Vi er interessert i om det er noen sammenheng mellom x i ene og y i ene, spesielt om det er en tilnærmet lineær sammenheng y i = a + bx i. Korrelasjonen r er et mål for hvor god en lineære sammenhengen er. Formelen for å regne ut korrelsasjonen er n r = ( x i x )(y i y ) n ( x i x ) 2 n ( y i y ) 2 Vi har alltid 1 r 1. Hvis det er perfekt lineær sammenheng, dvs. hvis det finnes konstanter a og b slik at y i = a + bx i for alle i, er r =1,medr =1hvisa>0 (positiv korrelasjon, store x er går sammen med store y er) og r = 1 hvis a<0 (negativ korrelasjon, store x er går sammen med små y er). Hvis r 1 er det nesten lineær sammenheng, hvis r 0 er det liten eller ingen lineær sammenheng (i praksis som oftest uavhengighet). Korrelasjonen brukes ofte beskrivende, man angir r som et mål for sammenheng uten å gjøre noen formell hypotesetest. Det er da i stor grad en erfaringssak åseom r er stor nok til at det faktisk indikerer en sammenheng, og ikke bare er snakk om tilfeldige avvik fra r =0. Dataene bør helst være intervalldata, men kan nok gi en viss indikasjon på om det er sammenheng eller ikke bare dataene er ordent. Det bør nok være litt fler enn bare 2 mulige verdier på x ene ellere y ene (som f.eks. i koding av Ja og Nei ). I en flerdelt skala, f.eks. fra svært uenig til svært enig har vi ordnede data, men ikke intervalldata. Korrelasjonen kan gi en pekepinn om sammenhengen, men bør brukes med en viss skepsis og forbehold. For at vi skal kunne bruke r mer formelt (hypotesetesting) må vi legge en modell til grunn. Den mest vanlige er binormal modell. Kritiske verdier som stammer fra denne kan nok være en pekepinn på hva som er tilfeldig variasjon fra 0 og hva som er reell sammenheng i andre situasjoner også, så jeg tar med litt om denne: 19

20 20 KAPITTEL 4. REGRESJON OG KORRELASJON Binormal modell Kritiske verdier for r ibinormalmodell I binormal modell kan vi sette opp hypotesene H 0 : Korrelasjonen ρ = 0, det vil si uavhengighet. H 1 : Korrelasjonen ρ 0, det vil si avhengighet. Alternativt kan vi ha ensidige tester med H 1 : ρ>0 eller H 1 : ρ<0. Som testobservator brukes empirisk korrelasjon r. Kritiske verdier for r kan da regnes ut for forskjellige verdier av n, og forskjellige signifikansnivåer. I de ensidige testene, der H 1 : ρ>0forkastervih 0, dvs. konkluderer med uavhengighet, om r er større enn den kritiske verdien (eller mindre enn denne med motsatt fortegn, om vi tester ha H 1 : ρ<0). Vi bruker da vanligvis α = 5% eller α =1%. For de tosidige testene, der vi ikke gjør oss opp noen mening på forhånd om i hvilken retning eventuell samvariasjon er bruker vi α = 2.5% for signifikansnivå 5%, og0.5% for signifikansnivå 1%. Daforkastervi H 0 om absoluttverdien r er større enn den kritiske verdien. Litt om den binormale modellen Ensidig Tosidig n 5% 1% 2.5% 0.5% 5 0, 81 0, 93 0, 88 0, , 55 0, 72 0, 63 0, , 38 0, 52 0, 44 0, , 28 0, 39 0, 33 0, , 24 0, 33 0, 28 0, , 19 0, 27 0, 23 0, , 17 0, 23 0, 20 0, , 13 0, 19 0, 16 0, , 12 0, 16 0, 14 0, , 07 0, 10 0, 09 0, , 05 0, 07 0, 06 0, 08 I en binormal modell tenker vi oss x i ene som uavhengige observasjoner fra en stokastisk variabel X i med N(µ x,σ x ) fordeling, og y i ene som uavhengige observasjoner fra en stokastisk variabel Y i med N(µ y,σ y ) fordeling. Disse er ikke nødvendigvis uavhengige, men henger sammen etter følgende likning, der Z er uavhengig av X og har N(0, 1) fordeling, og den teoretiske korrelasjonen ρ er et tall mellom 1og 1: Dette kan omskrives til Y i µ y σ y = ρ X i µ x σ x + 1 ρ 2 Z Y i = µ yσ x ρµ x σ y + ρσ y X i + σ y 1 ρ2 Z σ x DettegirenlineærsammehengY i = α + βx i + e i mellom X og Y,vedålaα være den første brøken, β den andre brøken. Det siste leddet gir den tilfeldige variasjonen e i (avviket fra den rette linja). Utregning av regresjonskoeffisientene i denne modellen er da estimater for α og β, mens korrelasjonen r er estimat av ρ. I denne modellen har vi en direkte tolkning av ρ som hvor stor del av Y som kommer fra X, oghvorstor del som (gjennom Z leddet) er uavhengig av X. Vedå erstatte Y i med y og X i med x, og se bort fra leddet med Z, får vi den teoretiske regresjonslinja i denne modellen. I binormal modell er uavhengighet ekvivalent med ρ = 0, og nullhypotesen H 0 : ρ =0kantestesvia n 2r t = 1 r 2 som kan betraktes som trekk fra en stokastisk variabel med Students T fordeling med n 2 frihetsgrader. Dette fordelingsresultatet er brukt til å produsere tabellen over kritiske verdier (ved hjelp av dataprogrammet Maple). σ x

Vise mer