HYPOTESETESTING for mastergradsstudium i informasjonssikkerhet

Størrelse: px
Begynne med side:

Download "HYPOTESETESTING for mastergradsstudium i informasjonssikkerhet"

Transkript

1 HYPOTESETESTING for mastergradsstudium i informasjonssikkerhet Hans Petter Hornæs E-post: hansh@hig.no Høgskolen i Gjøvik. Versjon per Dette er notater, oppgaver og formelsamling til støtte for et kortkurs i statistikk innenfor faget IMT5011 Sikkerhetsmetrikker på mastergradsstudiet i informasjonssikkerhet ved Høgskolen i Gjøvik 5. november For ordens skyld: Se på dette notatet som litt uformelle forelesningsnotater. Det er litt hastverkspreget, halvferdig og mangelfult, og sikkert fullt av skrivefeil. Notatet er på ingen måte så gjennomarbeidet at det erstatter eller fortjener å bli sammenliknet med en ordentlig lærebok.

2 Innhold 1 INNLEDNING Litteratur og dataprogram Annen litteratur Andre dataprogrammer Målsetting og metode T ilbakemelding Hypotesetesting Hypoteser Signifikansnivå og teststyrke p verdi Reliabilitet og validitet Datatyper og modeller KRYSSTABELLER Krysstabeller og kjikvadrattester Krysstabeller Uavhengighet og uavhengighetstabeller Kjikvadrattest Variansanalyse Litt om ANOVA generelt Modellforutsetninger generelt Varians og kvadratsummer Noen notasjoner Enveis variansanalyse Datastuktur og modellforutsetninger ANOVAtabeller Ideene med ANOVA Kvadratsummer og frihetsgrader T oveis variansanalyse k faktor variansanalyse REGRESJON OG KORRELASJON Korrelasjon Binormal modell Lineær modell Multippel regresjon

3 3 5 IKKE PARAMETRISKE METODER Uparet Mann-Whitney-Wilcoxon-test Paret Wilcoxon test P 6 OP GAVER Regresjon og korrelasjon (kap. 7) Lineær modell (kap. 7) Uparet og paret T test (kap og 8.2.3) Enveis variansanalyse (kap ) T oveis variansanlyse, ANOVA-tabeller (kap ) Ikke parametriske metoder (kap. 8.4) Kjikvadrattester FASIT 32 8 Formelsamling EMPIRISKE STATISTISKE MÅL Forventningsverdi, varians og standardavvik Ordnede data, median og kvartiler Regresjon SANNSYNLIGHETSREGNING Definisjon av sannsynlighet - Kolmogoroffs aksiomer Kombinatorikk Diskrete sannsynlighetsfordelinger Kontinuerlige sannsynlighetsfordelinger Forventningsverdi og varians Regneregler for forventningsverdi og varians Sentralgrenseteoremet ST AT IST ISKE MET ODER Generelle definisjoner T ifeldig utvalg, en variabel (eller paret modell) T ilfeldig utvalg, to variable (Uparet modell): Lineær regresjonsmodell Variansanalyse (ANOVA) Ikke parametriske tester χ 2 -tester (kjikvadrattester) T ABELLER Kumulativ normalfordeling Φ(z) Fraktiler, normalfordeling Student T fordeling, fraktiltabell χ 2 fordeling, fraktiltabell Fishers F fordeling, fraktiltabell Utskrift av Excelfiler 56

4 Kapittel 1 INNLEDNING 1.1 Litteratur og dataprogram Forelesningen og dette notatet forholder seg til læreboka Gunnar G. Løvås: Statistikk -for universiteter og høgskoler, Universitetsforlaget 2000 som hovedlitteratur. Spesielt kapittel 7 og 8. Beregningene og eksemplene blir utført i dataprogrammet EXCEL, og læreboka har også med avsnitt om bruk av dette verktøyet Annen litteratur Det finnes mange bøker som dekker emnene som taes opp her på forskjellige måter, så detbesteer å bla litt selv på biblioteket og plukke ut noe passende. Dessuten finnes det en litteraturliste bak i boka til Løvås. Følgende liste er basert på hva jeg tilfeldigvis har i min bokhylle, og ikke på noen vurdering om dette faktisk er de beste alternativene (eller en sjekk på om de fremdeles er i handelen): Et alternativ som kanskje har et mer samfunnsvitenskapelig perpektiv enn Løvås er Per Chr. Hagen: Innføring i sannsynlighetsregning og statistikk, Cappelen Akad. forlag (4. utg. 2003). Selv liker jeg godt Larsen & Marx: An Introduction to Mathematical Statistics and its Applications, PrenticeHall (1986, vet ikke om nyere utgaver finnes). Denne har stort sett samme emner som Løvås, men går mer i dybden og har noen flere metoder. En bok som går mer direkte på metodene, og som blant annet inneholder litt om k faktor variansanalyse er Montgomery, Runger, Hubele: Engineering Statistics (Wiley, Kanskje finnes nyere utgaver.) En bok som blant annet inneholder tabeller for kritiske verdier i de ikke-parametriske metodene vi kommer inn på her er Weiss, Hasset: Introductory Statistics, Addison-Wesley Andre dataprogrammer EXCEL er først og fremst et regneark, med en del statistiske funksjoner som tillegg. Det velges her da mange har tilgang på det, og fordi læreboka gir eksempler fra dette. Programmet har imidlertid begrenset antall metoder ferdig programmert, og det kan tenkes at man ønsker et mer spesialisert statistikkverktøy. Her nevnes et par, uten å hevde at de er bedre enn andre som finnes: 4

5 1.2. MÅLSETTING OG METODE 5 Minitab Et forholdsvis enkelt verktøy, men likevel med langt flere muligheter enn Excel. Brukes blant annet mye ved BI. Selv kjenner jeg dette bare fra mange år tilbake, og er ikke oppdatert på hvordan nyere versjoner fungerer. Boka til Løvås har med avsnitt om dataanalyse i Minitab. SPSS Statistical Package for Social Sciences. Endel brukt ved HiG, spesielt ved Avdeling for Helsefag. HiG har en slags avtale så denne kan skaffes for overkommelig pris. Jeg kjenner ikke detaljene, men kan på forespørsel være behjelpelig med å henvise til personer som kjenner programmet og avtalen. 1.2 Målsetting og metode I fagene Vitenskapelige metoder og Sikkerhetsmetrikker vil dere ha diskutert metoder for åsamle inn data, krav til data og sagt litt om metoder for å analysere data osv. På et av lysbildene i faget Vitenskapelige metoder står det: Grad av avhengighet mellom variabler Korrelasjon, regresjonsanalyse, krysstabeller, ikke-parametriske metoder Signifikans av forskjeller mellom variabler T-test, ANOVA, ikke-parametriske tester Avdekking av latente variabler Faktoranalyse Analyser av data Min forståelse av dagens tema er primært å utdype dette, ved å vise hvordan disse metodene utføres ipraksis. Dette vil i hovedsak gjøres ved å vise eksempler i Excel. Mange av eksemplene baserer seg på kunstige data som har til hensikt åfå fram egenskapene til metodene. Vi vil derfor vite hva som egentlig skjuler seg bak dataene. Problemet med om vi har valgt riktig metode, som alltid er tilstede med realistiske data, blir dermed feid under teppet. Håpet er at en forståelse for hvordan metodene virker kan bidra også tilåvelge rett metode, men at dette ellers blir tatt opp på en god og fagrelatert måte i andre deler av faget Tilbakemelding Jegernoeusikkerpå hva dere har mest bruk for, og også på hvor mye statistikk dere kan fra før. For å forbedre eventuelle tilsvarende kurs for senere kull vil det være verdifullt med tilbakemeldinger. Noen, men sikkert ikke alle, aktuelle spørsmål er: Vanskelighetsgrad og omfang: For vanskelig/ for lett (i forhold til DINE forkunnskaper)? For rask/ for langsom gjennomgang? For mange/ for få temaer? Valg av temaer Temaer som vi ikke behøvde ta med?

6 6 KAPITTEL 1. INNLEDNING Temaer som kunne trengt lengere, eller klart seg med kortere tid? Temaer som burde vært med? Relevans Er min forståelse av hva denne dagen burde inneholde forfeilet? Burde temaene vært lagt fram på en essensielt annen måte? Send gjerne direkte tilbakemelding til meg på mail, Kanskje dere foretrekker å gå sammen om å lage en felles tilbakemelding, gjerne anonymt og via Snekkenes. 1.3 Hypotesetesting Hypoteser I en hypotese konkluderer vi med en av to mulige hypoteser: Nullhypotesen som kalles H 0 og den alternative hypotesen som kalles H 1. Det er ikke symmetrisk forhold mellom disse, og ikke likegyldig hvilken av alternativene som kalles nullhypotesen H 0. Generelt er H 0 den konservative hypotesen, og den vi konkluderer med hvis dataene ikke gir noen tydelig signal i noen retning. Den alternative hypotesen H 1 er ofte den vi håper eller prøver åvise.vikansiatvikonkluderer med H 1 hvis dataene viser at H 0 med stor sannsynlighet er usann Signifikansnivå ogteststyrke På grunn av usikkerheten knyttet til tilfeldig variasjon er det alltid en fare for at vi konkluderer feil, og kan sette opp dette i følgende tabell: Virkelighet H 0 sann H 1 sann Testresultat H 0 sann OK Type II feil H 1 sann Type I feil OK Det er Type I feil som først bringes under kontroll. Sannsynligheten for å gjøre denne (hvis H 0 er sann) er signifikansnivået α som velges som en liten sannsylighet. Ofte α =0.05 = 5%, eller α =0.01 = 1%. Hvis H 0 faktisk er sann, ønsker vi selvfølgelig at det skal bli testens konklusjon. Sannsynligheten for dette, altsåå ikke gjøre Type II feil, kalles teststyrken. Teststyrken avhenger selvfølgelig av størrelsen på parametrene (hvor langt fra H 0 virkeligheten er), men også på typen test. Konstruksjonen av tester, og valg mellom alternative tester, er oftest motivert av ønske om stor teststyrke. Hvis vi for eksempel har valget mellom en parametrisk metode (f.eks ANOVA eller T-test) og en ikke parametrisk metode gir den parametriske metoden vanligvis størst teststyrke, og foretrekkes om mulig. Problemet er at dataene kan være fordelt svært forskjellig fra (normal)fordelingen som ligger til grunn for de parametriske metodene. Da er selvfølgelig ikke resultater fra de parametriske metodene gyldige, selv om disse metodene er robuste mot moderate avvik fra (normal)fordelingsantagelsen.

7 1.4. RELIABILITET OG VALIDITET p verdi Istedenforå angi signifikansnivået angis ofte p verdien. Dette er det minste signifikansnivået α vi kan velge, og likevel konkludere med H 1 med de foreliggende data. Hvis p verdien er mindre eller lik 0.05, betyr det at vi kan konkludere med H 1 hvis vi har valgt α =5%.IsåfallsierviofteatH 1 er signifikant. Hvis p verdien er mindre eller lik 0.01, betyr det at vi kan konkludere med H 1 hvis vi har valgt α =1%.IsåfallsierviofteatH 1 er meget signifikant. I dataprogrammer er det ofte p verdien som returneres som testresultat. 1.4 Reliabilitet og validitet Reliabilitet (pålitelighet): Kan resultatet gjenskapes ved å bruke tilsvarende metoder på tilsvarende populasjon? Validitet (gyldighet): Måler vi egentlig det vi ønsker å måle? Begrepene omtales primært i andre deler av kursene. For å sjekke om disse kriteriene er oppfylt statistisk, må vihanoeå sammenlikne med. For eksempel kan vi sammenlikne om resultatene fra to forskjellige undersøkelser viser det samme. Indre sammenheng, for eksempel at et spørreskjema gir samme resultat om vi spør om (nesten) det samme på tomåter- er resultatene like? Kanskje er vi så heldigeå ha testsituasjoner, der vi kjenner virkeligheten, å prøve ut våre metoder på. I alle situasjoner trenger vi statistiske metoder til å sammenlikne resultater. 1.5 Datatyper og modeller Kategoriske data (Nominal scale): For eksempel Gul, Rød, Grønn som mulige svaralternativer i en spørreundersøkelse (om foretrukket farge på et produkt. De har (normalt) ingen rekkefølge, det er meningsløst å si at Rød er mellom Gul og Grønn (selv om man f.eks koder dem som henholdsvis 1, 2 og 3). Ordnede data (Ordinal scale): For eksempel svaralternativene Meget god, God, Middels, Dårlig, Meget dårlig. Det er opplagt en naturlig rekkefølge, men det er neppe riktig å si at det er like langt fra God til Dårlig som det er fra Middels til Meget dårlig. Et annet eksempel er det nye karaktersystemmet med bokstavkarakterene A, B, C, D, E og F. Hvis en sluttkarakter skal settes på basis av tre (like mye vektlagte) delkarakterer, der resultatet er to B er og en D har man et problem. Hva er gjennomsnittet av dette? B eller C? Intervalldata (Interval scale): Ordnede data der også avstanden gir mening. For eksempel det gamle karaktersystemet med tallkarakterer. Det er ingen kunst å bli enige om at delkarakterene 1.6, 1.9 og3.1 gir gjennomsnittskarakteren 2.2. Forholdsdata (Ratio data): Intervalldata der alle de fire regningsartene gir fornuftig mening. For ordnede (intervall- og forholds-) data skiller vi mellom diskrete data og kontinuerlige data. Diskrete data er for eksempel antall (heltall). Kontinuerlige data er i prinsippet reelle tall (desimaltall), men brukes gjerne også på diskrete data når det trengs et relativt stort antall verdier for å dekke opp de mulighetene som dekker opp hovedelen av den samlede sannsynligheten (eller det naturlige variasjonsområdet for dataene).

8 8 KAPITTEL 1. INNLEDNING De statistiske metodene som kan brukes avhenger av datatypene. Det beste er som regel om vi har kontinuerlige data. Da er det ofte uproblematisk å anta normalfordeling (hvis ikke datasettet er påfallende skjevt), og bruke metodene basert på dette. På grunn av sentralgrenseteoremet kan disse metodene ofte brukes også på diskrete data, hvis antall datapunkter er relativt stort, og antall mulige verdier ikke er svært lite. Går vi lenger oppover på lista blir det mer og mer tvilsomt å bruke disse metodene. For ordnede data (som ikke er intervalldata) brukes gjerne ikke parametriske metoder. Kategoriske data er enda vanskeligere, men ved å gå over til antall (antall respondenter som foretrekker Rød ) har vi visse metoder til disposisjon (for eksempel χ 2 tester).

9 Kapittel 2 KRYSSTABELLER Excelfil til dette kapitlet: Krysstab.xls Krysstabeller og χ 2 tester er behandlet i Løvås: Statistikk, kapittel (og 8.5.2). 2.1 Krysstabeller og kjikvadrattester Krysstabeller Krysstabeller (contingency tables påengelsk)brukesforåsepå sammenhengen mellom egenskaper, ofte kategoriske, for eksempel svaralternativer i et spørreskjema. Vi skal bruke et eksempel fra en virkelig undersøkelse. Eksemplet er nok ikke direkte relevant for studiet i informasjonssikkerhet, men måten å sammenlikne svar fra spørreskjemaer kan lett tilpasses mange situasjoner. Foruten å undersøkesammenhenger mellom egenskaper brukesdenne teknikken også forå undersøke den indre sammenhengen i svaralternativene (jfr. reliabilitet og validitet): Det stilles ofte spørsmål som egentlig er nesten like, men med litt forskjellig ordlyd og på forskjellige steder i skjemaet. Hvis det er god sammenheng mellom disse svarene, styrker det tiltroen til kvaliteten på svarene i sin helhet. Hvis det er dårlig sammenheng har respondentene enten ikke forstått spørsmålene slik vi har tenkt, eller de har ikke lagt noen energi i å gi presisie svar. I eksemplet tar vi svar fra to (av mange) spørsmål som var: Hvilket kjønn er du?, med alternativene Mann og Kvinne, og Hvordan ser du på nytten av dataprogrammer for matematikk i studiesituasjonen?, med svaralternativene Bortkastet tid, Unyttig, Nyttig og Meget nyttig (som her skal forkortes til henholdsvis B, U, N og M). Disse er fra en spørreundersøkelse blant ingeniørstudenter i Av 1779 svar var det 300 som hadde svart blankt eller ubrukelig på et eller begge spørsmålene, og disse er ikke regnet med. For de resterende 1449 svarene er resultatet satt opp i en krysstabell. Hvis et svarskjema f.eks. har avkrysset for Mann og Meget nyttig er dette registrert som en av de251ifeltetøversttilvenstre. I høyre marg og bunnmargen summeres henholdsvis radene og kolonnene. I disse sumkolonnene får vi resultatene fra enkeltspørsmålene alene (blant de 1479 som er talt med her). I nedre venstre hjørne får vi det totale antall svar (enten ved å summere raden eller kolonne tallet ligger i): 1 Publisert i artikkelen Hornæs og Røyrvik: Gender, Aptitude, and Computer Algebra Systems, Journal of Engineering Education, July

10 10 KAPITTEL 2. KRYSSTABELLER Meget nyttig Nyttig Unyttig Bortkastet tid Total Mann Kvinne Totalt Det er ikke vesentlig hvilke av spørsmålene som er plassert i radene, og hvilket i kolonnene. Det er heller ikke vesentlig at det bare er to rader, det kan være hvilket som helst antall ( 2) rader og kolonner Uavhengighet og uavhengighetstabeller Det man gjerne vil undersøke med slike tabeller er om det er noen sammenheng mellom svarene pådetospørsmålene. I dette tilfellet betyr det om det er noen forskjell på holdninger til bruk av dataverktøy i matematikk mellom de to kjønnene. Det vil være hypotesen, H 1 vi ønsket 2 åvise. Nullhypotesen H 0 er da at det er uavhengighet mellom svarene. I så fallvilviforventeå finne omtrent samme fordeling av svarene på spørmålet om nytte blant kvinner og menn. Vi tar som eksempel tar utganspunkt i feltet øverst til venstre, Mann og Meget nyttig : Den totale andelen som svarer Meget nyttig er 277/1479, som vi finnerved å dividere sumkolonnen for Meget nyttig med det totale antall svar. Hvis denne andelen var lik for begge kjønn ville antall menn som svarte meget nyttig være samme 277 andel av totalt antall menn, det vil si = 235, 0. Dette kaller vi forventet antall i dette feltet. På grunn av tilfeldig variasjon trur vi ikke antallet blir nøyaktig dette selv om det er uavhengighet, men hvis avviket er for stort (alle feltene sett samlet) vil vi konkludere med avhengighet. Forventet antall ved uavhengighet regner vi så utmed: Mann Meget nyttig Nyttig Unyttig Bortkastet tid Total Kvinne Totalt Dette gir sammenregnet (og der vi bare tar med det indre av tabellen) Forventningstabellen: I Excel regnes ikke denne ut automatisk, slik at man er nødt til å lage denne tabellen manuelt. Med litt trening går det raskt ved hjelp av litt drakopiering og bruk av $-tegn foran de referansene som ikke skal endres i takt med i drakopieringa. 2 Dette betyr ikke at vi ønsket at det skulle være forskjell, men det er greit å dokumentere om den eventuelle forskjellen er der, for eksempel med tanke på om vi skal bruke ressurser på kjønnsbestemte tiltak. Dessuten vil resultatet være med å bygge opp under en mer generell teori om kjønnsforskjeller i holdninger både til matematikk og data. Svaret er i utgangspunktet ikke opplagt, da dette er kvinner som i utgangspunktet har valgt ingeniørutdanning, og dermed ikke i utgangspunktet er blant de med dårlig forhold til realfag.

11 2.1. KRYSSTABELLER OG KJIKVADRATTESTER Kjikvadrattest For å avgjøre om det indre av den faktisk observerte tabellen avviker mer fra denne forventningstabellen enn det som kan tilskrives naturlig tilfeldig variasjon brukes en χ 2 test for (u)avhengighet. Denne testen baserer seg på en fordeling som kalles χ 2 fordeling, der den greske bokstaven χ leses Kji. Denne fordelingen er fordelingen til summen av kvadratene av uavhengige standard normalfordelte variable. Det ligger altså en tilnærming til normalfordeling og lurer et sted her. For at denne tilnærminga skal være akseptabelt god må det være et visst minste antall observasjoner ifeltene. Tommelfingerregelen er at det må være minst 5 i hvert felt i forventningstabellen. Det er godt oppfyllt i eksemplet da den minste verdien er Er dette ikke oppfylt kan det (kanskje) hjelpe å slå sammen noen (nabo) kolonner eller rader, men det trengs jo et visst omfang på datasettet i utgangspunktet. Litt om mekanismen i kjikvadrattesten I feltet øverst til venstre er antallet observasjoner 251, mens forventet antall observasjoner, forutsatt uavhengighet, er tallet Ved å ta kvadratet av avstanden, ( ) 2, oppnår vi for det første at det sikkert blir positivt (så positive og negative bidrag ikke nuller hverandre ut), og også å forsterke virkningen av store og redusere virkningen av små avvik. Vi normaliserer så dette tallet ved å dividere med forventet antall, til ( ) 2 /235.0 = Dette er et slags mål for avviket i dette feltet, og er også tilnærmet en tilfeldig verdi fra en standard normalfordeling, kvadrert, hvis H 0 er sann. Som testobesrvator brukes så summen av verdiene av disse verdiene for alle feltene, og dette tallet kalles q (for kvadratsum). Denne (kan det da vises) har tilnærmet χ 2 fordeling med (2 1)(4 1) = 3 frihetsgrader (antall rader minus 1 multiplisert med antall kolonner minus 1) hvis H 0 er sann. Hvis det er uavhengighet blir ikke q såstor,såviforkasterh 0 hvis q er stor. Grensen for hva som er stort kan vi finne i en χ 2 -tabell (som finnes i dette notatet). Velger vi signifikansnivå α = 5% finner vi kritisk verdi 7, 82 i tabellen, med α = 1% finner vi kritisk verdi 11, 34. I dette tilfellet kan vi regne ut ( )2 q = som langt overskrider de kritiske verdiene. + + ( ) =29.6, Konklusjon: Vi forkaster H 0 (uavhengighet) og godtar H 1, avhengighet. Dataene viser klart et det er kjønnsforskjeller blant ingeniørstudente i holdningen til dataprogrammer for matematikk. Kjikvadrattest i praktiske anvendelser. De tekniske detaljene er ferdig programmert i Excel, og andre programmer med brukbart utvalg av statistikkfunksjoner. Det er dermed ikke nødvendig åvitesåmyeomχ 2 fordeling, utregning av q og kritiske verdier for å gjennomføre dette. Det som trengs er å kunne sette opp dataene i en krysstabell. I Excel må man også kunne sette opp uavhengighetstabellen

12 12 KAPITTEL 2. KRYSSTABELLER I forelesningen og på regnearket er fokus på denne praktiske gjennomføringen (mens vi her har med litt mer bakgrunnsstoff).

13 Kapittel 3 Variansanalyse Excelfil til dette kapitlet: ANOVA.xls Excelfil til dette kapitlet: Krysstab.xls ANOVA er behandlet i Løvås: Statistikk, kapittel Litt om ANOVA generelt Variansanalyse er en familie tester som på engelsk heter ANalysiz Of VAriance, der den rotete bruken av store bokstaver viser bakgrunnen for standardforkortelsen ANOVA. ANOVA er svært mye brukt, og H 1 er i utgangspunktet om det er forskjeller på forventningsverdiene på forskjellige naturlige undergrupper av datasettet. Dette kan ofte indirekte være det samme som å spørre om gruppene er like. Vi kan også undersøke samvariasjon mellom grupper med ANOVA. Vi deler ofte inn ANOVA i enveis, toveis og k faktor analyse, og skal se litt på disse etter tur Modellforutsetninger generelt Variansanalysen bygger på at alle dataene er uavhengige observasjoner fra normalfordelinger N(µ g,σ). Standardavviket σ er det samme over alt. Forventningsverdien µ g varierer muligens mellom gruppene, det er det H 1 hevder. I praksis er metodene nokså robust for moderate avvik fra normalfordelingsantagelsen. Her, som ellers, er tankegangen ofte: Er det noen god grunn til at dataene ikke stammer fra noe som er tilnærmet normalfordelt. Hvis det er intervalldata er det ofte ikke noe problem, mens man må være mer kritisk hvis det bare er ordnede data. Det samme gjelder kravet om felles standardavvik. Er det god grunn (fra situasjonen, eller ved å se på dataene) til å tru at det er påfallende stor forskjell på spredningen i gruppene må vi være forsiktige, men som regel er dette i orden i tilstrekkelig grad Varians og kvadratsummer I en normalfordeling er variansen σ 2. Fra et sett med y 1,y 2,...,y n av n uavhengige observasjoner fra en N(µ g,σ)- fordeling estimeres (anslås) forventningsverdien µ g med gjennomsnittet y: y = 1 n n y i = y 1 + y y n n 13

14 14 KAPITTEL 3. VARIANSANALYSE Variansen σ 2 estimeres ut fra følgende formel: S 2 = 1 n 1 n (y i y) 2 = (y 1 y) 2 +(y 2 y) 2 + +(y n y) 2 n 1 Telleren n (y i y)) 2 kalles kvadratsummen for gruppen. Den betegnes ofte SS, eller SS g hvis vi skal ha med en henvisning til hvilken gruppe det er snakk om. På norsk brukes også SK istedendfor SS, blant annet i Excel. I ANOVA, der vi har flere grupper, brukes mange kvadratsummer, der vi får litt varianter ved at gjennomsnittet y kan variere (om det er for gruppen eller tallmaterialet som helhet), og der y i ene noen steder erstattes med gjennomsnitt for gruppene. Et ledd (y i y) 2 gir den kvadratiske avstanden fra gjennomsnittsverdien (sentum i tallmaterialet), så litt forenklet kan vi si variansestimatet gir gjennomsnittlig kvadratisk avstand fra sentrum i tallmaterialet, og er således naturlig er uttrykk for spredningen. Som spredningsmål brukes ofte standardavviket, kvadratroten av variansen, men i variansanalyse forholder vi oss til variansene. Kvadratsummene er dermed også indirekte et uttrykk for hvor stor spredning det er på tallmaterialet. Hvis x 1,x 2,...,x m er et annet tallmateriale uavhengig av det første, men fra en normalfordeling med samme σ, har forholdet mellom det to variansestimatene en fordeling som kalles Fishers F fordeling med n og m frihetsgrader. I variansanalyse er det forhold mellom varianser som er testobservatorene (gjerne kalt F ), og det er tabeller eller dataprogram for denne fordelingen som ligger til grunn for kritiske verdier. Generelt forkaster vi H 0 når F er stor. I toveis og k faktor analyse forekommer flere slike F er Noen notasjoner I ANOVA er dataene organisert i flere grupper, og når de beskrives generelt har veridene to eller flere indekser. For eksempel vil y 3,5 betegne 5. observasjon i 3. gruppe i en enveis variansanalyse. I toveis variansanalyse kan en observasjon f.eks. betegnes y 2,3,5,5.observasjoni2.gruppeog3. blokk. Vi skal danne forskjellige summer og gjennomsnitt basert på denne gruppe/blokk inndelingen. En notasjon som da brukes er at hvis en indeks erstattes med en prikk, er dette summen av alle verdiene vi får ved å gi prikken alle mulige verdier, og tilsvarende med gjennomsnitt. For eksempel er y 3, summen av alle verdiene med 3. i første indeks, det vil si alle verdiene i 3. gruppe. y 3, er gjennomsnittet av disse verdiene. y, og y, blir da summen og gjennomsnittet av alle verdiene. 3.2 Enveis variansanalyse Datastuktur og modellforutsetninger I enveis variansanalyse er dataene sortert i forskjellige grupper, som representerer stikkprøver fra forskjellige populasjoner (for eksempel under forskjellige sikkerhetstiltak, der alle dataene for en type sikkerhetstiltak er en gruppe). I enveis variansanalyse behøver det ikke være like mange observasjoner i hver gruppe.

15 3.2. ENVEIS VARIANSANALYSE 15 Dette kan settes opp i følgende tabell, der jeg i margene også har angitt notasjonen for gjennomsnittene: Observasjoner Snitt Gruppe 1 y 11 y y 1n1 y 1 Gruppe 2 y 21 y y 2n2 y 2. Gruppe r y r1 y r2... y rnr y r Totalt y Det som her er skrevet som rader (i Excel eksemplene er de organisert i kolonner) er gruppene. Modellantagelsen er at alle dataene er uavhengige og normalfordelte, med samme varians σ 2. Dermed er alle dataene fra første gruppe en N(µ 1,σ) fordeling, alle dataene fra andre gruppe en N(µ 2,σ), og generelt alle dataene fra gruppe nummer g en N(µ g,σ) fordeling. Nullhypotesen er at alle de r gruppene er like (det vil si har samme forventningsverdi): H 0 : µ 1 = µ 2 = = µ r Den alternative hypotesen H 1 er at det er forskjell på gruppene, ihvertfall er minst en av dem forskjellige fra andre. I praktiske anvendelser er vi ikke altfor kritiske til disse antagelsene, men det må værenoei nærheten av situasjonen. Hvis det er tydelig at dataene er påfallende skjevfordelte (enkeltdata langt ut på den ene siden av haugen med data), eller det er påfallende stor forskjell på spredningen mellom gruppene bør vi være litt kritiske til bruk av metoden. (Hva vi da må gjøre tar vi ikke opp her). Noe annet som gjør at vi ikke bør bruke ANOVA er om dataene er svært langt fra forholdstall, for eksempel hvis alle dataene er relativt små heltall. I det siste tilfellet må vi antagelig ty til ikke parametriske metoder (f.eks. Kruskal-Wallis test, se Løvås kap ) ANOVAtabeller Resultatet av en variansanalyse opsummeres i et nokså standarisert oppsett som kalles ANOVAtabell. I Excel produseres disse ved kommandoen verktøy->dataanalyse-> Varaiansanalyse: en faktor. For enveis variansanalyse i EXCEL ser ANOVA-tabellen slik ut, der det med fet skrift er teksten i Excel, mens resten er formler for tall som framkommer i tabellen. Variasjonskilde SK fg GK F P-verdi F-krit Mellom grupper SS G fg G = g 1 GK G = SS G /fg G GK G /GK E p k Innenfor grupper SS E fg E = n g GK E = SS E /fg E Totalt SS T fg T = n 1 Forklaring, rad- og kolonneetiketter: SK : Kvadratsum fg : Frihetsgrader GK : Gjennomsnittlig kvadratsum. kvadratsum / frihetsgrader. F : Testobservator F er observasjon fra Fisher-fordeling hvis H 0 er sann.

16 16 KAPITTEL 3. VARIANSANALYSE P-verdi : p verdi. F-krit : Kritisk verdi for F for valgt signifikansnivå, forkast H 0 om F F-krit. Mellom grupper : Variasjonen mellom gruppene. Innenfor Grupper : Variasjonen innenfor gruppene, det vil si den tilfeldige (uforklarte) variasjonen. Kalles også residual, påengelskofteerror (derav forkortelsen E i indeksene). Totalt : Den totale variasjone, hele tallmaterialet sett som en enkelt tallserie. Forklaring, formler i ANOVA-tabellen : g SS G : Kvadratsum mellom grupper, (y i y ) 2 fg G : Frihetsgrader mellom grupper, antall grupper g minus 1. GK G : Variansen om vi ser på deg gruppegjennomsnittene som g enkeltobesrvasjoner. F :GK G /GK S, variasjon mellom grupper/tilfeldig variasjon. Testobservator som vanligvis blir liten om gruppene er like, stor om gruppene har forskjellig forventningsverdi. p : p verdi. Om p<0.05 kan H 0 forkastes med α = 5%, signifikant forskjell på gruppene. Om p<0.01 kan også H 0 forkastes med α = 1%, meget signifikant forskjell på gruppene. Det er nok p verdien som er det viktigte tallet i ANOVA-tabellen. k : Kritisk verdi (som også kan finnes i Fisher-tabellen bakerst i heftet, med fg G og fg E frihetsgrader). g n g SS E : Kvadratsum innen grupper, (y ij y i ) 2. j=1 Det vil si kvadratasummen for alle dataene, der det er gjennomsnittsverdien i den gruppen datapunktet tilhører som subtraheres. Kan også (enklere) regnes ut som SS E = SS T SS G fg E : Frihetsgrader til Innen grupper, Antal observasjoner totalt minus antall grupper, men også fg E = fg T fg G. GK E : Estimat av variansen σ 2, det vil si den tilfeldige variasjonen i tallmaterialet. I andre varianter av ANOVA (tofaktor og k faktor) er det flere rader. Innen grupper er alltid nest nederste rad, og GK E er alltid det vi dividerer de andre GK ene med for åfå F observatorene. g n g SS T : Total kvadratsum. (y ij y ) 2. j=1 Telleren i variansen om vi betrakter hele datasettet som et enkelt sett med verdier. Hvis H 0 er sann er også SS T /(n 1) et estimat av σ 2, mens den øker i forhold til σ 2 når forskjellene mellom gruppene øker (H 1 er sann). fg T Totalt antall frihetsgrader, antall observasjoner totalt minus 1. Merk at SS G + SS E = SS T og gf G + fg E = fg T, for disse to kolonnene er nederste rad summen av de to over. I alle varianter av variansanalyse (dvs. også toveis- og k-faktor) regnes Totalt ut etter samme formelen, og blir også summen av alle frihetsgrader og kvadratsummer over Ideene med ANOVA Hvis H 0 er sann er tallene som om alle dataene er fra samme N(µ, σ) fordeling. Gjennomsnittene til høyre i tabellen over er estimater av henholdsvis µ 1,µ 2,...,µ r og µ. Hvis H 0 er sann blir de dermed nokså like. Problemet (som ANOVA løser) er imidlertid åavgjøreomde ikke er mer forskjellige enn det vi kan forklare med tilfeldig variasjon (H 0 ), eller om de er så forskjellige at vi med god grunn kan slutte at det isteden er H 1 som er sann.

17 3.3. TOVEIS VARIANSANALYSE 17 Vi kan estimere σ 2 ved å regne ut variansen i hver enkelt gruppe, eller (bedre) ved å ta et (passende veid) gjennomsnitt av disse. Dette gjelder enten H 0 eller H 1 er sann,og det er denne variansen som kalles GK innenfor grupper i ANOVA tabellene i Excel. GK innenfor grupper er således et uttrykk for den tilfeldige variasjonen (støyen) som ligger i tallmaterialet. Hvis H 0 er sann kan vi også estimereσ 2 ved å beregne variansen som om alle dataene er er en lang serie med tall (med gjennomsnitt y ). Telleren i dette variansestimatet er tallet for SK totalt i ANOVA tabellen i Excel. Dividerer vi dette med antall frihetsgrader (fg) får vi variansestimetat, som er i nærheten av GK innefor grupper hvis H 0 er sann. Hvis H 1 er sann vil imidlertid verdiene ligger relativt mye lenger unna det totale gjennomsnittet enn gruppegjennomsnittet, og variansestimatet basert på hele tallmaterialet vil bli (betydelig) større enn det basert på gjennomsnittet av variansene i gruppene. Det kommer imidlertid en kvadratsum til inn i bildet, nemlig den vi får om vi betrakter gruppegjennomsnittene som et eget sett med datapunkter. Dette er et uttrykk for variasjonen mellom gruppene. Er denne stor, i forhold til den tilfeldige variasjonen, støtter dette H 1. Denne kvadratsummen kalles SK mellom grupper, og variansestimatet GK mellom grupper. Det som er testobservatoren F er GK mellom grupper dividert med GK innen grupper. Denne har en Fisher-fordeling (om H 0 er sann). Er denne stor er det stor variasjon mellom gruppene i forhold til den tilfeldige variasjonen uttrykt ved variasjonen innen gruppene, og vi konkluderer med H 0. For ordens skylde: Det ligger en ordentlig matematisk teori til grunn for dette, det som er sagt her er bare en litt uformell og intuitiv forståelse av denne matematiske teorien Kvadratsummer og frihetsgrader Kvadratsummene har den (ikke trivielle egenskapen) at summen av kvadratsummene innen gruppene og og mellom gruppene er den totale kvadratsummen. I ANOVA-tabellen betyr det at SK totalt er summen av alle SK-ene over. Dette er en generell egenskap for alle typer ANOVA. Tallet vi dividerer kvadratsummene med for åfå variansestimatene kalles frihetsgrader. De inngår som parametre i F fordelingen. Disse har også den egenskapen at de summeres til det totale antall frihetsgrader, som er totalt antall observasjoner minus 1. For Mellom grupper er frihetsgraden antall grupper minus 1. Innen hver grupper er dette antall observasjoner innen gruppen minus 1, og for Innen grupper er antall frihetsgrader summen av antall frihetsgrader innen alle gruppene. Det er en fordel åhaså mange frihetsgrader som mulig innen gruppene, da flere frihetsgrader gir oss bedre kontroll på støyen og øker teststyrken. I enveis variansanalyse er dette det samme som å si at det er en fordel med så mange observasjoner som mulig. I andre varianter av variansanalyse (k faktor analyse) har dette også betydning for hvor mange delspørsmål vi kan besvare fra datasettet. Flere undergrupper koster frihetsgrader, det blir færre igjen til Innen grupper, og dårligere teststyrke (hvis vi ikke får det igjen av andre årsaker). Det er ihvertfall en øvre grense på at antall frihetsgrader mellom undergruppene ikke kan overstige det totale antall frihetsgrader (og det må være minst en, helst en del flere, igjen til Innen grupper ) 3.3 Toveis variansanalyse I toveis variansanalyse er dataene gruppert etter to kriterier som kalles Grupper og Blokker. Alle dataene som tilhører samme gruppe og blokk kalles et Felt. Itoveis(ogk-faktor) analyse må det være like mange observasjoner i hvert felt. Det er ofte bare en observasjon i hvert felt. Dette må man tenke på allerede før man starter datainnsamlingen! Hvis ikke risikerer man å sitte med mange ubrukelige data, en ikke helt uvanlig situasjon. Datastrukturen (hvis det er to observasjoner i hvert felt, for å spare litt på prikker og indekser i tabellen):

18 18 KAPITTEL 3. VARIANSANALYSE Grupper Blokker B1 B1 B s Grupper G1 y 111,y 112 y 121,y y 1s1,y 1s2 y 1 G2 y 211,y 212 y 221,y y 2s1,y 1s2 y 2.. G r y r11,y r12 y r21,y r22... y rs1,y rs2 y r Blokker y 1 y 2 y s y Modellantagelsene som for enveis variansanalyse. Hvis vi ignorerer blokkene og utfører enveis ANOVA på dataene vil variasjon mellom blokkene inngå i Innen grupper, altså støyen eller den tyilfeldige variasjonen. Det kalles da også Uforklart variasjon. Hvis det er en forskjell på blokkene vil dette medføre mindre teststyrke enn ved enveis ANOVA. Kvadratsum og frihetsgrader for Mellom grupper og Totalt er den samme om vi bruker enveis eller toveis ANOVA. Vi får en kvadratsum for Mellom blokker, som taes ut fra Innen grupper i forhold til enveis ANOVA. Dermed får vi mindre støy, og større teststyrke. Hvis det ikke er noen forskjell mellom blokkene øker ikke dette teststyrken. Tvert imot, siden det koster frihetsgrader. I tillegg får vi muligheten til å utføre en selvstendig test på om blokkene er forskjellige (hvis vi ønsker dette). Vi kan også få en test på samvariasjon mellom blokker og grupper. Dette krever mer enn et datapunkt i hvert felt, og koster frihetsgrader k faktor variansanalyse Fellesnavn på Blokker og Grupper er Faktorer. Dette er altså to faktorer(som gjør at vi kaller det toveis variansanalyse). Dette kan utvides til vilkårlig antall faktorer, såkalt k faktor analyse. I k faktor analyse kan mange samvirkninger også undersøkes, men det koster frihetsgrader (og vi kan risikere å ønske å ha med flere kombinasjoner enn det finnes frihetsgrader til). I oppgaven på side 29 er det eteksempel med en ANOVA-tabell på 4 faktor analyse. Det er mulig å lage forsøksoppsett der det ikke samles data innen alle mulige kombinasjoner av faktorene (fraksjonelle forsøk), men det må skje etter bestemte mønstre. Undersøk derfor om dette før du begynner med datainnsamlingen hvis det er aktuelt. I Excel er det ingen kommando for automatisk k faktor analyse. Med litt manuell hjelp, enveis variansanalyse og kunnskap om hvordan ANOVA-tabeller bygges opp er det mulig å få til k faktor ANOVA-tabeller i Excel med litt mer arbeid. Jeg vil likevel tru at om du trenger k faktor analyse er det på tideå vurdere en annen programpakke. Vi tar ikke med flere detaljer om dette her. Det står bl.a. litt om k faktor analyse i boka Montgomery, Runger, Hubele: Engineering Statistics.

19 Kapittel 4 REGRESJON OG KORRELASJON Excelfil til dette kapitlet: korr-reg.xls Regresjon og korrelasjon er behandlet i Løvås: Statistikk, kapittel 7.2, 7.3og Korrelasjon Situasjonen i dette kapitlet er at vi har n observasjoner av par, { (x 1,y 1 ), (x 2,y 2 ),..., (x n,y n ) } Vi er interessert i om det er noen sammenheng mellom x i ene og y i ene, spesielt om det er en tilnærmet lineær sammenheng y i = a + bx i. Korrelasjonen r er et mål for hvor god en lineære sammenhengen er. Formelen for å regne ut korrelsasjonen er n r = ( x i x )(y i y ) n ( x i x ) 2 n ( y i y ) 2 Vi har alltid 1 r 1. Hvis det er perfekt lineær sammenheng, dvs. hvis det finnes konstanter a og b slik at y i = a + bx i for alle i, er r =1,medr =1hvisa>0 (positiv korrelasjon, store x er går sammen med store y er) og r = 1 hvis a<0 (negativ korrelasjon, store x er går sammen med små y er). Hvis r 1 er det nesten lineær sammenheng, hvis r 0 er det liten eller ingen lineær sammenheng (i praksis som oftest uavhengighet). Korrelasjonen brukes ofte beskrivende, man angir r som et mål for sammenheng uten å gjøre noen formell hypotesetest. Det er da i stor grad en erfaringssak åseom r er stor nok til at det faktisk indikerer en sammenheng, og ikke bare er snakk om tilfeldige avvik fra r =0. Dataene bør helst være intervalldata, men kan nok gi en viss indikasjon på om det er sammenheng eller ikke bare dataene er ordent. Det bør nok være litt fler enn bare 2 mulige verdier på x ene ellere y ene (som f.eks. i koding av Ja og Nei ). I en flerdelt skala, f.eks. fra svært uenig til svært enig har vi ordnede data, men ikke intervalldata. Korrelasjonen kan gi en pekepinn om sammenhengen, men bør brukes med en viss skepsis og forbehold. For at vi skal kunne bruke r mer formelt (hypotesetesting) må vi legge en modell til grunn. Den mest vanlige er binormal modell. Kritiske verdier som stammer fra denne kan nok være en pekepinn på hva som er tilfeldig variasjon fra 0 og hva som er reell sammenheng i andre situasjoner også, så jeg tar med litt om denne: 19

20 20 KAPITTEL 4. REGRESJON OG KORRELASJON Binormal modell Kritiske verdier for r ibinormalmodell I binormal modell kan vi sette opp hypotesene H 0 : Korrelasjonen ρ = 0, det vil si uavhengighet. H 1 : Korrelasjonen ρ 0, det vil si avhengighet. Alternativt kan vi ha ensidige tester med H 1 : ρ>0 eller H 1 : ρ<0. Som testobservator brukes empirisk korrelasjon r. Kritiske verdier for r kan da regnes ut for forskjellige verdier av n, og forskjellige signifikansnivåer. I de ensidige testene, der H 1 : ρ>0forkastervih 0, dvs. konkluderer med uavhengighet, om r er større enn den kritiske verdien (eller mindre enn denne med motsatt fortegn, om vi tester ha H 1 : ρ<0). Vi bruker da vanligvis α = 5% eller α =1%. For de tosidige testene, der vi ikke gjør oss opp noen mening på forhånd om i hvilken retning eventuell samvariasjon er bruker vi α = 2.5% for signifikansnivå 5%, og0.5% for signifikansnivå 1%. Daforkastervi H 0 om absoluttverdien r er større enn den kritiske verdien. Litt om den binormale modellen Ensidig Tosidig n 5% 1% 2.5% 0.5% 5 0, 81 0, 93 0, 88 0, , 55 0, 72 0, 63 0, , 38 0, 52 0, 44 0, , 28 0, 39 0, 33 0, , 24 0, 33 0, 28 0, , 19 0, 27 0, 23 0, , 17 0, 23 0, 20 0, , 13 0, 19 0, 16 0, , 12 0, 16 0, 14 0, , 07 0, 10 0, 09 0, , 05 0, 07 0, 06 0, 08 I en binormal modell tenker vi oss x i ene som uavhengige observasjoner fra en stokastisk variabel X i med N(µ x,σ x ) fordeling, og y i ene som uavhengige observasjoner fra en stokastisk variabel Y i med N(µ y,σ y ) fordeling. Disse er ikke nødvendigvis uavhengige, men henger sammen etter følgende likning, der Z er uavhengig av X og har N(0, 1) fordeling, og den teoretiske korrelasjonen ρ er et tall mellom 1og 1: Dette kan omskrives til Y i µ y σ y = ρ X i µ x σ x + 1 ρ 2 Z Y i = µ yσ x ρµ x σ y + ρσ y X i + σ y 1 ρ2 Z σ x DettegirenlineærsammehengY i = α + βx i + e i mellom X og Y,vedålaα være den første brøken, β den andre brøken. Det siste leddet gir den tilfeldige variasjonen e i (avviket fra den rette linja). Utregning av regresjonskoeffisientene i denne modellen er da estimater for α og β, mens korrelasjonen r er estimat av ρ. I denne modellen har vi en direkte tolkning av ρ som hvor stor del av Y som kommer fra X, oghvorstor del som (gjennom Z leddet) er uavhengig av X. Vedå erstatte Y i med y og X i med x, og se bort fra leddet med Z, får vi den teoretiske regresjonslinja i denne modellen. I binormal modell er uavhengighet ekvivalent med ρ = 0, og nullhypotesen H 0 : ρ =0kantestesvia n 2r t = 1 r 2 som kan betraktes som trekk fra en stokastisk variabel med Students T fordeling med n 2 frihetsgrader. Dette fordelingsresultatet er brukt til å produsere tabellen over kritiske verdier (ved hjelp av dataprogrammet Maple). σ x

Supplement til power-point presentasjonen i medisinsk statistikk, forelesning 7 januar 2013. Skrevet av Stian Lydersen 16 januar 2013

Supplement til power-point presentasjonen i medisinsk statistikk, forelesning 7 januar 2013. Skrevet av Stian Lydersen 16 januar 2013 1 Supplement til power-point presentasjonen i medisinsk statistikk, forelesning 7 januar 013. Skrevet av Stian Lydersen 16 januar 013 Vi antar at vårt utvalg er et tilfeldig og representativt utvalg for

Detaljer

OPPGAVESETTET BESTÅR AV 3 OPPGAVER PÅ 6 SIDER MERKNADER: Alle deloppgaver vektlegges likt.

OPPGAVESETTET BESTÅR AV 3 OPPGAVER PÅ 6 SIDER MERKNADER: Alle deloppgaver vektlegges likt. EKSAMEN I: MOT310 STATISTISKE METODER 1 VARIGHET: 4 TIMER DATO: 08. mai 2008 TILLATTE HJELPEMIDLER: Kalkulator: HP30S, Casio FX82 eller TI-30 Tabeller og formler i statistikk (Tapir forlag) OPPGAVESETTET

Detaljer

Statistikk og dataanalyse

Statistikk og dataanalyse Njål Foldnes, Steffen Grønneberg og Gudmund Horn Hermansen Statistikk og dataanalyse En moderne innføring Kapitteloversikt del 1 INTRODUKSJON TIL STATISTIKK Kapittel 1 Populasjon og utvalg 19 Kapittel

Detaljer

FORMELSAMLING STATISTIKK, HiG

FORMELSAMLING STATISTIKK, HiG Høgskolen i Gjøvik Avdeling for ingeniørfag Versjon fra mai 2007 FORMELSAMLING STATISTIKK, HiG Hans Petter Hornæs hans.hornaes@hig.no ISSN:??????? Innledning. Denne formelsamlingen er skrevet for bruk

Detaljer

EKSAMEN. TILLATTE HJELPEMIDLER: Kalkulator. Hornæs: Formelsamling statistikk HiG. John Haugan: Formler og tabeller.

EKSAMEN. TILLATTE HJELPEMIDLER: Kalkulator. Hornæs: Formelsamling statistikk HiG. John Haugan: Formler og tabeller. KANDIDATNUMMER: EKSAMEN FAGNAVN: FAGNUMMER: Statistikk. BtG207 EKSAMENSDATO: 16. juni 2009. KLASSE: HIS 07 10. TID: kl. 8.00 13.00. FAGLÆRER: Hans Petter Hornæs ANTALL SIDER UTLEVERT: 3 innkl. forside)

Detaljer

Kap. 10: Inferens om to populasjoner. Eksempel. ST0202 Statistikk for samfunnsvitere

Kap. 10: Inferens om to populasjoner. Eksempel. ST0202 Statistikk for samfunnsvitere Kap. 10: Inferens om to populasjoner Situasjon: Vi ønsker å sammenligne to populasjoner med populasjonsgjennomsnitt henholdsvis μ 1 og μ. Vi trekker da ett utvalg fra hver populasjon. ST00 Statistikk for

Detaljer

Datamatrisen: observasjoner, variabler og verdier. Variablers målenivå: Nominal Ordinal Intervall Forholdstall (ratio)

Datamatrisen: observasjoner, variabler og verdier. Variablers målenivå: Nominal Ordinal Intervall Forholdstall (ratio) Datamatrisen: observasjoner, variabler og verdier. Variablers målenivå: Nominal Ordinal Intervall Forholdstall (ratio) Beskrive fordelinger (sentraltendens, variasjon og form): Observasjon y i Sentraltendens

Detaljer

+ S2 Y ) 2. = 6.737 6 (avrundet nedover til nærmeste heltall) n Y 1

+ S2 Y ) 2. = 6.737 6 (avrundet nedover til nærmeste heltall) n Y 1 Løsningsforslag for: MOT10 STATISTISKE METODER 1 VARIGHET: 4 TIMER DATO: 6. november 007 TILLATTE HJELPEMIDLER: Kalkulator: HP0S, Casio FX8 eller TI-0 Tabeller og formler i statistikk (Tapir forlag) MERKNADER:

Detaljer

EKSAMEN. TILLATTE HJELPEMIDLER: Kalkulator. Hornæs: Formelsamling statistikk HiG. John Haugan: Formler og tabeller.

EKSAMEN. TILLATTE HJELPEMIDLER: Kalkulator. Hornæs: Formelsamling statistikk HiG. John Haugan: Formler og tabeller. KANDIDATNUMMER: EKSAMEN FAGNAVN: FAGNUMMER: Statistikk. BtG207 EKSAMENSDATO: 11. juni 2007. KLASSE: HIS 05 08. TID: kl. 8.00 13.00. FAGLÆRER: Hans Petter Hornæs ANTALL SIDER UTLEVERT: 5 (innkl. forside)

Detaljer

Innhold. Innledning. Del I

Innhold. Innledning. Del I Del I Innledning 1 Hva er statistikk?... 19 1.1 Bokas innhold 20 1.1.1 Noen eksempler 20 1.1.2 Historie 23 1.1.3 Bokas oppbygning 25 1.2 Noen viktige begreper 26 1.2.1 Populasjon og utvalg 26 1.2.2 Variasjon

Detaljer

Kort overblikk over kurset sålangt

Kort overblikk over kurset sålangt Kort overblikk over kurset sålangt Kapittel 1: Deskriptiv statististikk for en variabel Kapittel 2: Deskriptiv statistikk for samvariasjon mellom to variable (regresjon) Kapittel 3: Metoder for å innhente

Detaljer

Kapittel 3: Studieopplegg

Kapittel 3: Studieopplegg Oversikt over pensum Kapittel 1: Empirisk fordeling for en variabel o Begrepet fordeling o Mål for senter (gj.snitt, median) + persentiler/kvartiler o Mål for spredning (Standardavvik s, IQR) o Outliere

Detaljer

EKSAMEN KANDIDATNUMMER: EKSAMENSDATO: 26. mai 2006. SENSURFRIST: 16. juni 2006. KLASSE: HIS 04 07. TID: kl. 8.00 13.00.

EKSAMEN KANDIDATNUMMER: EKSAMENSDATO: 26. mai 2006. SENSURFRIST: 16. juni 2006. KLASSE: HIS 04 07. TID: kl. 8.00 13.00. KANDIDATNUMMER: EKSAMEN FAGNAVN: FAGNUMMER: Statistikk. BtG207 EKSAMENSDATO: 26. mai 2006. SENSURFRIST: 16. juni 2006. KLASSE: HIS 04 07. TID: kl. 8.00 13.00. FAGLÆRER: Hans Petter Hornæs ANTALL SIDER

Detaljer

Oppgave 1. T = 9 Hypotesetest for å teste om kolesterolnivået har endret seg etter dietten: T observert = 2.16 0

Oppgave 1. T = 9 Hypotesetest for å teste om kolesterolnivået har endret seg etter dietten: T observert = 2.16 0 Løsningsforslag til eksamen i MOT310 STATISTISKE METODER 1 VARIGHET: 4 TIMER DATO: 08. mai 2008 TILLATTE HJELPEMIDLER: Kalkulator: HP30S, Casio FX82 eller TI-30 Tabeller og formler i statistikk (Tapir

Detaljer

QED 1 7. Matematikk for grunnskolelærerutdanningen. Bind 2. Fasit kapittel 4 Statistikk og kvantitativ metode

QED 1 7. Matematikk for grunnskolelærerutdanningen. Bind 2. Fasit kapittel 4 Statistikk og kvantitativ metode QED 1 7 Matematikk for grunnskolelærerutdanningen Bind 2 Fasit kapittel 4 Statistikk og kvantitativ metode Kapittel 4 Oppgave 1 La være antall øyne på terningen. a) Vi får følgende sannsynlighetsfordeling

Detaljer

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2. Løsningsforslag til eksamen i MOT310 STATISTISKE METODER 1 VARIGHET: 4 TIMER DATO: 17 november 2008 TILLATTE HJELPEMIDLER: Kalkulator: HP30S, Casio FX82 eller TI-30 Tabeller og formler i statistikk Tapir

Detaljer

Beskrivende statistikk.

Beskrivende statistikk. Obligatorisk oppgave i Statistikk, uke : Beskrivende statistikk. 1 Høgskolen i Gjøvik Avdeling for teknologi, økonomi og ledelse. Statistikk Ukeoppgaver uke I løpet av uken blir løsningsforslag lagt ut

Detaljer

MASTER I IDRETTSVITENSKAP 2014/2016. Utsatt individuell skriftlig eksamen. STA 400- Statistikk. Mandag 24. august 2015 kl. 10.00-12.

MASTER I IDRETTSVITENSKAP 2014/2016. Utsatt individuell skriftlig eksamen. STA 400- Statistikk. Mandag 24. august 2015 kl. 10.00-12. MASTR I IDRTTSVITNSKAP 2014/2016 Utsatt individuell skriftlig eksamen i STA 400- Statistikk Mandag 24. august 2015 kl. 10.00-12.00 Hjelpemidler: kalkulator ksamensoppgaven består av 10 sider inkludert

Detaljer

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i: STK1120 Statistiske metoder og dataanalyse 2 Eksamensdag: Mandag 4. juni 2007. Tid for eksamen: 14.30 17.30. Oppgavesettet er

Detaljer

SOS1120 Kvantitativ metode. Regresjonsanalyse. Lineær sammenheng II. Lineær sammenheng I. Forelesningsnotater 11. forelesning høsten 2005

SOS1120 Kvantitativ metode. Regresjonsanalyse. Lineær sammenheng II. Lineær sammenheng I. Forelesningsnotater 11. forelesning høsten 2005 SOS1120 Kvantitativ metode Regresjonsanalyse Forelesningsnotater 11. forelesning høsten 2005 Per Arne Tufte Lineær sammenheng I Lineær sammenheng II Ukelønn i kroner 4000 3500 3000 2500 2000 1500 1000

Detaljer

Konfidensintervall for µ med ukjent σ (t intervall)

Konfidensintervall for µ med ukjent σ (t intervall) Forelesning 3, kapittel 6 Konfidensintervall for µ med ukjent σ (t intervall) Konfidensintervall for µ basert på n observasjoner fra uavhengige N( µ, σ) fordelinger når σ er kjent : Hvis σ er ukjent har

Detaljer

Sannsynlighetsregning og Statistikk.

Sannsynlighetsregning og Statistikk. Sannsynlighetsregning og Statistikk. Leksjon Velkommen til dette kurset i sannsynlighetsregning og statistikk! Vi vil som lærebok benytte Gunnar G. Løvås:Statistikk for universiteter og høyskoler. I den

Detaljer

2. Hva er en sampelfordeling? Nevn tre eksempler på sampelfordelinger.

2. Hva er en sampelfordeling? Nevn tre eksempler på sampelfordelinger. H12 - Semesteroppgave i statistikk - sensurveiledning Del 1 - teori 1. Gjør rede for resonnementet bak ANOVA. Enveis ANOVA tester om det er forskjeller mellom gjennomsnittene i tre eller flere populasjoner.

Detaljer

Innhold. Innledning. Del I

Innhold. Innledning. Del I Innhold Del I Innledning 1 Hva er statistikk?...17 1.1 Bokas innhold 18 1.1.1 Noen eksempler 18 1.1.2 Historie 21 1.1.3 Bokas oppbygning 22 1.2 Noen viktige begreper 23 1.2.1 Populasjon og utvalg 23 1.2.2

Detaljer

Fasit for tilleggsoppgaver

Fasit for tilleggsoppgaver Fasit for tilleggsoppgaver Uke 5 Oppgave: Gitt en rekke med observasjoner x i (i = 1,, 3,, n), definerer vi variansen til x i som gjennomsnittlig kvadratavvik fra gjennomsnittet, m.a.o. Var(x i ) = (x

Detaljer

FORMELSAMLING STATISTIKK, HiG Versjon per 10. januar 2002, ved Hornæs

FORMELSAMLING STATISTIKK, HiG Versjon per 10. januar 2002, ved Hornæs FORMELSAMLING STATISTIKK, HiG Versjon per 10 januar 2002, ved Hornæs 1 EMPIRISKE STATISTISKE MÅL 11 Forventningsverdi, varians og standardavvik La x {x 1,x 2, x n } være et datasett av (reelle) tall: 111

Detaljer

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere ST0202 Statistikk for samfunnsvitere Bo Lindqvist Institutt for matematiske fag 2 Kap. 10: Inferens om to populasjoner Situasjon: Vi ønsker å sammenligne to populasjoner med populasjonsgjennomsnitt henholdsvis

Detaljer

EKSAMEN. EMNEANSVARLIG: Terje Bokalrud og Hans Petter Hornæs. TILLATTE HJELPEMIDLER: Kalkulator og alle trykte og skrevne hjelpemidler.

EKSAMEN. EMNEANSVARLIG: Terje Bokalrud og Hans Petter Hornæs. TILLATTE HJELPEMIDLER: Kalkulator og alle trykte og skrevne hjelpemidler. KANDIDATNUMMER: EKSAMEN EMNENAVN: EMNENUMMER: Kvalitetsledelse med Statistikk. SMF2121 EKSAMENSDATO: 1. juni 2010 KLASSE: Ingeniørutdanning TID: kl. 9.00 13.00. EMNEANSVARLIG: Terje Bokalrud og Hans Petter

Detaljer

Inferens i regresjon

Inferens i regresjon Strategi som er fulgt hittil: Inferens i regresjon Deskriptiv analyse og dataanalyse først. Analyse av en variabel før studie av samvariasjon. Emne for dette kapittel er inferens når det er en respons

Detaljer

Kontroller at oppgavesettet er komplett før du begynner å besvare spørsmålene. Ved sensuren teller alle delspørsmål likt.

Kontroller at oppgavesettet er komplett før du begynner å besvare spørsmålene. Ved sensuren teller alle delspørsmål likt. Eksamen i: MET040 Statistikk for økonomer Eksamensdag: 4. juni 2008 Tid for eksamen: 09.00-13.00 Oppgavesettet er på 5 sider. Tillatte hjelpemidler: Alle trykte eller egenskrevne hjelpemidler og kalkulator.

Detaljer

STUDIEÅRET 2014/2015. Utsatt individuell skriftlig eksamen i. STA 200- Statistikk. Mandag 24. august 2015 kl. 10.00-12.00

STUDIEÅRET 2014/2015. Utsatt individuell skriftlig eksamen i. STA 200- Statistikk. Mandag 24. august 2015 kl. 10.00-12.00 STUDIEÅRET 2014/2015 Utsatt individuell skriftlig eksamen i STA 200- Statistikk Mandag 24. august 2015 kl. 10.00-12.00 Hjelpemidler: kalkulator. Formelsamling blir delt ut på eksamen Eksamensoppgaven består

Detaljer

HØGSKOLEN I STAVANGER

HØGSKOLEN I STAVANGER EKSAMEN I: MOT0 STATISTISKE METODER VARIGHET: TIMER DATO:. NOVEMBER 00 TILLATTE HJELPEMIDLER: KALKULATOR, TABELLER OG FORMLER I STATISTIKK (TAPIR FORLAG) OPPGAVESETTET BESTÅR AV OPPGAVER PÅ 7 SIDER HØGSKOLEN

Detaljer

Formelsamling i medisinsk statistikk

Formelsamling i medisinsk statistikk Formelsamling i medisinsk statistikk Versjon av 6. mai 208 Dette er en formelsamling til O. O. Aalen (red.): Statistiske metoder i medisin og helsefag, Gyldendal, 208. Gjennomsnitt x = n (x + x 2 + x 3

Detaljer

Analyse av kontinuerlige data. Intro til hypotesetesting. 21. april 2005. Seksjon for medisinsk statistikk, UIO. Tron Anders Moger

Analyse av kontinuerlige data. Intro til hypotesetesting. 21. april 2005. Seksjon for medisinsk statistikk, UIO. Tron Anders Moger Intro til hypotesetesting Analyse av kontinuerlige data 21. april 2005 Tron Anders Moger Seksjon for medisinsk statistikk, UIO 1 Repetisjon fra i går: Normalfordelingen Variasjon i målinger kan ofte beskrives

Detaljer

EKSAMEN. Flexibel ingeniørutdanning, 2kl. Bygg m.fl.

EKSAMEN. Flexibel ingeniørutdanning, 2kl. Bygg m.fl. KANDIDATNUMMER: EKSAMEN FAGNAVN: FAGNUMMER: Statistikk. REA 1081 og REA1081F EKSAMENSDATO: 1. juni 2011. KLASSE: Flexibel ingeniørutdanning, 2kl. Bygg m.fl. TID: kl. 9.00 12.00. FAGLÆRER: Hans Petter Hornæs

Detaljer

EKSAMEN. TILLATTE HJELPEMIDLER: Kalkulator. Hornæs: Formelsamling statistikk HiG. John Haugan: Formler og tabeller.

EKSAMEN. TILLATTE HJELPEMIDLER: Kalkulator. Hornæs: Formelsamling statistikk HiG. John Haugan: Formler og tabeller. KANDIDATNUMMER: EKSAMEN FAGNAVN: FAGNUMMER: Statistikk. REA1081 EKSAMENSDATO: 11. juni 2007. KLASSE: Ingeniørklasser. TID: kl. 9.00 13.00. FAGLÆRER: Hans Petter Hornæs ANTALL SIDER UTLEVERT: 4 (innkl.

Detaljer

MASTER I IDRETTSVITENSKAP 2013/2015 MASTER I IDRETTSFYSIOTERAPI 2013/2015. Individuell skriftlig eksamen. STA 400- Statistikk

MASTER I IDRETTSVITENSKAP 2013/2015 MASTER I IDRETTSFYSIOTERAPI 2013/2015. Individuell skriftlig eksamen. STA 400- Statistikk MASTER I IDRETTSVITENSKAP 013/015 MASTER I IDRETTSFYSIOTERAPI 013/015 Individuell skriftlig eksamen i STA 400- Statistikk Mandag 10. mars 014 kl. 10.00-1.00 Hjelpemidler: kalkulator Eksamensoppgaven består

Detaljer

1 Sec 3-2: Hvordan beskrive senteret i dataene. 2 Sec 3-3: Hvordan beskrive spredningen i dataene

1 Sec 3-2: Hvordan beskrive senteret i dataene. 2 Sec 3-3: Hvordan beskrive spredningen i dataene 1 Sec 3-2: Hvordan beskrive senteret i dataene 2 Sec 3-3: Hvordan beskrive spredningen i dataene Todeling av statistikk Deskriptiv statistikk Oppsummering og beskrivelse av den stikkprøven du har. Statistisk

Detaljer

Sentralverdi av dataverdi i et utvalg Vi tenker oss et utvalg med datapar. I vårt eksempel har vi 5 datapar.

Sentralverdi av dataverdi i et utvalg Vi tenker oss et utvalg med datapar. I vårt eksempel har vi 5 datapar. Statistisk behandling av kalibreringsresultatene Del 4. v/ Rune Øverland, Trainor Elsikkerhet AS Denne artikkelserien handler om statistisk behandling av kalibreringsresultatene. Dennne artikkelen tar

Detaljer

Løsningsforslag ECON 2130 Obligatorisk semesteroppgave 2017 vår

Løsningsforslag ECON 2130 Obligatorisk semesteroppgave 2017 vår Løsningsforslag ECON 130 Obligatorisk semesteroppgave 017 vår Andreas Myhre Oppgave 1 1. (i) Siden X og Z er uavhengige, vil den simultane fordelingen mellom X og Z kunne skrives som: f(x, z) = P(X = x

Detaljer

6.2 Signifikanstester

6.2 Signifikanstester 6.2 Signifikanstester Konfidensintervaller er nyttige når vi ønsker å estimere en populasjonsparameter Signifikanstester er nyttige dersom vi ønsker å teste en hypotese om en parameter i en populasjon

Detaljer

HØGSKOLEN I STAVANGER

HØGSKOLEN I STAVANGER EKSAMEN I: MOT310 STATISTISKE METODER 1 VARIGHET: 4 TIMER DATO: 25. NOVEMBER 2003 TILLATTE HJELPEMIDLER: KALKULATOR, TABELLER OG FORMLER I STATISTIKK (TAPIR FORLAG) OPPGAVESETTET BESTÅR AV 3 OPPGAVER PÅ

Detaljer

Hypotesetesting av λ og p. p verdi.

Hypotesetesting av λ og p. p verdi. Forelesning 7, kapittel 6 Hypotesetesting av λ og p. p verdi. Det som gjøres i denne forelesningen er nær opptil det vi gjorde da vi konstruerte z test for µ, og styrkefunksjon for denne. I tillegg til

Detaljer

Snøtetthet. Institutt for matematiske fag, NTNU 15. august Notat for TMA4240/TMA4245 Statistikk

Snøtetthet. Institutt for matematiske fag, NTNU 15. august Notat for TMA4240/TMA4245 Statistikk Snøtetthet Notat for TMA424/TMA4245 Statistikk Institutt for matematiske fag, NTNU 5. august 22 I forbindelse med varsling av om, klimaforskning og særlig kraftproduksjon er det viktig å kunne anslå hvor

Detaljer

år i 1 2 3 4 5 6 7 8 9 alder x i 37 38 39 40 41 42 43 44 45 tid y i 45.54 41.38 42.50 38.80 41.26 37.20 38.19 38.05 37.45 i=1 (x i x) 2 = 60, 9

år i 1 2 3 4 5 6 7 8 9 alder x i 37 38 39 40 41 42 43 44 45 tid y i 45.54 41.38 42.50 38.80 41.26 37.20 38.19 38.05 37.45 i=1 (x i x) 2 = 60, 9 TMA424 Statistikk Vår 214 Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag Øving nummer 11, blokk II Oppgave 1 Matlabkoden linearreg.m, tilgjengelig fra emnets hjemmeside, utfører

Detaljer

FORMELSAMLING STATISTIKK, HiG

FORMELSAMLING STATISTIKK, HiG FORMELSAMLING STATISTIKK, HiG Hans Petter Hornæs hans.hornaes@hig.no Versjon per 18. februar 2004 Innhold 1 EMPIRISKE STATISTISKE MÅL 1 1.1 Forventningsverdi, varians og standardavvik.....................

Detaljer

Befolkning og velferd ECON 1730, H2016. Regresjonsanalyse

Befolkning og velferd ECON 1730, H2016. Regresjonsanalyse Netto innfl. Befolkning og velferd ECON 1730, H2016 Regresjonsanalyse Problem: Gitt planer for 60 nye boliger i kommunen neste år, hvor mange innflyttere kan vi forvente? Tabell Vestby kommune Nye boliger

Detaljer

EKSAMEN. TILLATTE HJELPEMIDLER: Kalkulator. Hornæs: Formelsamling statistikk HiG. John Haugan: Formler og tabeller.

EKSAMEN. TILLATTE HJELPEMIDLER: Kalkulator. Hornæs: Formelsamling statistikk HiG. John Haugan: Formler og tabeller. KANDIDATNUMMER: EKSAMEN FAGNAVN: FAGNUMMER: Statistikk. BtG207 EKSAMENSDATO: 1. juni 2010. KLASSE: HIS 08 11. TID: kl. 8.00 13.00. FAGLÆRER: Hans Petter Hornæs ANTALL SIDER UTLEVERT: 3 (innkl. forside)

Detaljer

Kan vi stole på resultater fra «liten N»?

Kan vi stole på resultater fra «liten N»? Kan vi stole på resultater fra «liten N»? Olav M. Kvalheim Universitetet i Bergen Plan for dette foredraget Hypotesetesting og p-verdier for å undersøke en variabel p-verdier når det er mange variabler

Detaljer

Oppgave 1. Det oppgis at dersom y ij er observasjon nummer j fra laboratorium i så er SSA = (y ij ȳ i ) 2 = 3.6080.

Oppgave 1. Det oppgis at dersom y ij er observasjon nummer j fra laboratorium i så er SSA = (y ij ȳ i ) 2 = 3.6080. EKSAMEN I: MOT310 STATISTISKE METODER 1 VARIGHET: 4 TIMER DATO: 28. FEBRUAR 2005 TILLATTE HJELPEMIDLER: KALKULATOR, TABELLER OG FORMLER I STATISTIKK (TAPIR FORLAG) OPPGAVESETTET BESTÅR AV 4 OPPGAVER PÅ

Detaljer

Forelesning 23 og 24 Wilcoxon test, Bivariate Normal fordeling

Forelesning 23 og 24 Wilcoxon test, Bivariate Normal fordeling Forelesning 23 og 24 Wilcoxon test, Bivariate Normal fordeling Wilcoxon Signed-Rank Test I uke, bruker vi Z test eller t-test for hypotesen H:, og begge tester er basert på forutsetningen om normalfordeling

Detaljer

Statistikk 1. Nico Keilman. ECON 2130 Vår 2014

Statistikk 1. Nico Keilman. ECON 2130 Vår 2014 Statistikk 1 Nico Keilman ECON 2130 Vår 2014 Pensum Kap 1-7.3.6 fra Løvås «Statistikk for universiteter og høgskoler» 3. utgave 2013 (eventuelt 2. utgave) Se overspringelsesliste på emnesiden Supplerende

Detaljer

TMA4240 Statistikk Høst 2016

TMA4240 Statistikk Høst 2016 TMA4240 Statistikk Høst 2016 Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag Anbefalt øving 11 Oppgavene i denne øvingen dreier seg om hypotesetesting og sentrale begreper

Detaljer

Inferens i fordelinger

Inferens i fordelinger Inferens i fordelinger Modifiserer antagelsen om at standardavviket i populasjonen σ er kjent Mer kompleks systematisk del ( her forventningen i populasjonen). Skal se på en situasjon der populasjonsfordelingen

Detaljer

EKSAMEN. TILLATTE HJELPEMIDLER: Kalkulator. Hornæs: Formelsamling statistikk HiG. John Haugan: Formler og tabeller.

EKSAMEN. TILLATTE HJELPEMIDLER: Kalkulator. Hornæs: Formelsamling statistikk HiG. John Haugan: Formler og tabeller. KANDIDATNUMMER: EKSAMEN FAGNAVN: Statistikk. FAGNUMMER: Rea 1082 EKSAMENSDATO: 14. mai 2009. KLASSE: Ing. TID: kl. 9.00 13.00. FAGLÆRER: Hans Petter Hornæs ANTALL SIDER UTLEVERT: 3 (innkl. forside) TILLATTE

Detaljer

Sensorveiledning: skoleeksamen i SOS Kvantitativ metode

Sensorveiledning: skoleeksamen i SOS Kvantitativ metode Sensorveiledning: skoleeksamen i SOS1120 - Kvantitativ metode Tirsdag 30. mai 2016 (4 timer) Poenggivning og karakter I del 1 gis det ett poeng for hvert riktige svar. Ubesvart eller feil svar gis 0 poeng.

Detaljer

Gruppe 1 Gruppe 2 Gruppe a) Finn aritmetisk gjennomsnitt, median, modus og standardavvik for gruppe 2.

Gruppe 1 Gruppe 2 Gruppe a) Finn aritmetisk gjennomsnitt, median, modus og standardavvik for gruppe 2. Sensurveiledning Ped 3001 h12 Oppgave 1 Er det sammenheng mellom støtte fra venner og selvaktelse hos ungdom? Dette spørsmålet ønsket en forsker å undersøke. Han samlet data på 9. klassingers opplevde

Detaljer

Løsningsforslag Til Statlab 5

Løsningsforslag Til Statlab 5 Løsningsforslag Til Statlab 5 Jimmy Paul September 6, 007 Oppgave 8.1 Vi skal se på ukentlige forbruk av søtsaker blant barn i et visst område. En pilotstudie gir at standardavviket til det ukentige forbruket

Detaljer

TMA4240 Statistikk Eksamen desember 2015

TMA4240 Statistikk Eksamen desember 2015 Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag TMA4240 Statistikk Eksamen desember 15 Oppgave 1 La den kontinuerlige stokastiske variabelen X ha fordelingsfunksjon (sannsynlighetstetthet

Detaljer

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i: STK 1000 Innføring i anvendt statistikk. Eksamensdag: Torsdag 1. juni 2006. Tid for eksamen: 09.00 12.00. Oppgavesettet er på

Detaljer

EKSAMEN ST0202 STATISTIKK FOR SAMFUNNSVITERE

EKSAMEN ST0202 STATISTIKK FOR SAMFUNNSVITERE Norges teknisk naturvitenskapelige universitet Institutt for matematiske fag Side 1 av 7 Bokmål Faglig kontakt under eksamen: Bo Lindqvist, tlf. 97589418 EKSAMEN ST00 STATISTIKK FOR SAMFUNNSVITERE Torsdag

Detaljer

Eksamensoppgave i TMA4240 Statistikk

Eksamensoppgave i TMA4240 Statistikk Institutt for matematiske fag Eksamensoppgave i TMA4240 Statistikk Faglig kontakt under eksamen: Jo Eidsvik og Arild Brandrud Næss Tlf: 90 12 74 72 og 99 53 82 94 Eksamensdato: 9. desember 2013 Eksamenstid

Detaljer

EKSAMEN I FAG TMA4255 ANVENDT STATISTIKK

EKSAMEN I FAG TMA4255 ANVENDT STATISTIKK Norges teknisk naturvitenskapelige universitet Institutt for matematiske fag Side 1 av 5 Faglig kontakt under eksamen: Bo Lindqvist Tlf. 975 89 418 BOKMÅL EKSAMEN I FAG TMA4255 ANVENDT STATISTIKK Onsdag

Detaljer

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere ST0202 Statistikk for samfunnsvitere Bo Lindqvist Institutt for matematiske fag 2 Statistisk inferens (kap. 8) Statistisk inferens er å tolke/analysere resultater fra utvalget for å finne ut mest mulig

Detaljer

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere ST0202 Statistikk for samfunnsvitere Bo Lindqvist Institutt for matematiske fag 2 Inferens om varians og standardavvik for ett normalfordelt utvalg (9.4) Inferens om variansen til en normalfordelt populasjon

Detaljer

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere ST0202 Statistikk for samfunnsvitere Bo Lindqvist Institutt for matematiske fag 2 Statistisk inferens (kap. 8) Statistisk inferens er å tolke/analysere resultater fra utvalget for å finne ut mest mulig

Detaljer

STUDIEÅRET 2016/2017. Individuell skriftlig eksamen i STA 200- Statistikk. Torsdag 27. april 2017 kl

STUDIEÅRET 2016/2017. Individuell skriftlig eksamen i STA 200- Statistikk. Torsdag 27. april 2017 kl STUDIEÅRET 2016/2017 Individuell skriftlig eksamen i STA 200- Statistikk Torsdag 27. april 2017 kl. 10.00-12.00 Hjelpemidler: Kalkulator og formelsamling som blir delt ut på eksamen Eksamensoppgaven består

Detaljer

i x i

i x i TMA4245 Statistikk Vår 2016 Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag Anbefalte oppgaver 11, blokk II Oppgavene i denne øvingen dreier seg om hypotesetesting og sentrale

Detaljer

1 Grafisk framstilling av datamateriale

1 Grafisk framstilling av datamateriale 1 Grafisk framstilling av datamateriale Dette notatet er laget med tanke på åfå til en rask gjennomgang av denne delen av pensum. Determentforå ha nedskrevet det som forholdsvis rakt blir sagt i forelesning,

Detaljer

Statistikk for språk- og musikkvitere 1

Statistikk for språk- og musikkvitere 1 Statistikk for språk- og musikkvitere 1 Mitt navn: Åsne Haaland, Vitenskapelig databehandling USIT Ikke nøl, avbryt med spørsmål! Hva oppnår en med statistikk? Få oversikt over data: typisk verdi, spredning,

Detaljer

OPPGAVEHEFTE I STK1000 TIL KAPITTEL Regneoppgaver til kapittel 7. X 1,i, X 2 = 1 n 2. D = X 1 X 2. På onsdagsforelesningen påstod jeg at da må

OPPGAVEHEFTE I STK1000 TIL KAPITTEL Regneoppgaver til kapittel 7. X 1,i, X 2 = 1 n 2. D = X 1 X 2. På onsdagsforelesningen påstod jeg at da må OPPGAVEHEFTE I STK000 TIL KAPITTEL 7 Regneoppgaver til kapittel 7 Oppgave Anta at man har resultatet av et randomisert forsøk med to grupper, og observerer fra gruppe, mens man observerer X,, X,2,, X,n

Detaljer

Løsningsforslag til obligatorisk oppgave i ECON 2130

Løsningsforslag til obligatorisk oppgave i ECON 2130 Andreas Mhre April 15 Løsningsforslag til obligatorisk oppgave i ECON 13 Oppgave 1: E(XY) = E(X(Z X)) Setter inn Y = Z - X E(XY) = E(XZ X ) E(XY) = E(XZ) E(X ) E(XY) = - E(X ) X og Z er uavhengige, så

Detaljer

Andre sett med obligatoriske oppgaver i STK1110 høsten 2010

Andre sett med obligatoriske oppgaver i STK1110 høsten 2010 Andre sett med obligatoriske oppgaver i STK1110 høsten 2010 Dette er det andre settet med obligatoriske oppgaver i STK1110 høsten 2010. Oppgavesettet består av fire oppgaver. Det er valgfritt om du vil

Detaljer

MASTER I IDRETTSVITENSKAP 2014/2016. Individuell skriftlig eksamen. STA 400- Statistikk. Fredag 13. mars 2015 kl. 10.00-12.00

MASTER I IDRETTSVITENSKAP 2014/2016. Individuell skriftlig eksamen. STA 400- Statistikk. Fredag 13. mars 2015 kl. 10.00-12.00 MASTER I IDRETTSVITENSKAP 2014/2016 Individuell skriftlig eksamen i STA 400- Statistikk Fredag 13. mars 2015 kl. 10.00-12.00 Hjelpemidler: kalkulator Eksamensoppgaven består av 10 sider inkludert forsiden

Detaljer

Eksamensoppgave i TMA4245 Statistikk

Eksamensoppgave i TMA4245 Statistikk Institutt for matematiske fag Eksamensoppgave i TMA4245 Statistikk Faglig kontakt under eksamen: Håkon Tjelmeland Tlf: 48 22 18 96 Eksamensdato:??. august 2014 Eksamenstid (fra til): 09:00 13:00 Hjelpemiddelkode/Tillatte

Detaljer

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere 2 Statistisk inferens (kap. 8) Statistisk inferens er å tolke/analysere resultater fra utvalget for å finne ut mest mulig om populasjonen. Konkret: Å analysere en utvalgsobservator for å trekke slutninger

Detaljer

QED 5 10. Matematikk for grunnskolelærerutdanningen. Bind 2. Fasit kapittel 4 Statistikk og kvantitativ metode

QED 5 10. Matematikk for grunnskolelærerutdanningen. Bind 2. Fasit kapittel 4 Statistikk og kvantitativ metode QED 5 10 Matematikk for grunnskolelærerutdanningen Bind 2 Fasit kapittel 4 Statistikk og kvantitativ metode Kapittel 4 Oppgave 1. La x være antall øyne på terningen. a) Vi får følgende sannsynlighetsfordeling

Detaljer

TMA4245 Statistikk Eksamen desember 2016

TMA4245 Statistikk Eksamen desember 2016 Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag TMA4245 Statistikk Eksamen desember 2016 Oppgave 1 En bedrift produserer elektriske komponenter. Komponentene kan ha to typer

Detaljer

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere ST0202 Statistikk for samfunnsvitere Bo Lindqvist Institutt for matematiske fag 2 Kap. 13: Lineær korrelasjons- og regresjonsanalyse Kap. 13.1-13.3: Lineær korrelasjonsanalyse. Disse avsnitt er ikke pensum,

Detaljer

MOT310 Statistiske metoder 1, høsten 2011 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 1. n + (x 0 x) 1 2 ) = 1 γ

MOT310 Statistiske metoder 1, høsten 2011 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 1. n + (x 0 x) 1 2 ) = 1 γ MOT310 Statistiske metoder 1, høsten 2011 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: Oppgave 11.25 (11.27, 11.6:13) Modell: Y i = α + βx i + ε i der ε 1,..., ε n u.i.f. N(0, σ 2 ). Skal nne

Detaljer

Notasjon og Tabell 8. ST0202 Statistikk for samfunnsvitere

Notasjon og Tabell 8. ST0202 Statistikk for samfunnsvitere 2 Inferens om varians og standardavvik for ett normalfordelt utvalg (9.4) Inferens om variansen til en normalfordelt populasjon bruker kjikvadrat-fordelingen ( chi-square distribution ) (der kji er den

Detaljer

EKSAMEN. Flexibel ingeniørutdanning, 2kl. Bygg.

EKSAMEN. Flexibel ingeniørutdanning, 2kl. Bygg. KANDIDATNUMMER: EKSAMEN FAGNAVN: FAGNUMMER: Statistikk. REA 1081F REA1081) EKSAMENSDATO: 1. juni 2010. KLASSE: Flexibel ingeniørutdanning, 2kl. Bygg. TID: kl. 9.00 12.00. FAGLÆRER: Hans Petter Hornæs ANTALL

Detaljer

I enkel lineær regresjon beskrev linja. μ y = β 0 + β 1 x

I enkel lineær regresjon beskrev linja. μ y = β 0 + β 1 x Multiple regresjon Her utvider vi perspektivet for enkel lineær regresjon til også å omfatte flere forklaringsvariable.det er fortsatt en responsvariabel. Måten dette gjøre på er nokså naturlig. Prediktoren

Detaljer

1 10-2: Korrelasjon. 2 10-3: Regresjon

1 10-2: Korrelasjon. 2 10-3: Regresjon 1 10-2: Korrelasjon 2 10-3: Regresjon Example Krysser y-aksen i 1: b 0 = 1 Stiger med 2 hver gang x øker med 1: b 1 = 2 Formelen til linja er derfor y = 1 + 2x Eksempel Example Vi lar fem personer se en

Detaljer

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere 2 Statistisk inferens (kap. 8) Statistisk inferens er å tolke/analysere resultater fra utvalget for å finne ut mest mulig om populasjonen. Konkret: Analysere en observator for å finne ut noe om korresponderende

Detaljer

Definisjoner av begreper Eks.: interesse for politikk

Definisjoner av begreper Eks.: interesse for politikk Måling SOS1120 Kvantitativ metode Forelesningsnotater 5. forelesning høsten 2005 Per Arne Tufte Måling er å knytte teoretiske begreper til empiriske indikatorer Operasjonell definisjon Angir hvordan et

Detaljer

PSY2012 Forskningsmetodologi III: Statistisk analyse, design og måling Eksamen vår 2014

PSY2012 Forskningsmetodologi III: Statistisk analyse, design og måling Eksamen vår 2014 Psykologisk institutt PSY2012 Forskningsmetodologi III: Statistisk analyse, design og måling Eksamen vår 2014 Skriftlig skoleeksamen fredag 2. mai, 09:00 (4 timer). Kalkulator uten grafisk display og tekstlagringsfunksjon

Detaljer

Dataanalyse. Hva er en dataanalyse og hvordan gå frem for å gjennomføre en dataanalyse av det innsamlede datagrunnlaget fra en feltundersøkelse?

Dataanalyse. Hva er en dataanalyse og hvordan gå frem for å gjennomføre en dataanalyse av det innsamlede datagrunnlaget fra en feltundersøkelse? Hva er en dataanalyse og hvordan gå frem for å gjennomføre en dataanalyse av det innsamlede datagrunnlaget fra en feltundersøkelse? Skrevet av: Kjetil Sander Utgitt av: estudie.no Revisjon: 1.0 (Sept.

Detaljer

ST0202 Statistikk for samfunnsvitere Kapittel 9: Inferens om én populasjon

ST0202 Statistikk for samfunnsvitere Kapittel 9: Inferens om én populasjon ST0202 Statistikk for samfunnsvitere Kapittel 9: Inferens om én populasjon Bo Lindqvist Institutt for matematiske fag 2 Kap. 9: Inferens om én populasjon Statistisk inferens har som mål å tolke/analysere

Detaljer

Skoleeksamen i SOS Kvantitativ metode

Skoleeksamen i SOS Kvantitativ metode Skoleeksamen i SOS1120 - Kvantitativ metode Hjelpemidler Ordbok Alle typer kalkulatorer Tirsdag 30. mai 2017 (4 timer) Lærerbok (det er mulig mulig å ha med en annen, tilsvarende pensumbok, som erstatning

Detaljer

Introduksjon til statistikk og dataanalyse. Arild Brandrud Næss TMA4240 Statistikk NTNU, høsten 2013

Introduksjon til statistikk og dataanalyse. Arild Brandrud Næss TMA4240 Statistikk NTNU, høsten 2013 Introduksjon til statistikk og dataanalyse Arild Brandrud Næss TMA4240 Statistikk NTNU, høsten 2013 Introduksjon til statistikk og dataanalyse Hollywood-filmer fra 2011 135 filmer Samla budsjett: $ 7 166

Detaljer

Bruk data fra tabellen over (utvalget) og opplysninger som blir gitt i oppgavene og svar på følgende spørsmål:

Bruk data fra tabellen over (utvalget) og opplysninger som blir gitt i oppgavene og svar på følgende spørsmål: Frafall fra videregende skole (VGS) er et stort problem. Bare ca 70% av elevene som begynner p VGS fullfører og bestr i løpet av 5 r. For noen elever er skolen s lite attraktiv at de velger slutte før

Detaljer

STUDIEÅRET 2014/2015. Individuell skriftlig eksamen i STA 200- Statistikk. Torsdag 16. april 2015 kl. 10.00-12.00

STUDIEÅRET 2014/2015. Individuell skriftlig eksamen i STA 200- Statistikk. Torsdag 16. april 2015 kl. 10.00-12.00 STUDIEÅRET 2014/2015 Individuell skriftlig eksamen i STA 200- Statistikk Torsdag 16. april 2015 kl. 10.00-12.00 Hjelpemidler: kalkulator. Formelsamling blir delt ut på eksamen Eksamensoppgaven består av

Detaljer

Et lite notat om og rundt normalfordelingen.

Et lite notat om og rundt normalfordelingen. Et lite notat om og rundt normalfordelingen. Anta at vi har kontinuerlige data. Hva er likt og ulikt for histogrammer og fordelingskurver? Observasjoner Histogram Viser fordelingen av faktiske observerte

Detaljer

EKSAMEN I FAG TMA4255 FORSØKSPLANLEGGING OG ANVENDTE STATISTISKE METODER

EKSAMEN I FAG TMA4255 FORSØKSPLANLEGGING OG ANVENDTE STATISTISKE METODER Norges teknisk naturvitenskapelige universitet Institutt for matematiske fag Side 1 av 8 Faglig kontakt under eksamen: Bo Lindqvist Tlf. 975 89 418 EKSAMEN I FAG TMA4255 FORSØKSPLANLEGGING OG ANVENDTE

Detaljer

STK1000 Uke 36, Studentene forventes å lese Ch 1.4 ( ) i læreboka (MMC). Tetthetskurver. Eksempel: Drivstofforbruk hos 32 biler

STK1000 Uke 36, Studentene forventes å lese Ch 1.4 ( ) i læreboka (MMC). Tetthetskurver. Eksempel: Drivstofforbruk hos 32 biler STK1000 Uke 36, 2016. Studentene forventes å lese Ch 1.4 (+ 3.1-3.3 + 3.5) i læreboka (MMC). Tetthetskurver Eksempel: Drivstofforbruk hos 32 biler Fra histogram til tetthetskurver Anta at vi har kontinuerlige

Detaljer

= 5, forventet inntekt er 26

= 5, forventet inntekt er 26 Eksempel på optimal risikodeling Hevdet forrige gang at i en kontrakt mellom en risikonøytral og en risikoavers person burde den risikonøytrale bære all risiko Kan illustrere dette i en enkel situasjon,

Detaljer

Testobservator for kjikvadrattester

Testobservator for kjikvadrattester ST0202 Statistikk for samfunnsvitere Bo Lindqvist Institutt for matematiske fag 2 Kap. 11: Anvendelser av kjikvadratfordelingen: Kjikvadrattester Situasjon: Et tilfeldig utvalg av n individer er trukket

Detaljer

Eksamen i. MAT110 Statistikk 1

Eksamen i. MAT110 Statistikk 1 Avdeling for logistikk Eksamen i MAT110 Statistikk 1 Eksamensdag : Torsdag 28. mai 2015 Tid : 09:00 13:00 (4 timer) Faglærer/telefonnummer : Molde: Per Kristian Rekdal / 924 97 051 Kristiansund: Terje

Detaljer

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i: STK1110 Løsningsforslag: Statistiske metoder og dataanalys Eksamensdag: Fredag 9. desember 2011 Tid for eksamen: 14.30 18.30

Detaljer