HYPOTESETESTING for mastergradsstudium i informasjonssikkerhet

Størrelse: px
Begynne med side:

Download "HYPOTESETESTING for mastergradsstudium i informasjonssikkerhet"

Transkript

1 HYPOTESETESTING for mastergradsstudium i informasjonssikkerhet Hans Petter Hornæs E-post: Høgskolen i Gjøvik. Versjon per Dette er notater, oppgaver og formelsamling til støtte for et kortkurs i statistikk innenfor faget IMT5011 Sikkerhetsmetrikker på mastergradsstudiet i informasjonssikkerhet ved Høgskolen i Gjøvik 5. november For ordens skyld: Se på dette notatet som litt uformelle forelesningsnotater. Det er litt hastverkspreget, halvferdig og mangelfult, og sikkert fullt av skrivefeil. Notatet er på ingen måte så gjennomarbeidet at det erstatter eller fortjener å bli sammenliknet med en ordentlig lærebok.

2 Innhold 1 INNLEDNING Litteratur og dataprogram Annen litteratur Andre dataprogrammer Målsetting og metode T ilbakemelding Hypotesetesting Hypoteser Signifikansnivå og teststyrke p verdi Reliabilitet og validitet Datatyper og modeller KRYSSTABELLER Krysstabeller og kjikvadrattester Krysstabeller Uavhengighet og uavhengighetstabeller Kjikvadrattest Variansanalyse Litt om ANOVA generelt Modellforutsetninger generelt Varians og kvadratsummer Noen notasjoner Enveis variansanalyse Datastuktur og modellforutsetninger ANOVAtabeller Ideene med ANOVA Kvadratsummer og frihetsgrader T oveis variansanalyse k faktor variansanalyse REGRESJON OG KORRELASJON Korrelasjon Binormal modell Lineær modell Multippel regresjon

3 3 5 IKKE PARAMETRISKE METODER Uparet Mann-Whitney-Wilcoxon-test Paret Wilcoxon test P 6 OP GAVER Regresjon og korrelasjon (kap. 7) Lineær modell (kap. 7) Uparet og paret T test (kap og 8.2.3) Enveis variansanalyse (kap ) T oveis variansanlyse, ANOVA-tabeller (kap ) Ikke parametriske metoder (kap. 8.4) Kjikvadrattester FASIT 32 8 Formelsamling EMPIRISKE STATISTISKE MÅL Forventningsverdi, varians og standardavvik Ordnede data, median og kvartiler Regresjon SANNSYNLIGHETSREGNING Definisjon av sannsynlighet - Kolmogoroffs aksiomer Kombinatorikk Diskrete sannsynlighetsfordelinger Kontinuerlige sannsynlighetsfordelinger Forventningsverdi og varians Regneregler for forventningsverdi og varians Sentralgrenseteoremet ST AT IST ISKE MET ODER Generelle definisjoner T ifeldig utvalg, en variabel (eller paret modell) T ilfeldig utvalg, to variable (Uparet modell): Lineær regresjonsmodell Variansanalyse (ANOVA) Ikke parametriske tester χ 2 -tester (kjikvadrattester) T ABELLER Kumulativ normalfordeling Φ(z) Fraktiler, normalfordeling Student T fordeling, fraktiltabell χ 2 fordeling, fraktiltabell Fishers F fordeling, fraktiltabell Utskrift av Excelfiler 56

4 Kapittel 1 INNLEDNING 1.1 Litteratur og dataprogram Forelesningen og dette notatet forholder seg til læreboka Gunnar G. Løvås: Statistikk -for universiteter og høgskoler, Universitetsforlaget 2000 som hovedlitteratur. Spesielt kapittel 7 og 8. Beregningene og eksemplene blir utført i dataprogrammet EXCEL, og læreboka har også med avsnitt om bruk av dette verktøyet Annen litteratur Det finnes mange bøker som dekker emnene som taes opp her på forskjellige måter, så detbesteer å bla litt selv på biblioteket og plukke ut noe passende. Dessuten finnes det en litteraturliste bak i boka til Løvås. Følgende liste er basert på hva jeg tilfeldigvis har i min bokhylle, og ikke på noen vurdering om dette faktisk er de beste alternativene (eller en sjekk på om de fremdeles er i handelen): Et alternativ som kanskje har et mer samfunnsvitenskapelig perpektiv enn Løvås er Per Chr. Hagen: Innføring i sannsynlighetsregning og statistikk, Cappelen Akad. forlag (4. utg. 2003). Selv liker jeg godt Larsen & Marx: An Introduction to Mathematical Statistics and its Applications, PrenticeHall (1986, vet ikke om nyere utgaver finnes). Denne har stort sett samme emner som Løvås, men går mer i dybden og har noen flere metoder. En bok som går mer direkte på metodene, og som blant annet inneholder litt om k faktor variansanalyse er Montgomery, Runger, Hubele: Engineering Statistics (Wiley, Kanskje finnes nyere utgaver.) En bok som blant annet inneholder tabeller for kritiske verdier i de ikke-parametriske metodene vi kommer inn på her er Weiss, Hasset: Introductory Statistics, Addison-Wesley Andre dataprogrammer EXCEL er først og fremst et regneark, med en del statistiske funksjoner som tillegg. Det velges her da mange har tilgang på det, og fordi læreboka gir eksempler fra dette. Programmet har imidlertid begrenset antall metoder ferdig programmert, og det kan tenkes at man ønsker et mer spesialisert statistikkverktøy. Her nevnes et par, uten å hevde at de er bedre enn andre som finnes: 4

5 1.2. MÅLSETTING OG METODE 5 Minitab Et forholdsvis enkelt verktøy, men likevel med langt flere muligheter enn Excel. Brukes blant annet mye ved BI. Selv kjenner jeg dette bare fra mange år tilbake, og er ikke oppdatert på hvordan nyere versjoner fungerer. Boka til Løvås har med avsnitt om dataanalyse i Minitab. SPSS Statistical Package for Social Sciences. Endel brukt ved HiG, spesielt ved Avdeling for Helsefag. HiG har en slags avtale så denne kan skaffes for overkommelig pris. Jeg kjenner ikke detaljene, men kan på forespørsel være behjelpelig med å henvise til personer som kjenner programmet og avtalen. 1.2 Målsetting og metode I fagene Vitenskapelige metoder og Sikkerhetsmetrikker vil dere ha diskutert metoder for åsamle inn data, krav til data og sagt litt om metoder for å analysere data osv. På et av lysbildene i faget Vitenskapelige metoder står det: Grad av avhengighet mellom variabler Korrelasjon, regresjonsanalyse, krysstabeller, ikke-parametriske metoder Signifikans av forskjeller mellom variabler T-test, ANOVA, ikke-parametriske tester Avdekking av latente variabler Faktoranalyse Analyser av data Min forståelse av dagens tema er primært å utdype dette, ved å vise hvordan disse metodene utføres ipraksis. Dette vil i hovedsak gjøres ved å vise eksempler i Excel. Mange av eksemplene baserer seg på kunstige data som har til hensikt åfå fram egenskapene til metodene. Vi vil derfor vite hva som egentlig skjuler seg bak dataene. Problemet med om vi har valgt riktig metode, som alltid er tilstede med realistiske data, blir dermed feid under teppet. Håpet er at en forståelse for hvordan metodene virker kan bidra også tilåvelge rett metode, men at dette ellers blir tatt opp på en god og fagrelatert måte i andre deler av faget Tilbakemelding Jegernoeusikkerpå hva dere har mest bruk for, og også på hvor mye statistikk dere kan fra før. For å forbedre eventuelle tilsvarende kurs for senere kull vil det være verdifullt med tilbakemeldinger. Noen, men sikkert ikke alle, aktuelle spørsmål er: Vanskelighetsgrad og omfang: For vanskelig/ for lett (i forhold til DINE forkunnskaper)? For rask/ for langsom gjennomgang? For mange/ for få temaer? Valg av temaer Temaer som vi ikke behøvde ta med?

6 6 KAPITTEL 1. INNLEDNING Temaer som kunne trengt lengere, eller klart seg med kortere tid? Temaer som burde vært med? Relevans Er min forståelse av hva denne dagen burde inneholde forfeilet? Burde temaene vært lagt fram på en essensielt annen måte? Send gjerne direkte tilbakemelding til meg på mail, Kanskje dere foretrekker å gå sammen om å lage en felles tilbakemelding, gjerne anonymt og via Snekkenes. 1.3 Hypotesetesting Hypoteser I en hypotese konkluderer vi med en av to mulige hypoteser: Nullhypotesen som kalles H 0 og den alternative hypotesen som kalles H 1. Det er ikke symmetrisk forhold mellom disse, og ikke likegyldig hvilken av alternativene som kalles nullhypotesen H 0. Generelt er H 0 den konservative hypotesen, og den vi konkluderer med hvis dataene ikke gir noen tydelig signal i noen retning. Den alternative hypotesen H 1 er ofte den vi håper eller prøver åvise.vikansiatvikonkluderer med H 1 hvis dataene viser at H 0 med stor sannsynlighet er usann Signifikansnivå ogteststyrke På grunn av usikkerheten knyttet til tilfeldig variasjon er det alltid en fare for at vi konkluderer feil, og kan sette opp dette i følgende tabell: Virkelighet H 0 sann H 1 sann Testresultat H 0 sann OK Type II feil H 1 sann Type I feil OK Det er Type I feil som først bringes under kontroll. Sannsynligheten for å gjøre denne (hvis H 0 er sann) er signifikansnivået α som velges som en liten sannsylighet. Ofte α =0.05 = 5%, eller α =0.01 = 1%. Hvis H 0 faktisk er sann, ønsker vi selvfølgelig at det skal bli testens konklusjon. Sannsynligheten for dette, altsåå ikke gjøre Type II feil, kalles teststyrken. Teststyrken avhenger selvfølgelig av størrelsen på parametrene (hvor langt fra H 0 virkeligheten er), men også på typen test. Konstruksjonen av tester, og valg mellom alternative tester, er oftest motivert av ønske om stor teststyrke. Hvis vi for eksempel har valget mellom en parametrisk metode (f.eks ANOVA eller T-test) og en ikke parametrisk metode gir den parametriske metoden vanligvis størst teststyrke, og foretrekkes om mulig. Problemet er at dataene kan være fordelt svært forskjellig fra (normal)fordelingen som ligger til grunn for de parametriske metodene. Da er selvfølgelig ikke resultater fra de parametriske metodene gyldige, selv om disse metodene er robuste mot moderate avvik fra (normal)fordelingsantagelsen.

7 1.4. RELIABILITET OG VALIDITET p verdi Istedenforå angi signifikansnivået angis ofte p verdien. Dette er det minste signifikansnivået α vi kan velge, og likevel konkludere med H 1 med de foreliggende data. Hvis p verdien er mindre eller lik 0.05, betyr det at vi kan konkludere med H 1 hvis vi har valgt α =5%.IsåfallsierviofteatH 1 er signifikant. Hvis p verdien er mindre eller lik 0.01, betyr det at vi kan konkludere med H 1 hvis vi har valgt α =1%.IsåfallsierviofteatH 1 er meget signifikant. I dataprogrammer er det ofte p verdien som returneres som testresultat. 1.4 Reliabilitet og validitet Reliabilitet (pålitelighet): Kan resultatet gjenskapes ved å bruke tilsvarende metoder på tilsvarende populasjon? Validitet (gyldighet): Måler vi egentlig det vi ønsker å måle? Begrepene omtales primært i andre deler av kursene. For å sjekke om disse kriteriene er oppfylt statistisk, må vihanoeå sammenlikne med. For eksempel kan vi sammenlikne om resultatene fra to forskjellige undersøkelser viser det samme. Indre sammenheng, for eksempel at et spørreskjema gir samme resultat om vi spør om (nesten) det samme på tomåter- er resultatene like? Kanskje er vi så heldigeå ha testsituasjoner, der vi kjenner virkeligheten, å prøve ut våre metoder på. I alle situasjoner trenger vi statistiske metoder til å sammenlikne resultater. 1.5 Datatyper og modeller Kategoriske data (Nominal scale): For eksempel Gul, Rød, Grønn som mulige svaralternativer i en spørreundersøkelse (om foretrukket farge på et produkt. De har (normalt) ingen rekkefølge, det er meningsløst å si at Rød er mellom Gul og Grønn (selv om man f.eks koder dem som henholdsvis 1, 2 og 3). Ordnede data (Ordinal scale): For eksempel svaralternativene Meget god, God, Middels, Dårlig, Meget dårlig. Det er opplagt en naturlig rekkefølge, men det er neppe riktig å si at det er like langt fra God til Dårlig som det er fra Middels til Meget dårlig. Et annet eksempel er det nye karaktersystemmet med bokstavkarakterene A, B, C, D, E og F. Hvis en sluttkarakter skal settes på basis av tre (like mye vektlagte) delkarakterer, der resultatet er to B er og en D har man et problem. Hva er gjennomsnittet av dette? B eller C? Intervalldata (Interval scale): Ordnede data der også avstanden gir mening. For eksempel det gamle karaktersystemet med tallkarakterer. Det er ingen kunst å bli enige om at delkarakterene 1.6, 1.9 og3.1 gir gjennomsnittskarakteren 2.2. Forholdsdata (Ratio data): Intervalldata der alle de fire regningsartene gir fornuftig mening. For ordnede (intervall- og forholds-) data skiller vi mellom diskrete data og kontinuerlige data. Diskrete data er for eksempel antall (heltall). Kontinuerlige data er i prinsippet reelle tall (desimaltall), men brukes gjerne også på diskrete data når det trengs et relativt stort antall verdier for å dekke opp de mulighetene som dekker opp hovedelen av den samlede sannsynligheten (eller det naturlige variasjonsområdet for dataene).

8 8 KAPITTEL 1. INNLEDNING De statistiske metodene som kan brukes avhenger av datatypene. Det beste er som regel om vi har kontinuerlige data. Da er det ofte uproblematisk å anta normalfordeling (hvis ikke datasettet er påfallende skjevt), og bruke metodene basert på dette. På grunn av sentralgrenseteoremet kan disse metodene ofte brukes også på diskrete data, hvis antall datapunkter er relativt stort, og antall mulige verdier ikke er svært lite. Går vi lenger oppover på lista blir det mer og mer tvilsomt å bruke disse metodene. For ordnede data (som ikke er intervalldata) brukes gjerne ikke parametriske metoder. Kategoriske data er enda vanskeligere, men ved å gå over til antall (antall respondenter som foretrekker Rød ) har vi visse metoder til disposisjon (for eksempel χ 2 tester).

9 Kapittel 2 KRYSSTABELLER Excelfil til dette kapitlet: Krysstab.xls Krysstabeller og χ 2 tester er behandlet i Løvås: Statistikk, kapittel (og 8.5.2). 2.1 Krysstabeller og kjikvadrattester Krysstabeller Krysstabeller (contingency tables påengelsk)brukesforåsepå sammenhengen mellom egenskaper, ofte kategoriske, for eksempel svaralternativer i et spørreskjema. Vi skal bruke et eksempel fra en virkelig undersøkelse. Eksemplet er nok ikke direkte relevant for studiet i informasjonssikkerhet, men måten å sammenlikne svar fra spørreskjemaer kan lett tilpasses mange situasjoner. Foruten å undersøkesammenhenger mellom egenskaper brukesdenne teknikken også forå undersøke den indre sammenhengen i svaralternativene (jfr. reliabilitet og validitet): Det stilles ofte spørsmål som egentlig er nesten like, men med litt forskjellig ordlyd og på forskjellige steder i skjemaet. Hvis det er god sammenheng mellom disse svarene, styrker det tiltroen til kvaliteten på svarene i sin helhet. Hvis det er dårlig sammenheng har respondentene enten ikke forstått spørsmålene slik vi har tenkt, eller de har ikke lagt noen energi i å gi presisie svar. I eksemplet tar vi svar fra to (av mange) spørsmål som var: Hvilket kjønn er du?, med alternativene Mann og Kvinne, og Hvordan ser du på nytten av dataprogrammer for matematikk i studiesituasjonen?, med svaralternativene Bortkastet tid, Unyttig, Nyttig og Meget nyttig (som her skal forkortes til henholdsvis B, U, N og M). Disse er fra en spørreundersøkelse blant ingeniørstudenter i Av 1779 svar var det 300 som hadde svart blankt eller ubrukelig på et eller begge spørsmålene, og disse er ikke regnet med. For de resterende 1449 svarene er resultatet satt opp i en krysstabell. Hvis et svarskjema f.eks. har avkrysset for Mann og Meget nyttig er dette registrert som en av de251ifeltetøversttilvenstre. I høyre marg og bunnmargen summeres henholdsvis radene og kolonnene. I disse sumkolonnene får vi resultatene fra enkeltspørsmålene alene (blant de 1479 som er talt med her). I nedre venstre hjørne får vi det totale antall svar (enten ved å summere raden eller kolonne tallet ligger i): 1 Publisert i artikkelen Hornæs og Røyrvik: Gender, Aptitude, and Computer Algebra Systems, Journal of Engineering Education, July

10 10 KAPITTEL 2. KRYSSTABELLER Meget nyttig Nyttig Unyttig Bortkastet tid Total Mann Kvinne Totalt Det er ikke vesentlig hvilke av spørsmålene som er plassert i radene, og hvilket i kolonnene. Det er heller ikke vesentlig at det bare er to rader, det kan være hvilket som helst antall ( 2) rader og kolonner Uavhengighet og uavhengighetstabeller Det man gjerne vil undersøke med slike tabeller er om det er noen sammenheng mellom svarene pådetospørsmålene. I dette tilfellet betyr det om det er noen forskjell på holdninger til bruk av dataverktøy i matematikk mellom de to kjønnene. Det vil være hypotesen, H 1 vi ønsket 2 åvise. Nullhypotesen H 0 er da at det er uavhengighet mellom svarene. I så fallvilviforventeå finne omtrent samme fordeling av svarene på spørmålet om nytte blant kvinner og menn. Vi tar som eksempel tar utganspunkt i feltet øverst til venstre, Mann og Meget nyttig : Den totale andelen som svarer Meget nyttig er 277/1479, som vi finnerved å dividere sumkolonnen for Meget nyttig med det totale antall svar. Hvis denne andelen var lik for begge kjønn ville antall menn som svarte meget nyttig være samme 277 andel av totalt antall menn, det vil si = 235, 0. Dette kaller vi forventet antall i dette feltet. På grunn av tilfeldig variasjon trur vi ikke antallet blir nøyaktig dette selv om det er uavhengighet, men hvis avviket er for stort (alle feltene sett samlet) vil vi konkludere med avhengighet. Forventet antall ved uavhengighet regner vi så utmed: Mann Meget nyttig Nyttig Unyttig Bortkastet tid Total Kvinne Totalt Dette gir sammenregnet (og der vi bare tar med det indre av tabellen) Forventningstabellen: I Excel regnes ikke denne ut automatisk, slik at man er nødt til å lage denne tabellen manuelt. Med litt trening går det raskt ved hjelp av litt drakopiering og bruk av $-tegn foran de referansene som ikke skal endres i takt med i drakopieringa. 2 Dette betyr ikke at vi ønsket at det skulle være forskjell, men det er greit å dokumentere om den eventuelle forskjellen er der, for eksempel med tanke på om vi skal bruke ressurser på kjønnsbestemte tiltak. Dessuten vil resultatet være med å bygge opp under en mer generell teori om kjønnsforskjeller i holdninger både til matematikk og data. Svaret er i utgangspunktet ikke opplagt, da dette er kvinner som i utgangspunktet har valgt ingeniørutdanning, og dermed ikke i utgangspunktet er blant de med dårlig forhold til realfag.

11 2.1. KRYSSTABELLER OG KJIKVADRATTESTER Kjikvadrattest For å avgjøre om det indre av den faktisk observerte tabellen avviker mer fra denne forventningstabellen enn det som kan tilskrives naturlig tilfeldig variasjon brukes en χ 2 test for (u)avhengighet. Denne testen baserer seg på en fordeling som kalles χ 2 fordeling, der den greske bokstaven χ leses Kji. Denne fordelingen er fordelingen til summen av kvadratene av uavhengige standard normalfordelte variable. Det ligger altså en tilnærming til normalfordeling og lurer et sted her. For at denne tilnærminga skal være akseptabelt god må det være et visst minste antall observasjoner ifeltene. Tommelfingerregelen er at det må være minst 5 i hvert felt i forventningstabellen. Det er godt oppfyllt i eksemplet da den minste verdien er Er dette ikke oppfylt kan det (kanskje) hjelpe å slå sammen noen (nabo) kolonner eller rader, men det trengs jo et visst omfang på datasettet i utgangspunktet. Litt om mekanismen i kjikvadrattesten I feltet øverst til venstre er antallet observasjoner 251, mens forventet antall observasjoner, forutsatt uavhengighet, er tallet Ved å ta kvadratet av avstanden, ( ) 2, oppnår vi for det første at det sikkert blir positivt (så positive og negative bidrag ikke nuller hverandre ut), og også å forsterke virkningen av store og redusere virkningen av små avvik. Vi normaliserer så dette tallet ved å dividere med forventet antall, til ( ) 2 /235.0 = Dette er et slags mål for avviket i dette feltet, og er også tilnærmet en tilfeldig verdi fra en standard normalfordeling, kvadrert, hvis H 0 er sann. Som testobesrvator brukes så summen av verdiene av disse verdiene for alle feltene, og dette tallet kalles q (for kvadratsum). Denne (kan det da vises) har tilnærmet χ 2 fordeling med (2 1)(4 1) = 3 frihetsgrader (antall rader minus 1 multiplisert med antall kolonner minus 1) hvis H 0 er sann. Hvis det er uavhengighet blir ikke q såstor,såviforkasterh 0 hvis q er stor. Grensen for hva som er stort kan vi finne i en χ 2 -tabell (som finnes i dette notatet). Velger vi signifikansnivå α = 5% finner vi kritisk verdi 7, 82 i tabellen, med α = 1% finner vi kritisk verdi 11, 34. I dette tilfellet kan vi regne ut ( )2 q = som langt overskrider de kritiske verdiene. + + ( ) =29.6, Konklusjon: Vi forkaster H 0 (uavhengighet) og godtar H 1, avhengighet. Dataene viser klart et det er kjønnsforskjeller blant ingeniørstudente i holdningen til dataprogrammer for matematikk. Kjikvadrattest i praktiske anvendelser. De tekniske detaljene er ferdig programmert i Excel, og andre programmer med brukbart utvalg av statistikkfunksjoner. Det er dermed ikke nødvendig åvitesåmyeomχ 2 fordeling, utregning av q og kritiske verdier for å gjennomføre dette. Det som trengs er å kunne sette opp dataene i en krysstabell. I Excel må man også kunne sette opp uavhengighetstabellen

12 12 KAPITTEL 2. KRYSSTABELLER I forelesningen og på regnearket er fokus på denne praktiske gjennomføringen (mens vi her har med litt mer bakgrunnsstoff).

13 Kapittel 3 Variansanalyse Excelfil til dette kapitlet: ANOVA.xls Excelfil til dette kapitlet: Krysstab.xls ANOVA er behandlet i Løvås: Statistikk, kapittel Litt om ANOVA generelt Variansanalyse er en familie tester som på engelsk heter ANalysiz Of VAriance, der den rotete bruken av store bokstaver viser bakgrunnen for standardforkortelsen ANOVA. ANOVA er svært mye brukt, og H 1 er i utgangspunktet om det er forskjeller på forventningsverdiene på forskjellige naturlige undergrupper av datasettet. Dette kan ofte indirekte være det samme som å spørre om gruppene er like. Vi kan også undersøke samvariasjon mellom grupper med ANOVA. Vi deler ofte inn ANOVA i enveis, toveis og k faktor analyse, og skal se litt på disse etter tur Modellforutsetninger generelt Variansanalysen bygger på at alle dataene er uavhengige observasjoner fra normalfordelinger N(µ g,σ). Standardavviket σ er det samme over alt. Forventningsverdien µ g varierer muligens mellom gruppene, det er det H 1 hevder. I praksis er metodene nokså robust for moderate avvik fra normalfordelingsantagelsen. Her, som ellers, er tankegangen ofte: Er det noen god grunn til at dataene ikke stammer fra noe som er tilnærmet normalfordelt. Hvis det er intervalldata er det ofte ikke noe problem, mens man må være mer kritisk hvis det bare er ordnede data. Det samme gjelder kravet om felles standardavvik. Er det god grunn (fra situasjonen, eller ved å se på dataene) til å tru at det er påfallende stor forskjell på spredningen i gruppene må vi være forsiktige, men som regel er dette i orden i tilstrekkelig grad Varians og kvadratsummer I en normalfordeling er variansen σ 2. Fra et sett med y 1,y 2,...,y n av n uavhengige observasjoner fra en N(µ g,σ)- fordeling estimeres (anslås) forventningsverdien µ g med gjennomsnittet y: y = 1 n n y i = y 1 + y y n n 13

14 14 KAPITTEL 3. VARIANSANALYSE Variansen σ 2 estimeres ut fra følgende formel: S 2 = 1 n 1 n (y i y) 2 = (y 1 y) 2 +(y 2 y) 2 + +(y n y) 2 n 1 Telleren n (y i y)) 2 kalles kvadratsummen for gruppen. Den betegnes ofte SS, eller SS g hvis vi skal ha med en henvisning til hvilken gruppe det er snakk om. På norsk brukes også SK istedendfor SS, blant annet i Excel. I ANOVA, der vi har flere grupper, brukes mange kvadratsummer, der vi får litt varianter ved at gjennomsnittet y kan variere (om det er for gruppen eller tallmaterialet som helhet), og der y i ene noen steder erstattes med gjennomsnitt for gruppene. Et ledd (y i y) 2 gir den kvadratiske avstanden fra gjennomsnittsverdien (sentum i tallmaterialet), så litt forenklet kan vi si variansestimatet gir gjennomsnittlig kvadratisk avstand fra sentrum i tallmaterialet, og er således naturlig er uttrykk for spredningen. Som spredningsmål brukes ofte standardavviket, kvadratroten av variansen, men i variansanalyse forholder vi oss til variansene. Kvadratsummene er dermed også indirekte et uttrykk for hvor stor spredning det er på tallmaterialet. Hvis x 1,x 2,...,x m er et annet tallmateriale uavhengig av det første, men fra en normalfordeling med samme σ, har forholdet mellom det to variansestimatene en fordeling som kalles Fishers F fordeling med n og m frihetsgrader. I variansanalyse er det forhold mellom varianser som er testobservatorene (gjerne kalt F ), og det er tabeller eller dataprogram for denne fordelingen som ligger til grunn for kritiske verdier. Generelt forkaster vi H 0 når F er stor. I toveis og k faktor analyse forekommer flere slike F er Noen notasjoner I ANOVA er dataene organisert i flere grupper, og når de beskrives generelt har veridene to eller flere indekser. For eksempel vil y 3,5 betegne 5. observasjon i 3. gruppe i en enveis variansanalyse. I toveis variansanalyse kan en observasjon f.eks. betegnes y 2,3,5,5.observasjoni2.gruppeog3. blokk. Vi skal danne forskjellige summer og gjennomsnitt basert på denne gruppe/blokk inndelingen. En notasjon som da brukes er at hvis en indeks erstattes med en prikk, er dette summen av alle verdiene vi får ved å gi prikken alle mulige verdier, og tilsvarende med gjennomsnitt. For eksempel er y 3, summen av alle verdiene med 3. i første indeks, det vil si alle verdiene i 3. gruppe. y 3, er gjennomsnittet av disse verdiene. y, og y, blir da summen og gjennomsnittet av alle verdiene. 3.2 Enveis variansanalyse Datastuktur og modellforutsetninger I enveis variansanalyse er dataene sortert i forskjellige grupper, som representerer stikkprøver fra forskjellige populasjoner (for eksempel under forskjellige sikkerhetstiltak, der alle dataene for en type sikkerhetstiltak er en gruppe). I enveis variansanalyse behøver det ikke være like mange observasjoner i hver gruppe.

15 3.2. ENVEIS VARIANSANALYSE 15 Dette kan settes opp i følgende tabell, der jeg i margene også har angitt notasjonen for gjennomsnittene: Observasjoner Snitt Gruppe 1 y 11 y y 1n1 y 1 Gruppe 2 y 21 y y 2n2 y 2. Gruppe r y r1 y r2... y rnr y r Totalt y Det som her er skrevet som rader (i Excel eksemplene er de organisert i kolonner) er gruppene. Modellantagelsen er at alle dataene er uavhengige og normalfordelte, med samme varians σ 2. Dermed er alle dataene fra første gruppe en N(µ 1,σ) fordeling, alle dataene fra andre gruppe en N(µ 2,σ), og generelt alle dataene fra gruppe nummer g en N(µ g,σ) fordeling. Nullhypotesen er at alle de r gruppene er like (det vil si har samme forventningsverdi): H 0 : µ 1 = µ 2 = = µ r Den alternative hypotesen H 1 er at det er forskjell på gruppene, ihvertfall er minst en av dem forskjellige fra andre. I praktiske anvendelser er vi ikke altfor kritiske til disse antagelsene, men det må værenoei nærheten av situasjonen. Hvis det er tydelig at dataene er påfallende skjevfordelte (enkeltdata langt ut på den ene siden av haugen med data), eller det er påfallende stor forskjell på spredningen mellom gruppene bør vi være litt kritiske til bruk av metoden. (Hva vi da må gjøre tar vi ikke opp her). Noe annet som gjør at vi ikke bør bruke ANOVA er om dataene er svært langt fra forholdstall, for eksempel hvis alle dataene er relativt små heltall. I det siste tilfellet må vi antagelig ty til ikke parametriske metoder (f.eks. Kruskal-Wallis test, se Løvås kap ) ANOVAtabeller Resultatet av en variansanalyse opsummeres i et nokså standarisert oppsett som kalles ANOVAtabell. I Excel produseres disse ved kommandoen verktøy->dataanalyse-> Varaiansanalyse: en faktor. For enveis variansanalyse i EXCEL ser ANOVA-tabellen slik ut, der det med fet skrift er teksten i Excel, mens resten er formler for tall som framkommer i tabellen. Variasjonskilde SK fg GK F P-verdi F-krit Mellom grupper SS G fg G = g 1 GK G = SS G /fg G GK G /GK E p k Innenfor grupper SS E fg E = n g GK E = SS E /fg E Totalt SS T fg T = n 1 Forklaring, rad- og kolonneetiketter: SK : Kvadratsum fg : Frihetsgrader GK : Gjennomsnittlig kvadratsum. kvadratsum / frihetsgrader. F : Testobservator F er observasjon fra Fisher-fordeling hvis H 0 er sann.

16 16 KAPITTEL 3. VARIANSANALYSE P-verdi : p verdi. F-krit : Kritisk verdi for F for valgt signifikansnivå, forkast H 0 om F F-krit. Mellom grupper : Variasjonen mellom gruppene. Innenfor Grupper : Variasjonen innenfor gruppene, det vil si den tilfeldige (uforklarte) variasjonen. Kalles også residual, påengelskofteerror (derav forkortelsen E i indeksene). Totalt : Den totale variasjone, hele tallmaterialet sett som en enkelt tallserie. Forklaring, formler i ANOVA-tabellen : g SS G : Kvadratsum mellom grupper, (y i y ) 2 fg G : Frihetsgrader mellom grupper, antall grupper g minus 1. GK G : Variansen om vi ser på deg gruppegjennomsnittene som g enkeltobesrvasjoner. F :GK G /GK S, variasjon mellom grupper/tilfeldig variasjon. Testobservator som vanligvis blir liten om gruppene er like, stor om gruppene har forskjellig forventningsverdi. p : p verdi. Om p<0.05 kan H 0 forkastes med α = 5%, signifikant forskjell på gruppene. Om p<0.01 kan også H 0 forkastes med α = 1%, meget signifikant forskjell på gruppene. Det er nok p verdien som er det viktigte tallet i ANOVA-tabellen. k : Kritisk verdi (som også kan finnes i Fisher-tabellen bakerst i heftet, med fg G og fg E frihetsgrader). g n g SS E : Kvadratsum innen grupper, (y ij y i ) 2. j=1 Det vil si kvadratasummen for alle dataene, der det er gjennomsnittsverdien i den gruppen datapunktet tilhører som subtraheres. Kan også (enklere) regnes ut som SS E = SS T SS G fg E : Frihetsgrader til Innen grupper, Antal observasjoner totalt minus antall grupper, men også fg E = fg T fg G. GK E : Estimat av variansen σ 2, det vil si den tilfeldige variasjonen i tallmaterialet. I andre varianter av ANOVA (tofaktor og k faktor) er det flere rader. Innen grupper er alltid nest nederste rad, og GK E er alltid det vi dividerer de andre GK ene med for åfå F observatorene. g n g SS T : Total kvadratsum. (y ij y ) 2. j=1 Telleren i variansen om vi betrakter hele datasettet som et enkelt sett med verdier. Hvis H 0 er sann er også SS T /(n 1) et estimat av σ 2, mens den øker i forhold til σ 2 når forskjellene mellom gruppene øker (H 1 er sann). fg T Totalt antall frihetsgrader, antall observasjoner totalt minus 1. Merk at SS G + SS E = SS T og gf G + fg E = fg T, for disse to kolonnene er nederste rad summen av de to over. I alle varianter av variansanalyse (dvs. også toveis- og k-faktor) regnes Totalt ut etter samme formelen, og blir også summen av alle frihetsgrader og kvadratsummer over Ideene med ANOVA Hvis H 0 er sann er tallene som om alle dataene er fra samme N(µ, σ) fordeling. Gjennomsnittene til høyre i tabellen over er estimater av henholdsvis µ 1,µ 2,...,µ r og µ. Hvis H 0 er sann blir de dermed nokså like. Problemet (som ANOVA løser) er imidlertid åavgjøreomde ikke er mer forskjellige enn det vi kan forklare med tilfeldig variasjon (H 0 ), eller om de er så forskjellige at vi med god grunn kan slutte at det isteden er H 1 som er sann.

17 3.3. TOVEIS VARIANSANALYSE 17 Vi kan estimere σ 2 ved å regne ut variansen i hver enkelt gruppe, eller (bedre) ved å ta et (passende veid) gjennomsnitt av disse. Dette gjelder enten H 0 eller H 1 er sann,og det er denne variansen som kalles GK innenfor grupper i ANOVA tabellene i Excel. GK innenfor grupper er således et uttrykk for den tilfeldige variasjonen (støyen) som ligger i tallmaterialet. Hvis H 0 er sann kan vi også estimereσ 2 ved å beregne variansen som om alle dataene er er en lang serie med tall (med gjennomsnitt y ). Telleren i dette variansestimatet er tallet for SK totalt i ANOVA tabellen i Excel. Dividerer vi dette med antall frihetsgrader (fg) får vi variansestimetat, som er i nærheten av GK innefor grupper hvis H 0 er sann. Hvis H 1 er sann vil imidlertid verdiene ligger relativt mye lenger unna det totale gjennomsnittet enn gruppegjennomsnittet, og variansestimatet basert på hele tallmaterialet vil bli (betydelig) større enn det basert på gjennomsnittet av variansene i gruppene. Det kommer imidlertid en kvadratsum til inn i bildet, nemlig den vi får om vi betrakter gruppegjennomsnittene som et eget sett med datapunkter. Dette er et uttrykk for variasjonen mellom gruppene. Er denne stor, i forhold til den tilfeldige variasjonen, støtter dette H 1. Denne kvadratsummen kalles SK mellom grupper, og variansestimatet GK mellom grupper. Det som er testobservatoren F er GK mellom grupper dividert med GK innen grupper. Denne har en Fisher-fordeling (om H 0 er sann). Er denne stor er det stor variasjon mellom gruppene i forhold til den tilfeldige variasjonen uttrykt ved variasjonen innen gruppene, og vi konkluderer med H 0. For ordens skylde: Det ligger en ordentlig matematisk teori til grunn for dette, det som er sagt her er bare en litt uformell og intuitiv forståelse av denne matematiske teorien Kvadratsummer og frihetsgrader Kvadratsummene har den (ikke trivielle egenskapen) at summen av kvadratsummene innen gruppene og og mellom gruppene er den totale kvadratsummen. I ANOVA-tabellen betyr det at SK totalt er summen av alle SK-ene over. Dette er en generell egenskap for alle typer ANOVA. Tallet vi dividerer kvadratsummene med for åfå variansestimatene kalles frihetsgrader. De inngår som parametre i F fordelingen. Disse har også den egenskapen at de summeres til det totale antall frihetsgrader, som er totalt antall observasjoner minus 1. For Mellom grupper er frihetsgraden antall grupper minus 1. Innen hver grupper er dette antall observasjoner innen gruppen minus 1, og for Innen grupper er antall frihetsgrader summen av antall frihetsgrader innen alle gruppene. Det er en fordel åhaså mange frihetsgrader som mulig innen gruppene, da flere frihetsgrader gir oss bedre kontroll på støyen og øker teststyrken. I enveis variansanalyse er dette det samme som å si at det er en fordel med så mange observasjoner som mulig. I andre varianter av variansanalyse (k faktor analyse) har dette også betydning for hvor mange delspørsmål vi kan besvare fra datasettet. Flere undergrupper koster frihetsgrader, det blir færre igjen til Innen grupper, og dårligere teststyrke (hvis vi ikke får det igjen av andre årsaker). Det er ihvertfall en øvre grense på at antall frihetsgrader mellom undergruppene ikke kan overstige det totale antall frihetsgrader (og det må være minst en, helst en del flere, igjen til Innen grupper ) 3.3 Toveis variansanalyse I toveis variansanalyse er dataene gruppert etter to kriterier som kalles Grupper og Blokker. Alle dataene som tilhører samme gruppe og blokk kalles et Felt. Itoveis(ogk-faktor) analyse må det være like mange observasjoner i hvert felt. Det er ofte bare en observasjon i hvert felt. Dette må man tenke på allerede før man starter datainnsamlingen! Hvis ikke risikerer man å sitte med mange ubrukelige data, en ikke helt uvanlig situasjon. Datastrukturen (hvis det er to observasjoner i hvert felt, for å spare litt på prikker og indekser i tabellen):

18 18 KAPITTEL 3. VARIANSANALYSE Grupper Blokker B1 B1 B s Grupper G1 y 111,y 112 y 121,y y 1s1,y 1s2 y 1 G2 y 211,y 212 y 221,y y 2s1,y 1s2 y 2.. G r y r11,y r12 y r21,y r22... y rs1,y rs2 y r Blokker y 1 y 2 y s y Modellantagelsene som for enveis variansanalyse. Hvis vi ignorerer blokkene og utfører enveis ANOVA på dataene vil variasjon mellom blokkene inngå i Innen grupper, altså støyen eller den tyilfeldige variasjonen. Det kalles da også Uforklart variasjon. Hvis det er en forskjell på blokkene vil dette medføre mindre teststyrke enn ved enveis ANOVA. Kvadratsum og frihetsgrader for Mellom grupper og Totalt er den samme om vi bruker enveis eller toveis ANOVA. Vi får en kvadratsum for Mellom blokker, som taes ut fra Innen grupper i forhold til enveis ANOVA. Dermed får vi mindre støy, og større teststyrke. Hvis det ikke er noen forskjell mellom blokkene øker ikke dette teststyrken. Tvert imot, siden det koster frihetsgrader. I tillegg får vi muligheten til å utføre en selvstendig test på om blokkene er forskjellige (hvis vi ønsker dette). Vi kan også få en test på samvariasjon mellom blokker og grupper. Dette krever mer enn et datapunkt i hvert felt, og koster frihetsgrader k faktor variansanalyse Fellesnavn på Blokker og Grupper er Faktorer. Dette er altså to faktorer(som gjør at vi kaller det toveis variansanalyse). Dette kan utvides til vilkårlig antall faktorer, såkalt k faktor analyse. I k faktor analyse kan mange samvirkninger også undersøkes, men det koster frihetsgrader (og vi kan risikere å ønske å ha med flere kombinasjoner enn det finnes frihetsgrader til). I oppgaven på side 29 er det eteksempel med en ANOVA-tabell på 4 faktor analyse. Det er mulig å lage forsøksoppsett der det ikke samles data innen alle mulige kombinasjoner av faktorene (fraksjonelle forsøk), men det må skje etter bestemte mønstre. Undersøk derfor om dette før du begynner med datainnsamlingen hvis det er aktuelt. I Excel er det ingen kommando for automatisk k faktor analyse. Med litt manuell hjelp, enveis variansanalyse og kunnskap om hvordan ANOVA-tabeller bygges opp er det mulig å få til k faktor ANOVA-tabeller i Excel med litt mer arbeid. Jeg vil likevel tru at om du trenger k faktor analyse er det på tideå vurdere en annen programpakke. Vi tar ikke med flere detaljer om dette her. Det står bl.a. litt om k faktor analyse i boka Montgomery, Runger, Hubele: Engineering Statistics.

19 Kapittel 4 REGRESJON OG KORRELASJON Excelfil til dette kapitlet: korr-reg.xls Regresjon og korrelasjon er behandlet i Løvås: Statistikk, kapittel 7.2, 7.3og Korrelasjon Situasjonen i dette kapitlet er at vi har n observasjoner av par, { (x 1,y 1 ), (x 2,y 2 ),..., (x n,y n ) } Vi er interessert i om det er noen sammenheng mellom x i ene og y i ene, spesielt om det er en tilnærmet lineær sammenheng y i = a + bx i. Korrelasjonen r er et mål for hvor god en lineære sammenhengen er. Formelen for å regne ut korrelsasjonen er n r = ( x i x )(y i y ) n ( x i x ) 2 n ( y i y ) 2 Vi har alltid 1 r 1. Hvis det er perfekt lineær sammenheng, dvs. hvis det finnes konstanter a og b slik at y i = a + bx i for alle i, er r =1,medr =1hvisa>0 (positiv korrelasjon, store x er går sammen med store y er) og r = 1 hvis a<0 (negativ korrelasjon, store x er går sammen med små y er). Hvis r 1 er det nesten lineær sammenheng, hvis r 0 er det liten eller ingen lineær sammenheng (i praksis som oftest uavhengighet). Korrelasjonen brukes ofte beskrivende, man angir r som et mål for sammenheng uten å gjøre noen formell hypotesetest. Det er da i stor grad en erfaringssak åseom r er stor nok til at det faktisk indikerer en sammenheng, og ikke bare er snakk om tilfeldige avvik fra r =0. Dataene bør helst være intervalldata, men kan nok gi en viss indikasjon på om det er sammenheng eller ikke bare dataene er ordent. Det bør nok være litt fler enn bare 2 mulige verdier på x ene ellere y ene (som f.eks. i koding av Ja og Nei ). I en flerdelt skala, f.eks. fra svært uenig til svært enig har vi ordnede data, men ikke intervalldata. Korrelasjonen kan gi en pekepinn om sammenhengen, men bør brukes med en viss skepsis og forbehold. For at vi skal kunne bruke r mer formelt (hypotesetesting) må vi legge en modell til grunn. Den mest vanlige er binormal modell. Kritiske verdier som stammer fra denne kan nok være en pekepinn på hva som er tilfeldig variasjon fra 0 og hva som er reell sammenheng i andre situasjoner også, så jeg tar med litt om denne: 19

20 20 KAPITTEL 4. REGRESJON OG KORRELASJON Binormal modell Kritiske verdier for r ibinormalmodell I binormal modell kan vi sette opp hypotesene H 0 : Korrelasjonen ρ = 0, det vil si uavhengighet. H 1 : Korrelasjonen ρ 0, det vil si avhengighet. Alternativt kan vi ha ensidige tester med H 1 : ρ>0 eller H 1 : ρ<0. Som testobservator brukes empirisk korrelasjon r. Kritiske verdier for r kan da regnes ut for forskjellige verdier av n, og forskjellige signifikansnivåer. I de ensidige testene, der H 1 : ρ>0forkastervih 0, dvs. konkluderer med uavhengighet, om r er større enn den kritiske verdien (eller mindre enn denne med motsatt fortegn, om vi tester ha H 1 : ρ<0). Vi bruker da vanligvis α = 5% eller α =1%. For de tosidige testene, der vi ikke gjør oss opp noen mening på forhånd om i hvilken retning eventuell samvariasjon er bruker vi α = 2.5% for signifikansnivå 5%, og0.5% for signifikansnivå 1%. Daforkastervi H 0 om absoluttverdien r er større enn den kritiske verdien. Litt om den binormale modellen Ensidig Tosidig n 5% 1% 2.5% 0.5% 5 0, 81 0, 93 0, 88 0, , 55 0, 72 0, 63 0, , 38 0, 52 0, 44 0, , 28 0, 39 0, 33 0, , 24 0, 33 0, 28 0, , 19 0, 27 0, 23 0, , 17 0, 23 0, 20 0, , 13 0, 19 0, 16 0, , 12 0, 16 0, 14 0, , 07 0, 10 0, 09 0, , 05 0, 07 0, 06 0, 08 I en binormal modell tenker vi oss x i ene som uavhengige observasjoner fra en stokastisk variabel X i med N(µ x,σ x ) fordeling, og y i ene som uavhengige observasjoner fra en stokastisk variabel Y i med N(µ y,σ y ) fordeling. Disse er ikke nødvendigvis uavhengige, men henger sammen etter følgende likning, der Z er uavhengig av X og har N(0, 1) fordeling, og den teoretiske korrelasjonen ρ er et tall mellom 1og 1: Dette kan omskrives til Y i µ y σ y = ρ X i µ x σ x + 1 ρ 2 Z Y i = µ yσ x ρµ x σ y + ρσ y X i + σ y 1 ρ2 Z σ x DettegirenlineærsammehengY i = α + βx i + e i mellom X og Y,vedålaα være den første brøken, β den andre brøken. Det siste leddet gir den tilfeldige variasjonen e i (avviket fra den rette linja). Utregning av regresjonskoeffisientene i denne modellen er da estimater for α og β, mens korrelasjonen r er estimat av ρ. I denne modellen har vi en direkte tolkning av ρ som hvor stor del av Y som kommer fra X, oghvorstor del som (gjennom Z leddet) er uavhengig av X. Vedå erstatte Y i med y og X i med x, og se bort fra leddet med Z, får vi den teoretiske regresjonslinja i denne modellen. I binormal modell er uavhengighet ekvivalent med ρ = 0, og nullhypotesen H 0 : ρ =0kantestesvia n 2r t = 1 r 2 som kan betraktes som trekk fra en stokastisk variabel med Students T fordeling med n 2 frihetsgrader. Dette fordelingsresultatet er brukt til å produsere tabellen over kritiske verdier (ved hjelp av dataprogrammet Maple). σ x

FORMELSAMLING STATISTIKK, HiG

FORMELSAMLING STATISTIKK, HiG Høgskolen i Gjøvik Avdeling for ingeniørfag Versjon fra mai 2007 FORMELSAMLING STATISTIKK, HiG Hans Petter Hornæs hans.hornaes@hig.no ISSN:??????? Innledning. Denne formelsamlingen er skrevet for bruk

Detaljer

OPPGAVESETTET BESTÅR AV 3 OPPGAVER PÅ 6 SIDER MERKNADER: Alle deloppgaver vektlegges likt.

OPPGAVESETTET BESTÅR AV 3 OPPGAVER PÅ 6 SIDER MERKNADER: Alle deloppgaver vektlegges likt. EKSAMEN I: MOT310 STATISTISKE METODER 1 VARIGHET: 4 TIMER DATO: 08. mai 2008 TILLATTE HJELPEMIDLER: Kalkulator: HP30S, Casio FX82 eller TI-30 Tabeller og formler i statistikk (Tapir forlag) OPPGAVESETTET

Detaljer

EKSAMEN. TILLATTE HJELPEMIDLER: Kalkulator. Hornæs: Formelsamling statistikk HiG. John Haugan: Formler og tabeller.

EKSAMEN. TILLATTE HJELPEMIDLER: Kalkulator. Hornæs: Formelsamling statistikk HiG. John Haugan: Formler og tabeller. KANDIDATNUMMER: EKSAMEN FAGNAVN: FAGNUMMER: Statistikk. BtG207 EKSAMENSDATO: 11. juni 2007. KLASSE: HIS 05 08. TID: kl. 8.00 13.00. FAGLÆRER: Hans Petter Hornæs ANTALL SIDER UTLEVERT: 5 (innkl. forside)

Detaljer

Kap. 10: Inferens om to populasjoner. Eksempel. ST0202 Statistikk for samfunnsvitere

Kap. 10: Inferens om to populasjoner. Eksempel. ST0202 Statistikk for samfunnsvitere Kap. 10: Inferens om to populasjoner Situasjon: Vi ønsker å sammenligne to populasjoner med populasjonsgjennomsnitt henholdsvis μ 1 og μ. Vi trekker da ett utvalg fra hver populasjon. ST00 Statistikk for

Detaljer

EKSAMEN. TILLATTE HJELPEMIDLER: Kalkulator. Hornæs: Formelsamling statistikk HiG. John Haugan: Formler og tabeller.

EKSAMEN. TILLATTE HJELPEMIDLER: Kalkulator. Hornæs: Formelsamling statistikk HiG. John Haugan: Formler og tabeller. KANDIDATNUMMER: EKSAMEN FAGNAVN: FAGNUMMER: Statistikk. BtG207 EKSAMENSDATO: 16. juni 2009. KLASSE: HIS 07 10. TID: kl. 8.00 13.00. FAGLÆRER: Hans Petter Hornæs ANTALL SIDER UTLEVERT: 3 innkl. forside)

Detaljer

+ S2 Y ) 2. = 6.737 6 (avrundet nedover til nærmeste heltall) n Y 1

+ S2 Y ) 2. = 6.737 6 (avrundet nedover til nærmeste heltall) n Y 1 Løsningsforslag for: MOT10 STATISTISKE METODER 1 VARIGHET: 4 TIMER DATO: 6. november 007 TILLATTE HJELPEMIDLER: Kalkulator: HP0S, Casio FX8 eller TI-0 Tabeller og formler i statistikk (Tapir forlag) MERKNADER:

Detaljer

Supplement til power-point presentasjonen i medisinsk statistikk, forelesning 7 januar 2013. Skrevet av Stian Lydersen 16 januar 2013

Supplement til power-point presentasjonen i medisinsk statistikk, forelesning 7 januar 2013. Skrevet av Stian Lydersen 16 januar 2013 1 Supplement til power-point presentasjonen i medisinsk statistikk, forelesning 7 januar 013. Skrevet av Stian Lydersen 16 januar 013 Vi antar at vårt utvalg er et tilfeldig og representativt utvalg for

Detaljer

QED 1 7. Matematikk for grunnskolelærerutdanningen. Bind 2. Fasit kapittel 4 Statistikk og kvantitativ metode

QED 1 7. Matematikk for grunnskolelærerutdanningen. Bind 2. Fasit kapittel 4 Statistikk og kvantitativ metode QED 1 7 Matematikk for grunnskolelærerutdanningen Bind 2 Fasit kapittel 4 Statistikk og kvantitativ metode Kapittel 4 Oppgave 1 La være antall øyne på terningen. a) Vi får følgende sannsynlighetsfordeling

Detaljer

EKSAMEN KANDIDATNUMMER: EKSAMENSDATO: 26. mai 2006. SENSURFRIST: 16. juni 2006. KLASSE: HIS 04 07. TID: kl. 8.00 13.00.

EKSAMEN KANDIDATNUMMER: EKSAMENSDATO: 26. mai 2006. SENSURFRIST: 16. juni 2006. KLASSE: HIS 04 07. TID: kl. 8.00 13.00. KANDIDATNUMMER: EKSAMEN FAGNAVN: FAGNUMMER: Statistikk. BtG207 EKSAMENSDATO: 26. mai 2006. SENSURFRIST: 16. juni 2006. KLASSE: HIS 04 07. TID: kl. 8.00 13.00. FAGLÆRER: Hans Petter Hornæs ANTALL SIDER

Detaljer

Oppgave 1. T = 9 Hypotesetest for å teste om kolesterolnivået har endret seg etter dietten: T observert = 2.16 0

Oppgave 1. T = 9 Hypotesetest for å teste om kolesterolnivået har endret seg etter dietten: T observert = 2.16 0 Løsningsforslag til eksamen i MOT310 STATISTISKE METODER 1 VARIGHET: 4 TIMER DATO: 08. mai 2008 TILLATTE HJELPEMIDLER: Kalkulator: HP30S, Casio FX82 eller TI-30 Tabeller og formler i statistikk (Tapir

Detaljer

Innhold. Innledning. Del I

Innhold. Innledning. Del I Innhold Del I Innledning 1 Hva er statistikk?...17 1.1 Bokas innhold 18 1.1.1 Noen eksempler 18 1.1.2 Historie 21 1.1.3 Bokas oppbygning 22 1.2 Noen viktige begreper 23 1.2.1 Populasjon og utvalg 23 1.2.2

Detaljer

SOS1120 Kvantitativ metode. Regresjonsanalyse. Lineær sammenheng II. Lineær sammenheng I. Forelesningsnotater 11. forelesning høsten 2005

SOS1120 Kvantitativ metode. Regresjonsanalyse. Lineær sammenheng II. Lineær sammenheng I. Forelesningsnotater 11. forelesning høsten 2005 SOS1120 Kvantitativ metode Regresjonsanalyse Forelesningsnotater 11. forelesning høsten 2005 Per Arne Tufte Lineær sammenheng I Lineær sammenheng II Ukelønn i kroner 4000 3500 3000 2500 2000 1500 1000

Detaljer

Beskrivende statistikk.

Beskrivende statistikk. Obligatorisk oppgave i Statistikk, uke : Beskrivende statistikk. 1 Høgskolen i Gjøvik Avdeling for teknologi, økonomi og ledelse. Statistikk Ukeoppgaver uke I løpet av uken blir løsningsforslag lagt ut

Detaljer

Analyse av kontinuerlige data. Intro til hypotesetesting. 21. april 2005. Seksjon for medisinsk statistikk, UIO. Tron Anders Moger

Analyse av kontinuerlige data. Intro til hypotesetesting. 21. april 2005. Seksjon for medisinsk statistikk, UIO. Tron Anders Moger Intro til hypotesetesting Analyse av kontinuerlige data 21. april 2005 Tron Anders Moger Seksjon for medisinsk statistikk, UIO 1 Repetisjon fra i går: Normalfordelingen Variasjon i målinger kan ofte beskrives

Detaljer

MASTER I IDRETTSVITENSKAP 2014/2016. Utsatt individuell skriftlig eksamen. STA 400- Statistikk. Mandag 24. august 2015 kl. 10.00-12.

MASTER I IDRETTSVITENSKAP 2014/2016. Utsatt individuell skriftlig eksamen. STA 400- Statistikk. Mandag 24. august 2015 kl. 10.00-12. MASTR I IDRTTSVITNSKAP 2014/2016 Utsatt individuell skriftlig eksamen i STA 400- Statistikk Mandag 24. august 2015 kl. 10.00-12.00 Hjelpemidler: kalkulator ksamensoppgaven består av 10 sider inkludert

Detaljer

Konfidensintervall for µ med ukjent σ (t intervall)

Konfidensintervall for µ med ukjent σ (t intervall) Forelesning 3, kapittel 6 Konfidensintervall for µ med ukjent σ (t intervall) Konfidensintervall for µ basert på n observasjoner fra uavhengige N( µ, σ) fordelinger når σ er kjent : Hvis σ er ukjent har

Detaljer

2. Hva er en sampelfordeling? Nevn tre eksempler på sampelfordelinger.

2. Hva er en sampelfordeling? Nevn tre eksempler på sampelfordelinger. H12 - Semesteroppgave i statistikk - sensurveiledning Del 1 - teori 1. Gjør rede for resonnementet bak ANOVA. Enveis ANOVA tester om det er forskjeller mellom gjennomsnittene i tre eller flere populasjoner.

Detaljer

HØGSKOLEN I STAVANGER

HØGSKOLEN I STAVANGER EKSAMEN I: MOT310 STATISTISKE METODER 1 VARIGHET: 4 TIMER DATO: 25. NOVEMBER 2003 TILLATTE HJELPEMIDLER: KALKULATOR, TABELLER OG FORMLER I STATISTIKK (TAPIR FORLAG) OPPGAVESETTET BESTÅR AV 3 OPPGAVER PÅ

Detaljer

EKSAMEN. Flexibel ingeniørutdanning, 2kl. Bygg m.fl.

EKSAMEN. Flexibel ingeniørutdanning, 2kl. Bygg m.fl. KANDIDATNUMMER: EKSAMEN FAGNAVN: FAGNUMMER: Statistikk. REA 1081 og REA1081F EKSAMENSDATO: 1. juni 2011. KLASSE: Flexibel ingeniørutdanning, 2kl. Bygg m.fl. TID: kl. 9.00 12.00. FAGLÆRER: Hans Petter Hornæs

Detaljer

1 Sec 3-2: Hvordan beskrive senteret i dataene. 2 Sec 3-3: Hvordan beskrive spredningen i dataene

1 Sec 3-2: Hvordan beskrive senteret i dataene. 2 Sec 3-3: Hvordan beskrive spredningen i dataene 1 Sec 3-2: Hvordan beskrive senteret i dataene 2 Sec 3-3: Hvordan beskrive spredningen i dataene Todeling av statistikk Deskriptiv statistikk Oppsummering og beskrivelse av den stikkprøven du har. Statistisk

Detaljer

MASTER I IDRETTSVITENSKAP 2013/2015 MASTER I IDRETTSFYSIOTERAPI 2013/2015. Individuell skriftlig eksamen. STA 400- Statistikk

MASTER I IDRETTSVITENSKAP 2013/2015 MASTER I IDRETTSFYSIOTERAPI 2013/2015. Individuell skriftlig eksamen. STA 400- Statistikk MASTER I IDRETTSVITENSKAP 013/015 MASTER I IDRETTSFYSIOTERAPI 013/015 Individuell skriftlig eksamen i STA 400- Statistikk Mandag 10. mars 014 kl. 10.00-1.00 Hjelpemidler: kalkulator Eksamensoppgaven består

Detaljer

Kontroller at oppgavesettet er komplett før du begynner å besvare spørsmålene. Ved sensuren teller alle delspørsmål likt.

Kontroller at oppgavesettet er komplett før du begynner å besvare spørsmålene. Ved sensuren teller alle delspørsmål likt. Eksamen i: MET040 Statistikk for økonomer Eksamensdag: 4. juni 2008 Tid for eksamen: 09.00-13.00 Oppgavesettet er på 5 sider. Tillatte hjelpemidler: Alle trykte eller egenskrevne hjelpemidler og kalkulator.

Detaljer

QED 5 10. Matematikk for grunnskolelærerutdanningen. Bind 2. Fasit kapittel 4 Statistikk og kvantitativ metode

QED 5 10. Matematikk for grunnskolelærerutdanningen. Bind 2. Fasit kapittel 4 Statistikk og kvantitativ metode QED 5 10 Matematikk for grunnskolelærerutdanningen Bind 2 Fasit kapittel 4 Statistikk og kvantitativ metode Kapittel 4 Oppgave 1. La x være antall øyne på terningen. a) Vi får følgende sannsynlighetsfordeling

Detaljer

1 Grafisk framstilling av datamateriale

1 Grafisk framstilling av datamateriale 1 Grafisk framstilling av datamateriale Dette notatet er laget med tanke på åfå til en rask gjennomgang av denne delen av pensum. Determentforå ha nedskrevet det som forholdsvis rakt blir sagt i forelesning,

Detaljer

Oppgave 1. Det oppgis at dersom y ij er observasjon nummer j fra laboratorium i så er SSA = (y ij ȳ i ) 2 = 3.6080.

Oppgave 1. Det oppgis at dersom y ij er observasjon nummer j fra laboratorium i så er SSA = (y ij ȳ i ) 2 = 3.6080. EKSAMEN I: MOT310 STATISTISKE METODER 1 VARIGHET: 4 TIMER DATO: 28. FEBRUAR 2005 TILLATTE HJELPEMIDLER: KALKULATOR, TABELLER OG FORMLER I STATISTIKK (TAPIR FORLAG) OPPGAVESETTET BESTÅR AV 4 OPPGAVER PÅ

Detaljer

Sentralverdi av dataverdi i et utvalg Vi tenker oss et utvalg med datapar. I vårt eksempel har vi 5 datapar.

Sentralverdi av dataverdi i et utvalg Vi tenker oss et utvalg med datapar. I vårt eksempel har vi 5 datapar. Statistisk behandling av kalibreringsresultatene Del 4. v/ Rune Øverland, Trainor Elsikkerhet AS Denne artikkelserien handler om statistisk behandling av kalibreringsresultatene. Dennne artikkelen tar

Detaljer

Sannsynlighetsregning og Statistikk.

Sannsynlighetsregning og Statistikk. Sannsynlighetsregning og Statistikk. Leksjon Velkommen til dette kurset i sannsynlighetsregning og statistikk! Vi vil som lærebok benytte Gunnar G. Løvås:Statistikk for universiteter og høyskoler. I den

Detaljer

år i 1 2 3 4 5 6 7 8 9 alder x i 37 38 39 40 41 42 43 44 45 tid y i 45.54 41.38 42.50 38.80 41.26 37.20 38.19 38.05 37.45 i=1 (x i x) 2 = 60, 9

år i 1 2 3 4 5 6 7 8 9 alder x i 37 38 39 40 41 42 43 44 45 tid y i 45.54 41.38 42.50 38.80 41.26 37.20 38.19 38.05 37.45 i=1 (x i x) 2 = 60, 9 TMA424 Statistikk Vår 214 Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag Øving nummer 11, blokk II Oppgave 1 Matlabkoden linearreg.m, tilgjengelig fra emnets hjemmeside, utfører

Detaljer

EKSAMEN. EMNEANSVARLIG: Terje Bokalrud og Hans Petter Hornæs. TILLATTE HJELPEMIDLER: Kalkulator og alle trykte og skrevne hjelpemidler.

EKSAMEN. EMNEANSVARLIG: Terje Bokalrud og Hans Petter Hornæs. TILLATTE HJELPEMIDLER: Kalkulator og alle trykte og skrevne hjelpemidler. KANDIDATNUMMER: EKSAMEN EMNENAVN: EMNENUMMER: Kvalitetsledelse med Statistikk. SMF2121 EKSAMENSDATO: 1. juni 2010 KLASSE: Ingeniørutdanning TID: kl. 9.00 13.00. EMNEANSVARLIG: Terje Bokalrud og Hans Petter

Detaljer

EKSAMEN I FAG TMA4255 ANVENDT STATISTIKK

EKSAMEN I FAG TMA4255 ANVENDT STATISTIKK Norges teknisk naturvitenskapelige universitet Institutt for matematiske fag Side 1 av 5 Faglig kontakt under eksamen: Bo Lindqvist Tlf. 975 89 418 BOKMÅL EKSAMEN I FAG TMA4255 ANVENDT STATISTIKK Onsdag

Detaljer

6.2 Signifikanstester

6.2 Signifikanstester 6.2 Signifikanstester Konfidensintervaller er nyttige når vi ønsker å estimere en populasjonsparameter Signifikanstester er nyttige dersom vi ønsker å teste en hypotese om en parameter i en populasjon

Detaljer

EKSAMEN ST0202 STATISTIKK FOR SAMFUNNSVITERE

EKSAMEN ST0202 STATISTIKK FOR SAMFUNNSVITERE Norges teknisk naturvitenskapelige universitet Institutt for matematiske fag Side 1 av 7 Bokmål Faglig kontakt under eksamen: Bo Lindqvist, tlf. 97589418 EKSAMEN ST00 STATISTIKK FOR SAMFUNNSVITERE Torsdag

Detaljer

MASTER I IDRETTSVITENSKAP 2014/2016. Individuell skriftlig eksamen. STA 400- Statistikk. Fredag 13. mars 2015 kl. 10.00-12.00

MASTER I IDRETTSVITENSKAP 2014/2016. Individuell skriftlig eksamen. STA 400- Statistikk. Fredag 13. mars 2015 kl. 10.00-12.00 MASTER I IDRETTSVITENSKAP 2014/2016 Individuell skriftlig eksamen i STA 400- Statistikk Fredag 13. mars 2015 kl. 10.00-12.00 Hjelpemidler: kalkulator Eksamensoppgaven består av 10 sider inkludert forsiden

Detaljer

STUDIEÅRET 2014/2015. Utsatt individuell skriftlig eksamen i. STA 200- Statistikk. Mandag 24. august 2015 kl. 10.00-12.00

STUDIEÅRET 2014/2015. Utsatt individuell skriftlig eksamen i. STA 200- Statistikk. Mandag 24. august 2015 kl. 10.00-12.00 STUDIEÅRET 2014/2015 Utsatt individuell skriftlig eksamen i STA 200- Statistikk Mandag 24. august 2015 kl. 10.00-12.00 Hjelpemidler: kalkulator. Formelsamling blir delt ut på eksamen Eksamensoppgaven består

Detaljer

Løsningsforslag Til Statlab 5

Løsningsforslag Til Statlab 5 Løsningsforslag Til Statlab 5 Jimmy Paul September 6, 007 Oppgave 8.1 Vi skal se på ukentlige forbruk av søtsaker blant barn i et visst område. En pilotstudie gir at standardavviket til det ukentige forbruket

Detaljer

Statistikk 1. Nico Keilman. ECON 2130 Vår 2014

Statistikk 1. Nico Keilman. ECON 2130 Vår 2014 Statistikk 1 Nico Keilman ECON 2130 Vår 2014 Pensum Kap 1-7.3.6 fra Løvås «Statistikk for universiteter og høgskoler» 3. utgave 2013 (eventuelt 2. utgave) Se overspringelsesliste på emnesiden Supplerende

Detaljer

Andre sett med obligatoriske oppgaver i STK1110 høsten 2010

Andre sett med obligatoriske oppgaver i STK1110 høsten 2010 Andre sett med obligatoriske oppgaver i STK1110 høsten 2010 Dette er det andre settet med obligatoriske oppgaver i STK1110 høsten 2010. Oppgavesettet består av fire oppgaver. Det er valgfritt om du vil

Detaljer

Eksamensoppgave i TMA4240 Statistikk

Eksamensoppgave i TMA4240 Statistikk Institutt for matematiske fag Eksamensoppgave i TMA4240 Statistikk Faglig kontakt under eksamen: Jo Eidsvik og Arild Brandrud Næss Tlf: 90 12 74 72 og 99 53 82 94 Eksamensdato: 9. desember 2013 Eksamenstid

Detaljer

Eksamensoppgave i TMA4245 Statistikk

Eksamensoppgave i TMA4245 Statistikk Institutt for matematiske fag Eksamensoppgave i TMA4245 Statistikk Faglig kontakt under eksamen: Håkon Tjelmeland Tlf: 48 22 18 96 Eksamensdato:??. august 2014 Eksamenstid (fra til): 09:00 13:00 Hjelpemiddelkode/Tillatte

Detaljer

ST0202 Statistikk for samfunnsvitere Kapittel 10: Inferens om to populasjoner

ST0202 Statistikk for samfunnsvitere Kapittel 10: Inferens om to populasjoner ST0202 Statistikk for samfunnsvitere Kapittel 10: Inferens om to populasjoner Bo Lindqvist Institutt for matematiske fag 2 Kapittel 10: Inferens om to populasjoner Situasjon: Vi ønsker å sammenligne to

Detaljer

ST0202 Statistikk for samfunnsvitere Kapittel 9: Inferens om én populasjon

ST0202 Statistikk for samfunnsvitere Kapittel 9: Inferens om én populasjon ST0202 Statistikk for samfunnsvitere Kapittel 9: Inferens om én populasjon Bo Lindqvist Institutt for matematiske fag 2 Kap. 9: Inferens om én populasjon Statistisk inferens har som mål å tolke/analysere

Detaljer

Regler i statistikk STAT 100

Regler i statistikk STAT 100 TORIL FJELDAAS RYGG - VÅREN 2010 Regler i statistikk STAT 100 Innhold side Sannsynlighetsregning 3 - Uttrykk 3 - Betinget sannsynlighet 4 - Regler for sannsynlighet 4 - Bayes teorem 4 - Uavhengige begivenheter

Detaljer

Kontroller at oppgavesettet er komplett før du begynner å besvare spørsmålene. Ved sensuren teller alle delspørsmål likt.

Kontroller at oppgavesettet er komplett før du begynner å besvare spørsmålene. Ved sensuren teller alle delspørsmål likt. Eksamen i: MET040 Statistikk for økonomer Eksamensdag: 4 november 2008 Tid for eksamen: 09.00-13.00 Oppgavesettet er på 4 sider. Tillatte hjelpemidler: Alle trykte eller egenskrevne hjelpemidler og kalkulator.

Detaljer

Sammenlikninger av gjennomsnitt. SOS1120 Kvantitativ metode. Kan besvare to spørsmål: Sammenlikning av to gjennomsnitt

Sammenlikninger av gjennomsnitt. SOS1120 Kvantitativ metode. Kan besvare to spørsmål: Sammenlikning av to gjennomsnitt SOS1120 Kvantitativ metode Forelesningsnotater 10. forelesning høsten 2005 Per Arne Tufte Sammenlikninger av gjennomsnitt Sammenlikner gjennomsnittet på avhengig variabel for ulike grupper av enheter Kan

Detaljer

1 10-2: Korrelasjon. 2 10-3: Regresjon

1 10-2: Korrelasjon. 2 10-3: Regresjon 1 10-2: Korrelasjon 2 10-3: Regresjon Example Krysser y-aksen i 1: b 0 = 1 Stiger med 2 hver gang x øker med 1: b 1 = 2 Formelen til linja er derfor y = 1 + 2x Eksempel Example Vi lar fem personer se en

Detaljer

SENSORVEILEDNING FOR DEN KVANTITATIVE DELEN AV EKSAMENSOPPGAVEN I SOS1002 VÅREN 2007

SENSORVEILEDNING FOR DEN KVANTITATIVE DELEN AV EKSAMENSOPPGAVEN I SOS1002 VÅREN 2007 SENSORVEILEDNING FOR DEN KVANTITATIVE DELEN AV EKSAMENSOPPGAVEN I SOS1002 VÅREN 2007 Oppgave 1 Nedenfor ser du en forenklet tabell basert på informasjon fra den norske delen av European Social Survey 2004.

Detaljer

Denne uken: kap. 6.1-6.2-6.3: Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

Denne uken: kap. 6.1-6.2-6.3: Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans Denne uken: kap. 6.1-6.2-6.3: Introduksjon til statistisk inferens - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans VG 25/9 2011 Statistisk inferens Mål: Trekke konklusjoner

Detaljer

MAT4010 PROSJEKTOPPGAVE: Statistikk i S2. Olai Sveine Johannessen, Vegar Klem Hafnor & Torstein Mellem

MAT4010 PROSJEKTOPPGAVE: Statistikk i S2. Olai Sveine Johannessen, Vegar Klem Hafnor & Torstein Mellem MAT400 PROSJEKTOPPGAVE: Statistikk i S2 Olai Sveine Johannessen, Vegar Klem Hafnor & Torstein Mellem 20. mai 205 Innhold. Stokastisk Variabel.. Stokastiske variable som funksjoner 3 2. Forventningsverdi

Detaljer

Oppgave 1. og t α/2,n 1 = 2.262, så er et 95% konfidensintervall for µ D (se kap 9.9 i læreboka): = ( 0.12, 3.32).

Oppgave 1. og t α/2,n 1 = 2.262, så er et 95% konfidensintervall for µ D (se kap 9.9 i læreboka): = ( 0.12, 3.32). Løsningsforslag til eksamen i MOT310 STATISTISKE METODER 1 VARIGHET: 4 TIMER DATO: 16. november 2009 TILLATTE HJELPEMIDLER: Kalkulator: HP30S, Casio FX82 eller TI-30 Tabeller og formler i statistikk (Tapir

Detaljer

Eksamen i. MAT110 Statistikk 1

Eksamen i. MAT110 Statistikk 1 Avdeling for logistikk Eksamen i MAT110 Statistikk 1 Eksamensdag : Torsdag 28. mai 2015 Tid : 09:00 13:00 (4 timer) Faglærer/telefonnummer : Molde: Per Kristian Rekdal / 924 97 051 Kristiansund: Terje

Detaljer

HØGSKOLEN I STAVANGER

HØGSKOLEN I STAVANGER EKSAMEN I: MOT310 STATISTISKE METODER VARIGHET: 4 TIMER DATO: 27. FEBRUAR 2004 TILLATTE HJELPEMIDLER: KALKULATOR, TABELLER OG FORMLER I STATISTIKK (TAPIR FORLAG) OPPGAVESETTET BESTÅR AV 3 OPPGAVER PÅ 5

Detaljer

PSY2012 Forskningsmetodologi III: Statistisk analyse, design og måling Eksamen vår 2014

PSY2012 Forskningsmetodologi III: Statistisk analyse, design og måling Eksamen vår 2014 Psykologisk institutt PSY2012 Forskningsmetodologi III: Statistisk analyse, design og måling Eksamen vår 2014 Skriftlig skoleeksamen fredag 2. mai, 09:00 (4 timer). Kalkulator uten grafisk display og tekstlagringsfunksjon

Detaljer

Oppgaver til Studentveiledning 4 MET 3431 Statistikk

Oppgaver til Studentveiledning 4 MET 3431 Statistikk Oppgaver til Studentveiledning 4 MET 3431 Statistikk 8. mai 2012 kl 17.15-20.15 i B2 Handelshøyskolen BI 2 Oppgaver 1. Eksamensoppgaver: Eksamen 22/11/2011: Oppgave 1-7. Eksamensoppgaven fra 11/2011 er

Detaljer

Oppgaver til Studentveiledning 3 MET 3431 Statistikk

Oppgaver til Studentveiledning 3 MET 3431 Statistikk Oppgaver til Studentveiledning 3 MET 3431 Statistikk 24. april 2012 kl 17.15-20.15 i B2 Handelshøyskolen BI 2 Oppgaver 1. Eksamensoppgaver: Eksamen 01/06/2011: Oppgave 1-7. Eksamensoppgaven fra 06/2011

Detaljer

Løsningsforslag til obligatorisk innlevering 3.

Løsningsforslag til obligatorisk innlevering 3. svar3.nb 1 Løsningsforslag til obligatorisk innlevering 3. Oppgave 1 * Vi skal sammenlikne to sensoere A og B. Begge har rettet den samme oppgaven. Hvis populasjonen er eksamensoppgavene, har vi altså

Detaljer

Verdens statistikk-dag. Signifikanstester. Eksempel studentlån. http://unstats.un.org/unsd/wsd/

Verdens statistikk-dag. Signifikanstester. Eksempel studentlån. http://unstats.un.org/unsd/wsd/ Verdens statistikk-dag http://unstats.un.org/unsd/wsd/ Signifikanstester Ønsker å teste hypotese om populasjon Bruker data til å teste hypotese Typisk prosedyre Beregn sannsynlighet for utfall av observator

Detaljer

b) i) Finn sannsynligheten for at nøyaktig 2 av 120 slike firmaer går konkurs.

b) i) Finn sannsynligheten for at nøyaktig 2 av 120 slike firmaer går konkurs. Eksamen i: MET 040 Statistikk for økonomer Eksamensdag: 31 Mai 2007 Tid for eksamen: 09.00-13.00 Oppgavesettet er på 4 sider. Tillatte hjelpemidler: Alle trykte eller egenskrevne hjelpemidler og kalkulator.

Detaljer

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Underveiseksamen i: STK1000 Innføring i anvendt statistikk. Eksamensdag: Onsdag 28/3, 2007. Tid for eksamen: Kl. 09.00 11.00. Tillatte hjelpemidler:

Detaljer

Definisjoner av begreper Eks.: interesse for politikk

Definisjoner av begreper Eks.: interesse for politikk Måling SOS1120 Kvantitativ metode Forelesningsnotater 5. forelesning høsten 2005 Per Arne Tufte Måling er å knytte teoretiske begreper til empiriske indikatorer Operasjonell definisjon Angir hvordan et

Detaljer

Statistisk beskrivelse av enkeltvariabler. SOS1120 Kvantitativ metode. Disposisjon. Datamatrisen. Forelesningsnotater 6. forelesning høsten 2005

Statistisk beskrivelse av enkeltvariabler. SOS1120 Kvantitativ metode. Disposisjon. Datamatrisen. Forelesningsnotater 6. forelesning høsten 2005 SOS110 Kvantitativ metode Forelesningsnotater 6 forelesning høsten 005 Statistisk beskrivelse av enkeltvariabler (Univariat analyse) Per Arne Tufte Disposisjon Datamatrisen Variabler Datamatrisen Frekvensfordelinger

Detaljer

Eksamensoppgave i ST3001

Eksamensoppgave i ST3001 Det medisinske fakultet Institutt for kreftforskning og molekylær medisin Eksamensoppgave i ST3001 Onsdag 16. desember 2010, kl. 9.00 13:00 ntall studiepoeng: 7.5 Tillatte hjelpemidler: Kalkulator og alle

Detaljer

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i: STK1120 Statistiske metoder og dataanalyse 2. Eksamensdag: Mandag 30. mai 2005. Tid for eksamen: 14.30 17.30. Oppgavesettet er

Detaljer

STUDIEÅRET 2014/2015. Individuell skriftlig eksamen i STA 200- Statistikk. Torsdag 16. april 2015 kl. 10.00-12.00

STUDIEÅRET 2014/2015. Individuell skriftlig eksamen i STA 200- Statistikk. Torsdag 16. april 2015 kl. 10.00-12.00 STUDIEÅRET 2014/2015 Individuell skriftlig eksamen i STA 200- Statistikk Torsdag 16. april 2015 kl. 10.00-12.00 Hjelpemidler: kalkulator. Formelsamling blir delt ut på eksamen Eksamensoppgaven består av

Detaljer

Øgrim Bakken Pettersen Skrindo Dypbukt Mustaparta Thorstensen Thorstensen. Digitalt verktøy for Sigma 2P. Microsoft Excel

Øgrim Bakken Pettersen Skrindo Dypbukt Mustaparta Thorstensen Thorstensen. Digitalt verktøy for Sigma 2P. Microsoft Excel Øgrim Bakken Pettersen Skrindo Dypbukt Mustaparta Thorstensen Thorstensen Digitalt verktøy for Microsoft Excel Innhold 1 Om Excel 4 2 Regning 4 2.1 Tallregning................................... 4 2.2

Detaljer

Statistikk er begripelig

Statistikk er begripelig Statistikk er begripelig men man må begynne med ABC ANOVA ANOVA er brukt til å sammenligne gjennomsnittsverdier Slik er det, selv om det er Analysis of Variance man sier BIVARIAT Bivariat analyse er godt

Detaljer

Oppgaver til Studentveiledning I MET 3431 Statistikk

Oppgaver til Studentveiledning I MET 3431 Statistikk Oppgaver til Studentveiledning I MET 3431 Statistikk 20. mars 2012 kl 17.15-20.15 i B2 Handelshøyskolen BI 2 Oppgaver 1. Konfidensintervaller Vi ser på inntekten til en tilfeldig valgt person (i tusen

Detaljer

Profil Lavpris Supermarked Hypermarked Totalt. Coop Prix 4 4. Coop Extra 13 5. Coop Mega 7 7. Coop Obs 5 13. Rimi 24 24. Ica Supermarked 7 7

Profil Lavpris Supermarked Hypermarked Totalt. Coop Prix 4 4. Coop Extra 13 5. Coop Mega 7 7. Coop Obs 5 13. Rimi 24 24. Ica Supermarked 7 7 Vedlegg 1 - Regresjonsanalyser 1 Innledning og formål (1) Konkurransetilsynet har i forbindelse med Vedtak 2015-24, (heretter "Vedtaket") utført kvantitative analyser på data fra kundeundersøkelsen. I

Detaljer

Eksamensoppgave i PSY2017/PSYPRO4317 Statistikk og kvantitative forskningsmetoder

Eksamensoppgave i PSY2017/PSYPRO4317 Statistikk og kvantitative forskningsmetoder Psykologisk institutt Eksamensoppgave i PSY2017/PSYPRO4317 Statistikk og kvantitative forskningsmetoder Faglig kontakt under eksamen: Eva Langvik Tlf.: Psykologisk institutt 73591960 Eksamensdato: 21.5.2013

Detaljer

SENSORVEILEDNING FOR EKSAMENSOPPGAVEN I SVSOS107 VÅREN 2002

SENSORVEILEDNING FOR EKSAMENSOPPGAVEN I SVSOS107 VÅREN 2002 SENSORVEILEDNING FOR EKSAMENSOPPGAVEN I SVSOS107 VÅREN 2002 Generell informasjon Dette er den siste eksamensoppgaven under overgangsordningen mellom gammelt og nytt pensum i SVSOS107. Eksamensoppgaven

Detaljer

7.2 Sammenligning av to forventinger

7.2 Sammenligning av to forventinger 7.2 Sammenligning av to forventinger To-utvalgs z-observator To-utvalgs t-prosedyrer To-utvalgs t-tester To-utvalgs t-konfidensintervall Robusthet To-utvalgs t-prosedyrerår variansene er like Sammenlikning

Detaljer

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Underveiseksamen i: STK1000. Eksamensdag: Onsdag 17/3, 2004. Tid for eksamen: Kl. 09.00 12.00. Tillatte hjelpemidler: Lærebok: Moore & McCabe

Detaljer

Oppgaver til Studentveiledning II MET 3431 Statistikk

Oppgaver til Studentveiledning II MET 3431 Statistikk Oppgaver til Studentveiledning II MET 3431 Statistikk 10. april 2012 kl 17.15-20.15 i B2 Handelshøyskolen BI 2 Oppgaver 1. Eksamensoppgaver: Prøve-eksamen A fra 2010: Oppgave 6-7. Prøve-eksamen A fra 2010

Detaljer

Oppgaver og løsningsforslag i undervisning. av matematikk for ingeniører

Oppgaver og løsningsforslag i undervisning. av matematikk for ingeniører Oppgaver og løsningsforslag i undervisning av matematikk for ingeniører Trond Stølen Gustavsen 1 1 Høgskolen i Agder, Avdeling for teknologi, Insitutt for IKT trond.gustavsen@hia.no Sammendrag Denne artikkelen

Detaljer

Første sett med obligatoriske oppgaver i STK1110 høsten 2015

Første sett med obligatoriske oppgaver i STK1110 høsten 2015 Første sett med obligatoriske oppgaver i STK1110 høsten 2015 Dette er det første obligatoriske oppgavesettet i STK1110 høsten 2015. Oppgavesettet består av fire oppgaver. Du må bruke Matematisk institutts

Detaljer

TMA 4255 Forsøksplanlegging og anvendte statistiske metoder

TMA 4255 Forsøksplanlegging og anvendte statistiske metoder TMA 4255 Forsøksplanlegging og anvendte statistiske metoder Våren 2007 1 Om kurset Foreleser Øvingslærer Kurset er beregnet for studenter som ønsker en videreføring av grunnkurset i statistikk. Sentralt

Detaljer

Oppgave 13.1 (13.4:1)

Oppgave 13.1 (13.4:1) MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 11 (s. 1) Modell: Oppgave 13.1 (13.4:1) Y ij = µ i + ε ij, der ε ij uavh. N(0, σ 2 ) Boka opererer her med spesialtilfellet der man

Detaljer

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT Utsatt eksamen i: ECON2130 - Statistikk 1 Eksamensdag: 19.06.2014 Tid for eksamen: kl. 09:00 12:00 Oppgavesettet er på 4 sider UNIVERSITETET I OSLO ØKONOMISK INSTITUTT Tillatte hjelpemidler: Alle trykte

Detaljer

Sentralmål og spredningsmål

Sentralmål og spredningsmål Sentralmål og spredningsmål av Peer Andersen Peer Andersen 2014 Sentralmål og spredningsmål i statistikk I dette notatet skal vi se på de viktigste momentene om sentralmål og spredningsmål slik de blir

Detaljer

MET 3431: Statistikk (våren 2011) Introduksjon. Genaro Sucarrat. Institutt for samfunnsøkonomi, BI. http://www.sucarrat.net/teaching/met3431/v2011/

MET 3431: Statistikk (våren 2011) Introduksjon. Genaro Sucarrat. Institutt for samfunnsøkonomi, BI. http://www.sucarrat.net/teaching/met3431/v2011/ MET 3431: Statistikk (våren 2011) Introduksjon Genaro Sucarrat Institutt for samfunnsøkonomi, BI http://www.sucarrat.net/teaching/met3431/v2011/ Sist endret: 11. januar 2011 1 Praktisk info 2 Typer data

Detaljer

Kp. 13. Enveis ANOVA

Kp. 13. Enveis ANOVA -tabell Bjørn H. Auestad Kp. 13: Én-faktor eksperiment 1 / 13 Kp. 13: Én-faktor -tabell 13.1 Analysis-of-Variance Technique 13.2 The Strategy of Experimental Design 13.3 One-Way Analysis of Variance: Completely

Detaljer

EKSAMEN. TILLATTE HJELPEMIDLER: Kalkulator. Hornæs: Formelsamling statistikk HiG. John Haugan: Formler og tabeller.

EKSAMEN. TILLATTE HJELPEMIDLER: Kalkulator. Hornæs: Formelsamling statistikk HiG. John Haugan: Formler og tabeller. KANDIDATNUMMER: EKSAMEN FAGNAVN: FAGNUMMER: Statistikk. BtG27 EKSAMENSDATO: 27. mai 211. KLASSE: HIS 8 11. TID: kl. 8. 13.. FAGLÆRER: Hans Petter Hornæs ANTALL SIDER UTLEVERT: 3 innkl. forside) TILLATTE

Detaljer

1 8-1: Oversikt. 2 8-2: Grunnleggende hypotesetesting. 3 Section 8-3: Å teste påstander om andeler. 4 Section 8-5: Teste en påstand om gjennomsnittet

1 8-1: Oversikt. 2 8-2: Grunnleggende hypotesetesting. 3 Section 8-3: Å teste påstander om andeler. 4 Section 8-5: Teste en påstand om gjennomsnittet 1 8-1: Oversikt 2 8-2: Grunnleggende hypotesetesting 3 Section 8-3: Å teste påstander om andeler 4 Section 8-5: Teste en påstand om gjennomsnittet Definisjoner Hypotese En hypotese er en påstand om noe

Detaljer

Kontroller at oppgavesettet er komplett før du begynner å besvare spørsmålene. Ved sensuren teller alle delspørsmål likt.

Kontroller at oppgavesettet er komplett før du begynner å besvare spørsmålene. Ved sensuren teller alle delspørsmål likt. Eksamen i: MET00 Statistikk for økonomer Eksamensdag: 8. november 2007 Tid for eksamen: 09.00-13.00 Oppgavesettet er på 5 sider. Tillatte hjelpemidler: Alle trykte eller egenskrevne hjelpemidler og kalkulator.

Detaljer

Eksamensoppgave i PSY2017/PSYPRO4317 Statistikk og kvantitative forskningsmetoder

Eksamensoppgave i PSY2017/PSYPRO4317 Statistikk og kvantitative forskningsmetoder Psykologisk institutt Eksamensoppgave i PSY2017/PSYPRO4317 Statistikk og kvantitative forskningsmetoder Faglig kontakt under eksamen: Martin Rasmussen Tlf.: 73 59 19 60 Eksamensdato: 12.12.13 Eksamenstid

Detaljer

Høye skårer indikerer høye nivåer av selvkontroll.

Høye skårer indikerer høye nivåer av selvkontroll. Psykologisk institutt PSY2012 Forskningsmetodologi III: Statistisk analyse, design og måling Eksamen vår 2015 Skriftlig skoleeksamen tirsdag 19. mai, 09:00 (4 timer) Resultater publiseres 10. juni Kalkulator

Detaljer

1 9-3: Sammenligne gjennomsnitt for to uavhengige stikkprøver. 2 9-4: Sammenligne gjennomsnitt for to relaterte stikkprøver

1 9-3: Sammenligne gjennomsnitt for to uavhengige stikkprøver. 2 9-4: Sammenligne gjennomsnitt for to relaterte stikkprøver 1 9-3: Sammenligne gjennomsnitt for to uavhengige stikkprøver 2 9-4: Sammenligne gjennomsnitt for to relaterte stikkprøver 3 Oppvarming til kap 10: Rette linjer Sammenligne to populasjoner Data fra to

Detaljer

Loven om total sannsynlighet. Bayes formel. Testing for sykdom. ST0202 Statistikk for samfunnsvitere

Loven om total sannsynlighet. Bayes formel. Testing for sykdom. ST0202 Statistikk for samfunnsvitere 2 Loven om total sannsynlighet La A og Ā være komplementære hendelser, mens B er en annen hendelse. Da er: P(B) P(B oga)+p(b ogā) P(B A)P(A)+P(B Ā)P(Ā) ST0202 Statistikk for samfunnsvitere Bo Lindqvist

Detaljer

EKSAMEN I FAG TMA4275 LEVETIDSANALYSE Mandag 27. mai 2013 Tid: 09:00 13:00

EKSAMEN I FAG TMA4275 LEVETIDSANALYSE Mandag 27. mai 2013 Tid: 09:00 13:00 Norges teknisk naturvitenskapelige universitet Institutt for matematiske fag Side 1 av 10 Faglig kontakt under eksamen: Bo Lindqvist 975 89 418 EKSAMEN I FAG TMA4275 LEVETIDSANALYSE Mandag 27. mai 2013

Detaljer

Kalibreringskurver; på jakt etter statistisk signifikante datapar

Kalibreringskurver; på jakt etter statistisk signifikante datapar Kalibreringskurver; på jakt etter statistisk signifikante datapar v/rune Øverland, Trainor Elsikkerhet A/S Den siste artikkelen om kalibrering og statistikk tar for seg praktisk bruk av Microsoft Excel

Detaljer

SENSORVEILEDNING FOR DEN KVANTITATIVE DELEN AV EKSAMENSOPPGAVEN I SOS1002 HØSTEN 2006

SENSORVEILEDNING FOR DEN KVANTITATIVE DELEN AV EKSAMENSOPPGAVEN I SOS1002 HØSTEN 2006 SENSORVEILEDNING FOR DEN KVANTITATIVE DELEN AV EKSAMENSOPPGAVEN I SOS1002 HØSTEN 2006 Oppgave 1 Nedenfor ser du en forenklet tabell basert på informasjon fra den norske delen av European Social Survey

Detaljer

H 12 Eksamen PED 3008 Vitenskapsteori og forskningsmetode

H 12 Eksamen PED 3008 Vitenskapsteori og forskningsmetode H 12 Eksamen PED 3008 Vitenskapsteori og forskningsmetode Innlevering Eksamensbesvarelsen i PED3008 består av en individuell semesteroppgave i vitenskapsteori og forskningsmetode (teller 2/3 av endelig

Detaljer

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i: STK 1000 Innføring i anvendt statistikk. Eksamensdag: Mandag 4. desember 2006. Tid for eksamen: 14.30 17.30. Oppgavesettet er

Detaljer

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i STK1000 Innføring i anvendt statistikk. Eksamensdag: Onsdag 7. oktober 2009. Tid for eksamen: 15:00 17:00. Oppgavesettet er på

Detaljer

EKSAMENSOPPGAVE. Eksamen i: STA- 0001 Brukerkurs i statistikk 1 Mandag 03. juni 2013 Kl 09:00 13:00 Åsgårdvegen 9

EKSAMENSOPPGAVE. Eksamen i: STA- 0001 Brukerkurs i statistikk 1 Mandag 03. juni 2013 Kl 09:00 13:00 Åsgårdvegen 9 FAKULTET FOR NATURVITENSKAP OG TEKNOLOGI EKSAMENSOPPGAVE Eksamen i: STA- 0001 Brukerkurs i statistikk 1 Dato: Tid: Sted: Mandag 03. juni 2013 Kl 09:00 13:00 Åsgårdvegen 9 Tillatte hjelpemidler: Alle trykte

Detaljer

De hele tall har addisjon, multiplikasjon, subtraksjon og lineær ordning, men ikke divisjon.

De hele tall har addisjon, multiplikasjon, subtraksjon og lineær ordning, men ikke divisjon. Innledning til Matematikk Hans Petter Hornæs, hans.hornaes@hig.no Det er ofte vanskelig å komme i gang et fag. Innledningsvis er det gjerne en del grunnleggende begreper som må på plass. Mange studenter

Detaljer

Løsningsforslag øving 9, ST1301

Løsningsforslag øving 9, ST1301 Løsningsforslag øving 9, ST1301 Oppgave 1 Regresjon. Estimering av arvbarhet. a) Legg inn din egen høyde, din mors høyde, din fars høyde, og ditt kjønn via linken på fagets hjemmeside 1. Last så ned dataene

Detaljer

EKSAMEN ST0202 STATISTIKK FOR SAMFUNNSVITERE

EKSAMEN ST0202 STATISTIKK FOR SAMFUNNSVITERE Norges teknisknaturvitenskapelige universitet Institutt for matematiske fag Side 1 av 10 Bokmål Faglig kontakt under eksamen: Bo Lindqvist, tlf. 97589418 EKSAMEN ST0202 STATISTIKK FOR SAMFUNNSVITERE Tirsdag

Detaljer

Øving 1 TMA4240 - Grunnleggende dataanalyse i Matlab

Øving 1 TMA4240 - Grunnleggende dataanalyse i Matlab Øving 1 TMA4240 - Grunnleggende dataanalyse i Matlab For grunnleggende introduksjon til Matlab, se kursets hjemmeside https://wiki.math.ntnu.no/tma4240/2015h/matlab. I denne øvingen skal vi analysere to

Detaljer

Sannsynlighetsregning og kombinatorikk

Sannsynlighetsregning og kombinatorikk Sannsynlighetsregning og kombinatorikk Introduksjon Formålet med sannsynlighet og kombinatorikk er å kunne løse problemer i statistikk, somoftegårutpååfattebeslutninger i situasjoner der tilfeldighet rår.

Detaljer