Statistisk generalisering

Størrelse: px
Begynne med side:

Download "Statistisk generalisering"

Transkript

1 Statistisk generalisering Forelesningsnotat høsten 2005 (SOS1120 Kvantitativ metode) av Per Arne Tufte (1) Innledning Så langt har vi undersøkt om det er sammenheng og eventuelt hvor sterk sammenhengen er mellom variabler i et utvalg. Det har vi gjort ved hjelp av krysstabellanalyse. Vi har også sett på noen mål på statistisk sammenheng: - prosentdifferanser - Cramers v - gamma Men forskere er ikke tilfreds med å si noe om sammenhengen mellom variablene i utvalget. Vi ønsker også å undersøke muligheten for å trekke konklusjoner til den populasjonen utvalget er trukket fra. Vi har for eksempel trukket et utvalg på 1000 personer fra den norske stemmeberettigede befolkningen. Dersom vi finner at menn og kvinner i utvalget har ulike politiske sympatier (for eksempel at kvinner i større grad enn menn sympatiserer med partier på venstresiden), ønsker vi å finne ut om denne forskjellen skyldes at det er forskjeller mellom menns og kvinners politiske sympatier i befolkningen og ikke bare i utvalget. Dette kalles for generalisering, dvs. å kunne trekke konklusjoner til en større gruppe enn selve utvalget. Det vi gjør når vi undersøker om det er en sammenheng eller ikke mellom variablene i populasjonen, kalles for hypotesetesting. Generelt tester vi alltid to hypoteser: H0: Det er ikke sammenheng mellom variablene i populasjonen H1: Det er sammenheng mellom variablene i populasjonen Den første kalles for nullhypotesen, den andre kalles for den alternative hypotesen. Dessverre er det slik at vi ikke kan teste den alternative hypotesen direkte. Vi må konsentrere oss om nullhypotesen, dvs. at det ikke er sammenheng mellom variablene. Forutsetningen for å gjøre hypotesetesting er at vi har et sannsynlighetsutvalg, dvs. at utvalget av respondenter er framkommet gjennom en eller form for tilfeldig trekning. På den måten unngår vi at det er systematiske forskjeller i sammensetningen av utvalget og populasjonen. Men vi kan aldri gardere oss mot tilfeldige forskjeller. Selv om vi trekker et tilfeldig utvalg, kan vi aldri være helt sikre på at det virkelig er representativt for populasjonen. Et tilfeldig utvalg av den norske befolkningen kan for eksempel ha en sterk overvekt av menn, selv om kjønnsfordelingen i befolkningen er omtrent Dette kalles tilfeldige utvalgsfeil. Tilfeldige utvalgsfeil skaper problemer for oss. Vi kan ikke lenger være helt sikre på resultatene vi får for eksempel når vi sammenlikner gjennomsnittet på en variabel (lønn, alder e.l.) eller når vi foretar en krysstabellanalyse. Det er heftet statistisk usikkerhet knyttet til utvalgsresultatene våre. Som Ringdal påpeker, kaller vi et utvalgsresultat, for eksempel et gjennomsnitt, en prosentandel eller lignende for et estimat. Den tilsvarende størrelsen i populasjonen kalles for en parameter. Per Arne Tufte Statistisk generalisering Side 1

2 Den statistiske usikkerheten som skylds tilfeldige utvalgsfeil må vi leve med, men statistisk teori kan hjelpe oss et godt stykke på vei når det gjelder å få orden på denne usikkerheten. (2) Generelt om statistisk generalisering: hypoteseprøving og estimering 1 Statistisk generalisering brukes i to situasjoner: (1) Estimering, hvor vi rundt utvalgsresultatet (estimatet) vårt som kan være gjennomsnitt, median, prosentandel etc. - beregner en margin eller et intervall (også kalt konfidensintervall) som med en bestemt grad av sikkerhet innholder den sanne verdien, det vil si tilsvarende gjennomsnitt, median, prosentandel i selve populasjonen (parameteren). (2) Hypotesetesting, hvor vi på bakgrunn av utvalgsresultatene tester en påstand om hvordan et forhold (et gjennomsnitt, en sammenheng etc.) ser ut i populasjonen. Den vanligste formen for hypoteseprøving innebærer å teste hypoteser om det er sammenheng eller ikke mellom to variabler i populasjonen. Vi skal lære om estimering i en bestemt situasjon, nemlig når vi ønsker å konstruere et konfidensintervall rundt et utvalgsgjennomsnitt. Hypoteseprøving er beskrevet innledningsvis. Vi skal se på hypoteseprøving i følgende situasjoner: - krysstabellanalyse - sammenlikning av to gjennomsnitt - sammenslikning av mer enn to gjennomsnitt (ANOVA) - regresjonsanalyse Vi må bruke forskjellige tester i hver av disse situasjonene. Det henger sammen med at utseendet på samplingfordelingen (vi kommer tilbake til hva dette er) varierer fra situasjon til situasjon. Vi skal lære om tre forskjellig tester: - kjikvadrattest - t-test - F-test Uansett hvilken test en må bruke, følger man i grove trekk samme framgangsmåte. Ringdal skisserer følgende fem trinn i hypoteseprøving: 1. Avgjøre hvilken test som skal benyttes. Dette avhenger av hvilken analyseteknikk som brukes: - kjikvadrattest (krysstabellanalyse) - t-test (sammenlikning av to gjennomsnitt, regresjonskoeffisienter) - F-test (sammenlikning av mer enn to gjennomsnitt, regresjonsmodell) 1 Dette avsnittet bygger på underkapittel 14.8 hos Ringdal. Per Arne Tufte Statistisk generalisering Side 2

3 2. Formulere hypoteser I såkalt tosidig hypotesetesting formuleres det en nullhypotese (H0) om at det ikke er sammenheng mellom variablene i populasjonen, mens den alternative hypotesen (H1) sier at det er en sammenheng mellom variablene i populasjonen. Ved såkalte ensidige tester, undersøker vi ikke bare om det er sammenheng, men også om denne sammenhengen har en bestem retning, for eksempel at det er en positiv sammenheng mellom to variabler. I det tilfellet blir nullhypotesen at det ikke er en sammenheng i populasjonen eller at den er negativ, mens den alternative hypotesen er at sammenhengen er positiv Deretter velger man signifikansnivå. Dette begrepet trenger en forklaring. Logikken er lettest å forstå hvis vi tenker oss en tosidig test. Hypoteseprøving tar alltid utgangspunkt i at nullhypotesen er korrekt. Grunnen til det er at denne angir en helt konkret situasjon, nemlig at det ikke er sammenheng. Når nullhypotesen er korrekt, gjør vi feil hvis vi forkaster den. Dette kalles for feil av type I. Når vi forkaster nullhypotesen kan vi aldri helt utelukke at vi gjør feil av type I. Det vi imidlertid kan gjøre er å sette en grense for hvor ofte vi på lang sikt aksepterer å gjøre denne typen feil. Denne grensen kalles for signifikansnivå. En konvensjon innen samfunnsvitenskapene har vært å akseptere at feil av type I skjer i en av tjue tilfeller. Det tilsvarer et signifikansnivå på 5 prosent. Noen vil bemerke at det også må finnes en annen type feil, nemlig å beholde nullhypotesen når den ikke er korrekt, dvs. å konkludere med at det er ikke sammenheng mellom variablene i populasjonen, mens det i virkeligheten er det. Dette kalles feil av type II. Den forekommer selvfølgelig kun i de situasjoner der nullhypotesen ikke er sann. Sannsynligheten for å gjøre feil av type II er vanskelig å beregne, men vi vet blant annet at risikoen øker når vi gjør signifikansnivået strengere (for eksempel at vi velger et signifikansnivå på 1 prosent i stedet for 5 prosent). Det er derfor ikke riktig å si at signifikansnivået er den akseptable risikoen for å trekke feil konklusjon. Signifikansnivået dreier seg kun om faren for å begå feil av type I, ikke type II. Dette henger sammen med at hypoteseprøving alltid har som utgangspunkt at nullhypotesen er sann. 4. Etter at signifikansnivået er avklart må vi beregne en såkalt testobservator. Dette er et tall som angir hvor stor forskjellen er mellom det observerte utvalgsresultatet og det resultatet vi skulle ha fått dersom utvalgsresultatet var identisk med nullhypotesen. Hvilken testobservator en opererer med er avhengig av type test. I de testene vi skal gjennomgå - kjikvadrattest, t-test og F-test- kalles testobservatorene for henholdsvis kjikvadrat, t-verdi og F-verdi. Alle disse testobservatorene har samme egenskap. Jo høyere tallverdi på testobservatoren er, jo lengre unna nullhypotesen befinner utvalgsresultatet seg. 2 Dersom vi ønsker å undersøke om en sammenheng mellom to variabler er negativ, blir nullhypotesen at det ikke er sammenheng eller at sammenhengen er positiv, mens den alternative hypotesen er at sammenhengen er negativ. Per Arne Tufte Statistisk generalisering Side 3

4 Det finnes en moderne variant av hypoteseprøving hvor man i stedet for testobservatoren bruker den såkalte signifikanssannsynligheten (p-verdi). Denne viser sannsynligheten for at man i et utvalg får en testobservator med en bestemt tallverdi eller høyere når nullhypotesen er korrekt. 5. Til slutt trekkes en konklusjon av testen. Ringdal viser til to varianter av hypoteseprøving. De to variantene gir alltid samme konklusjon: Den klassiske varianten sammenlikner testobservatoren med en kritisk verdi som tilsvarer det valgte signifikansnivået. Dersom testobservatoren overskrider denne, forkastes nullhypotesen, ellers må den beholdes. Den moderne varianten sammenlikner signifikanssannsynligheten med signifikansnivået. Dersom signifikanssannsynligheten er høyere enn signifikansnivået, betyr det at risikoen for å begå feil av type I er større enn det vi kan akseptere og følgelig tar vi ikke sjansen på å forkaste nullhypotesen. Er signifikanssannsynligheten lavere enn signifikansnivået, forkastes nullhypotesen. (3) Hypotesetesting i krysstabeller 3 Krysstabeller brukes til å undersøke om frekvensfordelingen på en avhengig variabel en forskjellige for respondenter som har forskjellige verdier på en eller flere uavhengige variabler. For eksempel: Kjønn: Menn Kvinner Alle Leder andres arbeid: Nei 52% (906) 76% (1129) 63% (2035) Ja 48% (847) 24% (353) 37% (1200) Total (n) 100% (1753) 100% (1482) 100% (3235) Vi ser umiddelbart at frekvensfordelingene for den avhengige variabelen leder andres arbeid er forskjellige for menn og kvinner. Prosentandelen som leder andres arbeid er dobbelt så stor for menn som for kvinner. Krysstabellen viser at det er en sammenheng mellom variablene kjønn og leder andres arbeid. (Cramers V er 0,25). Men dette resultatet gjelder utvalget vårt. Spørsmålet er om det skyldes at det er en sammenheng i populasjonen (samtlige norske arbeidstakere) eller om det skyldes tilfeldige utvalgsfeil. Spørsmålet vi stiller oss er: er det sannsynlig at vi får dette utvalgsresultatet hvis det ikke er sammenheng mellom variablene i populasjonen (dvs. at frekvensfordelingene for menn og kvinner i populasjonen er like)? Vi kan sette opp to konkurrerende hypoteser: H 0 : Det er ingen sammenheng i populasjonen mellom variablene kjønn og leder andres arbeid (dvs. frekvensfordelingene for ledervariabelen i populasjonen er like for menn og kvinner). 3 Dette underkapitlet bygger på underkapitlene og 16.5 hos Ringdal Per Arne Tufte Statistisk generalisering Side 4

5 H 1 : Det er en sammenheng i populasjonen mellom variablene kjønn og leder andres arbeid (dvs. frekvensfordelingene for ledervariabelen i populasjonen er forskjellige for menn og kvinner). Finnes det et mål (eller rettere sagt: en testobservator) som kan angi hvor langt det observerte resultatet befinner seg fra den situasjonen nullhypotesen postulerer? Ja, i dette tilfellet kan vi beregne en testobservator som kalles kjikvadrat (χ 2 ). For å regne kjikvadratet må vi først beregne forventet antall observasjoner i hver celle dersom nullhypotesen er korrekt. Dette er en krysstabell hvor frekvensfordelingene for den avhengige variabelen er like for alle verdier på den uavhengige variabelen. Denne kommer vi fram til ved å beregne de frekvensene som innebærer at prosentfordelingen på den avhengige variabelen for menn og kvinner blir lik prosentfordelingen for samtlige enheter («Alle»- kolonnen i tabellen). 4 Tabellen med forventede verdier blir følgende: Kjønn: Menn Kvinner Alle Leder andres arbeid: Nei 63% (1102,7) 63% (932,3) 63% (2035) Ja 37% (650,3) 37% (549,7) 37 (1200) Total (n) 100% (1753) 100% (1482) 100% (3235) Vi kan nå kvadrere forskjellen mellom forventede og observerte frekvenser og dele på forventet frekvens i hver celle. Deretter summeres resultatene: Rute O E O-E (O-E) 2 (O-E) 2 /E ,7-196, ,89 35, ,3 196, ,89 41, ,3 196, ,89 59, ,7-196, ,89 70,4 χ 2 = 206,5 Det er lite sannsynlig å få svært høye kjikvadratverdier når nullhypotesen er sann. I slike tilfeller er følgelig sannsynligheten for å begå feil av type I (forkaste en nullhypotese som er sann) liten. Men hvor går grensen mellom en «høy» og en «lav» kjikvadratverdi? For å avgjøre det må vi ta hensyn til to faktorer: signifikansnivået og antall frihetsgrader. (1) Signifikansnivået (α) angir den risikoen for å begå feil av type I som vi maksimalt kan akseptere. Vi ønsker ikke at denne risikoen skal være for stor. Samtidig kan vi heller ikke sette en alt for lav grense for da øker sannsynligheten for å begå feil av type II (beholde en nullhypotese som er usann). Som tidligere nevnt er det en konvensjon å sette signifikansnivået til 5% (α=0,05), men også andre nivåer er hyppig benyttet, for eksempel 10% (α=0,1)og 1% (α=0,01). 4 En måte å beregne de forventede frekvensene på er å gange kolonnesummen og radsummen for en celle og dele på antall observasjoner, for eksempel 1753 x 2035 / 3235 = 1102,7. Per Arne Tufte Statistisk generalisering Side 5

6 (2) Antall frihetsgrader varierer med størrelsen på krysstabellen. Generelt er det slik at sannsynligheten for å få høye kjikvadratverdier når nullhypotesen er sann øker med størrelsen på krysstabellen, dvs. hvor mange ruter det er i tabellen. Dette tar vi hensyn til ved å beregne antall frihetsgrader (degrees of freedom = d.f.): d.f. = (antall verdier på avhengig variabel 1) x (antall verdier på uavhengig variabel 1) I tabellen ovenfor blir antall frihetsgrader (2-1) x (2-1) = 1 Tanken bak kjikvadrattesten er at vårt utvalg er ett av veldig mange utvalg som kunne ha vært trukket fra den samme populasjonen. Dersom en virkelig hadde trukket svært mange utvalg og beregnet kjikvadrat for den samme tabellanalysen (mellom kjønn og leder andres arbeid i vårt tilfelle) i hvert eneste utvalg, ville kjikvadratene fordelt seg som i figuren nedenfor dersom nullhypotesen er sann. Slike hypotetiske fordelinger kalles for samplingfordelinger: Figuren viser kjikvadratfordelingen for ulike antall frihetsgrader. Vi ser at kurven blir flatere når frihetsgrader øker. Selv om kurvene har ulik form, forteller den samme historien: Sannsynligheten for å få en svært høy kjikvadratverdi er liten når nullhypotesen er korrekt. Ved hjelp av figurene ovenfor kan en finne en grense som innebærer at kun 5% av utvalgene vil ha en høyere kjikvadratverdi når nullhypotesen er sann. Denne grensen kalles kritisk verdi for et signifikansnivå på 5%. (3.1) Klassisk versjon av kjikvadrattesten Nå slipper vi heldigvis å regne direkte på kjikvadratfordelingene. Vi kan bruke en kjikvadrattabell for å finne den kritiske verdien. En slik tabell er vist nedenfor. Per Arne Tufte Statistisk generalisering Side 6

7 Sannsynlighet df,500,250,100,050,025,010,005,001 1,455 1,323 2,706 3,841 5,024 6,635 7,879 10,83 2 1,386 2,773 4,605 5,991 7,387 9,210 10,60 13,82 3 2,366 4,108 6,251 7,851 9,348 11,34 12,84 16,27 4 3,357 5,385 7,779 9,488 11,14 13,28 14,86 18,47 5 4,351 6,626 9,236 11,07 12,83 15,09 16,75 20,52 6 5,348 7,841 10,64 12,59 14,45 16,81 18,55 22,46 7 6,346 9,037 12,02 14,07 16,01 18,48 20,28 24,32 8 7,344 10,22 13,36 15,51 17,53 20,09 21,96 26,12 Ved å kombinere informasjon om antall frihetsgrader og signifikansnivå kan vi finne den kritiske verdien. I vårt tilfelle er den 3,841 (df=1 og sannsynlighet=0,05). Testobservatoren χ 2 er 206,5. Dette er høyere enn den kritiske verdien. Det er mindre enn 5% sannsynlighet for å få denne verdien når nullhypotesen er korrekt. Følgelig er det også mindre enn 5% sannsynlighet for å forkaste en sann nullhypotese (feil av type I). Vi forkaster nullhypotesen og har fått støtte for den alternative hypotesen at det er en sammenheng mellom de to variablene. MEN: Denne testen gir bare støtte for at det er en sammenheng. Den sier ikke noe om hvordan denne sammenhengen er, dvs. om andelen som leder andre er størst for kvinner eller for menn. (3.2) Moderne versjon av kjikvadrattesten Framgangsmåten ovenfor er den klassiske varianten av kjikvadrattesten. Det finnes også en moderne variant. De to framgangsmåtene gir imidlertid alltid samme resultat. Alle statistikkprogrammer som benyttes til kvantitative analyser rapporterer signifikanssannsynligheten i tillegg til testobservatoren χ 2. Signifikanssannsynligheten angir sannsynligheten for å få den observerte verdien for testobservatoren eller høyere når nullhypotesen er sann. Den sier med andre ord hvor stor sannsynligheten i det aktuelle tilfelle er for å forkaste en sann nullhypotese (feil av type I). Denne kan sammenliknes direkte med signifikansnivået. Hvis den er lavere en signifikansnivået, er det mindre fare for å begå feil av type I enn det vi maksimalt kan akseptere. Følgelig kan vi forkaste nullhypotesen. I vårt tilfelle er signifikanssannsynligheten svært liten. Mitt statistikkprogram (STATA) har beregnet den til å være mindre enn 0,0001. Dette er langt lavere enn 0,05. Vi kan følgelig forkaste nullhypotesen og får støtte for den alternative hypotesen om at det er sammenheng mellom variablene. (4) Gjennomsnittsanalyse 5 I krysstabeller sammenlikner vi prosentuerte (relative) frekvensfordelinger. I gjennomsnittsanalyser sammenlikner vi derimot gjennomsnittene på den avhengige variabelen for respondenter som har ulike verdier på en eller flere uavhengige variabler. For å kunne foreta analyser av gjennomsnitt må den avhengige variabelen ha høyt målenivå (intervalleller forholdstallsnivå eventuelt ordinalnivå med mange verdier). 5 Dette underkapitlet bygger på kapittel 18 hos Ringdal. Per Arne Tufte Statistisk generalisering Side 7

8 290,0 270,0 250,0 230,0 210,0 190,0 170,0 150,0 130,0 110,0 90,0 70,0 50,0 30,0 10,0 Vi skal se på tre ulike situasjoner når vi opererer med gjennomsnitt: - ett gjennomsnitt - sammenlikner to gjennomsnitt - sammenlikner tre eller flere gjennomsnitt Men først en liten forhistorie. Hva har skjedd før vi som sosiologer trer inn på scenen? (4.1) Forhistorie Utgangspunktet er at vi har et sannsynlighetsutvalg av respondenter fra en populasjon. I dette utvalget kan vi beregne gjennomsnittet for en variabel, for eksempel lønn, alder, gjeld etc. Vi vet imidlertid at dette utvalgsgjennomsnittet (estimatet) ikke behøver å være det samme som gjennomsnittet for variabelen i populasjonen (parameteren). Avviket skyldes tilfeldige utvalgsfeil. Vi kan imidlertid benytte det samme resonnementet som for kjikvadrattesten. Vi tenker oss at vårt utvalg er ett av mange mulige tilfeldige utvalg som kunne vært trukket fra den samme populasjonen. Dersom en virkelig hadde trukket en masse tilfeldige utvalg fra denne populasjonen, beregnet gjennomsnittet for den samme variabelen i hvert utvalg og deretter plottet disse utvalgsgjennomsnittene i en figur, hvordan ville denne fordelingen, som kalles samplingfordeling, da sett ut? Svaret er at fordelingen av alle utvalgsgjennomsnittene ville ha vært normalfordelt 6 (eller noe i nærheten av normalfordelt, hvis utvalget er lite). Dette kan illustreres med figuren nedenfor: Fordeling i populasjonen Fordeling i utvalget Samplingfordeling ,0 60,0 80,0 100,0 120,0 140,0 160,0 180,0 200,0 220,0 50,0 70,0 90,0 110,0 130,0 150,0 170,0 190,0 210,0 230,0 Lønn i kroner pr time ,0 70,0 110,0 150,0 190,0 230,0 50,0 90,0 130,0 170,0 210,0 Plotter inn gjennomsnittet fra alle tenkelige utvalg Lønn i kroner pr time Svært mange utvalg 6 Det står mer om normalfordelingen i underkapittel 15.9 hos Ringdal. Per Arne Tufte Statistisk generalisering Side 8

9 Nå viser det seg at gjennomsnittet i denne samplingfordelingen er identisk med gjennomsnittet på variabelen i populasjonen, dvs. parameteren. I tillegg kan en beregne standardavviket som mål på spredningen i samplingfordelingen. Standardavviket i samplingfordelingen har et eget navn, nemlig standardfeil, og har en helt bestemt fortolkning. Den måler spredningen mellom alle utvalgsgjennomsnittene, altså hvor mye vi må regne med at et konkret utvalgsgjennomsnitt vil avvike fra gjennomsnittet i populasjonsfordelingen (som er identisk med populasjonsgjennomsnittet). Men da kan vi jo si at standardfeilen uttrykker noe om den statistiske usikkerheten som et utvalgsgjennomsnitt er forbundet med. Jo større standardfeil jo større er den statistiske usikkerheten for jo mer må vi regne med at et enkelt utvalgsgjennomsnitt vil avvike fra populasjonsparameteren. Vi kan lage et estimat for standardfeilen når vi vet standardavviket for variabelen i utvalget og antall enheter i utvalget. Estimatet for standardfeilen er da lik standardavviket delt på roten av antall observasjoner: s Y = s n Vi ser at standardfeilen, og følgelig den statistiske usikkerheten, blir stor når spredningen på variabelen er stor og når utvalget er lite. En måte å redusere den statistiske usikkerheten på er følgelig å øke utvalgsstørrelsen. Standardfeilen er nyttig fordi det viser seg at 95% av verdiene i en normalfordeling ligger +/- 1,96 standardfeil fra gjennomsnittet (som er lik populasjonsgjennomsnittet). Dette kan illustreres i følgende figur: -1,96 1,96 95 % av utvalgene vil ha gjennomsnitt som befinner seg +/- 1,96 standardfeil fra populasjonsgjennomsnittet Og dermed er vi ved kjernen av denne forhistorien: Vi vet av vårt utvalg er ett av de mange utvalg som kunne ha vært trukket. Ut fra samplingfordelingen vet vi at utvalgsgjennomsnittet på variabelen antakelig ikke ligger så langt fra populasjonsgjennomsnittet og at det er 95% sannsynlighet for at det ligger innenfor intervallet +/- 1,96 standardfeil fra populasjonsgjennomsnittet (parameteren vi ønsker å si noe om). Tallet 1,96 kommer vi tilbake til flere ganger. Per Arne Tufte Statistisk generalisering Side 9

10 (4.2) Situasjon 1: Statistisk generalisering av ett gjennomsnitt Denne situasjonen innebærer at vi kun har ett gjennomsnitt for en variabel. Dette kan være et gjennomsnitt for hele utvalget, for eksempel gjennomsnittlig lønn, eller et gjennomsnitt for en spesiell undergruppe i utvalget, for eksempel gjennomsnittlig lønn for kvinner. Denne situasjonen er ikke egentlig det vi kaller for gjennomsnittsanalyse, men det gir et nyttig utgangspunkt for å forstå framgangsmåten bak hypotesetesting av gjennomsnitt. Når vi har et utvalgsgjennomsnitt (estimat) kan vi: lage et intervall rundt estimatet som med en viss sannsynlighet inneholder populasjonsgjennomsnittet (parameteren), teste hypoteser om hvor stort gjennomsnittet i populasjonen er Konfidensintervall Med utgangspunkt i samplingfordelingen vet vi at 95% av utvalgsgjennomsnittene ligger innenfor intervallet +/- 1,96 standardfeil fra populasjonsgjennomsnittet. Dette kan vi bruke som utgangspunkt for å lage et 95% konfidensintervall rundt utvalgsgjennomsnittet, dvs. et intervall som med 95% sannsynlighet inneholder populasjonsverdien. Det gjør vi ved å estimere standardfeilen, og så beregne et intervall på +/- 1,96 standardfeil rundt utvalgsgjennomsnittet. 95% av slike konfidensintervall vil inneholde populasjonsverdien mens 5% av konfidensintervallene ikke vil inneholde populasjonsverdien. I utvalgsundersøkelsen er de som oppgir at de leder andre til daglig spurt hvor mange underordnede de har. En univariat analyse av denne variabelen gir blant annet følgende resultater: - gjennomsnittlig antall underordnede: 18,82 personer - standardavvik: 52,75 personer - antall observasjoner: 1166 På bakgrunn av dette kan vi estimere standardfeilen (= standardavviket i samplingfordelingen = usikkerhet): s 52,75 s Y = = = 1,54 n 1166 Vi kan nå lage et 95% konfidensintervall rundt gjennomsnittet på variabelen ved å gange standardfeilen med 1,96 (forutsatt at antall frihetsgrader, lik n-1, er større enn 100). KI = 18,82 +/- 1,96 x 1,54 = [15,80-21,84] Fortolkningen av dette konfidensintervallet er at gjennomsnittlig antall underordnede blant norske ledere med 95% sannsynlighet ligger mellom 15,80 og 21,84. Det er med andre ord 95% sannsynlighet at dette intervallet inneholder populasjonsgjennomsnittet (parameteren). Hypotesetest Vi kan også teste hypoteser om at populasjonsgjennomsnittet har en bestemt verdi. Vi kan skille mellom to testsituasjoner: såkalt tosidig og ensidig hypoteseprøving. Nedenfor behandles kun tosidig hypotesetesting. Per Arne Tufte Statistisk generalisering Side 10

11 Tosidig test: Sett at vi har en antakelse om at norske ledere i gjennomsnitt har akkurat 16 underordnede. Vi kan da sette opp følgende hypoteser: H 0 : Gjennomsnittlig antall underordnede i populasjonen er lik 16 (µ=16) H 1 : Gjennomsnittlig antall underordnede i populasjonen er ikke lik 16 (µ 16) Vi vet nå at dersom vi hadde trukket en uendelig mengde utvalg fra populasjonen, så ville de fleste utvalgene ha et gjennomsnitt nær populasjonsgjennomsnittet, men det vil som regel være et visst avvik mellom populasjonsgjennomsnitt og utvalgsgjennomsnittet. Fordelingen av alle mulige utvalgsgjennomsnitt vil ha en samplingfordeling som illustrert nedenfor. Denne viser at 95% av utvalgene vil befinne seg i intervallet +/- 1,96 standardfeil fra populasjonsgjennomsnittet. Dette forutsetter at (forutsatt at antall frihetsgrader, lik n-1, er mer enn 100). Det er kun 5% av utvalgsresultatene som ligger utenfor dette intervallet. Hvis vi får et utvalgsresultat som ligger utenfor +/- 1,96, er det følgelig liten sannsynlighet for å gjøre feil når vi forkaster nullhypotesen. Vi kan nå beregne testobservatoren t som rett og slett måler hvor mange standardfeil utvalgsestimatet befinner seg fra den verdien nullhypotesen angir. Hvis estimatet ligger mer enn +/- 1,96 standardfeil fra nullhypotesen, er sannsynligheten for å forkaste en riktig nullhypotese mindre enn 5% og vi kan forkaste nullhypotesen. Denne kritiske verdien er imidlertid avhengig av antall frihetsgrader for testen, beregnet som n-1. I vårt tilfelle er n-1 lik =1165. Når dette tallet er lavere enn 100, er ikke samplingfordelingen normalfordelt, men t-fordelt (se eget underkapittel senere). I vårt tilfelle er ikke dette noe problem, vi kan bruke kritisk t-verdi fra normalfordelingen. Hva blir konklusjonen i vårt utvalg? Vi regner forskjellen mellom utvalgsresultatet og nullhypotesen, dvs. 18,82 16 = 2,82. Deretter deler vi på standardfeilen for å finne hvor mange standardfeil utvalgsresultatet befinner seg fra nullhypotesen: t = Y µ s n 18,82 16 = 1,54 = 1,83 Per Arne Tufte Statistisk generalisering Side 11

12 t-verdien er positiv fordi utvalgsgjennomsnittet vårt er høyere enn det som antas i nullhypotesen. Vi ser imidlertid at t-verdien ikke ligger så langt fra nullhypotesen som 1,96 standardfeil. (Hadde utvalgsresultatet vært identisk med nullhypotesen, ville vi ha fått en t- verdi lik null.) Med et signifikansnivå på 5% må vi derfor beholde nullhypotesen. Vi har ikke fått støtte for at gjennomsnittlig antall underordnede for norske ledere er lik 16. (4.3) Situasjon 2: Sammenlikning av to gjennomsnitt I sosiologi er det ikke så vanlig å teste hypoteser om fordelingen på en variabel. Vanligere er det å bruke t-testen i de tilfeller der vi sammenlikner gjennomsnittet på en variabel for to ulike grupper. En kan for eksempel være interessert i om gjennomsnittslønnen blant norske arbeidstakere er forskjellig for menn og kvinner. I dette tilfellet kan lønn betraktes som den avhengige variabelen og kjønn som den uavhengige: Kjønn Lønn Når den uavhengige variabelen har to verdier eller vi kun sammenlikner gjennomsnittene på den avhengige variabelen for to av verdiene på den uavhengige variabelen, kan vi bruke t- testen som er beskrevet ovenfor. Vi ønsker for eksempel å sammenlikne gjennomsnittlig antall underordnede for mannlige og kvinnelige ledere. Utvalgsundersøkelsen gir følgende resultat: Menn Kvinner Gjennomsnitt 20,16 15,56 Standardavvik 56,49 42,20 N I utvalget finner vi at mannlige ledere i gjennomsnitt har 4,6 flere underordnede enn kvinnelige ledere. Spørsmålet er om denne forskjellen skyldes tilfeldige utvalgsfeil eller om det faktisk er en forskjell mellom mannlige og kvinnelige ledere i populasjonen når det gjelder gjennomsnittlig antall underordnede. Dette kan testes ved en t-test. I testen er antall underordnede å betrakte som avhengig variabel og kjønn som uavhengig: Kjønn Antall underordnede Vi setter opp følgende hypoteser: H 0 : H 1 : Gjennomsnittlig antall underordnede er likt for mannlige og kvinnelige ledere (µ menn = µ kvinner ) Gjennomsnittlig antall underordnede er forskjellig for mannlige og kvinnelige ledere (µ menn µ kvinner ) Dersom nullhypotesen er korrekt, er det ingen forskjell mellom gjennomsnittlig antall underordnede for mannlige og kvinnelige ledere. T-observatoren viser hvor langt den observerte forskjellen i utvalgsundersøkelsen ligger fra nullhypotesen målt i antall standardfeil. Hvis utvalgsresultatet er helt i tråd med nullhypotesen, er t lik 0. Per Arne Tufte Statistisk generalisering Side 12

13 Formelen for standardfeilen i denne testen bygger på de samme opplysningene som tidligere (standardavviket til variabelen i utvalget og antall observasjoner), men er litt mer komplisert fordi vi nå to sett av opplysninger: standardavvik på avhengige variabel og n for henholdsvis mannlige og kvinnelige ledere (se tabellen ovenfor). Formelen er: s D = s s kvinner 56, ,20 n + = menn n kvinner menn = 3,02 En kan nå dele forskjellen i gjennomsnitt på denne standardfeilen og se hvor mange standardfeil utvalgsresultatet befinner fra det resultatet nullhypotesen antar: µ t = menn µ s D kvinner = 20,16 15,56 = 1,52 3,02 Vi ser av nullhypotesen at denne testen er tosidig: nullhypotesen er usann hvis menn i gjennomsnitt har flere underordnede enn menn og hvis de har færre. 7 Den kritiske t-verdien i tosidig test er avhengig av antall frihetsgrader. Ringdal foreslår å bruke det minste av n 1-1 og n 2-1 som frihetsgrader. Det gir i så fall 340-1=339 frihetsgrader. Dette er større enn 100 og vi kan bruke 1,96 som kritisk verdi for et signifikansnivå på 5%. Testobservatoren er mindre enn kritisk verdi. Det innebærer at sannsynligheten for å få minst en så høy t-verdi når nullhypotesen er sann, er større enn 5%. Sjansen for å forkaste en riktig nullhypotese er for stor og tar derfor ikke sjansen på å forkaste nullhypotesen. Vi kan ikke utelukke at den observerte forskjellen i gjennomsnittlige antall underordnede mellom mannlige og kvinnelige ledere skyldes tilfeldige utvalgsfeil. Å sammenlikne t-observatoren med kritisk t-verdi er den klassiske varianten av hypotesetesting. Den moderne varianten sammenlikner signifikanssannsynligheten med signifikansnivået. I dette tilfellet er signifikanssannsynligheten lik 0,13. Det innebærer at 13 prosent av utvalgene vil få en så høy t-verdi når nullhypotesen er sann, alternativt at det er 13 prosent sjansen for å forkaste en riktig nullhypotese (feil av type I). Dette overskrider vår maksimumsgrense (signifikansnivå) på 5%, og vi kan derfor ikke forkaste nullhypotesen. Mer om signifikansnivå Noen vil kanskje mene at 5% sannsynlighet for å forkaste en riktig nullhypotese er forholdsvis mye (5% vil si at vi begår feil av type I i en av tjue tilfeller). Det er ikke noe magisk ved 5%. En kunne for eksempel ha valgt et signifikansnivå på 1%. I så fall blir den kritiske t-verdien 2,58. Utvalgsresultatet må ligger mer enn 2,58 standardfeil fra nullhypotesen før vi kan forkaste nullhypotesen. Et signifikansnivå på 0,1% gir en kritisk verdi på 3,29. Det vi imidlertid må huske på er at risikoen for å begå feil av type II (beholde en usann nullhypotese) øker når vi reduserer risikoen for type I feil. I eksemplet ovenfor spiller det ikke noen rolle om vi velger et strengere signifikansnivå for vi må beholde nullhypotesen allerede ved et signifikansnivå på 5 prosent. 7 Det er ikke noe i veien for å gjøre en ensidig test også her. Per Arne Tufte Statistisk generalisering Side 13

14 Mer om t-test i små utvalg Vi har konsekvent skrevet at området for nullhypotesen med 95 prosent sannsynlighet er i området +/-1,96 standardfeil. Hvis et utvalg består av få enheter, er strengt tatt ikke samplingfordelingen normaltfordelt, men t-fordelt (se figur 18.3 på side 376 hos Ringdal). I slike tilfeller blir estimeringen av konfidensintervallet mer usikker, og området for nullhypotesen må utvides. Ved få enheter i utvalget er det likeledes større usikkerhet knyttet til estimering av konfidensintervallet på 95 prosent. Ved 10 enheter i utvalget vil t-verdien ved 95 prosent konfidensintervall være 2,23. Tabellen nedenfor viser forholdet mellom antall enheter og t-verdi (95 % konfidensintervall) Antall enheter t-skåre 2,23 2,10 2,04 1,98 Ved omtrent observasjoner kan vi benytte normalfordeling som tilnærming til t- fordelingen, og vi kan følgelig bruke 1,96 som kritisk t-verdi ved hypoteseprøving. I boken til Ringdal er det bak i boken en tabell over t-fordelingen, hvor en kan finne kritiske t-verdier når antall frihetsgrader er lavt. (4.4) Situasjon 3: Sammenlikning av mer enn to gjennomsnitt ANOVA og F-test Når vi skal sammenlikne mer enn to gjennomsnitt, er det fortsatt mulig å bruke t-testen, men en må da sammenlikne to og to gjennomsnitt av gangen. Samtidig finnes det en form for hypoteseprøving som kan teste alle gjennomsnittene på en gang. Denne analysemetode kalles enveis variansanalyse (ANOVA) og tester hypoteser om forskjell mellom gjennomsnitt med en såkalt F-test. Vi kan for eksempel være interessert i å undersøke om personer med forskjellig utdanningsnivå (grunnskole, videregående skole og høyskole/universitet) i gjennomsnitt har ulikt antall underordnede. Vi tenker oss vel at sammenhengen er positiv: jo høyere utdanningsnivå jo flere personer ledes. En oppstilling fra utvalgsundersøkelsen viser følgende: Gjennomsnitt Standardavvik N Grunnskole 9,47 17, Videregående skole 15,53 47, Høyskole/Universitet 25,11 61, TOTAL 18,44 51, Her ser det unektelig ut til at gjennomsnittlig antall underordnede er høyere jo høyere utdanningsnivå lederne har. Spørsmålet er om de observerte forskjellene kan skyldes tilfeldigheter og at det i populasjonen ikke er noen forskjell mellom utdanningsnivåene (dvs. at gjennomsnittene er like). Vi kan sette opp følgende hypoteser: H 0 : Gjennomsnittlig antall underordnede er det samme uansett hvilket utdanningsnivå en leder har (µ grunnskole =µ videregående =µ høyskole/universitet ) Per Arne Tufte Statistisk generalisering Side 14

15 H 1 : Gjennomsnittlig antall underordnede er forskjellige for minst to av utdanningsnivåene Men hvordan kan variansanalyse benyttes til å teste disse hypotesene? Enveis variansanalyse tar utgangspunkt i variasjonen rundt gjennomsnittet på den avhengige variabelen. Hvis en kvadrerer avviket fra gjennomsnittet for hver eneste observasjon og så summerer resultatene, får en det som i variansanalyse kalles for den totale kvadratsummen, SS(total). 8 Variansanalysen deler nå den totale kvadratsummen i to deler: Den første delen består av summen av de kvadrerte avvikene mellom totalgjennomsnittet og gruppegjennomsnittet (gjennomsnittlig antall underordnede for de respektive utdanningsnivåene) for den gruppen en respondent tilhører. Dette betegnes ofte Sum of squares between groups. Ringdal kaller det SS(faktor). Den andre delen av kvadratsummen tar utgangspunkt i avviket mellom hver observasjon og det respektive gruppegjennomsnittet. Disse avvikene kvadreres og summeres. Dette betegnes ofte Sum of squares within groups. Ringdal kaller det SS(feil). Denne framgangsmåten blir lettere å forstå hvis vi illustrerer det med følgende eksempel og figur: Disponent Hansen har grunnskole og 5 underordnede Avvik fra totalgjennomsnittet: 5 18,44 = - 13,44 5 9,47 18,44 Avvik fra gruppegjennomsnittet: Avvik mellom totalgjennomsnittet og gjennomsnittet for den gruppen Hansen tilhører: 5 9,47 = - 4,47 9,47 18,44 = - 8,97 La oss tenke oss at disponent Hansen deltar i utvalgsundersøkelsen vår. Han har grunnskole som høyeste utdanning og 5 underordnede. Det innebærer at han har 13,44 færre ansatte enn totalgjennomsnittet. Men dette avviket kan deles inn i to deler. For det første «skyldes» avviket at Hansen kun har grunnskoleutdanning. Gjennomsnittlig antall underordnede for 8 Dette er for øvrig første skritt på vei til å regne spredningsmålet varians. Hvis en deler den totale kvadratsummen på n-1, får en variansen. Per Arne Tufte Statistisk generalisering Side 15

16 denne gruppen er 9,47. Gruppegjennomsnittet er 8,97 lavere enn totalgjennomsnittet. Vi kan si at 8,97 av Hansens avvik fra totalgjennomsnittet kan «forklares» med at han tilhører gruppen med grunnskoleutdannelse. For det andre avviker Hansen også fra gruppegjennomsnittet for ledere som kun har grunnskoleutdannelse. Disse har som nevnt i gjennomsnitt 9,47 underordnede, men Hansen har 4,47 færre enn dette. Vi kan si at 4,47 av Hansens avvik fra totalgjennomsnittet ikke kan «forklares» med at Hansen tilhører gruppen av ledere med grunnskoleutdannelse. For å oppsummere: Av det totale avviket på 13,44 fra totalgjennomsnittet, kan 8,97 tilskrives at Hansen tilhører gruppen med grunnskoleutdannelse, mens 4,47 er et restavvik som blir «uforklart» i denne modellen (dvs. det skyldes ikke utdanningsnivå). Utvalgsundersøkelsen består av mange flere ledere enn Hansen. For hver leder deles avviket mellom rapportert antall underordnede og totalgjennomsnittet inn på samme måte som ovenfor. De respektive avvikene kvadreres og summeres. Summen av totalavvikene gir total kvadratsum, SS(total). Summen av kvadrerte avvik mellom totalgjennomsnitt og gruppegjennomsnitt gir SS(between groups). Summen av kvadrerte avvik fra gruppegjennomsnittene gir SS(within groups). Selve formlene er vist på side 383 hos Ringdal. For å komme fram til testobservatoren F må en beregne noe som kalles for Mean sum of squares. Dette får ved å dele kvadratsummene på sine respektive frihetsgrader: frihetsgrader (df) for SS(total) er n-1 frihetsgrader (df) for SS(beween) er K-1 frihetsgrader (df) for SS(within) er n-k hvor n er lik antall enheter i analysen og K er lik antall grupper som vi sammenlikner gjennomsnitt for (dvs. antall verdier på den uavhengige variabelen). I vårt tilfelle blir frihetsgradene henholdsvis =1137, 3-1=2 og =1135. Mean sum of squares blir følgelig: MS(total) = SS(total) / (n-1) MS(between) = SS(between) / (K-1) MS (within) = SS(within) / (n-k) Legg merke til at MS(total) er det samme som variansen til den avhengige variabelen. Hvorfor? (Se fotnote 8). For å komme fram til testobservatoren F deles MS(between) på MS(within): F = MS(between) / MS(within) Per Arne Tufte Statistisk generalisering Side 16

17 Hvis nullhypotesen er rett, forventer vi at forskjeller mellom MS(faktor) og MS(feil) kun skyldes tilfeldigheter, og at F følgelig er lik 1. F-observatoren er F-fordelt: Behold H 0 Forkast H 0 F(2;1161) = 3,00 Dette er nok en samplingfordeling som framkommer dersom en tenker seg at en hadde trukket svært mange tilfeldige utvalg fra en populasjon og beregnet F-verdien for sammenhengen mellom utdanning og antall underordnede i hvert eneste utvalg. Fordelingen tar utgangspunkt i at nullhypotesen er korrekt. F-fordelingen avhenger av to frihetsgrader: df for MS(between) og MS(within). For kombinasjonen 2 og 1135 frihetsgrader og et signifikansnivå på 5% blir den kritiske F-verdien lik 3,00. For å forkaste nullhypotesen må den observerte F-verdien overstige dette tallet. Hvis ikke, er sannsynligheten for å forkaste en sann nullhypotese større enn 5%. Det er ikke særlig hensiktsmessig å regne ut kvadratsummene, Mean sum of squares og testobservatoren F for hånd. Vi skal derfor se på en utskrift fra statistikkprogrammet SPSS: Sum of Squares df Mean Square F Sig. Between Groups Within Groups Total Vi ser at SPSS rapporterer kvadratsummer (sum of squares), mean square, F og signifikanssannsynlighet (Sig.). Her kan vi bruke enten klassisk eller moderne variant av hypotesetesting. Den klassiske varianten tar utgangspunkt i den beregnede F-verdien og sammenlikner denne med den kritiske F-verdien ved gitt antall frihetsgrader og signifikansnivå. Som vi pekte på ovenfor, gir kombinasjonen 2 og 1135 frihetsgrader og et signifikansnivå på 5% en kritisk F-verdien lik 3,00. Testobservatoren F overskrider dette. Det er mindre enn 5% sannsynlig å få de observerte forskjellene i gjennomsnitt dersom nullhypotesen er korrekt. Vi forkaster nullhypotesen og har fått støtte for at minst to av gruppegjennomsnittene er forskjellige i populasjonen. Den moderne varianten tar utgangspunkt i signifikanssannsynligheten. Vi ser at denne er 0,001. Det innebærer at de observerte forskjellene i gruppegjennomsnitt ville forekomme i omtrent ett av tusen utvalg dersom nullhypotesen var sann. Dette er langt lavere enn signifikansnivået på 0,05 (=5%) som innebærer at vi kan godta at dette skjer i ett av tjue utvalg. Vi kan med andre ord forkaste nullhypotesen. Per Arne Tufte Statistisk generalisering Side 17

18 Vi har tidligere vist at avviket mellom totalgjennomsnittet og gruppegjennomsnittet kan betraktes som delen av totalavviket fra gjennomsnittet som er «forklart» med at en person tilhører en bestemt gruppe. Vi kan bruke denne tankegangen til å beregne et mål som kalles eta kvadrert, η 2. Vi deler den delen av kvadratsummen som er beregnet på grunnlag av avvikene fra gruppegjennomsnittene med den totale kvadratsummen. Resultatet viser hvor stor andel av den totale variasjonen rundt gjennomsnittet på den avhengige variabelen som kan «forklares» med at enhetene i undersøkelsen tilhører ulike grupper (dvs. har ulike verdier på den uavhengige variabelen). Målet kalles derfor også ofte for «forklart varians». I vårt tilfelle blir eta kvadrert: η 2 = SS(between) / SS(total) = 34537,3908 / ,79 = 0,0115 Hvis vi ganger dette tallet med 100, får vi andelen «forklart» varians i prosent. I vårt tilfelle forklarer utdanningsnivå 1,15 prosent av variasjonen rundt gjennomsnittet variabelen antall underordnede. Det innebærer at 98,85 prosent av variasjonen ikke er forklart av utdanningsnivå. (5) Test av hypoteser i regresjonsanalyse I tillegg til de situasjonene som er behandlet ovenfor kan vi også generalisere resultater fra utvalg til populasjon ved regresjonsanalyse. Dette er imidlertid en analyseform vi kommer til i neste notat. Per Arne Tufte Statistisk generalisering Side 18

Sammenlikninger av gjennomsnitt. SOS1120 Kvantitativ metode. Kan besvare to spørsmål: Sammenlikning av to gjennomsnitt

Sammenlikninger av gjennomsnitt. SOS1120 Kvantitativ metode. Kan besvare to spørsmål: Sammenlikning av to gjennomsnitt SOS1120 Kvantitativ metode Forelesningsnotater 10. forelesning høsten 2005 Per Arne Tufte Sammenlikninger av gjennomsnitt Sammenlikner gjennomsnittet på avhengig variabel for ulike grupper av enheter Kan

Detaljer

Krysstabellanalyse (forts.) SOS1120 Kvantitativ metode. 4. Statistisk generalisering. Forelesningsnotater 9. forelesning høsten 2005.

Krysstabellanalyse (forts.) SOS1120 Kvantitativ metode. 4. Statistisk generalisering. Forelesningsnotater 9. forelesning høsten 2005. SOS112 Kvantitativ metode Krysstabellanalyse (forts.) Forelesningsnotater 9. forelesning høsten 25 4. Statistisk generalisering Per Arne Tufte Eksempel: Hypoteser Eksempel: observerte frekvenser (O) Hvordan

Detaljer

ST0202 Statistikk for samfunnsvitere Kapittel 9: Inferens om én populasjon

ST0202 Statistikk for samfunnsvitere Kapittel 9: Inferens om én populasjon ST0202 Statistikk for samfunnsvitere Kapittel 9: Inferens om én populasjon Bo Lindqvist Institutt for matematiske fag 2 Kap. 9: Inferens om én populasjon Statistisk inferens har som mål å tolke/analysere

Detaljer

Hypotesetesting. Notat til STK1110. Ørnulf Borgan Matematisk institutt Universitetet i Oslo. September 2007

Hypotesetesting. Notat til STK1110. Ørnulf Borgan Matematisk institutt Universitetet i Oslo. September 2007 Hypotesetesting Notat til STK1110 Ørnulf Borgan Matematisk institutt Universitetet i Oslo September 2007 Teorien for hypotesetesting er beskrevet i kapittel 9 læreboka til Rice. I STK1110 tar vi bare for

Detaljer

Univariate tabeller. Bivariat tabellanalyse. Forelesning 8 Tabellanalyse. Formålet med bivariat analyse:

Univariate tabeller. Bivariat tabellanalyse. Forelesning 8 Tabellanalyse. Formålet med bivariat analyse: Forelesning 8 Tabellanalyse Tabellanalyse er en godt egnet presentasjonsform hvis: variablene har et fåtall naturlige kategorier For eksempel kjønn, Eu-syn variablene er delt inn i kategorier For eksempel

Detaljer

Repeterbarhetskrav vs antall Trails

Repeterbarhetskrav vs antall Trails Repeterbarhetskrav vs antall Trails v/ Rune Øverland, Trainor Automation AS Artikkelserie Dette er andre artikkel i en serie av fire om tar for seg repeterbarhetskrav og antall trials. Formålet med artikkelserien

Detaljer

Forelesning 10 Kjikvadrattesten

Forelesning 10 Kjikvadrattesten verdier Forelesning 10 Kjikvadrattesten To typer av statistisk generalisering: Statistisk hypotesetesting Statistiske hypoteser (H 0 og H 1 ) om populasjonen Finner forkastningsområdet for H 0 ut fra en

Detaljer

Datamatrisen: observasjoner, variabler og verdier. Variablers målenivå: Nominal Ordinal Intervall Forholdstall (ratio)

Datamatrisen: observasjoner, variabler og verdier. Variablers målenivå: Nominal Ordinal Intervall Forholdstall (ratio) Datamatrisen: observasjoner, variabler og verdier. Variablers målenivå: Nominal Ordinal Intervall Forholdstall (ratio) Beskrive fordelinger (sentraltendens, variasjon og form): Observasjon y i Sentraltendens

Detaljer

Løsningsforslag Til Statlab 5

Løsningsforslag Til Statlab 5 Løsningsforslag Til Statlab 5 Jimmy Paul September 6, 007 Oppgave 8.1 Vi skal se på ukentlige forbruk av søtsaker blant barn i et visst område. En pilotstudie gir at standardavviket til det ukentige forbruket

Detaljer

2. Hva er en sampelfordeling? Nevn tre eksempler på sampelfordelinger.

2. Hva er en sampelfordeling? Nevn tre eksempler på sampelfordelinger. H12 - Semesteroppgave i statistikk - sensurveiledning Del 1 - teori 1. Gjør rede for resonnementet bak ANOVA. Enveis ANOVA tester om det er forskjeller mellom gjennomsnittene i tre eller flere populasjoner.

Detaljer

NTNU Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

NTNU Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap NTNU Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap EKSAMENSOPPGAVE I SVSOS107 SAMFUNNSVITENSKAPELIG FORSKNINGSMETODE Eksamensdato: 18. mai 001 Eksamenssted: Idrettsbygget

Detaljer

EKSAMEN I SOS1120 KVANTITATIV METODE 6. DESEMBER 2007 (4 timer)

EKSAMEN I SOS1120 KVANTITATIV METODE 6. DESEMBER 2007 (4 timer) EKSAMEN I SOS1120 KVANTITATIV METODE 6. DESEMBER 2007 (4 timer) Bruk av ikke-programmerbar kalkulator er tillatt under eksamen. Utover det er ingen hjelpemidler tillatt. Sensur faller torsdag 3. Januar

Detaljer

SOS1120 Kvantitativ metode. Regresjonsanalyse. Lineær sammenheng II. Lineær sammenheng I. Forelesningsnotater 11. forelesning høsten 2005

SOS1120 Kvantitativ metode. Regresjonsanalyse. Lineær sammenheng II. Lineær sammenheng I. Forelesningsnotater 11. forelesning høsten 2005 SOS1120 Kvantitativ metode Regresjonsanalyse Forelesningsnotater 11. forelesning høsten 2005 Per Arne Tufte Lineær sammenheng I Lineær sammenheng II Ukelønn i kroner 4000 3500 3000 2500 2000 1500 1000

Detaljer

ST0202 Statistikk for samfunnsvitere Kapittel 10: Inferens om to populasjoner

ST0202 Statistikk for samfunnsvitere Kapittel 10: Inferens om to populasjoner ST0202 Statistikk for samfunnsvitere Kapittel 10: Inferens om to populasjoner Bo Lindqvist Institutt for matematiske fag 2 Kapittel 10: Inferens om to populasjoner Situasjon: Vi ønsker å sammenligne to

Detaljer

Til bruk i metodeundervisningen ved Høyskolen i Oslo

Til bruk i metodeundervisningen ved Høyskolen i Oslo MINIMANUAL FOR SPSS Til bruk i metodeundervisningen ved Høyskolen i Oslo Denne minimanualen viser hvordan analyser i metodeundervisningen på masternivå (master i sosialt arbeid, master i familiebehandling

Detaljer

Repeterbarhetskrav vs antall Trails

Repeterbarhetskrav vs antall Trails Repeterbarhetskrav vs antall Trails v/ Rune Øverland, Trainor Automation AS Artikkelserie Dette er første artikkel i en serie av fire som tar for seg repeterbarhetskrav og antall trials. Formålet med artikkelserien

Detaljer

Kap. 10: Inferens om to populasjoner. Eksempel. ST0202 Statistikk for samfunnsvitere

Kap. 10: Inferens om to populasjoner. Eksempel. ST0202 Statistikk for samfunnsvitere Kap. 10: Inferens om to populasjoner Situasjon: Vi ønsker å sammenligne to populasjoner med populasjonsgjennomsnitt henholdsvis μ 1 og μ. Vi trekker da ett utvalg fra hver populasjon. ST00 Statistikk for

Detaljer

Oppgave 1. og t α/2,n 1 = 2.262, så er et 95% konfidensintervall for µ D (se kap 9.9 i læreboka): = ( 0.12, 3.32).

Oppgave 1. og t α/2,n 1 = 2.262, så er et 95% konfidensintervall for µ D (se kap 9.9 i læreboka): = ( 0.12, 3.32). Løsningsforslag til eksamen i MOT310 STATISTISKE METODER 1 VARIGHET: 4 TIMER DATO: 16. november 2009 TILLATTE HJELPEMIDLER: Kalkulator: HP30S, Casio FX82 eller TI-30 Tabeller og formler i statistikk (Tapir

Detaljer

Krysstabellanalyse. SOS1120 Kvantitativ metode. Disposisjon. 1. Beskrivelse av analyseteknikk. Forelesningsnotater 7. forelesning høsten 2005

Krysstabellanalyse. SOS1120 Kvantitativ metode. Disposisjon. 1. Beskrivelse av analyseteknikk. Forelesningsnotater 7. forelesning høsten 2005 SOS1120 Kvantitativ metode Krysstabellanalyse Forelesningsnotater 7. forelesning høsten 2005 Per Arne Tufte Disposisjon 1. Beskrivelse av analyseteknikk 2. Korrelasjonsmål Cramers V Gamma 3. Flerdimensjonale

Detaljer

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere ST0202 Statistikk for samfunnsvitere Bo Lindqvist Institutt for matematiske fag 2 Kap. 10: Inferens om to populasjoner Situasjon: Vi ønsker å sammenligne to populasjoner med populasjonsgjennomsnitt henholdsvis

Detaljer

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere ST0202 Statistikk for samfunnsvitere Bo Lindqvist Institutt for matematiske fag 2 Statistisk inferens (kap. 8) Statistisk inferens er å tolke/analysere resultater fra utvalget for å finne ut mest mulig

Detaljer

Forelesning 9 Kjikvadrattesten. Kjikvadrattest for bivariate tabeller (klassisk variant) Når kan vi forkaste H 0?

Forelesning 9 Kjikvadrattesten. Kjikvadrattest for bivariate tabeller (klassisk variant) Når kan vi forkaste H 0? Forelesning 9 Kjikvadrattesten Kjikvadrattesten er den mest benyttede metoden for å utføre statistiske generaliseringer fra bivariate tabeller. Kjikvadrattesten brukes til å teste nullhypotesen om at det

Detaljer

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere ST0202 Statistikk for samfunnsvitere Bo Lindqvist Institutt for matematiske fag 2 Statistisk inferens (kap. 8) Statistisk inferens er å tolke/analysere resultater fra utvalget for å finne ut mest mulig

Detaljer

Definisjoner av begreper Eks.: interesse for politikk

Definisjoner av begreper Eks.: interesse for politikk Måling SOS1120 Kvantitativ metode Forelesningsnotater 5. forelesning høsten 2005 Per Arne Tufte Måling er å knytte teoretiske begreper til empiriske indikatorer Operasjonell definisjon Angir hvordan et

Detaljer

Testobservator for kjikvadrattester

Testobservator for kjikvadrattester ST0202 Statistikk for samfunnsvitere Bo Lindqvist Institutt for matematiske fag 2 Kap. 11: Anvendelser av kjikvadratfordelingen: Kjikvadrattester Situasjon: Et tilfeldig utvalg av n individer er trukket

Detaljer

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere 2 Statistisk inferens (kap. 8) Statistisk inferens er å tolke/analysere resultater fra utvalget for å finne ut mest mulig om populasjonen. Konkret: Å analysere en utvalgsobservator for å trekke slutninger

Detaljer

Analyse av kontinuerlige data. Intro til hypotesetesting. 21. april 2005. Seksjon for medisinsk statistikk, UIO. Tron Anders Moger

Analyse av kontinuerlige data. Intro til hypotesetesting. 21. april 2005. Seksjon for medisinsk statistikk, UIO. Tron Anders Moger Intro til hypotesetesting Analyse av kontinuerlige data 21. april 2005 Tron Anders Moger Seksjon for medisinsk statistikk, UIO 1 Repetisjon fra i går: Normalfordelingen Variasjon i målinger kan ofte beskrives

Detaljer

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere 2 Statistisk inferens (kap. 8) Statistisk inferens er å tolke/analysere resultater fra utvalget for å finne ut mest mulig om populasjonen. Konkret: Analysere en observator for å finne ut noe om korresponderende

Detaljer

Forelesning 13 Analyser av gjennomsnittsverdier. Er inntektsfordelingen for kvinner og menn i EU-undersøkelsen lik?

Forelesning 13 Analyser av gjennomsnittsverdier. Er inntektsfordelingen for kvinner og menn i EU-undersøkelsen lik? 2 verdier Forelesning 13 Analyser av gjennomsnittsverdier Valg av type statistisk generalisering i bivariat analyse er avhengig av hvilke variabler vi har Avhengig variabel kategorivariabel kontinuerlig

Detaljer

1 8-1: Oversikt. 2 8-2: Grunnleggende hypotesetesting. 3 Section 8-3: Å teste påstander om andeler. 4 Section 8-5: Teste en påstand om gjennomsnittet

1 8-1: Oversikt. 2 8-2: Grunnleggende hypotesetesting. 3 Section 8-3: Å teste påstander om andeler. 4 Section 8-5: Teste en påstand om gjennomsnittet 1 8-1: Oversikt 2 8-2: Grunnleggende hypotesetesting 3 Section 8-3: Å teste påstander om andeler 4 Section 8-5: Teste en påstand om gjennomsnittet Definisjoner Hypotese En hypotese er en påstand om noe

Detaljer

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere ST0202 Statistikk for samfunnsvitere Bo Lindqvist Institutt for matematiske fag 2 Inferens om varians og standardavvik for ett normalfordelt utvalg (9.4) Inferens om variansen til en normalfordelt populasjon

Detaljer

Supplement til power-point presentasjonen i medisinsk statistikk, forelesning 7 januar 2013. Skrevet av Stian Lydersen 16 januar 2013

Supplement til power-point presentasjonen i medisinsk statistikk, forelesning 7 januar 2013. Skrevet av Stian Lydersen 16 januar 2013 1 Supplement til power-point presentasjonen i medisinsk statistikk, forelesning 7 januar 013. Skrevet av Stian Lydersen 16 januar 013 Vi antar at vårt utvalg er et tilfeldig og representativt utvalg for

Detaljer

EKSAMEN I SOS1120 KVANTITATIV METODE 30. NOVEMBER 2006 (4 timer)

EKSAMEN I SOS1120 KVANTITATIV METODE 30. NOVEMBER 2006 (4 timer) EKSAMEN I SOS1120 KVANTITATIV METODE 30. NOVEMBER 2006 (4 timer) Bruk av ikke-programmerbar kalkulator er tillatt under eksamen. Utover det er ingen hjelpemidler tillatt. Sensur faller torsdag 21. desember

Detaljer

SENSORVEILEDNING FOR EKSAMENSOPPGAVEN I SVSOS107 VÅREN 2002

SENSORVEILEDNING FOR EKSAMENSOPPGAVEN I SVSOS107 VÅREN 2002 SENSORVEILEDNING FOR EKSAMENSOPPGAVEN I SVSOS107 VÅREN 2002 Generell informasjon Dette er den siste eksamensoppgaven under overgangsordningen mellom gammelt og nytt pensum i SVSOS107. Eksamensoppgaven

Detaljer

Std. Error. ANOVA b. Sum of Squares df Square F Sig. 54048,151 2 27024,075 327,600,000 263063,943 3189 82,491 317112,094 3191.

Std. Error. ANOVA b. Sum of Squares df Square F Sig. 54048,151 2 27024,075 327,600,000 263063,943 3189 82,491 317112,094 3191. Samspill i regresjon Variables Entered/Removed b Variables Variables Entered Removed Method Kjønn,, Enter hjemmebo ende a a. All requested variables entered. Summary Std. Error Adjusted R of the R R Square

Detaljer

Notasjon og Tabell 8. ST0202 Statistikk for samfunnsvitere

Notasjon og Tabell 8. ST0202 Statistikk for samfunnsvitere 2 Inferens om varians og standardavvik for ett normalfordelt utvalg (9.4) Inferens om variansen til en normalfordelt populasjon bruker kjikvadrat-fordelingen ( chi-square distribution ) (der kji er den

Detaljer

3. Multidimensjonale tabeller. SOS1120 Kvantitativ metode. Årsaksmodeller. Forelesningsnotater 8. forelesning høsten 2005

3. Multidimensjonale tabeller. SOS1120 Kvantitativ metode. Årsaksmodeller. Forelesningsnotater 8. forelesning høsten 2005 SOS1120 Kvantitativ metode 3. Multidimensjonale tabeller Forelesningsnotater 8. forelesning høsten 2005 Per Arne Tufte Hva skjer når vi inkluderer flere uavhengige variabler i en tabellanalyse? Årsaksmodeller

Detaljer

a ) Forventningen estimeres med gjennomsnittet: x = 1 12 (x 1 + + x 12 ) = 1 (755 + 708 + + 748) = 8813/12 = 734.4

a ) Forventningen estimeres med gjennomsnittet: x = 1 12 (x 1 + + x 12 ) = 1 (755 + 708 + + 748) = 8813/12 = 734.4 ÅMA110 Sannsylighetsregning og statistikk Løsningsforslag til eksamen høst 011, s. 1 (Det tas forbehold om feil i løsningsforslaget. Oppgave 1 Vi betrakter dataene x 1,..., x 1 somutfall av n = 1 u.i.f.

Detaljer

Løsningsforslag til obligatorisk innlevering 3.

Løsningsforslag til obligatorisk innlevering 3. svar3.nb 1 Løsningsforslag til obligatorisk innlevering 3. Oppgave 1 * Vi skal sammenlikne to sensoere A og B. Begge har rettet den samme oppgaven. Hvis populasjonen er eksamensoppgavene, har vi altså

Detaljer

Forelesning 9 mandag den 15. september

Forelesning 9 mandag den 15. september Forelesning 9 mandag den 15. september 2.6 Største felles divisor Definisjon 2.6.1. La l og n være heltall. Et naturlig tall d er den største felles divisoren til l og n dersom følgende er sanne. (1) Vi

Detaljer

Statistisk beskrivelse av enkeltvariabler. SOS1120 Kvantitativ metode. Disposisjon. Datamatrisen. Forelesningsnotater 6. forelesning høsten 2005

Statistisk beskrivelse av enkeltvariabler. SOS1120 Kvantitativ metode. Disposisjon. Datamatrisen. Forelesningsnotater 6. forelesning høsten 2005 SOS110 Kvantitativ metode Forelesningsnotater 6 forelesning høsten 005 Statistisk beskrivelse av enkeltvariabler (Univariat analyse) Per Arne Tufte Disposisjon Datamatrisen Variabler Datamatrisen Frekvensfordelinger

Detaljer

Forelesning 9 Statistiske mål for bivariat tabellanalyse

Forelesning 9 Statistiske mål for bivariat tabellanalyse Forelesning 9 Statistiske mål for bivariat tabellanalyse Vi har ulike koeffisienter som viser styrken på den statistiske avhengigheten mellom de to variablene. Valg av koeffisient må vurderes ut fra variablenes

Detaljer

Page 1 EN DAG PÅ HELSESTASJONEN. Lises klassevenninnner. Formelen: Du har en hypotese om vanlig høyde

Page 1 EN DAG PÅ HELSESTASJONEN. Lises klassevenninnner. Formelen: Du har en hypotese om vanlig høyde 1 E DAG PÅ HELSESTASJOE Lises klassevenninnner Lise er veldig liten Hva gjør at du sier at hun er liten? Du har en hypotese om vanlig høyde Du har en hypotese om vanlig høyde Du sammenligner Lises høyde

Detaljer

1 9-3: Sammenligne gjennomsnitt for to uavhengige stikkprøver. 2 9-4: Sammenligne gjennomsnitt for to relaterte stikkprøver

1 9-3: Sammenligne gjennomsnitt for to uavhengige stikkprøver. 2 9-4: Sammenligne gjennomsnitt for to relaterte stikkprøver 1 9-3: Sammenligne gjennomsnitt for to uavhengige stikkprøver 2 9-4: Sammenligne gjennomsnitt for to relaterte stikkprøver 3 Oppvarming til kap 10: Rette linjer Sammenligne to populasjoner Data fra to

Detaljer

Regler i statistikk STAT 100

Regler i statistikk STAT 100 TORIL FJELDAAS RYGG - VÅREN 2010 Regler i statistikk STAT 100 Innhold side Sannsynlighetsregning 3 - Uttrykk 3 - Betinget sannsynlighet 4 - Regler for sannsynlighet 4 - Bayes teorem 4 - Uavhengige begivenheter

Detaljer

1 Section 7-2: Estimere populasjonsandelen. 2 Section 7-4: Estimere µ når σ er ukjent

1 Section 7-2: Estimere populasjonsandelen. 2 Section 7-4: Estimere µ når σ er ukjent 1 Section 7-2: Estimere populasjonsandelen 2 Section 7-4: Estimere µ når σ er ukjent Kapittel 7 Nå begynner vi med statistisk inferens! Bruke stikkprøven til å 1 Estimere verdien til en parameter i populasjonen.

Detaljer

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere ST0202 Statistikk for samfunnsvitere Bo Lindqvist Institutt for matematiske fag 2 Kap. 9: Inferens om én populasjon I Kapittel 8 brukte vi observatoren z = x µ σ/ n for å trekke konklusjoner om µ. Dette

Detaljer

MOT310 Statistiske metoder 1, høsten 2010 Løsninger til regneøving nr. 11 (s. 1) der

MOT310 Statistiske metoder 1, høsten 2010 Løsninger til regneøving nr. 11 (s. 1) der MOT310 Statistiske metoder 1, høsten 2010 Løsninger til regneøving nr. 11 (s. 1) Oppgave 13.1 Modell: Y ij = µ i + ε ij, der ε ij uavh. N(0, σ 2 ) Boka opererer her med spesialtilfellet der man har like

Detaljer

MASTER I IDRETTSVITENSKAP 2014/2016. Individuell skriftlig eksamen. STA 400- Statistikk. Fredag 13. mars 2015 kl. 10.00-12.00

MASTER I IDRETTSVITENSKAP 2014/2016. Individuell skriftlig eksamen. STA 400- Statistikk. Fredag 13. mars 2015 kl. 10.00-12.00 MASTER I IDRETTSVITENSKAP 2014/2016 Individuell skriftlig eksamen i STA 400- Statistikk Fredag 13. mars 2015 kl. 10.00-12.00 Hjelpemidler: kalkulator Eksamensoppgaven består av 10 sider inkludert forsiden

Detaljer

Mer om hypotesetesting

Mer om hypotesetesting Mer om hypotesetesting I underkapittel 36 i læreboka gir vi en kort innføring i tankegangen ved hypotesetesting Vi gir her en grundigere framstilling av temaet Problemstilling Vi forklarer problemstillingen

Detaljer

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT Eksamen i: ECON2130 Statistikk 1 UNIVERSITETET I OSLO ØONOIS INSTITUTT Eksamensdag: 01.06.2015 Sensur kunngjøres: 22.06.2015 Tid for eksamen: kl. 09:00 12:00 Oppgavesettet er på 4 sider Tillatte hjelpemidler:

Detaljer

Tillatte hjelpemidler: C3: alle typer kalkulator, alle andre hjelpemidler

Tillatte hjelpemidler: C3: alle typer kalkulator, alle andre hjelpemidler EKSAMENSOPPGAVER Institutt: Eksamen i: Tid: IKBM STAT100 Torsdag 13.des 2012 STATISTIKK 09.00-12.30 (3.5 timer) Emneansvarlig: Solve Sæbø ( 90065281) Tillatte hjelpemidler: C3: alle typer kalkulator, alle

Detaljer

Gruppe 1 Gruppe 2 Gruppe a) Finn aritmetisk gjennomsnitt, median, modus og standardavvik for gruppe 2.

Gruppe 1 Gruppe 2 Gruppe a) Finn aritmetisk gjennomsnitt, median, modus og standardavvik for gruppe 2. Sensurveiledning Ped 3001 h12 Oppgave 1 Er det sammenheng mellom støtte fra venner og selvaktelse hos ungdom? Dette spørsmålet ønsket en forsker å undersøke. Han samlet data på 9. klassingers opplevde

Detaljer

Sentralverdi av dataverdi i et utvalg Vi tenker oss et utvalg med datapar. I vårt eksempel har vi 5 datapar.

Sentralverdi av dataverdi i et utvalg Vi tenker oss et utvalg med datapar. I vårt eksempel har vi 5 datapar. Statistisk behandling av kalibreringsresultatene Del 4. v/ Rune Øverland, Trainor Elsikkerhet AS Denne artikkelserien handler om statistisk behandling av kalibreringsresultatene. Dennne artikkelen tar

Detaljer

Oppgave 1. T = 9 Hypotesetest for å teste om kolesterolnivået har endret seg etter dietten: T observert = 2.16 0

Oppgave 1. T = 9 Hypotesetest for å teste om kolesterolnivået har endret seg etter dietten: T observert = 2.16 0 Løsningsforslag til eksamen i MOT310 STATISTISKE METODER 1 VARIGHET: 4 TIMER DATO: 08. mai 2008 TILLATTE HJELPEMIDLER: Kalkulator: HP30S, Casio FX82 eller TI-30 Tabeller og formler i statistikk (Tapir

Detaljer

Sensorveiledning: skoleeksamen i SOS Kvantitativ metode

Sensorveiledning: skoleeksamen i SOS Kvantitativ metode Sensorveiledning: skoleeksamen i SOS1120 - Kvantitativ metode Tirsdag 30. mai 2016 (4 timer) Poenggivning og karakter I del 1 gis det ett poeng for hvert riktige svar. Ubesvart eller feil svar gis 0 poeng.

Detaljer

EKSAMEN I SOS1120 KVANTITATIV METODE 5. MAI 2004 (6 timer)

EKSAMEN I SOS1120 KVANTITATIV METODE 5. MAI 2004 (6 timer) EKSAMEN I SOS1120 KVANTITATIV METODE 5. MAI 2004 (6 timer) Bruk av ikke-programmerbar kalkulator er tillatt under eksamen. Utover det er ingen hjelpemidler tillatt. Sensur faller fredag 28. mai kl. 14.00,

Detaljer

Logistisk regresjon 2

Logistisk regresjon 2 Logistisk regresjon 2 SPSS Utskrift: Trivariat regresjon a KJONN UTDAAR Constant Variables in the Equation B S.E. Wald df Sig. Exp(B) -,536,3 84,56,000,25,84,08 09,956,000,202 -,469,083 35,7,000,230 a.

Detaljer

Statistikk og dataanalyse

Statistikk og dataanalyse Njål Foldnes, Steffen Grønneberg og Gudmund Horn Hermansen Statistikk og dataanalyse En moderne innføring Kapitteloversikt del 1 INTRODUKSJON TIL STATISTIKK Kapittel 1 Populasjon og utvalg 19 Kapittel

Detaljer

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere ST0202 Statistikk for samfunnsvitere Bo Lindqvist Institutt for matematiske fag 2 Kap. 11: Anvendelser av kjikvadratfordelingen: Kjikvadrattester Situasjon: Et tilfeldig utvalg av n individer er trukket

Detaljer

Tid: Torsdag 11.desember 9:00 12:30 (3.5 timer) Emneansvarlig: Solve Sæbø, Tlf

Tid: Torsdag 11.desember 9:00 12:30 (3.5 timer) Emneansvarlig: Solve Sæbø, Tlf EKSAMENSOPPGAVE Institutt: IKBM Eksamen i: STAT 100 STATISTIKK Tid: Torsdag 11.desember 9:00 12:30 (3.5 timer) Emneansvarlig: Solve Sæbø, Tlf 67232561 Tillatte hjelpemidler: C3: alle typer kalkulatorer,

Detaljer

Statistikk, FO242N, AMMT, HiST 2. årskurs, 30. mai 2007 side 1 ( av 8) LØSNINGSFORSLAG HØGSKOLEN I SØR-TRØNDELAG

Statistikk, FO242N, AMMT, HiST 2. årskurs, 30. mai 2007 side 1 ( av 8) LØSNINGSFORSLAG HØGSKOLEN I SØR-TRØNDELAG Statistikk, FO242N, AMMT, HiST 2. årskurs, 30. mai 2007 side 1 ( av 8) LØSNINGSFORSLAG HØGSKOLEN I SØR-TRØNDELAG AVDELING FOR MAT- OG MEDISINSK TEKNOLOGI Matteknologisk utdanning Kandidatnr: Eksamensdato:

Detaljer

Kort overblikk over kurset sålangt

Kort overblikk over kurset sålangt Kort overblikk over kurset sålangt Kapittel 1: Deskriptiv statististikk for en variabel Kapittel 2: Deskriptiv statistikk for samvariasjon mellom to variable (regresjon) Kapittel 3: Metoder for å innhente

Detaljer

7.2 Sammenligning av to forventinger

7.2 Sammenligning av to forventinger 7.2 Sammenligning av to forventinger To-utvalgs z-observator To-utvalgs t-prosedyrer To-utvalgs t-tester To-utvalgs t-konfidensintervall Robusthet To-utvalgs t-prosedyrerår variansene er like Sammenlikning

Detaljer

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere ST0202 Statistikk for samfunnsvitere Bo Lindqvist Institutt for matematiske fag 2 Kap. 10: Inferens om to populasjoner Situasjon: Det er to populasjoner som vi ønsker å sammenligne. Vi trekker da et utvalg

Detaljer

UTDRAG FRA SENSORVEILEDNINGEN FOR EKSAMENSOPPGAVEN I SVSOS107 VÅREN 2001

UTDRAG FRA SENSORVEILEDNINGEN FOR EKSAMENSOPPGAVEN I SVSOS107 VÅREN 2001 UTDRAG FRA SENSORVEILEDNINGEN FOR EKSAMENSOPPGAVEN I SVSOS107 VÅREN 2001 Generell informasjon Vi er for tiden inne i en overgangsordning mellom gammelt og nytt pensum i SVSOS107. Denne eksamensoppgaven

Detaljer

SENSORVEILEDNING FOR DEN KVANTITATIVE DELEN AV EKSAMENSOPPGAVEN I SOS1002 VÅREN 2007

SENSORVEILEDNING FOR DEN KVANTITATIVE DELEN AV EKSAMENSOPPGAVEN I SOS1002 VÅREN 2007 SENSORVEILEDNING FOR DEN KVANTITATIVE DELEN AV EKSAMENSOPPGAVEN I SOS1002 VÅREN 2007 Oppgave 1 Nedenfor ser du en forenklet tabell basert på informasjon fra den norske delen av European Social Survey 2004.

Detaljer

Analyse med uavhengige variabler på nominal- /ordinalnivå

Analyse med uavhengige variabler på nominal- /ordinalnivå Analyse med uavhengige varialer på nominal- /ordinalnivå Hvordan rue varialer på nominalnivå (eventuelt ordinalnivå) som har flere enn to verdier i en regresjonsanalyse? Svar: omoder til dummyvarialer

Detaljer

6.2 Signifikanstester

6.2 Signifikanstester 6.2 Signifikanstester Konfidensintervaller er nyttige når vi ønsker å estimere en populasjonsparameter Signifikanstester er nyttige dersom vi ønsker å teste en hypotese om en parameter i en populasjon

Detaljer

TMA4240 Statistikk H2010 (20)

TMA4240 Statistikk H2010 (20) TMA4240 Statistikk H2010 (20) 10.5: Ett normalfordelt utvalg, kjent varians (repetisjon) 10.4: P-verdi 10.6: Konfidensintervall vs. hypotesetest 10.7: Ett normalfordelt utvalg, ukjent varians Mette Langaas

Detaljer

EKSAMENSOPPGAVER STAT100 Vår 2011

EKSAMENSOPPGAVER STAT100 Vår 2011 EKSAMENSOPPGAVER STAT100 Vår 2011 Løsningsforslag Oppgave 1 (Med referanse til Tabell 1) a) De 3 fiskene på 2 år hadde lengder på henholdsvis 48, 46 og 35 cm. Finn de manglende tallene i Tabell 1. Test

Detaljer

ST0202 Statistikk for samfunnsvitere Kapittel 11: Anvendelser av kjikvadratfordelingen Kapittel 12: Variansanalyse (ANOVA)

ST0202 Statistikk for samfunnsvitere Kapittel 11: Anvendelser av kjikvadratfordelingen Kapittel 12: Variansanalyse (ANOVA) ST0202 Statistikk for samfunnsvitere Kapittel 11: Anvendelser av kjikvadratfordelingen Kapittel 12: Variansanalyse (ANOVA) Bo Lindqvist Institutt for matematiske fag Bo Lindqvist, ST0202 2 Skittles (oppgave

Detaljer

KATEGORISKE DATA- TABELLANALYSE ANALYSE AV. Tron Anders Moger. 3. Mai 2005

KATEGORISKE DATA- TABELLANALYSE ANALYSE AV. Tron Anders Moger. 3. Mai 2005 ANALYSE AV KATEGORISKE DATA- TABELLANALYSE 3. Mai 2005 Tron Anders Moger Forrige gang: Snakket om kontinuerlige data, dvs data som måles på en kontinuerlig skala Hypotesetesting med t-tester evt. ikkeparametriske

Detaljer

Testobservator for kjikvadrattester

Testobservator for kjikvadrattester ST0202 Statistikk for samfunnsvitere Bo Lindqvist Institutt for matematiske fag 2 Kap. 11: Anvendelser av kjikvadratfordelingen: Kjikvadrattester Situasjon: t tilfeldig utvalg av n individer er trukket

Detaljer

Simulering med Applet fra boken, av z og t basert på en rekke utvalg av en gitt størrelse n fra N(μ,σ). Illustrerer hvordan estimering av variansen

Simulering med Applet fra boken, av z og t basert på en rekke utvalg av en gitt størrelse n fra N(μ,σ). Illustrerer hvordan estimering av variansen Simulering med Applet fra boken, av z og t basert på en rekke utvalg av en gitt størrelse n fra N(μ,σ). Illustrerer hvordan estimering av variansen gir testobservatoren t mer spredning enn testobservatoren

Detaljer

Arbeidstid. Medlemsundersøkelse. 7. 19. mai 2014. Oppdragsgiver: Utdanningsforbundet

Arbeidstid. Medlemsundersøkelse. 7. 19. mai 2014. Oppdragsgiver: Utdanningsforbundet Arbeidstid Medlemsundersøkelse 7. 19. mai 2014 Oppdragsgiver: Utdanningsforbundet Prosjektinformasjon Formål: Dato for gjennomføring: 7. 19. mai 2014 Datainnsamlingsmetode: Antall intervjuer: 1024 Utvalg:

Detaljer

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2. Løsningsforslag til eksamen i MOT310 STATISTISKE METODER 1 VARIGHET: 4 TIMER DATO: 17 november 2008 TILLATTE HJELPEMIDLER: Kalkulator: HP30S, Casio FX82 eller TI-30 Tabeller og formler i statistikk Tapir

Detaljer

Når foreldre møter skolen

Når foreldre møter skolen Når foreldre møter skolen I dette forskningsprosjektet skal vi undersøke relasjonene mellom foreldre, lærere og skole. Dette er et felt som er lite undersøkt, og som det derfor er viktig å få mer kunnskap

Detaljer

EKSAMEN I SOS1120 KVANTITATIV METODE 27. NOVEMBER 2003 (6 timer)

EKSAMEN I SOS1120 KVANTITATIV METODE 27. NOVEMBER 2003 (6 timer) EKSAMEN I SOS20 KVANTITATIV METODE 27. NOVEMBER 2003 (6 timer) Bruk av ikke-programmerbar kalkulator er tillatt under eksamen. Utover det er ingen hjelpemidler tillatt. Sensur faller torsdag 8. desember

Detaljer

HØGSKOLEN I STAVANGER

HØGSKOLEN I STAVANGER EKSAMEN I: MOT310 STATISTISKE METODER 1 VARIGHET: 4 TIMER DATO: 25. NOVEMBER 2003 TILLATTE HJELPEMIDLER: KALKULATOR, TABELLER OG FORMLER I STATISTIKK (TAPIR FORLAG) OPPGAVESETTET BESTÅR AV 3 OPPGAVER PÅ

Detaljer

MASTER I IDRETTSVITENSKAP 2014/2016. Utsatt individuell skriftlig eksamen. STA 400- Statistikk. Mandag 24. august 2015 kl. 10.00-12.

MASTER I IDRETTSVITENSKAP 2014/2016. Utsatt individuell skriftlig eksamen. STA 400- Statistikk. Mandag 24. august 2015 kl. 10.00-12. MASTR I IDRTTSVITNSKAP 2014/2016 Utsatt individuell skriftlig eksamen i STA 400- Statistikk Mandag 24. august 2015 kl. 10.00-12.00 Hjelpemidler: kalkulator ksamensoppgaven består av 10 sider inkludert

Detaljer

Eksamensoppgave i ST3001

Eksamensoppgave i ST3001 Det medisinske fakultet Institutt for kreftforskning og molekylær medisin Eksamensoppgave i ST3001 Onsdag 16. desember 2010, kl. 9.00 13:00 ntall studiepoeng: 7.5 Tillatte hjelpemidler: Kalkulator og alle

Detaljer

SKOLEEKSAMEN 29. september 2006 (4 timer)

SKOLEEKSAMEN 29. september 2006 (4 timer) EKSAMEN I SOS400 KVANTITATIV METODE SKOLEEKSAMEN 9. september 006 (4 timer) Ikke-programmerbar kalkulator er tillatt under eksamen. Ingen andre hjelpemidler er tillatt. Sensuren faller fredag 0. oktober

Detaljer

Eksamensoppgave i samfunnsfaglig forskningsmetode 16. mai 2003

Eksamensoppgave i samfunnsfaglig forskningsmetode 16. mai 2003 Eksamensoppgave i samfunnsfaglig forskningsmetode 16. mai 03 Oppgave 1 1 Tabell 1 gjengir data fra en spørreundersøkelse blant personer mellom 17 og 66 år i et sannsynlighetsutvalg fra SSB sitt sentrale

Detaljer

ECON240 VÅR / 2016 BOKMÅL

ECON240 VÅR / 2016 BOKMÅL ECON240 VÅR / 2016 BOKMÅL UNIVERSITETET I BERGEN EKSAMEN UNDER SAMFUNNSVITENSKAPELIG GRAD [ DATO og KLOKKESLETT FOR EKSAMEN (START OG SLUTT) ] Tillatte hjelpemidler: Matematisk formelsamling av K. Sydsæter,

Detaljer

Kapittel 3: Studieopplegg

Kapittel 3: Studieopplegg Oversikt over pensum Kapittel 1: Empirisk fordeling for en variabel o Begrepet fordeling o Mål for senter (gj.snitt, median) + persentiler/kvartiler o Mål for spredning (Standardavvik s, IQR) o Outliere

Detaljer

Value added-indikatoren: Et nyttig verktøy i kvalitetsvurdering av skolen?

Value added-indikatoren: Et nyttig verktøy i kvalitetsvurdering av skolen? Value added-indikatoren: Et nyttig verktøy i kvalitetsvurdering av skolen? Kortversjon av SSBs rapport 42/2011 Behov for value added-indikatorer på grunn av økt interesse for skolens resultatkvalitet De

Detaljer

EKSAMEN I SOS1120 KVANTITATIV METODE 23. NOVEMBER 2004 (6 timer)

EKSAMEN I SOS1120 KVANTITATIV METODE 23. NOVEMBER 2004 (6 timer) EKSAMEN I SOS20 KVANTITATIV METODE 23. NOVEMBER 2004 (6 timer) Bruk av ikke-programmerbar kalkulator er tillatt under eksamen. Utover det er ingen hjelpemidler tillatt. Sensur faller tirsdag 4. desember

Detaljer

Skoleeksamen i SOS Kvantitativ metode

Skoleeksamen i SOS Kvantitativ metode Skoleeksamen i SOS1120 - Kvantitativ metode Hjelpemidler Ordbok Alle typer kalkulatorer Tirsdag 30. mai 2017 (4 timer) Lærerbok (det er mulig mulig å ha med en annen, tilsvarende pensumbok, som erstatning

Detaljer

SENSORVEILEDNING FOR EKSAMENSOPPGAVEN I SVSOS107 VÅREN 2003

SENSORVEILEDNING FOR EKSAMENSOPPGAVEN I SVSOS107 VÅREN 2003 SENSORVEILEDNING FOR EKSAMENSOPPGAVEN I SVSOS107 VÅREN 003 Oppgave 1 Tabell 1 gjengir data fra en spørreundersøkelse blant personer mellom 17 og 66 år i et sannsynlighetsutvalg fra SSB sitt sentrale personregister.

Detaljer

TMA4240 Statistikk Høst 2009

TMA4240 Statistikk Høst 2009 TMA4240 Statistikk Høst 2009 Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag Øving nummer b7 Oppgave 1 Automatisert laboratorium Eksamen november 2002, oppgave 3 av 3 I eit

Detaljer

EKSAMEN I SOSIOLOGI SOS KVANTITATIV METODE. ORDINÆR SKOLEEKSAMEN 4. april 2011 (4 timer)

EKSAMEN I SOSIOLOGI SOS KVANTITATIV METODE. ORDINÆR SKOLEEKSAMEN 4. april 2011 (4 timer) EKSAMEN I SOSIOLOGI SOS4020 - KVANTITATIV METODE ORDINÆR SKOLEEKSAMEN 4. april 20 (4 timer) Tillatt hjelpemiddel: Ikke-programmerbar kalkulator. Opplysninger bakerst i oppgavesettet Sensur på eksamen faller

Detaljer

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere ST0202 Statistikk for samfunnsvitere Bo Lindqvist Institutt for matematiske fag 2 Kap. 11: Anvendelser av kjikvadratfordelingen: Kjikvadrattester Situasjon: Et tilfeldig utvalg av n individer er trukket

Detaljer

INSTITUTT FOR SOSIOLOGI OG SAMFUNNSGEOGRAFI EKSAMEN I SOSIOLOGI (MASTER) SOS KVANTITATIV METODE. SKOLEEKSAMEN 11. mai 2005 (4 timer)

INSTITUTT FOR SOSIOLOGI OG SAMFUNNSGEOGRAFI EKSAMEN I SOSIOLOGI (MASTER) SOS KVANTITATIV METODE. SKOLEEKSAMEN 11. mai 2005 (4 timer) EKSAMEN I SOSIOLOGI (MASTER) SOS400 - KVANTITATIV METODE SKOLEEKSAMEN 11. mai 005 (4 timer) Tillatt hjelpemiddel: Ikke-programmerbar kalkulator. Oppgavesettet består av 6 sider inkludert denne. Kandidaten

Detaljer

EKSAMEN I SOS1120 KVANTITATIV METODE 5. DESEMBER 2005 (4 timer)

EKSAMEN I SOS1120 KVANTITATIV METODE 5. DESEMBER 2005 (4 timer) EKSAMEN I SOS20 KVANTITATIV METODE 5. DESEMBER 2005 (4 timer) Bruk av ikke-programmerbar kalkulator er tillatt under eksamen. Utover det er ingen hjelpemidler tillatt. Sensur faller fredag 23. desember

Detaljer

Desember 2015. Innbyggerundersøkelse om kommunereform i Drammen kommune. Gjennomført for Drammen kommune

Desember 2015. Innbyggerundersøkelse om kommunereform i Drammen kommune. Gjennomført for Drammen kommune Desember 2015 Innbyggerundersøkelse om kommunereform i Drammen kommune Gjennomført for Drammen kommune Innhold Innledning... 2 Bakgrunn... 2 Populasjon... 2 Utvalg og utvalgsmetode... 2 Metode for datainnsamling...

Detaljer

Gjør kort rede for seks av de åtte begrepene. Bruk inntil ½ side på hvert begrep.

Gjør kort rede for seks av de åtte begrepene. Bruk inntil ½ side på hvert begrep. Sensurveiledning SOS1002, høst 2012 Opgave 1 Gjør kort rede for seks av de åtte begrepene. Bruk inntil ½ side på hvert begrep. a) Type I feil er sannsynligheten for å forkaste en sann nullhypotese i en

Detaljer

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere ST0202 Statistikk for samfunnsvitere Bo Lindqvist Institutt for matematiske fag 2 Fra første forelesning: Populasjon Den mengden av individer/objekter som vi ønsker å analysere. Utvalg En delmengde av

Detaljer

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans Denne uken: kap. 6.1-6.2-6.3: Introduksjon til statistisk inferens - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans VG 25/9 2011 Statistisk inferens Mål: Trekke konklusjoner

Detaljer

På lederutviklingsprogrammene som ofte gjennomføres på NTNU benyttes dette verktøyet. Du kan bruke dette til inspirasjon.

På lederutviklingsprogrammene som ofte gjennomføres på NTNU benyttes dette verktøyet. Du kan bruke dette til inspirasjon. På lederutviklingsprogrammene som ofte gjennomføres på NTNU benyttes dette verktøyet. Du kan bruke dette til inspirasjon. Rolleanalyse rollen som leder på NTNU Denne oppgaven går ut på å kartlegge hvilken

Detaljer