H12 - Semesteroppgave i statistikk - sensurveiledning Del 1 - teori 1. Gjør rede for resonnementet bak ANOVA. Enveis ANOVA tester om det er forskjeller mellom gjennomsnittene i tre eller flere populasjoner. Man trekker et representativt utvalg (underutvalg) fra hver populasjon. Det totale utvalget man har data på vil da bestå av tre eller flere underutvalg. Sannsynligheten for at det er signifikante forskjeller mellom populasjonsgjennomsnittene øker med økende forskjell mellom gjennomsnittene i underutvalgene. Variansen i det totale utvalget (alle underutvalgene til sammen) deles opp i to: variansen mellom underutvalgene (S 2 B) og variansen innen hvert underutvalg (S 2 W). Forholdet mellom disse to variansene er F-fordelt. Hvis H0 er sann (alle populasjonene har samme gjennomsnitt) vil begge disse variansene være uttrykk for samme feilvarians eller uforklart varians. Forventet F-verdi gitt at H0 er riktig blir derfor 1. Hvis gjennomsnittene i gruppene er forskjellig vil mellomgruppe variansen få et tillegg til feilvariansen, og F-verdien blir større enn 1. Hvis F-verdien er større enn kritisk verdi (gitt et signifikansnivå og frihetsgrader) vil en forkaste H0, og en konkluderer dermed med at minst en av populasjonene har signifikant ulikt gjennomsnitt fra de andre. En post-hoc test vil fortelle hvilke populasjoner som har ulikt gjennomsnitt. 2. Hva er en sampelfordeling? Nevn tre eksempler på sampelfordelinger. En sampelfordeling er en fordeling av utvalgsestimat, der alle utvalgene er trukket fra samme populasjon og er like store. Eksempler: fordeling av utvalgsgjennomsnitt, fordeling av differanser mellom utvalgsgjennomsnitt, fordeling av korrelasjonskoeffisienter. De sampelfordelingene vi benytter under hypotesetesting er standardiserte fordelinger gitt nullhypotesen. Eksempler på slike fordelinger er z-fordeling (standard normalfordeling), t- fordelinger, F-fordelinger og Kjikvadratfordelinger. 3. Hva er et konfidensintervall? Nevn to eksempler på konfidensintervall. Et konfidensintervall er et intervallestimat for en populasjonsparameter. Dette estimatet gjøres på grunnlag av et utvalgsresultat. En kan for eksempel estimere populasjonens gjennomsnitt på grunnlag av gjennomsnittet i et representativt utvalg. Av alle intervallestimat som kan gjøres på grunnlag av ulike utvalg av samme størrelse trukket fra populasjonen, vil en viss andel av dem (for eksempel 95 %) inneholde populasjonens gjennomsnitt. En kan også si at intervallet med en viss sannsynlighet (for eksempel 95 %) vil inneholde populasjonens gjennomsnitt (populasjonsparameteren). Eksempler: konfidensintervall for populasjonenes gjennomsnitt, konfidensintervall for differansen mellom to populasjonsgjennomsnitt. 1
4. Hva menes med type II-feil? Hva kan gjøres for å redusere faren for å begå en slik type feil? Type II feil vil si at en ikke forkaster en usann H 0. En kan redusere faren for å begå denne feilen på tre måter: - øke sannsynligheten for å begå en type I feil, dvs. øke α - bruke en-halet test der dette er mulig - øke antall informanter i utvalget, og dermed redusere størrelsen på standardfeilen 5. Hva mens med at et resultat er signifikant på 5% nivå? 6. At et resultat er signifikant på 5% nivå vil si at sannsynligheten for utvalgsestimatet gitt at H0 er riktig (sannsynligheten for å begå type I feil) er mindre eller lik 5%. En annen, og noe mindre presis, måte å si det på er at sannsynligheten for at H0 er riktig er mindre eller lik 5%. Når et resultat er signifikant på 5% nivå forkaster vi H0 med et signifikansnivå på 5%. 7. Hva forteller Pearsons PM korrelasjon og hva forteller den ikke? Korrelasjonskoeffisienten handler bare om statistiske sammenhenger. Den må alltid tolkes i relasjon til substans for å kunne gi mening. Korrelasjonen handler ikke om årsak-virkning (kausalitet). Styrken på samvariasjonen mellom to variabler kan endres hvis vi kontrollerer for effekten av en tredjevariabel (dette kan gjøres ved partiell korrelasjon). Korrelasjonskoeffisienten r avdekker bare lineære sammenhenger. Hvis sammenhengen mellom to variabler er kurvelineær (for eksempel som forholdet mellom vanskegrad på oppgaven og motivasjon i henhold til teorien om prestasjonsmotivasjon) er ikke r et egnet mål på styrken i samvariasjonen. Skjevfordelte utvalg vil også gi underestimert r. Korrelasjonskoeffisienten øker med økende varians (spredning) i utvalget. Hvis variablene i utvalget har mindre spredning enn i populasjonen vil r bli underestimert (for lav). Hvis en for eksempel ønsker å undersøke korrelasjonen mellom IQ og matematikkprestasjon og alle i utvalget har IQ skåre lik 100, vil r bli mindre enn den egentlig er i populasjonen. Derfor er det viktig at utvalget er representativt for populasjonen mhp spredning på variablene. 2
Del 2 - analyser for hånd Oppgave 1 a) Er det signifikant forskjell mellom elevene i gruppe 2 (Middels) og gruppe 3 (Over middels) når det gjelder hvor sikre de er på å gjennomføre VGS.? Still opp og test de nødvendige hypoteser. Du får opplyst at det ikke er signifikant forskjell i variansen i de to gruppene som sammenlignes. Her må en bruke en t-test to uavhengige utvalg: 1. Hypotesene H 0 : µ 1 µ 2 = 0 H a : µ 1 µ 2 0 2. t krit = t(df, α/2) = t(18,.05/2) = 2,101 3.. t obs = - 2,32 4. t obs = 2,32 > t krit = 2,101 H0 faller, det er statistisk signifikant forskjell på gjennomsnittene på variabelen Fullføre for prestasjonsgruppene Middels og Over middels. b) Er det signifikant forskjell mellom noen av de tre populasjonene når det gjelder troen på at de kommer til å fullføre VGS? Still opp og test de nødvendige hypoteser. Her må en bruke enveis ANOVA: : 1. Hypotesene: H 0 : µ 1 = µ 2 = µ 3 H a : µ m µ n for noen m, n, m n, m = 1, 2 eller 3, og n=1, 2 eller 3 2. F krit = F (2, 27,.05) 3,39 3. F obs = 17,84 4. Konklusjon: F obs = 17,84 > F krit = 3,39 H0 faller, det er statistisk signifikant forskjell mellom gjennomsnittene i en eller flere av de tre gruppene. 3
c) Tolk tabellen nedenfor. Gruppen Under middels er forskjellig fra de to andre gruppene. Det er ikke statistisk signifikant forskjell mellom gjennomsnittene i gruppen Middels og gruppen Over Middels på 5% nivå (sig. =.082). d) Sammenhold resultatet fra analysen under deloppgave a) med det du finner i tabellen i deloppgave c). Tolk eventuelle diskrepanser i de to analysene. I deloppgave a) fant vi at gruppene Middels og Over Middels hadde statistisk signifikant ulikt gjennomsnitt på 5% nivå. Tabellen i deloppgave c) viser at gjennomsnittene ikke er signifikant forskjellige på 5% nivå. To motsatte ulike konklusjoner mao. Dette skyldes at sjansen for å gjøre type I feil øker når vi sammenligner to og to grupper ved hjelp av t-tester (parvise sammenligninger). Post hoc testen justerer for denne effekten. Oppgave 2 Det er hevdet at frafallet i VGS er større blant elever som har spesielle behov (har ekstraundervisning). For å teste om det er sammenheng mellom bortvalg og spesielle behov, ble et tilfeldig utvalg på 100 elever uten spesielle behov og 100 elever med spesielle behov trukket ut fra inntakslistene. 45 av disse 200 hadde ikke fullført VGS etter 5 år. En opptelling av hvem som hadde fullført ga som resultat 90 elever uten spesielle behov og 65 elever med spesielle behov. Er det signifikant sammenheng mellom det at en elev har spesielle behov og sjansen for å fullføre VGS? Still opp og test de nødvendige hypoteser. Benytt α=.05. Vurder resultatet. 4
Dette er en Kji-kvadrat test: Fullført Har fullført Har ikke fullført Spesielle behov Uten spesielle Med spesielle behov behov O: 90 O: 65 E: 77,5 E: 77,5 (100x155)/200=77,5 R: -1,4 R: 1,4 O: 10 E: 22,5 R: -2,6 O: 35 E: 22,5 R: 2,6 155 45 100 100 200 1. Hypotesene H 0 : I hvilken grad elever fullfører VGS er uavhengig av om de har spesielle behov. H a : I hvilken grad elever fullfører VGS er avhengig av om de har spesielle behov. 2. χ krit = χ (1,.05) = 3,841 3. χ obs = 17,92 4. χ obs = 17,92 > χ krit = 3,841, H 0 faller, dvs. at det er sammenheng mellom andelen som fullfører VGS og om eleven har spesielle behov. Når en beregner standardiserte residualer ser en at det er en større andel av elever med spesielle behov som ikke fullfører enn forventet ut fra nullhypotesen og en lavere andel av elever uten spesielle behov som ikke fullfører enn forventet ut fra nullhypotesen. Del 3 - analyser på SPSS Oppgave 1 a) Er det statistisk signifikant forskjell mellom gutter og jenter med hensyn til intensjon om å slutte på VGS? Kjør den nødvendige analysen og tolk resultatet. Finn et CI95 for forskjellen mellom gruppene. Forklar hva dette intervallet forteller. b) Er det statistisk signifikant forskjell mellom elever med og uten spesielle behov med hensyn til intensjon om å slutte på VGS? Kjør den nødvendige analysen og tolk resultatet. Finn et CI95 for forskjellen mellom gruppene. Forklar hva dette intervallet forteller. 5
a) T-test to uavhengige utvalg: Dette tallet betyr at vi ikke kan Observert t Frihetsgrader gå ut fra at populasjonene H 0 faller! CI 95 har lik varians (H 0 faller) Merk: dette gjør vi ikke for Standardfeilen hånd! Analysen viser at det er statistisk signifikant forskjell på jenter og gutter gjennomsnitt på variabelen Intensjon om å slutte på VGS. Guttene har et høyere gjennomsnitt enn jentene. Et intervallestimat for differansen mellom jenters og gutters gjennomsnitt i populasjonen viser at vi med 95% sikkerhet kan si at denne differansen ligger mellom 0,13 og 1,85. b) Er det statistisk signifikant forskjell mellom elever med og uten spesielle behov med hensyn til intensjon om å slutte på VGS? Kjør den nødvendige analysen og tolk resultatet. Finn et CI95 for forskjellen mellom gruppene. Forklar hva dette intervallet forteller. b) T-test to uavhengige utvalg: 6
Dette tallet betyr at vi kan Observert t Frihetsgrader gå ut fra at populasjonene H 0 faller! CI 95 har lik varians (H 0 står) Merk: dette gjør vi ikke for Standardfeilen hånd! Analysen viser at det er statistisk signifikant forskjell på elever med og uten spesielle behov med hensyn til gjennomsnitt på variabelen Intensjon om å slutte på VGS. Elever med spesielle behov har et høyere gjennomsnitt enn elever uten spesielle behov. Et intervallestimat for differansen mellom gjennomsnittene i populasjonen viser at vi med 95% sikkerhet kan si at denne differansen ligger mellom 0,64 og 2,59. Oppgave 2 Lag en sumskåre av de to variablene Matematikk og Norsk. Lag så en ny variabel der elevene blir delt i tre grupper etter karakternivå. Bruk følgende poenggrenser for inndelingen: Under middels (UM): 2-6, Middels (M): 7-8, Over middels (OM): 9-12. a) Er det signifikant forskjell mellom noen av de tre karaktergruppene (UM, M og OM) når det gjelder intensjon om å slutte på VGS? Still opp og test de nødvendige hypoteser. b) Kjør post hoc analyse og tolk denne analysen. Enveis ANOVA med Karaktersum tredelt som grupperingsvariabel og Intensjon om å slutte som avhengig variabel: Tabellen viser antall elever i hver gruppe og gruppenes gjennomsnitt på den avhengige variabelen. Det fremgår av tabellen at gjennomsnittet synker når prestasjonen øker. 7
Signifikanstesten viser at gruppenes gjennomsnitt på den avhengige variabelen er statistisk signifikant forskjellig med et signifikansnivå på 5%. Gruppen Under middels er forskjellig fra de to andre gruppene. Det er ikke statistisk signifikant forskjell mellom gjennomsnittene i gruppene Middels og Over Middels på 5% nivå (sig. =.17). Oppgave 3 a) Er det signifikant sammenheng mellom kjønn og plassering i karaktergruppe? Still opp og test de nødvendige hypoteser. Benytt α=.05. Vurder resultatet. b) Finn hvilke celler som eventuelt bidrar til å forklare et signifikant resultat. Vi kjører en kji kvadrat test med variablene Kjønn og Karaktersum tredelt: 8
Kjikvadrat testen viser at det er signifikant sammenheng mellom kjønn og plassering på karaktergruppe. Det er en større andel jenter som tilhører gruppen Over middels enn forventet ut fra nullhypotesen (R=2,9), og vi finner en lavere andel gutter enn forventet i denne gruppen (R=-3,1). Oppgave 4 a) Er det sammenheng mellom opplevd støtte fra lærere og medelever på den ene siden og intensjoner om å slutte på den andre? Kjør de nødvendige analyser. Tolk retning og styrke. Vi kjører en korrelasjonsanalyse med tre variabler inne: Tabellen viser at det er en signifikant og moderat negativ korrelasjon mellom Opplevd støtte fra medelever og Intensjon om å slutte og en signifikant og moderat negativ korrelasjon mellom Opplevd støtte fra lærer og Intensjon om å slutte. Sosial støtte fra henholdsvis medelever og lærer kan dermed antas å betydning for å forebygge mot at elever tenker på å slutter i VGS. 9