Her ser vi på noen egenskaper ved denne metoden som kan være nyttig for oss psykologer.

Størrelse: px
Begynne med side:

Download "Her ser vi på noen egenskaper ved denne metoden som kan være nyttig for oss psykologer."

Transkript

1 Prinsipal Component Analysis (PCA): Prinsipal komponent analysen ble (som mange andre metoder vi benytter) oppfunnet av Karl Pearson i 1901, men uavhengig av ham videreutviklet av Hotelling rundt En grunnleggende ide i denne og som vil være nyttig for oss - er at dersom vi har variabler som korrelerer med hverandre, så kan vi alltid transformere disse til like mange nye variabler som er helt ukorrelerte med hverandre. Det har mange nyttige applikasjoner i matematikk, kjemi og fysikk. De interesserte kan lese litt om det her (men det er mildt sagt tungt stoff): Her ser vi på noen egenskaper ved denne metoden som kan være nyttig for oss psykologer. Et kart. Et kart er et godt eksempel på hvordan plassering, avstander og retninger kan beskrives i to dimensjoner. Men pass på: «dimensjon» og «dimensjonalitet» brukes på flere måter i geometri og matrisealgebra. Her bruker jeg det slik: hvor mye informasjon trenger man for å lokalisere et eller flere punkter i et rom? Og begrepene «dimensjon» og «komponent» vil bli brukt i samme betydning. Jeg greier ikke å lokalisere OHIO bare ved å vite N-S plasseringen. Jeg må ha Ø-V lokaliseringen også. Derav «to dimensjoner». Dersom jeg skulle lokalisere et fly, så er ikke det heller nok: da måtte jeg vite høyden over bakken også. Jeg ville altså trenge tre dimensjoner. N, S, Ø og V er betegnelser for retninger på de to dimensjonene eller «poler» som de ofte kalles i et kart eller når man benytter bipolare skalaer i psykologien. Og dimensjonene i seg selv er her enkle å navngi: vi kaller dem gjerne «lengdegrader» og «breddegrader». Og dere ser også hva som menes med ukorrelerte (ortogonale) dimensjoner: dersom jeg beveger meg i en perfekt S-N retning så skjer det ingenting med Ø-V plasseringen de er uavhengige. Men

2 dersom jeg beveger meg mot N-Ø så endrer plasseringen seg både i N-S retningen og i Ø-V retningen. Den retningen er korrelert med begge dimensjonene. Og her må vi notere oss noe vi får bruk for videre: korrelasjonskoeffisienten bruker vi ofte når vi studerer samvariasjon mellom variabler. Den koeffisienten er i geometrisk forstand cosinus til vinkelen mellom to akser. N-S og Ø-V aksene er ukorrelerte. Det vil si at korrelasjonen er 0 (Cos til 90 0 =0). Og det vil si at vinkelen mellom de to aksene er 90 grader. S og N er på sin side motsatte poler. Da er vinkelen 180 grader og da blir korrelasjonen -1. N-Ø ligger derimot midt mellom de to aksene, og da er vinkelen mellom den og de to andre 45 grader, og korrelasjonen mellom den aksen og N-S og Ø-V aksen blir da.707. Det vil si at korrelasjonen mellom variabler sier oss noe om hvilken retning akser peker i. Kjenner vi vinkler mellom akser og hvordan punkter er plassert på disse, kan vi for eksempel bruke Pythagoras teorem og generaliseringer av dette for å beregne avstander mellom punkter i kartet. Men her bruker vi videre kartet som et eksempel på hvordan en prinsipal komponent analyse (PCA) fungerer. Som data bruker vi lengdegrader og breddegrader for amerikanske byer. Men for å forenkle litt så bruker jeg den gjennomsnittlige lengde og breddegrad beregnet over byer i hver stat som indikator på statens plassering. Det skulle gi et tilnærmet mål på statens «sentrum», men det forutsetter jo selvsagt at byene er lokalisert rundt «sentrum» i statene. Dersom vi plotter statene etter lengde- og breddegrader, ser det slik ut: A. Som vi kan se, er statene spredt rimelig tilfeldig rundt et sentrum, og dersom vi korrelerer lengde- og breddegrader for amerikanske stater, så blir korrelasjonen veldig lav (-.10).

3 Nå trenger vi selvsagt ingen PCA her, men for å demonstrere noen egenskaper ved metoden så gjennomfører vi en likevel. Det analysemetoden gjør da, er først å finne en dimensjon som forklarer så mye som mulig av variasjonen i de to variablene samtidig (PC1). Deretter vil metoden finne en ny dimensjon som forklarer så mye av den variasjonen i variablene som ikke kunne forklares ved den første (PC2). Det gir oss to nye «variabler» (dimensjoner) som er matematisk ukorrelerte, men som sammen ivaretar all variasjon i variablene «lengdegrader» og «breddegrader». Dersom vi korrelerer disse nye dimensjonene med lengde og breddegrader, får vi det som står i «Component Matrix»: Den første komponenten vi fant korrelerer negativt med lengdegrader og positivt med breddegrader mens den neste komponenten ble positivt korrelert med begge de opprinnelige variablene. Dette skyldes at vi med den første komponenten ønsker å forklare så mye som mulig av variasjonen i begge variablene og i og med at det er en svak negativ korrelasjon mellom variablene, så havner denne komponenten i denne retningen (omtrent): Dette er enklere å se dersom vi hadde hatt to (X og Y) veldig høyt negativt korrelerte variabler:

4 Dersom vi plotter statene etter verdi på de dimensjonene vi fant blir det slik: B. Dette resulterte i et veldig rart USA kart! Det skyldes at PCA vil gi meg nye ukorrelerte dimensjoner, men disse er rotert etter hvor mye variasjon de forklarer i de to variablene. Det gjør vi ikke i et normalt kart. Vi bruker jordmagnetismen og et kompass og orienterer dem i N-S og Ø-V retning. Men PCA kjenner ikke til kompasset! Men jeg har en mulighet for å fikse på dette. Jeg kan rotere aksene slik jeg ønsker å ha dem. Da blir resultatet slik som i «Rotated Component Matrix» i tabellen over og dimensjonene blir rotert slik: Component 1 beskriver breddegrader og Component 2 beskriver lengdegrader.

5 Og dersom jeg plotter statenes lokalisering på disse roterte dimensjonene, så ser det slik ut: Og da var vi tilbake til kartet slik vi foretrekker å se det. Hvordan disse dimensjonene bør roteres kalles rotasjonsproblemet i PCA og eksplorerende faktoranalyse. Og det er derfor såkalte «uroterte» faktorer sjelden vil gi tolkbare resultater. Men tro det eller ei: matematisk sett er kartet i figur B et akkurat like godt kart som kartet i figur A. Vi er bare ikke fortrolig med den fremstillingen av USA kartet som vi finner i figur B. Et kart demonstrerer for øvrig også et annet fenomen som vi kommer tilbake til: når man beskriver verden i for få dimensjoner så oppstår fordreininger. Jorda er jo rund og burde beskrives ved tre dimensjoner, men et kart har jo bare to! Det er derfor alle størrelsesforhold blir helt feile i et kart: Vi burde heller brukt en «globus»! Antall dimensjoner vi velger å beskrive verden i, og hvordan vi roterer disse dimensjonene, vil ha stor betydning for hvordan vi forstår den! Så hittil (og det kommer vi selvsagt tilbake til) kan vi konkludere med at PCA transformerer korrelerte variabler (to eller hvor mange som helst) til like mange nye variabler (dimensjoner) som er helt ukorrelerte med hverandre men som sammen vil ivareta all variasjon i de opprinnelige variablene. Disse nye variablene vil imidlertid være «rotert» etter hvor mye varians de forklarer i de opprinnelige variablene, noe som kan være helt tilfeldig i forhold til hvordan vi ønsker å tolke dem. I matematisk forstand er dette «rotasjonsproblemet» trivielt men i psykologien hvor vi ønsker å kunne tolke dimensjonene, er dette det største problemet når man bruker PCA eller faktoranalyse. Og da ser vi videre på hvordan disse egenskapene ved PCA (og faktoranalyse) dukker opp i en mer komplisert situasjon.

6 Et psykologisk kart. Vi bruker som eksempel et velkjent kart fra psykologiens historie Timothy Leary s «Interpersonal Circumplex»: Øst-vest dimensjonen kaller Leary Affiliation-Hostility (AH) og nord-sør dimensjonen kalles Dominant-Submissive (DS). I den høyeste oppløsningen kan atferd/problemer klassifiseres langs 16 retninger i dette to-dimensjonale rommet (A. P). «Exibitionistic» tilsvarer da nord-øst i vårt forrige kart. Disse 16 retningene er ikke nye dimensjoner de er retninger i det to-dimensjonale rommet. Og her finner man mange misforståelser i litteraturen! Dette kommer vi tilbake til etterhvert. Disse retningene kan gjøres mer omtrentlige ved å slå dem sammen til 8 i stedet for 16, eller til 4 for den del (kvadrant-modellen), men det endrer ikke på noe. Vi kan forenkle bildet ved å representere de 16 retningene som punkter:

7 Da er det enklere å se hva som karakteriserer en circumplex-modell. For det første ligger alle punktene på omkretsen til sirkelen det vil si at avstanden fra origo til alle punktene er den samme. Men hva er avstanden fra origo til punktene? I psykologien har vi ikke meter og kilometer og Leary har fornuftig nok ikke foreslått noe, så vi kan bare bestemme det selv. Jeg velger at denne avstanden skal være 1 på en eller annen skala. Nå kan jeg bare stille inn passeren min slik at avstanden blir 1, sette spissen i origo, og dra en sirkel. For det andre så er det samme avstand mellom alle punktene langs omkretsen. Det vil si at dersom vi trekker en linje fra hvert punkt til origo, så vil vinkelen mellom alle disse linjene være den samme. Men hva er vinkelen mellom disse linjene? Vinkelsummen i en sirkel er jo 360 grader, så da må vinkelen mellom de 16 punktene bli 360/16=22.5. Da bestemmer jeg bare et referansepunkt (for eksempel M), og plotter inn punktene slik at vinkelen mellom hvert nytt punkt og M øker med 22.5 grader. Figuren er dermed tegnet! Sånn sett greier jeg meg med å beskrive alle punktenes lokalisering i forhold til AH dimensjonen. Men jeg kan jo godt beskrive dem i forhold til begge dimensjonene: Dersom vi bruker AH dimensjonen som referanse, så vil punktet N ligge på en akse som har en vinkel på 22.5 grader med AH. Men da vil vinkelen mellom denne aksen og DS dimensjonen være 67.5 grader. Punktet O vil ligge på en akse som har vinkler på 45 grader i forhold til begge dimensjonene, osv. Vi har jo tidligere benyttet korrelasjonskoeffisienten i en rekke sammenhenger som et mål på samvariasjon, og vi har sett at dersom vi kvadrerer denne, så finner vi «forklart varians» etter en regresjonsanalyse hvor vi forklarer en variabel som en lineær funksjon av en annen variabel. Men korrelasjonskoeffisienten har en annen nyttig tolkning som jeg har nevnt tidligere: den vil være cosinus til en vinkel!

8 Så da regner vi alle vinklene om til cosinus (korrelasjoner): Variabelen N korrelerer altså da.92 med AH dimensjonen og.38 med DS dimensjonen. A korrelerer 0 med AH dimensjonen og 1 med DS dimensjonen. E korrelerer -1 med AH dimensjonen og 0 med DS dimensjonen. Vi kan selvsagt også beregne vinkler mellom alle variablene her: Vinkelen mellom M og N er 22.5 grader, vinkelen mellom A og C er 45 grader, osv. Disse vinklene kan vi regne om til cosinus til vinklene og da får vi en korrelasjonsmatrise: Dere ser at korrelasjonen mellom alle nabopunkter er.92. Det er fordi vinklene mellom disse er 22.5 grader. Korrelasjonen mellom punkter som har et punkt mellom seg er.71 fordi vinkelen mellom disse er 45 grader. Vi kan også være interesserte i hvor langt hvert punkt befinner seg fra origo. Da kan vi bare finne frem gamle Pythagoras. Avstanden fra origo til punktet N langs AH dimensjonen er.924 og avstanden langs DS dimensjonen er.383. Da må hypotenusen bli sqrt( ) = 1. Nå har jo jeg en «fasit» her. Jeg vet jo at jeg møysommelig har sittet med en passer stilt inn på omkretsen 1 og et vinkelmål og tegnet denne circumplexen eller nesten da. Men dersom vi bare

9 hadde korrelasjonsmatrisen over tilgjengelig ville vi da kunne finne tilbake til at det var det jeg hadde gjort med en matematisk metode? Da må vi innom litt matematikk men ikke mye. En symmetrisk matrise kan alltid dekomponeres i egenverdier og egenvektorer. De som vil skjønne hvordan og hvorfor kan flytte over på MatNat! De spesielt interesserte kan likevel starte her: Alle anstendige regne-programmer (Matlab, R, SPSS, Minitab, STATA, osv.) kan imidlertid gjøre slike beregninger. Jeg bruker SPSS, legger inn korrelasjonsmatrisen, og ber programmet finne egenverdier og egenvektorer, og får dette: Note: Vi regner nå på en ekstrem korrelasjonsmatrise med mange egenverdier som er nær 0 og noen svakt negative. Ikke alle programmer vil håndtere det. Jeg fikk gjort dette i SPSS, men dere kan får problemer i andre programmer. Vi får 16 egenverdier, men de to første er 8 resten er 0. Egenverdien gir oss egentlig lengden til en vektor i et rom - dvs. variansen til vektoren, og her summerer de to egenverdiene til 16. En korrelasjonsmatrise er jo en varians-kovariansmatrise for standardiserte variabler, og disse vil per definisjon ha varians på 1. Dersom vi summerer variansene (diagonalen i korrelasjonsmatrisen), så får vi 16. Og det som er interessant for oss nå er at når vi har funnet to egenverdier, så har vi representert variablene perfekt i to dimensjoner det er ikke flere egenverdier å finne. Sagt på en annen måte: med disse to dimensjonene kan vi forklare all variansen i de 16 variablene. Og dette er jo noe vi visste på forhånd: vi trenger bare to dimensjoner for å beskrive en perfekt circumplexstruktur. Egenvektoren gir oss retningen til en vektor i et rom. Disse er imidlertid alltid skalert slik at dersom vi kvadrerer dem og summerer, så vil de summere til 1 både over rader og kolonner. Det gir oss ikke en særlig interessant tolkning. Men jeg kan omskalere dem slik: Egenvektor * sqrt(egenverdien). Jeg multipliserer alle verdiene i egenvektoren med kvadratroten av sin tilhørende egenverdi. Egenverdien gir oss variansen til vektoren, så jeg regner egentlig ut hva verdiene i egenvektorene utgjør i proporsjon av standardavviket til vektoren.

10 Og da får jeg dette: Det er jo bare to egenverdier som er forskjellig fra 0, så nå vil bare to egenvektorer ha verdier. Slike omskalerte egenverdier kalles ofte «ladninger» (loadings). Og pass på at noen programmer kan gi dere egenverdier (for eksempel R) andre kan gi ladninger. Det må vi vite når vi tolker dem! Dersom vi forstørrer disse og henger på variabelnavnene våre, så ser vi hva vi fikk: Dette ligner veldig på tall vi har sett før. Dette er nå korrelasjoner (cosinus til vinkelen) mellom variablene og de to dimensjonene vi endte opp med de som hadde egenverdier større enn null! Og disse stemmer perfekt med det vi startet ut med. Det er jo betryggende. Bortsett fra en ting: vi har fått «reflektert» AH aksen slik at Affiliation nå befinner seg til venstre, og Hostility til høyre. Dette vil lett kunne skje i slike analyser. Det finnes egentlig ingen matematisk grunn til at slike dimensjoner skal defineres i den ene eller andre retningen. Vi må derfor passe på det når vi tolker resultatet. PCA mangler som vi har sett tidligere et kompass!

11 Og dersom vi plotter disse ladningene, så blir det enda tydeligere hva vi endte opp med: For moro skyld beregnet jeg egenverdier og egenvektorer med R-programmet også. Da fikk jeg samme tall, men en litt annen rotering av dimensjonene:

12 Men vi trenger heldigvis ikke å slite med å beregne egenverdier og egenvektorer, vi har et utmerket program for PCA i SPSS. Og slik blir resultatet fra dette programmet: Og vi ser at SPSS her fant det vi fant tidligere: to egenverdier nær 8 og de andre egenverdiene ble 0. Og SPSS synes ikke det er nødvendig å ta med egenvektorer med egenverdier som er 0, så den skriver ut de to nødvendige, og dropper de andre. I tillegg har SPSS regnet ut hvor mye av variasjonen i variablene som kan forklares ved hver prinsipale komponent i prosent slik: (egenverdi/summen av egenverdiene) * 100 for den første slik: (8.022/16) * 100 = I tillegg skriver SPSS ut følgende matrise: Dette er tall vi kjenner nå. Det er korrelasjoner mellom dimensjonene vi endte opp med og variablene. Her har jeg riktignok lagt til en kolonne (Sum SQ). Her har jeg beregnet summen av de

13 kvadrerte ladningene for hver rad. Dette gir oss for hver variabel, total forklart varians ved to dimensjoner. Dette trengte jeg ikke gjøre siden disse skriver ut som «Extraction» i matrisen «Communalities». Jeg har også beregnet summen av de kvadrerte ladningene for hver kolonne og regnet disse i prosent av summen av egenverdiene (16). Det trengte jeg heller ikke gjøre siden disse skrives ut som «Eigenvalues» og «% of Var» fra SPSS. Men tallene som skrives ut i matrisen «Component Matrix» er ikke så enkle å kjenne igjen umiddelbart fordi her har vi igjen fått en annen rotasjon av dimensjonene: Leary hadde blitt litt forvirret i starten, men hadde fort sett at dersom vi roterer dette plottet 90 grader mot venstre og speilvender det så er det nesten circumplexen hans! Nå har vi fått mange tall her, så la oss se på hva som er konstant: Egenverdier: Alle analyser konkluderer med at her finner vi to høye egenverdier (som begge blir ca. 8) og resten av egenverdiene blir 0. Det betyr for oss at to dimensjoner er tilstrekkelig til å forstå hvor variablene er lokalisert. Generelt kan vi finne ut hvor mye av variansen i variablene som forklares av en dimensjon ved å regne ut hvor mye egenverdien til dimensjonen utgjør av summen av egenverdiene og egenverdiene vil alltid summere til summen av variansene i variablene som når vi analyserer en korrelasjonsmatrise igjen vil være antall variabler. Ladninger: Og alle analysene gir oss informasjon om i hvilken retning variablene er lokalisert ved korrelasjonen mellom dimensjonene og variablene. Når vi vet at en variabels korrelasjon med en dimensjon er cosinus til vinkelen mellom variabelen og dimensjonen, kan vi enkelt finne vinkelen fra cosinus. Med ladninger har andre tolkninger også. Vi vet fra den lineære regresjonsanalysen at når vi forklarer Y fra X, så vil korrelasjonskoeffisienten være identisk med den standardiserte regresjonskoeffisienten. Husk at når vi fant komponentene (dimensjonene), så fant vi disse slik at komponentene sammen ville forklare så mye som mulig av variasjonen i variablene. Det er altså forklart varians fra 16 multiple regresjonsanalyser vi er ute etter.

14 Med to komponenter får vi altså da følgende 16 regresjonsanalyser: I en multippel regresjonsanalyse kan vi ikke generelt tolke korrelasjoner som regresjonskoeffisienter, men når forklaringsvariablene er perfekt ukorrelerte så kan vi det og komponentene våre er jo nettopp det, så her kan vi også tolke ladningene som standardiserte regresjonskoeffisienter etter regresjonsanalysene over! Og dersom vi beregner den gjennomsnittlige forklarte variansen i variablene, så finnes det ingen andre «komponenter» som ville forklart mer av variansen enn de to vi fant. Variablers avstand fra Origo: Når vi har en variabels avstand fra origo på begge de ukorrelerte dimensjonene (ladningene: L1 og L2), så er det lett å se at vi får en rettvinklet trekant hvor hypotenusen gir variabelens avstand fra origo. Lengden på hypotenusen kan vi da finne ved å legge sammen de to kvadrerte ladningene og ta kvadratroten av summen: SQRT(L1 2 + L2 2 ) Men hva betyr denne avstanden kvadrert jo (L1 2 + L2 2 ) er jo den totalt forklarte variansen i variabelen ved to dimensjoner. Og dette er konstant uansett rotasjon dersom dere sjekker dette, så vil dere finne at variablenes avstand fra origo eller den totale forklarte variansen i variablene ved to komponenter her blir den samme (1) uansett rotasjon. Om vi ønsker å gi resultatene fra PCA en «geometrisk» tolkning med fokus på vinkler og avstander i rom, eller en «variansanalytisk» tolkning fokusert på forklaring av varians i variabler, vil kunne variere fra situasjon til situasjon. Men det er jo betryggende at dette bare er to sider av samme sak. Det som imidlertid IKKE ble konstant var dimensjonenes rotasjon i forhold til variablene deres retning i det todimensjonale rommet. Nå satte jeg riktignok programmene her på prøve siden i en perfekt sirkel, så vil alle roteringer være like «gode», men dette er et generelt problem i slike analyser. Matematisk sett kan vi rotere disse dimensjonene vilkårlig uten at den totale forklarte variansen i variablene vil endre seg. Vi så også at dimensjonene kan bli «reflekterte». Det rotasjonen har betydning for er imidlertid tolkningen av dimensjonene. Det finnes ingen matematisk definisjon av hva som er riktig rotasjon. PCA har ingen informasjon om hvordan Leary ønsket å tolke circumplex-modellen. Men dersom vi har slik informasjon, så kan vi alltid rotere aksene slik vi ønsker det. Dette kalles «target rotasjon» eller «Procrustes rotasjon» etter den greske mytologiske figuren Procrustes. SPSS har ingen mulighet for slike rotasjoner men de kan forholdsvis enkelt programmeres i SPSS, R, Matlab eller lignende.

15 Jeg brukte for denne illustrasjonen et program jeg skrev i 1989, og som jeg har brukt siden. Og da var vi endelig tilbake til Leary s tolkning av circumplexen. Men en slik rotasjon forutsetter selvsagt at vi har teori eller annen informasjon som forteller oss hvordan dimensjoner bør roteres. Rotasjonsproblemet kommer vi selvsagt tilbake til etter hvert. Dimensjonalitet. Nå har vi hele tiden holdt oss til situasjoner hvor variabler kan beskrives perfekt i to dimensjoner. Hva skal til for at det ikke skulle være tilfellet her? Jo, i det første kartet så måtte en eller flere av de amerikanske statene «lette» fra jordoverflaten og bli svevende. Og tilsvarende for circumplexen en eller flere av variablene måtte sveve over circumplexen. Se på hva som ville skjedd dersom vi fortsatt fremstilte det i to dimensjoner: Det vi da ville sett er de svevende variablenes projeksjoner ned på det to-dimensjonale planet. Da ville ladningene på de to dimensjonene bli lavere og lengden fra origo ville bli kortere og sirkelen ville ikke lenger bli perfekt. Variablers avstand fra origo kan derfor tyde på at vi trenger flere dimensjoner for å plassere dem. Slike slutninger angående dimensjonalitet vil være kritiske når vi driver med PCA og faktor-analyse. I noen tilfeller har vi teori som gir oss dimensjonaliteten, men ofte må vi prøve å slutte oss til denne ut fra data (eksplorerende analyser). Den slutningen kan ofte bli vanskelig. La oss se på noen forhold som muligens kan føre til feilaktige konklusjoner angående dimensjonalitet.

16 Målingsfeil i observerte variabler. Dersom Leary skulle ønsket å validere modellen måtte han på en eller annen måte forsøke å måle de 16 variablene. I psykologisk sammenheng vil vi alltid regne med at variabler har innslag av målingsfeil manglende reliabilitet. Så hva vil skje dersom vi antar at den «sanne» strukturen i rommet kan beskrives ved en perfekt circumplex, men målingene vi gjør har et betydelig bidrag av tilfeldige målingsfeil? Det er bare å prøve jeg lager data fra en slik struktur. Og jeg trekker et utvalg på observasjoner fra denne prosessen: Det skjedde ikke så mye! Nå får vi ikke to høye egenverdier og 14 egenverdier som er 0. Det finnes jo variasjon i variablene som ikke kan forklares ved de to komponentene (ca. 45%) men det er bare tilfeldige målingsfeil. Men nå kan ikke lenger all variasjonen i variablene forklares ved to komponenter, og det betyr at avstanden fra origo til variablene blir mindre enn 1 men circumplexstrukturen er helt intakt!

17 Men her har vi antatt at alle variablene har innslag av samme mengde målingsfeil de har samme reliabilitet. Men hva vil skje dersom noen av variablene er målinger med lavere reliabilitet enn andre? Da sørger vi bare for at det skjer. Jeg lar N, D og J få mye lavere reliabilitet: PC analysen viser at mindre av variasjonen i de tre variablene (N, D og J) kan forklares ved to dimensjoner. Det betyr at avstanden fra origo til disse blir kortere og sirkelen får noen bulker her og der. Men jeg ville ikke være i tvil om at strukturen fortsatt kan beskrives ved to dimensjoner og at retningene i rommet stemmer med en circumplex tolkning. Men at avstanden fra origo til en av variablene er kortere enn for de andre stemmer jo også med at den «svever» i forhold til det todimensjonale planet, så kanskje N, D og J faktisk burde beskrives ved en tredje dimensjon? Men for at vi skulle trenge en tredje dimensjon her, så måtte N, D og J «sveve» i samme retning, og da måtte de korrelere med hverandre. Tilfeldige målingsfeil kan ikke få variabler til å korrelere tvert imot! Så her ville jeg si et definitivt nei til en tredje dimensjon - men det kommer vi tilbake til.

18 Få observasjoner. I de to foregående eksemplene har vi hatt veldig store utvalg (n=100000) fra den prosessen som har generert data. Dette er ikke vanlig i psykologisk forskning. Korrelasjoner mellom variabler vil jo som alle andre estimater være utsatt for samplingvariasjon, så hva vil skje dersom vi trekker et utvalg av størrelse n=100 og antar betydelige målingsfeil og til og med forskjellig målingsfeil for de tre variablene? Nå skjedde det som ventet mer her. Variablene N, D og J havnet på grunn av sin lavere reliabilitet nærmere origo, men i tillegg ble for eksempel vinkelen mellom D og E helt klart forskjellig fra 22.5 grader. Sirkelen ble ganske forvrengt. Men det verste er at nå ble jeg kanskje for første gang litt i tvil med hensyn til om denne strukturene bør beskrives i to dimensjoner.

19 Men helt galt gikk det jo ikke heller. Hva kan man forvente i et utvalg med 16 variabler med mye målingsfeil og til og med forskjellige målingsfeil - og bare 100 observasjoner? Kanskje ville circumplex-strukturen dukket opp mye klarere dersom jeg tok et nytt utvalg av størrelse n=100 fra denne prosessen? Det kan vi jo ikke vite. Og dersom vi konkluderte med at den prosessen som har generert data IKKE er i samsvar med en circumplex-modell så hadde vi jo begått en klassisk type I feil. Jeg vet jo at data er generert fra en perfekt circumplex + målingsfeil.. Så her har vi et slutningsproblem. Men ser vi på retningene til variablene vil en circumplex tolkning ikke være helt urimelig heller. Og da finnes det en konklusjon: Dersom observerte data er generert av en prosess med en klar struktur så skal det temmelig store inngrep til for at denne strukturen ikke skal dukke opp i data! Nå har vi hele tiden forholdt oss til situasjoner hvor dimensjonaliteten er kjent. Dette vil i praktiske anvendelser sjeldent være tilfelle. Et hovedformål med PCA er å beskrive variabler i et rom av lavere dimensjonalitet og det er derfor slike metoder i SPSS finnes under menyen: Dimension Reduction. Den kan vi som vi har sett bestemmes teoretisk men det finnes også en rekke forslag til hvordan man ved empiriske kriterier kan få hint om den «riktige» dimensjonaliteten i den prosessen som har generert data. Tre strategier for empirisk valg av dimensjonalitet. Et populært og noe misbrukt kriterium - kalles: Kaiser s kriterium, og er basert på følgende ide. Dersom vi analyserer en korrelasjonsmatrise helt uten korrelasjoner mellom variabler, så vil vi få følgende når vi bruker 8 variabler (a. h) som eksempel: Alle egenverdiene blir 1 og alle variablene vil bare ha ladning på sin egen komponent. En slik korrelasjonsstruktur kan oppstå i en spesiell situasjon og det er når variablene kun inneholder tilfeldige målingsfeil. Tilfeldige tall er per definisjon ukorrelerte. Kaiser var selvsagt også

20 klar over at selv om vi analyserer variabler som i den prosessen vi studerer er helt ukorrelerte, så vil de ikke dukke opp eksakt slik i et utvalg. Dersom vi trekker et gigantisk utvalg på n= fra en prosess som fungerer slik så vil vi få et slikt resultat: Alle egenverdiene ble svært nær 1, men i et lite utvalg hvor n=100, kan det se slik ut: Tilfeldig samplingvariasjon vil alltid gi oss korrelasjoner mellom noen variabler og jo mindre utvalgene våre er jo mer kan tilfeldig samplingvariasjon slå ut. Men Kaiser foreslo likevel at dersom noen av våre egenverdier blir 1 eller lavere, så har vi havnet i en situasjon hvor vi bare forsøker å analysere tilfeldig «støy». Det er ikke særlig smart, så da setter vi de egenverdiene til 0 og har nådd taket for hvor mange komponenter vi trenger. SPSS bruker dette som et kriterium og beholder alltid komponenter hvor egenverdien er større enn 1 dersom vi ikke bestemmer noe annet. Og i vårt lille utvalg hadde vi da fått 4 komponenter noe som er direkte feil! Men husk at Kaiser foreslo et kriterium for det maksimale antall komponenter det ville være rimelig å beholde ikke det riktige antallet.

21 Cattell foreslo en strategi basert på samme ide. Han foreslo at vi bør plotte de egenverdiene vi finner (Cattells s scree-plot) og studere dette plottet. Slik ser det ut når n=100000: Og slik når n=100: Cattell ville kastet et blikk på disse plottene og konkludert med at her er det ingen struktur å studere! Hans argument var at dersom det finnes en dimensjonalitet i korrelasjonsmatrisen så vil det oppstå en tydelig «knekk» i denne kurven etter at vi har trukket ut de egenverdiene som er nødvendige for å avdekke dimensjonaliteten. Horn baserte seg på samme ide som Kaiser, men han lanserte en metode for å ivareta problemet med samplingvariasjon. Hadde Kaiser kunnet anta at alle forskere satt med en kraftig datamaskin foran seg, så hadde nok han foreslått det samme. Horns forslag var å konstruere en prosess hvor alle variabler er ukorrelerte. Deretter trekker vi utvalg av samme størrelse som vi har i vårt utvalg, finner egenverdiene og lagrer dem. Og dette gjentar vi et stort antall ganger. Dette er veldig enkelt når man har en datamaskin tilgjengelig. Da vil vi for hver egenverdi, ende opp med en fordeling av tilfeldig genererte egenverdier. I disse fordelingene kan vi nå finne en egenverdi hvor et visst antall av de tilfeldige egenverdiene er lavere. Det vanligste valget er 95% - altså den egenverdien hvor 95% av de tilfeldig genererte egenverdiene er lavere. Dersom våre observerte egenverdiene er større enn denne, så er det lite rimelig av vår egenverdi har fremkommet som et resultat av tilfeldig samplingvariasjon. Slike analyser kan ikke gjøres direkte i SPSS, men det finnes en spss-macro som kan gjøre det parallell.sps og denne finner dere på området vårt. En slik analyse kan også gjøres på nett her:

22 Vi ser litt på bruk av disse kriteriene i vår analyse av circumplexen i et lite utvalg hvor n=100. SPSS bruker som sagt egenverdi > 1 kriteriet. Jeg er ikke helt sikker på hvor denne grensen settes eksakt, men det ender nå opp med en rimelig konklusjon her. Cattell s scree-plot ser slik ut: Og Cattell hadde ikke vært i tvil her er to komponenter nødvendig ikke flere.

23 Og for å illustrere bruk av Horn s kriterium bruker vi programmet på nettet. Programmet trekker nå utvalg av størrelse 100 fra en prosess hvor vi har 16 ukorrelerte variabler, lagrer egenverdiene og repeterer dette 1000 ganger. Gjennomsnittet av de 1000 første egenverdiene ble 1.76 og 95% av dem var lavere enn Vår første egenverdi var 4.21 altså lite sannsynlig gitt tilfeldig samplingvariasjon. Gjennomsnittet av de 1000 andre egenverdiene ble 1.58 og 95% av dem var lavere enn Vår andre egenverdi var 4.21 altså lite sannsynlig gitt tilfeldig samplingvariasjon. Gjennomsnittet av de 1000 tredje egenverdiene ble 1.45 og 95% av dem var lavere enn Vår tredje egenverdi var 1.01 altså ikke over grensen vi har satt, så vi antar at denne gjerne kunne være et resultat av at vi bare analyserer data uten struktur, så vi beholder to komponenter og forkaster de resterende.

24 Bruk av slike kriterier kan studeres ved at vi (som jeg har gjort her) genererer data med en kjent struktur og undersøker hvilke kriterier som gir oss riktig konklusjon. En ganske vanlig konklusjon vil da være at Kaiser s kriterium gjerne vil gi litt for mange komponenter (men husk da at dette er et forslag til det maksimale antallet), Cattell s kriterium vil fungere ganske bra når strukturen er tydelig, mens varianter av Horn s parallell-analyse vil komme best ut. I tillegg til de tre som er nevnt her, finnes det nok 4-5 andre forslag. Vi diskuterer ikke dem nærmere her. For bruk i matematikk, fysikk og kjemi vil ofte slike metoder benyttes for å redusere kompleksitet/dimensjonalitet, og dimensjonaliteten vi velger avhenger av hvor mye varians i variablene vi ønsker å ivareta men når vi bruker slike metoder i psykologisk forskning er det ofte (men slett ikke alltid) ett kriterium som er viktigere enn alle andre: de dimensjonene som vi beholder må være tolkbare! Rotasjonsproblemet. Som vi har sett er komponenter rotert etter hvor mye variasjon de forklarer i variablene. Dette er imidlertid sjelden den mest tolkbare rotasjonen men vi har jo også sett at slike rotasjoner er vilkårlige med hensyn til totalt forklart varians i variablene. Da vil vi gjerne rotere disse slik at de blir så tolkbare som mulig. I en perfekt circumplex vil alle rotasjoner av dimensjonene være like tolkbare, vi ville antagelig bare tolket dem annerledes og gitt dem andre navn avhengig av rotasjonen, så vi ser på et litt annet eksempel hvor vi har det som gjerne kalles «enkel struktur». Som eksempel bruker vi Susan Fiskes ide om at i møte med andre personer (eller grupper) så vil det være to basale beslutninger vi foretar automatisk: vil denne personen oss noe godt eller vondt (skade oss) og har personen i så fall evnen til å gjennomføre intensjonen. Dette kan vi beskrive ved to dimensjoner som Fiske kaller «warmth» (varme) og «competence» (evne). Disse to dimensjonen har jeg nå forsøkt å måle ved å stille 100 personer 8 spørsmål (variabler). Spørsmålene 1 til 4 er forsøk på å måle «varme» og spørsmålene 5 til 8 er forsøk på å måle «evne». Alle spørsmålene er målt på en skala fra 1 til 7 hvor 7 kan bety henholdsvis høy «varme» eller høy «evne». En PCA av korrelasjonene mellom disse 8 spørsmålene (variablene) gir dette: Denne kjenner vi så godt nå at den er fort oppsummert: PCA gir oss to relativt høye egenverdier og 6 som like gjerne kan settes til 0. De to komponentene vi beholder forklarer samlet 55.97% av

25 variansen i variablene og alle variablene er brukbart representert i det to-dimensjonale rommet (for variablene varierer forklart varians ved to komponenter fra 48% til 63%). Men hvordan skal vi forstå (tolke) de to komponentene? En rimelig strategi er jo da å se på hvilke spørsmål de korrelerer med: Men dette ble ikke så enkelt. Den første komponenten korrelerer høyt med alle spørsmålene og den andre komponenten korrelerer også høyt (men litt lavere) med alle spørsmålene. Og dersom vi plotter ladningene etter komponentene, så ser det slik ut: Dette er et veldig vanlig resultat å få når vi ser på det som kalles for «uroterte ladninger». Urotert er riktignok som vi har sett litt misvisende siden de faktisk er roterte etter hvor mye varians de forklarer i variablene. Men vi har sett at vi kan rotere disse komponentene som vi vil uten å miste totalt forklart varians i variablene bare vi passer på at de holdes ukorrelerte. Hadde vi visst hvordan vi ønsket å tolke komponentene (og det gjør vi jo her), så kunne vi brukt en «target rotasjon». Men la oss se hvordan det går dersom vi bare forsøker å rotere dem slik at de blir så enkle å tolke som mulig. Da må vi ha et kriterium å rotere etter. Vi forsøker en rotasjonsmetode som helt klart er den som oftest anvendes: en varimax-rotasjon.

26 Vi får nå et resultat for «extraction» (urotert) og et for «rotation» (etter varimax-rotasjon). Legg merke til at den totale forklarte variansen i variablene er den samme, men den er fordelt litt ulikt på komponentene. Etter rotasjon er komponentene mye likere med hensyn til betydning for variansen i variablene. Og disse roterte komponentene korrelerer nå slik med variablene: Og dersom vi plotter disse:

27 Den første komponenten korrelerer nå høyt med spørsmålene 1 til 4 og er så godt som ukorrelert med de 4 andre og kunne helt uproblematisk døpes «varme». Den andre komponenten korrelerer tilsvarende høyt med spørsmålene 5 til 8, og er svært lavt korrelert med de andre spørsmålene og kunne like uproblematisk døpes «evne». Denne rotasjonsmetoden fungerer ofte overraskende bra! Vi kan ikke enkelt vise akkurat hva den gjør siden metoden er iterativ den må prøve seg frem for å finne riktig løsning - men vi kan demonstrere det. Over har jeg oppsummert de to ladnings-matrisene og beregnet noen nye kolonner. I kolonnene L 2 har jeg kvadrert ladningene. Under disse har jeg beregnet variansen i disse kvadrerte ladningene. Og endelig har jeg summert disse variansene for hver løsning. Det som fremkommer er at summen av disse variansene er større for den varimax-roterte løsningen. Varimax roterer komponentene slik at summen av variansene til de kvadrerte ladningene blir så stor som mulig (maksimert) og derav navnet: varimax. Thurstone foreslo 5 kriterier for en «enkel tolkbar struktur». Varimax rotasjonen er et forsøk på å operasjonalisere noen av disse matematisk, men det finnes en rekke andre forslag til rotasjonsmetoder. Noen av disse finnes også i SPSS. Vi kan ikke her gå i detalj på alle disse, men nøyer oss med å illustrere den generelle ideen. Vi har nå bestemt oss for dimensjonaliteten og tolkningen og vi har basert begge deler på korrelasjonene mellom variablene (variabelrommet). Men når vi konstruerer et måleverktøy enten dette er en test, en personlighetskartlegging, et holdningsmål, eller hva det måtte være så er vi selvsagt også interesserte i hvor observasjonene våre (i psykologien ofte personene) befinner seg i det rommet vi har valgt å beskrive. Da går vi videre med det.

28

29 Nå kan vi gi alle observasjonene (personene) en skåre på begge komponentene. Slik beregnes disse for de tre første personene. Da må vi først standardisere de opprinnelige variablene: Standardisert: Komponentskårer for de tre første personene: Og heldigvis stemmer disse utregningene helt med det vi får fra SPSS: Dersom vi korrelerer de to komponentene med hverandre får vi dette: Og dersom vi korrelerer de to komponentene med de opprinnelige variablene får vi dette:

30 Men begge deler visste vi på forhånd: komponentene blir garantert ukorrelerte og korrelasjoner mellom variabler og komponenter finner vi som komponent ladninger! Nå har alle personene fått skårer både på «varme» og «evne», og vi kan beskrive dette «personrommet» langs de samme dimensjonene som vi beskrev «variabelrommet»: Men her kan man ofte se at man blander sammen strukturen i «personrommet» og «variabelrommet». Variablene vil for eksempel kunne dukke opp som organisert langs omkretsen i en sirkel som i circumplexen eller «klumpe seg sammen» langs dimensjoner ved at de er korrelerte når vi har en «enkel struktur». I «personrommet» vil det ikke se slik ut. Der vil personene dukke opp (når vi har mange nok observasjoner) i en rundt «sky» sentrert rundt 0 (gjennomsnittet). Det skulle bare mangle: dimensjonene er jo ukorrelerte! Men vi kan her beskrive disse personene langs så mange retninger vi bare ønsker i det to-dimensjonale rommet for eksempel 4, 8 eller 16 i Leary s circumplex. Dere kan jo selv finne ut i hvilken retning «de farlige/truende» ville befinne seg i plottet over. Og vi kan enkelt bruke Pythagoras for å finne ut hvor langt ut i slike retninger personer befinner seg. Og vi kan bruke generaliseringer av Pythagoras for å finne likheter mellom personer målt i vinkler eller cosinus til vinkler (korrelasjoner) - eller avstander mellom personer i flerdimensjonale rom «Euklidsk avstand». Dette utnyttes for eksempel i «kluster-analyse». Prinsipal komponent analysen er altså en forholdsvis enkel og robust teknikk for å beskrive variabler i rom hvor dimensjonene er ukorrelerte, og veldig ofte da i rom av lavere dimensjonalitet (dimension reduction). Og det knytter seg veldig få forutsetninger til bruk av denne teknikken. Vi bruker den som regel på korrelasjonsmatriser, og så lenge vi velger å anta at korrelasjoner er rimelig mål på et eller annet, så kan vi bruke PCA. Men PCA kan brukes på alle matriser hvor vi kan finne egenverdier og egenvektorer.

31 Og fordelene er mange: Det er et enkelt forhold mellom «variabelrommet» og «personrommet». Har vi valgt en dimensjonalitet for å beskrive relasjonene mellom variablene, så kan personene beskrives presist i det samme rommet. Vi trenger ingen antagelser om at variabler er kausalt forårsaket av latente fenomener, har common variance og at de kan være påvirket av tilfeldige målingsfeil (manglende reliabilitet) eller forutsetninger om en «refleksiv» målemodell - som i «faktoranalysen». Vi trenger ingen forutsetninger om uavhengige observasjoner. PCA brukes for eksempel rutinemessig i analyser av situasjoner hvor alle målinger er innen samme person. Analyser av Kelly s Repertory Grid er et eksempel på det. Her forsøker man gjerne å forstå personers «verdensbilde» ved å undersøke hvordan personen opplever objekter (observasjoner) beskrevet ved en rekke egenskaper/begreper (variabler) og reduksjon av kompleksitet er både nødvendig og ønskelig: Men så får vi da heller ikke «p-verdier» og «signifikanstester» fra en PCA. Vi trenger ingen forutsetninger om antall observasjoner. I en grid som nevnt over kan det godt være at man har flere begreper enn objekter. Vi kan likevel få et meningsfullt bilde av strukturen ved en PCA, men må huske på at vi da ikke kan få flere komponenter enn antall observasjoner-1. At vi har flere variabler enn observasjoner kan også skje i situasjoner hvor man har gjort veldig mange målinger (x-variabler) og ønsker å bruke disse x-variablene til å predikere en y-variabel for eksempel i «brain imaging». Dersom vi har flere x-variabler enn vi har observasjoner vil det oppstå perfekt lineære sammenhenger mellom x-variabler (høy multi-kollinearitet) og vi ville få problemer med regresjonsanalysen. En mulighet er at vi for så vidt har mange observasjoner med mange av x- variablene er veldig høyt korrelerte (høy multi-kollinearitet). En mulig strategi i slike tilfeller er å først redusere variablene til et antall prinsipale komponenter og deretter bruke disse som prediktorer. En kan på den måten også fjerne «irrelevant» variasjon i x-variablene. Dette kalles ofte for «prinsipal komponent regresjon» (PCR). At det knyttes forutsetninger til PCA skyldes at denne ofte benyttes som en metode for faktoranalyse. Frem til 2000-tallet vil jeg anta at i de fleste psykologiske artikler hvor det var benyttet faktoranalyse, så var det egentlig PCA som var benyttet. Det skyldes nok både at denne metoden er enkel å implementere og at den var og fortsatt er - standardvalg i SPSS. Da støter vi selvsagt på de samme forutsetningene som knytter seg til faktoranalysen! Og i tillegg skal vi se at PCA har en litt uheldig egenskap når vi benytter den som en metode for faktoranalyse. Men man kan godt bruke PCA uten nødvendigvis å ønske og foreta en faktoranalyse men det kan det erfaringsmessig være vanskelig å overbevise konsulenter og redaktører om at er en mulighet. Ingen kan vel egentlig nekte oss å beskrive strukturen i en korrelasjonsmatrise som vi måtte ønske? Da fortsetter vi med faktoranalysen og da kan vi heldigvis ta med oss alt vi har snakket om til nå!

32 Før vi ser på de mer praktiske detaljene i faktor-analysen kan det være smart å se på hva som teknisk skiller denne fra PCA. Korrelasjonsmatrisen for de 8 variablene vi målte i eksemplet over ser slik ut: Hva som står i diagonalen i denne vil bestemmer hvor mye av variasjonen i variablene en PCA vil forsøke å forklare og her står det 1 (eller 100%). En fundamental ide i faktoranalysen er imidlertid at når variabler korrelerer ned hverandre så er det fordi de måler det samme latente fenomenet de er kausalt forårsaket av det samme fenomenet (en refleksiv målemodell). Variasjon i en variabel som ikke er relatert til noen andre variabler kan ikke være forårsaket av noe felles. Den variasjonen kalles i faktor-analysen «unik variasjon» - og denne vil faktor-analysen forsøke å fjerne! Vi analyserer altså bare variasjon som en variabel har felles med i hvert fall noen andre variabler (common variance). En måte å få tak i hvor mye av variasjonen i en variabel som er felles med andre vil jo være å gjøre en multippel regresjonsanalyse hvor vi forklarer variasjonen i hver variabel med alle de andre! Resultatet ser slik ut her: Og da bytter jeg ut diagonalen i korrelasjonsmatrisen med disse verdiene.

33 Og deretter finner jeg egenverdiene og egenvektorene til denne korrelasjonsmatrisen! Her dukket det opp mange negative egenverdier og her trenger man en robust metode for å finne egenverdiene og egenvektorene! Det finnes faktisk anvendelser i matematikk hvor negative egenverdier har en tolkning, men for oss som tolker disse som dimensjonenes varians, blir det meningsløst. Men jeg velger 2 faktorer, setter resten til 0, og beregner «faktorladningene» som tidligere: Og slik blir resultatet fra SPSS:

34 Som dere ser, så kom SPSS frem til litt andre egenverdier og ladninger enn jeg gjorde. Det er fordi SPSS ikke stoppet der jeg gjorde! Den forklarte variansen i variablene er den estimerte kommunaliteten (fellesvariansen) i variablene. Den kan ikke bare beregnes slik jeg gjorde den må estimeres! Og slik jeg beregnet den brukes bare som startpunkt i en faktoranalyse. Så SPSS gikk en runde til. Den tok de R 2 som vi kom frem til nå satte disse på diagonalen i korrelasjonsmatrisen og gjorde beregningene en gang til. Dersom jeg gjør det, så får jeg: Vi kom litt nærmere resultatet fra SPSS, men det ble ikke helt likt. Nå burde jeg sette inn de nye kommunalitetsestimatene og gå en runde til. Men SPSS brukte hele 7 runder før den var fornøyd, og det syntes jeg ble litt mye. «Manuell» faktoranalyse er slitsomt, så jeg hopper rett til estimatene fra trinn 7, og da blir resultatet som nedenfor.

35 Nå er det bare avrundingsfeil som skiller mitt resultat fra resultatet fra SPSS. Denne måten å gjøre en faktor-analyse på er den vanligste og kalles «principal axis factoring» (PAF), og er rett og slett en principal component analyse (PCA) av en korrelasjonsmatrise med estimert kommunalitet (fellesvarians) i diagonalen! Og denne kommunaliteten må estimeres iterativt. PCA forsøker altså å forklare all variansen i observerte variabler PAF forsøker å forklare den variansen som variabler har felles! En ting man kan legge merke til er at når vi gjør en PCA, så påvirkes ikke beregning av komponentladninger av antall komponenter vi velger vi bare stryker de vi ikke trenger. Men ved PAF så påvirkes de estimerte faktorladningene av estimert kommunalitet, og denne er påvirket av antall faktorer vi velger. For tolkning vil det heldigvis ikke spille stor rolle i praksis. Skulle det gjøre det, så måtte vi ha en del variabler med veldig lav kommunalitet, og slike variabler ville vi antagelig ha utelatt lenge før vi startet med faktor-analysen uansett.

36 Dersom vi plotter ladningene fra PAF etter en varimax rotasjon for vårt eksempel, så ser vi at tolkningen påvirkes lite: Og slik vil det heldigvis nesten alltid være. Vi skal ha særdeles spesielle data med uklar struktur før tolkningen av strukturen blir forskjellig avhengig av om vi baserer tolkningen på resultatet fra PCA eller PAF. Og da burde vi kanskje ikke benyttet hverken PCA eller PAF. Men obs! Ser dere på figurene, så ser dere at igjen ble rotasjonen annerledes: komponent 2 ble til faktor 1 og komponent 1 ble til faktor 2. Det skyldes bare at disse sorteres etter forklart varians i variablene, og det kan fort bli litt annerledes når man går fra PCA til PAF. Og DA går vi over til faktor-analysen!

Eksamen PSYC2104 Kvantitativ metode A Vår 2019

Eksamen PSYC2104 Kvantitativ metode A Vår 2019 Eksamen PSYC2104 Kvantitativ metode A Vår 2019 Her er forslag til forhold som kunne vært med i en besvarelse. At man har fått med alt er selvsagt ikke nødvending for å bestå men jo mer jo bedre.. OPPGAVE

Detaljer

Eksplorerende faktor-analyse.

Eksplorerende faktor-analyse. Eksplorerende faktor-analyse. Noen forutsetninger: Vi bruker alltid variabler som er standardiserte med gjennomsnitt=0 og standardavvik=1: obs Y X zy zx Regresjonsanalyser: 1 18.93 21.85-0.50 0.71 2 18.41

Detaljer

RELIABILITET : Pålitelighet? Troverdighet? Reproduserbarhet? Stabilitet? Konsistens?

RELIABILITET : Pålitelighet? Troverdighet? Reproduserbarhet? Stabilitet? Konsistens? RELIABILITET : Pålitelighet? Troverdighet? Reproduserbarhet? Stabilitet? Konsistens? I dagligtale og i ulike fremstillinger også innenfor psykologisk forskningsmetode, brukes slike begreper og reliabilitet

Detaljer

Eksamen PSYC3101 Kvantitativ metode II Våren 2014

Eksamen PSYC3101 Kvantitativ metode II Våren 2014 Eksamen PSYC3101 Kvantitativ metode II Våren 2014 Skriftlig skoleeksamen, onsdag 19. mars kl. 09:00 (3 timer). Sensur etter tre uker. Ingen hjelpemidler er tillatt under eksamen. Alle oppgavene skal besvares

Detaljer

Eksamensoppgave i PSY3100 Forskningsmetode - kvantitativ

Eksamensoppgave i PSY3100 Forskningsmetode - kvantitativ Psykologisk institutt Eksamensoppgave i PSY3100 Forskningsmetode - kvantitativ Faglig kontakt under eksamen: Odin Hjemdal Tlf.: Psykologisk institutt 73 59 19 60 Eksamensdato: 23.5.2013 Eksamenstid (fra-til):

Detaljer

Eksamensoppgave i PSY3100 Forskningsmetode kvantitativ

Eksamensoppgave i PSY3100 Forskningsmetode kvantitativ Psykologisk institutt Eksamensoppgave i PSY3100 Forskningsmetode kvantitativ Faglig kontakt under eksamen: Christian Klöckner Tlf.: 73 59 19 60 Eksamensdato: 8. desember 2016 Eksamenstid: 09:00 13:00 Hjelpemiddelkode/Tillatte

Detaljer

Gjør gjerne analysene under her selv, så blir dere mer fortrolige med utskriften fra Spss. Her har jeg sakset og klippet litt.

Gjør gjerne analysene under her selv, så blir dere mer fortrolige med utskriften fra Spss. Her har jeg sakset og klippet litt. Gjør gjerne analysene under her selv, så blir dere mer fortrolige med utskriften fra Spss. Her har jeg sakset og klippet litt. Data fra likelonn.sav og vi ser på variablene Salnow, Edlevel og Sex (hvor

Detaljer

EKSAMEN I PSY3100 FORSKNINGSMETODE KVANTITATIV HØSTEN 2012

EKSAMEN I PSY3100 FORSKNINGSMETODE KVANTITATIV HØSTEN 2012 NTNU Fakultet for samfunnsvitenskap og teknologiledelse Psykologisk institutt EKSAMEN I PSY3100 FORSKNINGSMETODE KVANTITATIV HØSTEN 2012 DATO: 12.12.12 Studiepoeng: 7,5 Sidetall bokmål 4 Tillatte hjelpemidler:

Detaljer

Datamatrisen: observasjoner, variabler og verdier. Variablers målenivå: Nominal Ordinal Intervall Forholdstall (ratio)

Datamatrisen: observasjoner, variabler og verdier. Variablers målenivå: Nominal Ordinal Intervall Forholdstall (ratio) Datamatrisen: observasjoner, variabler og verdier. Variablers målenivå: Nominal Ordinal Intervall Forholdstall (ratio) Beskrive fordelinger (sentraltendens, variasjon og form): Observasjon y i Sentraltendens

Detaljer

Endring over tid. Endringsskårer eller Ancova? Data brukt i eksemplene finner dere som anova-4-1.sav, anova-4-2.sav og likelonn.sav.

Endring over tid. Endringsskårer eller Ancova? Data brukt i eksemplene finner dere som anova-4-1.sav, anova-4-2.sav og likelonn.sav. Endring over tid. Endringsskårer eller Ancova? Data brukt i eksemplene finner dere som anova-4-1.sav, anova-4-2.sav og likelonn.sav. Analyse av endringsskårer (change scores). Vi så forrige gang på analyser

Detaljer

Eksamensoppgave i PSY3100 forskningsmetoder kvantitativ

Eksamensoppgave i PSY3100 forskningsmetoder kvantitativ Institutt for psykologi Eksamensoppgave i PSY3100 forskningsmetoder kvantitativ Faglig kontakt under eksamen: Odin Hjemdal Tlf.: 73 59 19 60 Eksamensdato: 15. mai 2017 Eksamenstid: 09:00-13:00 Hjelpemiddelkode/Tillatte

Detaljer

Eksamen PSYC3101 Kvantitativ metode II Vår 2015

Eksamen PSYC3101 Kvantitativ metode II Vår 2015 Eksamen PSYC3101 Kvantitativ metode II Vår 2015 Skriftlig skoleeksamen, fredag 27. mars kl. 09:00 (3 timer). Ingen hjelpemidler, utover forhåndsgodkjent ordbok, er tillatt under eksamen. Alle oppgavene

Detaljer

7 Egenverdier og egenvektorer TMA4110 høsten 2018

7 Egenverdier og egenvektorer TMA4110 høsten 2018 7 Egenverdier og egenvektorer TMA4 høsten 8 Det er ofte hensiktsmessig å tenke på en matrise ikke bare som en tabell med tall, men som en transformasjon av vektorer. Hvis A er en m n-matrise, så gir A

Detaljer

Eksamen PSYC3101 Kvantitativ metode II Høsten 2013

Eksamen PSYC3101 Kvantitativ metode II Høsten 2013 Psykologisk institutt Eksamen PSYC3101 Kvantitativ metode II Høsten 2013 Skriftlig skoleeksamen, torsdag 17.oktober kl. 09:00 (3 timer). Sensur etter tre uker. Ingen hjelpemidler er tillatt under eksamen.

Detaljer

Lineære likningssystemer og matriser

Lineære likningssystemer og matriser Kapittel 3 Lineære likningssystemer og matriser I dette kapittelet skal vi sette sammen Kapittel 1 og 2. 3.1 Den utvidede matrisen til et likningssystem Vi starter med et lineært likningssystem med m likninger

Detaljer

ME Vitenskapsteori og kvantitativ metode

ME Vitenskapsteori og kvantitativ metode KANDIDAT 2581 PRØVE ME-417 1 Vitenskapsteori og kvantitativ metode Emnekode ME-417 Vurderingsform Skriftlig eksamen Starttid 18.05.2018 09:00 Sluttid 18.05.2018 13:00 Sensurfrist 08.06.2018 02:00 PDF opprettet

Detaljer

Egenverdier og egenvektorer

Egenverdier og egenvektorer Kapittel 9 Egenverdier og egenvektorer Det er ofte hensiktsmessig å tenke på en matrise ikke bare som en tabell med tall, men som en transformasjon av vektorer Hvis A er en m n-matrise, så gir A en transformasjon

Detaljer

Kan vi forutse en pendels bevegelse, før vi har satt den i sving?

Kan vi forutse en pendels bevegelse, før vi har satt den i sving? Gjør dette hjemme 6 #8 Kan vi forutse en pendels bevegelse, før vi har satt den i sving? Skrevet av: Kristian Sørnes Dette eksperimentet ser på hvordan man finner en matematisk formel fra et eksperiment,

Detaljer

Diagonalisering. Kapittel 10

Diagonalisering. Kapittel 10 Kapittel Diagonalisering I te kapitlet skal vi anvende vår kunnskap om egenverdier og egenvektorer til å analysere matriser og deres tilsvarende lineærtransformasjoner Eksempel Vi begynner med et eksempel

Detaljer

PSYC 3101 KVANTITATIV METODE II Eksamen høst 2008

PSYC 3101 KVANTITATIV METODE II Eksamen høst 2008 Eksamen 7. november kl. 0900 200 Sensur: 8.2. kl. 4 Alle oppgavene skal besvares. PSYC 30 KVANTITATIV METODE II Eksamen høst 2008 OPPGAVE Vurdering av personlige egenskaper Et selskap som driver en nettside

Detaljer

Reelle tall på datamaskin

Reelle tall på datamaskin Reelle tall på datamaskin Knut Mørken 5. september 2007 1 Innledning Tirsdag 4/9 var tema for forelesningen hvordan reelle tall representeres på datamaskin og noen konsekvenser av dette, særlig med tanke

Detaljer

Analysedrypp I: Bevis, mengder og funksjoner

Analysedrypp I: Bevis, mengder og funksjoner Analysedrypp I: Bevis, mengder og funksjoner Hensikten med Analysedrypp er å bygge en bro mellom MAT1100 og MAT1110 på den ene siden og MAT2400 på den andre. Egentlig burde det være unødvendig med en slik

Detaljer

Notat om trigonometriske funksjoner

Notat om trigonometriske funksjoner Notat om trigonometriske funksjoner Dette notatet ble først skrevet for MA000 våren 005 av Ole Jacob Broch. Dette er en noe omarbeidet versjon skrevet høsten 0. Radianer Anta at en vinkel A er gitt, f.eks

Detaljer

SOS1120 Kvantitativ metode. Regresjonsanalyse. Lineær sammenheng II. Lineær sammenheng I. Forelesningsnotater 11. forelesning høsten 2005

SOS1120 Kvantitativ metode. Regresjonsanalyse. Lineær sammenheng II. Lineær sammenheng I. Forelesningsnotater 11. forelesning høsten 2005 SOS1120 Kvantitativ metode Regresjonsanalyse Forelesningsnotater 11. forelesning høsten 2005 Per Arne Tufte Lineær sammenheng I Lineær sammenheng II Ukelønn i kroner 4000 3500 3000 2500 2000 1500 1000

Detaljer

Repeated Measures Anova.

Repeated Measures Anova. Repeated Measures Anova. Vi bruker oppgave-5 som eksempel. I en evalueringsstudie av en terapeutisk intervensjon valgte man et pre-post med kontrollgruppe design. Alle personer ble undersøkt tre ganger

Detaljer

Brukerkurs i Gauss feilforplantning

Brukerkurs i Gauss feilforplantning Brukerkurs i Gauss feilforplantning Knut S. Gjerden 9. august 2011 evt. gaussisk feilforplantning eller bruk av Gauss lov for feilforplantning. Samt litt generelt om fysikkting.

Detaljer

Emne 10 Litt mer om matriser, noen anvendelser

Emne 10 Litt mer om matriser, noen anvendelser Emne 10 Litt mer om matriser, noen anvendelser (Reelle) ortogonale matriser La A være en reell, kvadratisk matrise, dvs. en (n n)-matrise hvor hvert element Da vil A være ortogonal dersom: og Med menes

Detaljer

= 5, forventet inntekt er 26

= 5, forventet inntekt er 26 Eksempel på optimal risikodeling Hevdet forrige gang at i en kontrakt mellom en risikonøytral og en risikoavers person burde den risikonøytrale bære all risiko Kan illustrere dette i en enkel situasjon,

Detaljer

I enkel lineær regresjon beskrev linja. μ y = β 0 + β 1 x

I enkel lineær regresjon beskrev linja. μ y = β 0 + β 1 x Multiple regresjon Her utvider vi perspektivet for enkel lineær regresjon til også å omfatte flere forklaringsvariable.det er fortsatt en responsvariabel. Måten dette gjøre på er nokså naturlig. Prediktoren

Detaljer

Mulige sammenhenger for plassering på samfunnsstigen

Mulige sammenhenger for plassering på samfunnsstigen Mulige sammenhenger for plassering på samfunnsstigen - blokkvis multippel regresjonsanalyse - Utarbeidet av Ronny Kleiven Antall ord (ekskludert forside og avsnitt 7) 2163 1. SAMMENDRAG Oppgaven starter

Detaljer

Kompleksitetsanalyse Helge Hafting 25.1.2005 Opphavsrett: Forfatter og Stiftelsen TISIP Lærestoffet er utviklet for faget LO117D Algoritmiske metoder

Kompleksitetsanalyse Helge Hafting 25.1.2005 Opphavsrett: Forfatter og Stiftelsen TISIP Lærestoffet er utviklet for faget LO117D Algoritmiske metoder Helge Hafting 25.1.2005 Opphavsrett: Forfatter og Stiftelsen TISIP Lærestoffet er utviklet for faget LO117D Algoritmiske metoder Innhold 1 1 1.1 Hva er en algoritme?............................... 1 1.2

Detaljer

Løsningsforslag ECON 2130 Obligatorisk semesteroppgave 2017 vår

Løsningsforslag ECON 2130 Obligatorisk semesteroppgave 2017 vår Løsningsforslag ECON 130 Obligatorisk semesteroppgave 017 vår Andreas Myhre Oppgave 1 1. (i) Siden X og Z er uavhengige, vil den simultane fordelingen mellom X og Z kunne skrives som: f(x, z) = P(X = x

Detaljer

Effektstørrelse. Tabell 1. Kritiske verdier for Pearson s produkt-moment-korrelasjon med 5% og 1% signifikansnivå. N 5% 1% N 5% 1%

Effektstørrelse. Tabell 1. Kritiske verdier for Pearson s produkt-moment-korrelasjon med 5% og 1% signifikansnivå. N 5% 1% N 5% 1% Thor Arnfinn Kleven Institutt for pedagogikk 19.09.2013 Effektstørrelse Tradisjonelt har signifikanstesting vært fremhevet som den viktigste statistiske analyseformen i pedagogisk og psykologisk forskning.

Detaljer

4 Matriser TMA4110 høsten 2018

4 Matriser TMA4110 høsten 2018 Matriser TMA høsten 8 Nå har vi fått erfaring med å bruke matriser i et par forskjellige sammenhenger Vi har lært å løse et lineært likningssystem ved å sette opp totalmatrisen til systemet og gausseliminere

Detaljer

Eksamensoppgave i PSY2017/PSYPRO4317. Statistikk og kvantitative forskningsmetoder. Målform/språk: Bokmål Antall sider: 10. Psykologisk institutt

Eksamensoppgave i PSY2017/PSYPRO4317. Statistikk og kvantitative forskningsmetoder. Målform/språk: Bokmål Antall sider: 10. Psykologisk institutt 1 Psykologisk institutt Eksamensoppgave i PSY2017/PSYPRO4317 Statistikk og kvantitative forskningsmetoder Faglig kontakt under eksamen: Christian Klöckner Tlf.: 73 59 19 60 Eksamensdato:11.12.014 Eksamenstid

Detaljer

Fra spørreskjema til skalaer og indekser

Fra spørreskjema til skalaer og indekser Fra spørreskjema til skalaer og indekser Forelesning 12 (1. time) 1 Måleprosessen Teoretisk definisjon Mål, skalaer Operasjonell definisjon Datamatrise Måleinstrument Virkligheten 2 Hva skal måles? Direkte

Detaljer

Kapittel 2. Utforske og beskrive data. Sammenhenger mellom variable Kap. 2.1 om assosiasjon og kryssplott forrige uke. Kap. 2.2, 2.3, 2.

Kapittel 2. Utforske og beskrive data. Sammenhenger mellom variable Kap. 2.1 om assosiasjon og kryssplott forrige uke. Kap. 2.2, 2.3, 2. Kapittel 2 Utforske og beskrive data Sammenhenger mellom variable Kap. 2.1 om assosiasjon og kryssplott forrige uke. Kap. 2.2, 2.3, 2.4 denne uken To kryssplott av samme datasett, men med forskjellig skala

Detaljer

MA1102 Grunnkurs i analyse II Vår 2019

MA1102 Grunnkurs i analyse II Vår 2019 Norges teknisk naturvitenskapelige universitet Institutt for matematiske fag MA1102 Grunnkurs i analyse II Vår 2019 10.2.27 a) Vi skal vise at u + v 2 = u 2 + 2u v + v 2. (1) Som boka nevner på side 581,

Detaljer

Geometri Mona Røsseland Nasjonalt senter for matematikk i Opplæringen Leder i LAMIS Lærebokforfatter, MULTI Geometri i skolen Geometri etter 4.

Geometri Mona Røsseland Nasjonalt senter for matematikk i Opplæringen Leder i LAMIS Lærebokforfatter, MULTI Geometri i skolen Geometri etter 4. Geometri Mona Røsseland Nasjonalt senter for matematikk i Opplæringen Leder i LAMIS Lærebokforfatter, MULTI 15-Apr-07 Geometri i skolen dreier seg blant annet om å analysere egenskaper ved to- og tredimensjonale

Detaljer

ECON2130 Kommentarer til oblig

ECON2130 Kommentarer til oblig ECON2130 Kommentarer til oblig Her har jeg skrevet ganske utfyllende kommentarer til en del oppgaver som mange slet med. Har noen steder gått en del utover det som det strengt tatt ble spurt om i oppgaven,

Detaljer

5.8 Iterative estimater på egenverdier

5.8 Iterative estimater på egenverdier 5.8 Iterative estimater på egenverdier Det finnes ingen eksplisitt formel for beregning av egenverdiene til en kvadratisk matrise. Iterative metoder som finner (ofte) en (meget god) approksimasjon til

Detaljer

6: Trigonometri. Formlikhet bør kanskje repeteres. Og Pytagoras læresetning. Se nettsidene! Oppgaver Innhold Dato

6: Trigonometri. Formlikhet bør kanskje repeteres. Og Pytagoras læresetning. Se nettsidene! Oppgaver Innhold Dato Plan for hele året: - Kapittel 7: Mars - Kapittel 8: Mars/april 6: Trigonometri - Repetisjon: April/mai - Økter, prøver, prosjekter: Mai - juni Ordet geometri betyr egentlig jord- (geos) måling (metri).

Detaljer

Profil Lavpris Supermarked Hypermarked Totalt. Coop Prix 4 4. Coop Extra 13 5. Coop Mega 7 7. Coop Obs 5 13. Rimi 24 24. Ica Supermarked 7 7

Profil Lavpris Supermarked Hypermarked Totalt. Coop Prix 4 4. Coop Extra 13 5. Coop Mega 7 7. Coop Obs 5 13. Rimi 24 24. Ica Supermarked 7 7 Vedlegg 1 - Regresjonsanalyser 1 Innledning og formål (1) Konkurransetilsynet har i forbindelse med Vedtak 2015-24, (heretter "Vedtaket") utført kvantitative analyser på data fra kundeundersøkelsen. I

Detaljer

1. De fleste blir mer vennlige av å drikke alkohol Mange blir mer aggressive av å drikke alkohol

1. De fleste blir mer vennlige av å drikke alkohol Mange blir mer aggressive av å drikke alkohol EKSAMEN i PSYC3101/ PSY4510 Høst 2009 Kvantitative metoder II 15. desember kl. 09:00 (3 timer). Ingen hjelpemidler tillatt Alle oppgavene skal besvares OPPGAVE 1: a) Forklar hva som menes med begrepet

Detaljer

Løsningsforslag til obligatorisk oppgave i ECON 2130

Løsningsforslag til obligatorisk oppgave i ECON 2130 Andreas Mhre April 15 Løsningsforslag til obligatorisk oppgave i ECON 13 Oppgave 1: E(XY) = E(X(Z X)) Setter inn Y = Z - X E(XY) = E(XZ X ) E(XY) = E(XZ) E(X ) E(XY) = - E(X ) X og Z er uavhengige, så

Detaljer

Lineærtransformasjoner

Lineærtransformasjoner Kapittel 8 Lineærtransformasjoner I forrige kapittel begynte vi å formulere lineær algebra på en generell måte, ved å gi en abstrakt definisjon av vektorrom For å beskrive sammenhenger mellom forskjellige

Detaljer

Kort overblikk over kurset sålangt

Kort overblikk over kurset sålangt Kort overblikk over kurset sålangt Kapittel 1: Deskriptiv statististikk for en variabel Kapittel 2: Deskriptiv statistikk for samvariasjon mellom to variable (regresjon) Kapittel 3: Metoder for å innhente

Detaljer

Et lite notat om og rundt normalfordelingen.

Et lite notat om og rundt normalfordelingen. Et lite notat om og rundt normalfordelingen. Anta at vi har kontinuerlige data. Hva er likt og ulikt for histogrammer og fordelingskurver? Observasjoner Histogram Viser fordelingen av faktiske observerte

Detaljer

Vektorligninger. Kapittel 3. Vektorregning

Vektorligninger. Kapittel 3. Vektorregning Kapittel Vektorligninger I denne uken skal vi bruke enkel vektorregning til å analysere lineære ligningssystemer. Vi skal ha et spesielt fokus på R, for det går an å visualisere; klarer man det, går det

Detaljer

Eksamensoppgave i PSY2017/PSYPRO4317 Statistikk og kvantitative forskningsmetoder

Eksamensoppgave i PSY2017/PSYPRO4317 Statistikk og kvantitative forskningsmetoder Psykologisk institutt Eksamensoppgave i PSY2017/PSYPRO4317 Statistikk og kvantitative forskningsmetoder Faglig kontakt under eksamen: Martin Rasmussen Tlf.: 73 59 19 60 Eksamensdato: 12.12.13 Eksamenstid

Detaljer

Eksamensoppgave i PSY2017/PSYPRO4317 Statistikk og kvantitative forskningsmetoder

Eksamensoppgave i PSY2017/PSYPRO4317 Statistikk og kvantitative forskningsmetoder Psykologisk institutt Eksamensoppgave i PSY2017/PSYPRO4317 Statistikk og kvantitative forskningsmetoder Faglig kontakt under eksamen: Martin Rasmussen Tlf.: 73 59 19 60 Eksamensdato: 04.06.2014 Eksamenstid

Detaljer

Et lite notat om og rundt normalfordelingen. Anta at vi har kontinuerlige data. Hva er likt og ulikt for histogrammer og fordelingskurver?

Et lite notat om og rundt normalfordelingen. Anta at vi har kontinuerlige data. Hva er likt og ulikt for histogrammer og fordelingskurver? Et lite notat om og rundt normalfordelingen. Anta at vi har kontinuerlige data. Hva er likt og ulikt for histogrammer og fordelingskurver? Boka (Ch 1.4) motiverer dette ved å gå fra histogrammer til tetthetskurver.

Detaljer

PSY2012 Forskningsmetodologi III: Statistisk analyse, design og måling Eksamen vår 2014

PSY2012 Forskningsmetodologi III: Statistisk analyse, design og måling Eksamen vår 2014 Psykologisk institutt PSY2012 Forskningsmetodologi III: Statistisk analyse, design og måling Eksamen vår 2014 Skriftlig skoleeksamen fredag 2. mai, 09:00 (4 timer). Kalkulator uten grafisk display og tekstlagringsfunksjon

Detaljer

a) Forklar hva som menes med faktorladning, kommunalitet og eigenvalue.

a) Forklar hva som menes med faktorladning, kommunalitet og eigenvalue. Psykologisk institutt - UiO Eksamen PSYC3101 Kvantitative metoder II Høsten 2012 Skriftlig skoleeksamen, 5.oktober kl. 09:00 (3 timer). Ingen hjelpemidler er tillatt under eksamen. Alle oppgaver skal besvares.

Detaljer

Et lite notat om og rundt normalfordelingen.

Et lite notat om og rundt normalfordelingen. Et lite notat om og rundt normalfordelingen. Anta at vi har kontinuerlige data. Hva er likt og ulikt for histogrammer og fordelingskurver? Observasjoner Histogram Viser fordelingen av faktiske observerte

Detaljer

Kapittel 6. Trekanter

Kapittel 6. Trekanter Kapittel 6. Trekanter Mål for kapittel 6: Kompetansemål Mål for opplæringen er at eleven skal kunne bruke og grunngi bruk av formlikhet, målestokk og Pytagoras setning til beregninger i praktisk arbeid

Detaljer

Eksamen PSYC2104 Kvantitativ metode A Høst 2018

Eksamen PSYC2104 Kvantitativ metode A Høst 2018 Eksamen PSYC2104 Kvantitativ metode A Høst 2018 Skriftlig skoleeksamen, 22. oktober (3 timer). Sensur etter tre uker. Ingen hjelpemidler er tillatt under eksamen. Alle oppgavene skal besvares OPPGAVE 1

Detaljer

QED 1 7. Matematikk for grunnskolelærerutdanningen. Bind 2. Fasit kapittel 4 Statistikk og kvantitativ metode

QED 1 7. Matematikk for grunnskolelærerutdanningen. Bind 2. Fasit kapittel 4 Statistikk og kvantitativ metode QED 1 7 Matematikk for grunnskolelærerutdanningen Bind 2 Fasit kapittel 4 Statistikk og kvantitativ metode Kapittel 4 Oppgave 1 La være antall øyne på terningen. a) Vi får følgende sannsynlighetsfordeling

Detaljer

Soloball. Introduksjon. Steg 1: En roterende katt. Sjekkliste. Skrevet av: Geir Arne Hjelle

Soloball. Introduksjon. Steg 1: En roterende katt. Sjekkliste. Skrevet av: Geir Arne Hjelle Soloball Skrevet av: Geir Arne Hjelle Kurs: Scratch Tema: Blokkbasert, Spill Fag: Matematikk, Programmering Klassetrinn: 1.-4. klasse, 5.-7. klasse, 8.-10. klasse Introduksjon Vi skal nå lære hvordan vi

Detaljer

GeoGebraøvelser i geometri

GeoGebraøvelser i geometri GeoGebraøvelser i geometri av Peer Andersen Peer Andersen 2014 Innhold Innledning... 3 Øvelse 1. Figurer i GeoGebra... 4 Øvelse 2. Noen funksjoner i GeoGebra... 8 Øvelse 3. Omskrevet sirkelen til en trekant...

Detaljer

ØVINGER 2017 Løsninger til oppgaver. Øving 1

ØVINGER 2017 Løsninger til oppgaver. Øving 1 ØVINGER 017 Løsninger til oppgaver Øving 1.1. Frekvenstabell For å lage en frekvenstabell må vi telle antall observasjoner av hvert antall henvendelser. Siden antall henvendelser på en gitt dag alltid

Detaljer

PSY Anvendt kvantitativ forskningsmetode

PSY Anvendt kvantitativ forskningsmetode PSY4020 1 Anvendt kvantitativ forskningsmetode Oppgaver Oppgavetype Vurdering Informasjon Dokument Automatisk poengsum 1 Oppg 1 a) Skriveoppgave Manuell poengsum 2 Oppg. 1 b) Skriveoppgave Manuell poengsum

Detaljer

9 Lineærtransformasjoner TMA4110 høsten 2018

9 Lineærtransformasjoner TMA4110 høsten 2018 9 Lineærtransformasjoner MA4 høsten 8 I forrige kapittel begynte vi å formulere lineær algebra på en generell måte, ved å gi en abstrakt definisjon av vektorrom For å beskrive sammenhenger mellom forskjellige

Detaljer

Eksamen PSYC2104 Kvantitativ metode A Vår 2019

Eksamen PSYC2104 Kvantitativ metode A Vår 2019 Eksamen PSYC2104 Kvantitativ metode A Vår 2019 Skriftlig skoleeksamen, 3. april klokka 09:00 (3 timer). Sensur etter tre uker. Ingen hjelpemidler er tillatt under eksamen. Alle oppgavene skal besvares.

Detaljer

Matematisk induksjon

Matematisk induksjon Matematisk induksjon 1 Innledning Dette er et nytt forsøk på å forklare induksjon. Strategien min i forelesning var å prøve å unngå å få det til å se ut som magi, ved å forklare prinsippet fort ved hjelp

Detaljer

TMA4245 Statistikk Eksamen desember 2016

TMA4245 Statistikk Eksamen desember 2016 Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag TMA4245 Statistikk Eksamen desember 2016 Oppgave 1 En bedrift produserer elektriske komponenter. Komponentene kan ha to typer

Detaljer

Eksamensoppgave i TMA4267 Lineære statistiske modeller

Eksamensoppgave i TMA4267 Lineære statistiske modeller Institutt for matematiske fag Eksamensoppgave i TMA4267 Lineære statistiske modeller Faglig kontakt under eksamen: Tlf: Eksamensdato: August 2014 Eksamenstid (fra til): Hjelpemiddelkode/Tillatte hjelpemidler:

Detaljer

Snake Expert Scratch PDF

Snake Expert Scratch PDF Snake Expert Scratch PDF Introduksjon En eller annen variant av Snake har eksistert på nesten alle personlige datamaskiner helt siden slutten av 1970-tallet. Ekstra populært ble spillet da det dukket opp

Detaljer

2. Hva er en sampelfordeling? Nevn tre eksempler på sampelfordelinger.

2. Hva er en sampelfordeling? Nevn tre eksempler på sampelfordelinger. H12 - Semesteroppgave i statistikk - sensurveiledning Del 1 - teori 1. Gjør rede for resonnementet bak ANOVA. Enveis ANOVA tester om det er forskjeller mellom gjennomsnittene i tre eller flere populasjoner.

Detaljer

Høsten Skriftlig skoleeksamen, 23. Oktober, kl. 09:00 (3 timer). Sensur etter tre uker.

Høsten Skriftlig skoleeksamen, 23. Oktober, kl. 09:00 (3 timer). Sensur etter tre uker. Psykologisk institutt Eksamen PSY4020 - Anvendt kvantitativ forskningsmetode Eksamen PSYC3101 - Kvantitativ metode II (3. Semester) Eksamen PSYC3101 - Kvantitativ metode II (6. Semester) Høsten 2015 Skriftlig

Detaljer

Kontroller at oppgavesettet er komplett før du begynner å besvare spørsmålene. Ved sensuren teller alle delspørsmål likt.

Kontroller at oppgavesettet er komplett før du begynner å besvare spørsmålene. Ved sensuren teller alle delspørsmål likt. Eksamen i: MET040 Statistikk for økonomer Eksamensdag: 4 november 2008 Tid for eksamen: 09.00-13.00 Oppgavesettet er på 4 sider. Tillatte hjelpemidler: Alle trykte eller egenskrevne hjelpemidler og kalkulator.

Detaljer

Lærersamarbeid, Er det forskjell på hvordan mannlige og kvinnelige lærere samarbeider?

Lærersamarbeid, Er det forskjell på hvordan mannlige og kvinnelige lærere samarbeider? Monica Johannessen Lervik Forskningsmetode i profesjonsrettede lærerutdanningsfagkvantitativ metode, Høsten 2015 Lærersamarbeid, Er det forskjell på hvordan mannlige og kvinnelige lærere samarbeider? 1

Detaljer

Tallfølger er noe av det første vi treffer i matematikken, for eksempel når vi lærer å telle.

Tallfølger er noe av det første vi treffer i matematikken, for eksempel når vi lærer å telle. Kapittel 1 Tallfølger 1, 2, 3, 4, 5, 6, 7, 8,... Det andre temaet i kurset MAT1001 er differenslikninger. I en differenslikning er den ukjente en tallfølge. I dette kapittelet skal vi legge grunnlaget

Detaljer

Matriser. Kapittel 4. Definisjoner og notasjon

Matriser. Kapittel 4. Definisjoner og notasjon Kapittel Matriser Vi har lært å løse et lineært ligningssystem ved å sette opp totalmatrisen til systemet gausseliminere den ved hjelp av radoperasjoner på matrisen Vi skal nå se nærmere på egenskaper

Detaljer

Kapittel 4. Algebra. Mål for kapittel 4: Kompetansemål. Mål for opplæringen er at eleven skal kunne

Kapittel 4. Algebra. Mål for kapittel 4: Kompetansemål. Mål for opplæringen er at eleven skal kunne Kapittel 4. Algebra Mål for kapittel 4: Kompetansemål Mål for opplæringen er at eleven skal kunne gjøre overslag over svar, regne praktiske oppgaver, med og uten digitale verktøy, presentere resultatene

Detaljer

6.2 Signifikanstester

6.2 Signifikanstester 6.2 Signifikanstester Konfidensintervaller er nyttige når vi ønsker å estimere en populasjonsparameter Signifikanstester er nyttige dersom vi ønsker å teste en hypotese om en parameter i en populasjon

Detaljer

Oppgaver Oppgavetype Vurdering Status 1 ME-417, forside Flervalg Automatisk poengsum Levert. 2 ME-417, oppgave 1 Skriveoppgave Manuell poengsum Levert

Oppgaver Oppgavetype Vurdering Status 1 ME-417, forside Flervalg Automatisk poengsum Levert. 2 ME-417, oppgave 1 Skriveoppgave Manuell poengsum Levert ME-417 1 Vitenskapsteori og kvantitativ metode Kandidat 3704 Oppgaver Oppgavetype Vurdering Status 1 ME-417, forside Flervalg Automatisk poengsum Levert 2 ME-417, oppgave 1 Skriveoppgave Manuell poengsum

Detaljer

Løsningsforslag øving 6

Løsningsforslag øving 6 Løsningsforslag øving 6 7 Husk Teorem 79 i notatet: En delmengde U av et vektorrom V er et underrom hvis ) nullvektoren er i U, ) summen av to vektorer i U er i U igjen, og 3) et skalarmultiplum av en

Detaljer

dg = ( g P0 u)ds = ( ) = 0

dg = ( g P0 u)ds = ( ) = 0 NTNU Institutt for matematiske fag TMA4105 Matematikk 2, øving 8, vår 2011 Løsningsforslag Notasjon og merknader Som vanlig er enkelte oppgaver kopiert fra tidligere års løsningsforslag. Derfor kan notasjon,

Detaljer

Illustrasjon av regel 5.19 om sentralgrenseteoremet og litt om heltallskorreksjon (som i eksempel 5.20).

Illustrasjon av regel 5.19 om sentralgrenseteoremet og litt om heltallskorreksjon (som i eksempel 5.20). Econ 130 HG mars 017 Supplement til forelesningen 7. februar Illustrasjon av regel 5.19 om sentralgrenseteoremet og litt om heltallskorreksjon (som i eksempel 5.0). Regel 5.19 sier at summer, Y X1 X X

Detaljer

STK1000 Uke 36, Studentene forventes å lese Ch 1.4 ( ) i læreboka (MMC). Tetthetskurver. Eksempel: Drivstofforbruk hos 32 biler

STK1000 Uke 36, Studentene forventes å lese Ch 1.4 ( ) i læreboka (MMC). Tetthetskurver. Eksempel: Drivstofforbruk hos 32 biler STK1000 Uke 36, 2016. Studentene forventes å lese Ch 1.4 (+ 3.1-3.3 + 3.5) i læreboka (MMC). Tetthetskurver Eksempel: Drivstofforbruk hos 32 biler Fra histogram til tetthetskurver Anta at vi har kontinuerlige

Detaljer

Oppgave 1. Det oppgis at dersom y ij er observasjon nummer j fra laboratorium i så er SSA = (y ij ȳ i ) 2 = 3.6080.

Oppgave 1. Det oppgis at dersom y ij er observasjon nummer j fra laboratorium i så er SSA = (y ij ȳ i ) 2 = 3.6080. EKSAMEN I: MOT310 STATISTISKE METODER 1 VARIGHET: 4 TIMER DATO: 28. FEBRUAR 2005 TILLATTE HJELPEMIDLER: KALKULATOR, TABELLER OG FORMLER I STATISTIKK (TAPIR FORLAG) OPPGAVESETTET BESTÅR AV 4 OPPGAVER PÅ

Detaljer

Noen presiseringer mhp Diskret Fourier Transform. Relevant for oblig 1.

Noen presiseringer mhp Diskret Fourier Transform. Relevant for oblig 1. FYS2130 Våren 2008 Noen presiseringer mhp Diskret Fourier Transform. Relevant for oblig 1. Vi har på forelesning gått gjennom foldingsfenomenet ved diskret Fourier transform, men ikke vært pinlig nøyaktige

Detaljer

Eksamensoppgave i PSY3100 Forskningsmetode - Kvantitativ

Eksamensoppgave i PSY3100 Forskningsmetode - Kvantitativ Psykologisk institutt Eksamensoppgave i PSY3100 Forskningsmetode - Kvantitativ Faglig kontakt under eksamen: Mehmet Mehmetoglu Tlf.: 73 59 19 60 Eksamensdato: 11.12.2013 Eksamenstid (fra-til):09:00 13:00

Detaljer

Kap. 6 Ortogonalitet og minste kvadrater

Kap. 6 Ortogonalitet og minste kvadrater Kap. 6 Ortogonalitet og minste kvadrater IR n er mer enn bare et vektorrom: den har et naturlig indreprodukt, nemlig prikkproduktet av vektorer. Dette indreproduktet gjør det mulig å tenke geometrisk og

Detaljer

Inferens i regresjon

Inferens i regresjon Strategi som er fulgt hittil: Inferens i regresjon Deskriptiv analyse og dataanalyse først. Analyse av en variabel før studie av samvariasjon. Emne for dette kapittel er inferens når det er en respons

Detaljer

6 Determinanter TMA4110 høsten 2018

6 Determinanter TMA4110 høsten 2018 6 Determinanter TMA4110 høsten 2018 En matrise inneholder mange tall og dermed mye informasjon så mye at det kan være litt overveldende Vi kan kondensere ned all informasjonen i en kvadratisk matrise til

Detaljer

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i STK1000 Innføring i anvendt statistikk. Eksamensdag: Torsdag 9. oktober 2008. Tid for eksamen: 15:00 17:00. Oppgavesettet er på

Detaljer

ME Metode og statistikk Candidate 2511

ME Metode og statistikk Candidate 2511 ME-400, forside Emnekode: ME-400 Emnenavn: Metode og statistikk Dato: 31. mai Varighet: 5 timer Tillatte hjelpemidler: Kalkulator (enkel type) Merknader: Besvar 3 av 4 oppgaver (Oppgavene teller likt)

Detaljer

Snøtetthet. Institutt for matematiske fag, NTNU 15. august Notat for TMA4240/TMA4245 Statistikk

Snøtetthet. Institutt for matematiske fag, NTNU 15. august Notat for TMA4240/TMA4245 Statistikk Snøtetthet Notat for TMA424/TMA4245 Statistikk Institutt for matematiske fag, NTNU 5. august 22 I forbindelse med varsling av om, klimaforskning og særlig kraftproduksjon er det viktig å kunne anslå hvor

Detaljer

Forelesning 14. Rekursjon og induksjon. Dag Normann februar Oppsummering. Oppsummering. Beregnbare funksjoner

Forelesning 14. Rekursjon og induksjon. Dag Normann februar Oppsummering. Oppsummering. Beregnbare funksjoner Forelesning 14 og induksjon Dag Normann - 27. februar 2008 Oppsummering Mandag repeterte vi en del om relasjoner, da spesielt om ekvivalensrelasjoner og partielle ordninger. Vi snakket videre om funksjoner.

Detaljer

Vi skal nå programmere et romskip som flyr rundt på skjermen. For å ha kontroll på bevegelsen vil vi bruke to variable, fartx og

Vi skal nå programmere et romskip som flyr rundt på skjermen. For å ha kontroll på bevegelsen vil vi bruke to variable, fartx og Lunar Lander Ekspert Scratch PDF Introduksjon Lunar Lander ble opprinnelig utviklet på slutten av 1970-tallet. Målet med spillet er å lande et romskip på månen. Selve kontrollen av romskipet ble videreført

Detaljer

OPPGAVEHEFTE I STK1000 TIL KAPITTEL 5 OG 6. a b

OPPGAVEHEFTE I STK1000 TIL KAPITTEL 5 OG 6. a b OPPGAVEHEFTE I STK1000 TIL KAPITTEL 5 OG 6 1. Regneoppgaver til kapittel 5 6 Oppgave 1. Mange som kommer til STK1000 med dårlige erfaringer fra tidligere mattefag er livredd ulikheter, selv om man har

Detaljer

Tilleggsoppgaver for STK1110 Høst 2015

Tilleggsoppgaver for STK1110 Høst 2015 Tilleggsoppgaver for STK0 Høst 205 Geir Storvik 22. november 205 Tilleggsoppgave Anta X,..., X n N(µ, σ) der σ er kjent. Vi ønsker å teste H 0 : µ = µ 0 mot H a : µ µ 0 (a) Formuler hypotesene som H 0

Detaljer

Alle svar skal grunngis. Alle deloppgaver har lik vekt.

Alle svar skal grunngis. Alle deloppgaver har lik vekt. Alle svar skal grunngis. Alle deloppgaver har lik vekt. Oppgave Vi denerer matrisene A, B, og C som A = [ ] 3, B = 5 9, C = 3 3. a) Regn ut følgende matrisesummer og matriseprodukter, om mulig. Dersom

Detaljer

FORSØK I OPTIKK. Forsøk 1: Bestemmelse av brytningsindeks

FORSØK I OPTIKK. Forsøk 1: Bestemmelse av brytningsindeks FORSØK I OPTIKK Forsøk 1: Bestemmelse av brytningsindeks Hensikt I dette forsøket skal brytningsindeksen bestemmes for en sylindrisk linse ut fra måling av brytningsvinkler og bruk av Snells lov. Teori

Detaljer

10.1 Enkel lineær regresjon Multippel regresjon

10.1 Enkel lineær regresjon Multippel regresjon Inferens for regresjon 10.1 Enkel lineær regresjon 11.1-11.2 Multippel regresjon 2012 W.H. Freeman and Company Denne uken: Enkel lineær regresjon Litt repetisjon fra kapittel 2 Statistisk modell for enkel

Detaljer

MAT1030 Diskret matematikk

MAT1030 Diskret matematikk MAT1030 Diskret matematikk Forelesning 14: Rekursjon og induksjon Dag Normann Matematisk Institutt, Universitetet i Oslo 27. februar 2008 Oppsummering Mandag repeterte vi en del om relasjoner, da spesielt

Detaljer

MAT1030 Diskret Matematikk

MAT1030 Diskret Matematikk MAT1030 Diskret Matematikk Forelesning 29: Kompleksitetsteori Roger Antonsen Institutt for informatikk, Universitetet i Oslo 13. mai 2009 (Sist oppdatert: 2009-05-17 22:38) Forelesning 29: Kompleksitetsteori

Detaljer