Eksplorerende faktor-analyse.

Like dokumenter
Eksamensoppgave i PSY3100 Forskningsmetode kvantitativ

Eksamensoppgave i PSY3100 Forskningsmetode - kvantitativ

Eksamen PSYC3101 Kvantitativ metode II Våren 2014

Her ser vi på noen egenskaper ved denne metoden som kan være nyttig for oss psykologer.

Eksamen PSYC3101 Kvantitativ metode II Høsten 2013

PSYC 3101 KVANTITATIV METODE II Eksamen høst 2008

EKSAMEN I PSY3100 FORSKNINGSMETODE KVANTITATIV HØSTEN 2012

Eksamensoppgave i PSY3100 forskningsmetoder kvantitativ

Eksamen PSYC2104 Kvantitativ metode A Vår 2019

RELIABILITET : Pålitelighet? Troverdighet? Reproduserbarhet? Stabilitet? Konsistens?

Gjør gjerne analysene under her selv, så blir dere mer fortrolige med utskriften fra Spss. Her har jeg sakset og klippet litt.

Eksamensoppgave i PSY2017/PSYPRO4317. Statistikk og kvantitative forskningsmetoder. Målform/språk: Bokmål Antall sider: 10. Psykologisk institutt

Eksamensoppgave i PSY2017/PSYPRO4317 Statistikk og kvantitative forskningsmetoder

Endring over tid. Endringsskårer eller Ancova? Data brukt i eksemplene finner dere som anova-4-1.sav, anova-4-2.sav og likelonn.sav.

Datamatrisen: observasjoner, variabler og verdier. Variablers målenivå: Nominal Ordinal Intervall Forholdstall (ratio)

Høsten Skriftlig skoleeksamen, 23. Oktober, kl. 09:00 (3 timer). Sensur etter tre uker.

Eksamen PSYC2104 Kvantitativ metode A Høst 2018

a) Forklar hva som menes med faktorladning, kommunalitet og eigenvalue.

Eksamensoppgave i PSY2017/PSYPRO4317 Statistikk og kvantitative forskningsmetoder

Repeated Measures Anova.

Eksamen PSYC3101 Kvantitativ metode II Vår 2015

Eksamensoppgave i PSY3100 Forskningsmetode - Kvantitativ

PSY2012 Forskningsmetodologi III: Statistisk analyse, design og måling Eksamen vår 2014

Eksamen PSYC2104 Kvantitativ metode A Vår 2019

Eksamensoppgave i PSY3100 Forskningsmetode - Kvantitativ

1. De fleste blir mer vennlige av å drikke alkohol Mange blir mer aggressive av å drikke alkohol

EKSAMENSOPPGAVER STAT100 Vår 2011

PSYC3101 Kvantitativ metode 2. Våren Skriftlig skoleeksamen Onsdag 30. mars, kl. 09:00 (3 timer)

Høye skårer indikerer høye nivåer av selvkontroll.

Lærersamarbeid, Er det forskjell på hvordan mannlige og kvinnelige lærere samarbeider?

Institutt for økonomi og administrasjon

Oppsummering & spørsmål 20. april Frode Svartdal

Kort overblikk over kurset sålangt

Multippel regresjon. Her utvider vi perspektivet for enkel lineær regresjon til også å omfatte flere forklaringsvariable x 1, x 2,, x p.

UNIVERSITETET I OSLO

Eksamensoppgave i TMA4267 Lineære statistiske modeller

EKSAMEN I FAG TMA4260 INDUSTRIELL STATISTIKK

Til bruk i metodeundervisningen ved Høyskolen i Oslo

PSY Anvendt kvantitativ forskningsmetode

TMA4245 Statistikk Eksamen desember 2016

SOS1120 Kvantitativ metode. Regresjonsanalyse. Lineær sammenheng II. Lineær sammenheng I. Forelesningsnotater 11. forelesning høsten 2005

Fra spørreskjema til skalaer og indekser

Eksamensoppgave i PSY3100 Forskningsmetode - Kvantitativ

Egenverdier og egenvektorer

Kræsjkurs i STAT101. Noen anbefalinger Regn mange(5-10) oppgavesett til eksamen:

6.2 Signifikanstester

I enkel lineær regresjon beskrev linja. μ y = β 0 + β 1 x

Tillatte hjelpemidler: C3: alle typer kalkulator, alle andre hjelpemidler

EKSAMEN I FAG TMA4255 FORSØKSPLANLEGGING OG ANVENDTE STATISTISKE METODER

Kapittel 1 Vitenskap: grunnleggende antakelser

Innhold. Del 1 Grunnleggende begreper og prinsipper... 39

UNIVERSITETET I OSLO

ECON2130 Kommentarer til oblig

UNIVERSITETET I OSLO

Vektorligninger. Kapittel 3. Vektorregning

Eksamensoppgave i PSY3100 Forskningsmetode - Kvantitativ

Simulering med Applet fra boken, av z og t basert på en rekke utvalg av en gitt størrelse n fra N(μ,σ). Illustrerer hvordan estimering av variansen

Statistikk og dataanalyse

ME Vitenskapsteori og kvantitativ metode

Logistisk regresjon 2

Mulige sammenhenger for plassering på samfunnsstigen

Oppgaver Oppgavetype Vurdering Status 1 ME-417, forside Flervalg Automatisk poengsum Levert. 2 ME-417, oppgave 1 Skriveoppgave Manuell poengsum Levert

2. Hva er en sampelfordeling? Nevn tre eksempler på sampelfordelinger.

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Effektstørrelse. Tabell 1. Kritiske verdier for Pearson s produkt-moment-korrelasjon med 5% og 1% signifikansnivå. N 5% 1% N 5% 1%

Eksamensoppgave i TMA4240 Statistikk

10.1 Enkel lineær regresjon Multippel regresjon

7 Egenverdier og egenvektorer TMA4110 høsten 2018

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

Eksamensoppgave i ST3001

Eksamensoppgave i TMA4255 Anvendt statistikk

Eksamensoppgave i PSY2017/PSYPRO4317 Statistikk og kvantitative forskningsmetoder

Inferens i fordelinger

Fra boka: 10.32, 10.33, 10.34, 10.35, 10.3 og (alle er basert på samme datasett).

Illustrasjon av regel 5.19 om sentralgrenseteoremet og litt om heltallskorreksjon (som i eksempel 5.20).

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

Bruk data fra tabellen over (utvalget) og opplysninger som blir gitt i oppgavene og svar på følgende spørsmål:

Del 1 og Del 2 vektes likt (50/50). Begge delene må være bestått.

QED 1 7. Matematikk for grunnskolelærerutdanningen. Bind 2. Fasit kapittel 4 Statistikk og kvantitativ metode

Prøveeksamen i STK3100/4100 høsten 2011.

Tillatte hjelpemidler: C3: alle typer kalkulator, alle andre hjelpemidler

Forkurs i kvantitative metoder ILP 2019

Eksamensoppgave i (emnekode) (emnenavn)

Løsningsforslag eksamen STAT100 Høst 2010

UNIVERSITETET I OSLO

Reelle tall på datamaskin

Kapittel 3: Studieopplegg

Kan vi stole på resultater fra «liten N»?

PSY Kvantitativ metode

Gruppe 1 Gruppe 2 Gruppe a) Finn aritmetisk gjennomsnitt, median, modus og standardavvik for gruppe 2.

Inferens i regresjon

Lineære modeller i praksis

Kapittel 2. Utforske og beskrive data. Sammenhenger mellom variable Kap. 2.1 om assosiasjon og kryssplott forrige uke. Kap. 2.2, 2.3, 2.

MASTER I IDRETTSVITENSKAP 2014/2016. Individuell skriftlig eksamen. STA 400- Statistikk. Fredag 13. mars 2015 kl

EKSAMEN I TMA4255 ANVENDT STATISTIKK

Eksamen PSYC3101 Kvantitativ metode II Høsten 2014

Eksamensoppgave i TMA4255 Anvendt statistikk

Generelle lineære modeller i praksis

Løsningsforslag til obligatorisk oppgave i ECON 2130

Eksamensoppgave i PSY3100 Forskningsmetode Kvantitativ

Transkript:

Eksplorerende faktor-analyse.

Noen forutsetninger: Vi bruker alltid variabler som er standardiserte med gjennomsnitt=0 og standardavvik=1: obs Y X zy zx Regresjonsanalyser: 1 18.93 21.85-0.50 0.71 2 18.41 13.66-0.66-1.94 Y avhengig av X ( Y = a + b*x + e) 3 20.19 18.24-0.11-0.46 4 23.94 22.64 1.03 0.97 R R Square 5 20.61 21.72 0.02 0.67 0.655 0.429 6 16.12 15.96-1.35-1.20 7 18.05 18.97-0.77-0.22 B SE Beta t p 8 22.29 20.36 0.53 0.23 (Constant) 6.896 3.762 1.833 0.083 9 22.43 26.97 0.57 2.37 X 0.695 0.189 0.655 3.674 0.002 10 21.49 19.16 0.28-0.16 11 14.66 14.25-1.80-1.75 zy avhengig av zx ( zy = a + b*zx + e) 12 23.15 20.92 0.79 0.41 13 20.35 19.43-0.06-0.07 R R Square 14 24.06 19.31 1.07-0.11 0.655 0.429 15 16.50 20.51-1.24 0.28 16 19.73 17.87-0.25-0.58 B SE Beta t p 17 29.42 24.16 2.71 1.46 (Constant) 0.000 18 21.39 19.40 0.25-0.08 X 0.655 0.178 0.655 3.674 0.002 19 19.86 19.09-0.21-0.18 20 19.55 18.65-0.31-0.33 Gjennomsnitt 20.56 19.66 0.00 0.00 Standardavvik 3.28 3.09 1.00 1.00 Merk også at ved to variabler eller ved ukorrelerte prediktorer i en multippel regresjonsanalyse, så er den standardiserte regresjonskoeffisienten og r identiske!

Refleksiv målemodell: Vi lager oss en situasjon hvor data er generert slik (perfekt en-dimensjonalitet): x1 =.632*F 1 +.775*u 1 og hvor: x2 =.632*F 1 +.775*u 2 x3 =.632*F 1 +.775*u 3 x4 =.632*F 1 +.775*u 4 x5 =.632*F 1 +.775*u 5 x6 =.632*F 1 +.775*u 6 Generelt: x1 = b 1 *F 1 + u 1 x2 = b 2 *F 1 + u 2 x3 = b 3 *F 1 + u 3 b 1 b 6 er standardiserte regresjonskoeffisienter og kalles her faktor-ladninger. x4 = b 4 *F 1 + u 4 x5 = b 5 *F 1 + u 5 x6 = b 6 *F 1 + u 6

Dersom vi beregner korrelasjoner mellom de seks variablene vi konstruerte, får vi følgende resultat: Korrelasjonsmatrise: x1 x2 x3 x4 x5 x6 x1 1.00 0.40 0.40 0.40 0.40 0.40 x2 0.40 1.00 0.40 0.40 0.41 0.40 x3 0.40 0.40 1.00 0.40 0.40 0.40 x4 0.40 0.40 0.40 1.00 0.40 0.40 x5 0.40 0.41 0.40 0.40 1.00 0.40 x6 0.40 0.40 0.40 0.40 0.40 1.00 Hvorfor blir det slik? Husk det vi brukte da vi diskuterte reliabilitet:

Nå er jo vi heldige her siden vi kjenner fasiten. Men dersom vi ikke gjorde det ville det være mulig å rekonstruere den prosessen som har generert observerte data ut fra de data vi nå engang har? Det er selve poenget med faktor-analysen!

Faktor-analyse med SPSS. Når vi gjør en faktor-analyse vil vi først konstruere en ny faktor som en vektet sum av de opprinnelige variablene. Denne vil være konstruert og vektet slik at den forklarer så mye som mulig av variasjonen i de observerte variablene. F 1 = d 1 *x 1 + d 2 *x 2 + d 3 *x 3 + d 4 *x 4 + d 5 *x 5 + d 6 *x 6 hvor vektene d 1 d x kalles faktor-skåre koeffisienter Dette er som dere ser også en lineær regresjonsmodell. Regresjonsvektene er konstruert slik at F 1 forklarer så mye som mulig av variasjonen i de observerte variablene, og samtidig slik at F 1 blir standardisert. Deretter konstruerer vi en ny faktor F 2 på tilsvarende måte, men denne er konstruert slik at den forklarer så mye som mulig av den variasjonen i variablene som ikke lot seg forklare ved F 1. Denne prosessen fortsetter til vi har forklart ALL variasjon i de observerte variablene. Har vi data som oppfører seg ordentlig ( full-rank ), vil vi dermed alltid ende opp med like mange faktorer som vi har variabler i analysen. Det spørsmålet vi alltid stiller oss er imidlertid: trenger vi så mange faktorer? Her vet vi jo at svaret definitivt er NEI. Data er konstruert som funksjoner av kun en faktor, og resten er tilfeldig støy. Vil SPSS gjennomskue oss her?

Utskrift fra SPSS (litt pyntet på.): Total Variance Explained Initial Eigenvalues Extraction Sums of Squared Loadings Total % of Var Cum % Total % of Var Cum % 1 2.998 49.972 49.972 2.998 49.972 49.972 2 0.604 10.072 60.044 3 0.601 10.010 70.054 4 0.600 9.997 80.051 5 0.600 9.993 90.044 6 0.597 9.956 100.000 6.000 Denne viser oss hvor mye av variasjonen i variablene som kan forklares ved hver av faktorene. Eigenvalues summerer til antall variabler og % forklart varians kan beregnes som eigenvalue/sum av eigenvalues for eksempel:.604 / 6 =.1007*100 = 10.07. Seks faktorer forklarer all variansen i variablene. En faktor forklarer 49.97% av variansen. Component Matrix b b 2 x1 0.707 0.500 x2 0.708 0.501 x3 0.707 0.500 x4 0.707 0.500 x5 0.705 0.497 x6 0.707 0.500 2.998 Og denne matrisen gir oss estimerte faktorladninger. Disse er standardiserte regresjonskoeffisienter, men i og med at vi her bare har en faktor, vil disse være identiske med korrelasjonen mellom variablene og faktoren. Vi vet at r 2 gir oss proporsjon forklart varians. Kvadrerer vi disse ladningen og summerer får vi dermed total forklart varians ved denne faktoren eller eigenvalue som det stod i tabellen over. Vi ser dermed at total forklart varians kan forstås som gjennomsnittlig forklart varians over alle variabler!

Communalities Initial Extraction x1 1 0.501 x2 1 0.501 x3 1 0.500 x4 1 0.500 x5 1 0.498 x6 1 0.500 0.500 Dette er en annen nyttig utskrift fra SPSS. Den sier oss hvor mye av variansen i hver variabel som kan forklares ved faktoren(e). Her er den ikke annet enn de kvadrerte ladningen fra forrige side. Men denne blir nyttig når vi bruker mer enn en faktor. Men her er det noe mystisk! Vi vet jo fra fasiten at data ble generert fra en systematisk faktor som forklarte 40% av variansen i variablene og hvor alle faktorladninger var.632. Hvorfor driver SPSS her og påstår at 50% av variansen kan forklares ved en faktor og at alle faktorladningene er.707? Det skyldes at jeg helt bevisstløst har trykket på OK knappen i SPSS. Da får man ikke en faktor-analyse man får en prinsipal komponent analyse (PCA). Det er dette som er standardvalg for faktoranalyse i SPSS.

De samme analysene men nå med faktor-analyse (Prinsipal Axis Factoranalysis): Total Variance Explained Initial Eigenvalues Extraction Sums of Squared Loadings Total % of Var Cum % Total % of Var Cum % 1 2.998 49.972 49.972 2.398 39.959 39.959 2 0.604 10.072 60.044 3 0.601 10.010 70.054 4 0.600 9.997 80.051 5 0.600 9.993 90.044 6 0.597 9.956 100.000 6.000 Factor Matrix b b 2 x1 0.633 0.401 x2 0.633 0.401 x3 0.632 0.399 x4 0.632 0.399 x5 0.630 0.397 x6 0.632 0.399 2.397 0.399 Communalities Initial Extraction x1 0.308 0.401 x2 0.308 0.401 x3 0.307 0.400 x4 0.308 0.400 x5 0.306 0.397 x6 0.308 0.400 0.400 PCA vil alltid overestimere faktorladninger og dermed forklart varians. I praksis har dette heldigvis liten betydning, men det kommer vi tilbake til etter hvert. I de følgende eksemplene bruker vi PAF. Da er det enklere å få beregningene til å stemme.

Nytt eksempel: To ukorrelerte faktorer. Vi lager oss en situasjon hvor data er generert slik (perfekt to-dimensjonalitet):.632*f 1 +.000*F 2 +.775*u 1 og hvor:.632*f 1 +.000*F 2 +.775*u 2.632*F 1 +.000*F 2 +.775*u 3.000*F 1 +.632*F 2 +.775*u 4.000*F 1 +.632*F 2 +.775*u 5.000*F 1 +.632*F 2 +.775*u 6 Generelt: x1 = b 11 *F 1 + b 21 *F 2 + u 1 x2 = b 12 *F 1 + b 22 *F 2 + u 2 x3 = b 13 *F 1 + b 23 *F 2 + u 3 x4 = b 14 *F 1 + b 24 *F 2 + u 4 x5 = b 15 *F 1 + b 25 *F 2 + u 5 x6 = b 16 *F 1 + b 26 *F 2 + u 6

Faktor-analyse med SPSS (Prinsipal Axis Factoranalysis): Total Variance Explained Initial Eigenvalues Extraction SS Loadings Rotation SS Loadings Total % of Var Cum % Total % of Var Cum % Total % of Var Cum % 1 1.809 30.157 30.157 1.209 20.153 20.153 1.202 20.038 20.038 2 1.792 29.867 60.023 1.192 19.859 40.012 1.198 19.974 40.012 3 0.603 10.054 70.077 4 0.600 10.005 80.082 5 0.598 9.973 90.055 6 0.597 9.945 100.000 5.999 Factor Matrix Factor Rotated Factor Matrix Factor b 1 b 2 h 2 b 1 b 2 h 2 x1 0.495-0.395 0.401 x1 0.633 0.001 0.401 x2 0.495-0.390 0.397 x2 0.631 0.005 0.398 x3 0.496-0.397 0.404 x3 0.635 0.000 0.403 x4 0.392 0.494 0.398 x4-0.003 0.631 0.398 x5 0.403 0.491 0.403 x5 0.007 0.635 0.403 x6 0.396 0.490 0.397 x6 0.003 0.630 0.397 Communalities Initial Extraction x1 0.229 0.400 x2 0.228 0.398 x3 0.231 0.404 x4 0.228 0.398 x5 0.230 0.403 x6 0.227 0.397

1. Antall faktorer? - Kaiser s kriterium - Scree-plot - Parallell-analyse (Horn) 2. Rotasjon og tolkning. - Ortogonal og oblique rotasjon, enkel struktur 3. Validering av løsning. - KMO og Bartlett - forklart varians - rekonstruerte korrelasjoner - og viktigst: tolkbar struktur? - validering mot eksterne kriterier 4. Estimering av faktorer. - eksakte faktorskårer - skårer vektet med 0 og 1 (sumskårer) Og (som vanlig) en veldig presis og god, men kortfattet, beskrivelse av faktoranalysen finner dere i Wikipedia: http://en.wikipedia.org/wiki/factor_analysis

Antall faktorer.

Valg av antall faktorer vil i noen tilfeller være gitt ut fra teori eller tidligere empiri. I slike situasjoner vil man foretrekke å benytte en konfirmerende faktoranalyse. Slike analyser kan ikke gjøres i SPSS. De krever annen programvare (Lisrel, Mplus, Amos, etc.). I andre situasjoner foreligger det ingen eller bare svake slike antagelser. Da vil en eksplorerende analyse være aktuell, og det er slike situasjoner vi ser på her. Tre kriterier for valg av antall faktorer ved eksplorerende faktor-analyse. 1. Beholde faktorer med Eigenvalues > 1 (Kaiser s kriterium). 2. Beholde faktorer over knekk i plot av Eigenvalues (Cattell s kriterium). 3. Beholde faktorer med Eigenvalues signifikant avvikende fra tilfeldig genererte Eigenvalues (Horn s kriterium).

Vi ser først på hva som skjer dersom vi faktor-analyserer variabler i en situasjon hvor det ikke finnes noen systematisk struktur. Data er generert ved å trekke 10 tilfeldige tall fra normalfordelinger dvs. at vi har 10 variabler. Vi bruker to forskjellige utvalgsstørrelser: n=100 og n=100000, og finner Eigenvalues for korrelasjonsmatrisene i begge tilfeller. Eigenvalue n=100 n=100000 1 1.5322 1.0140 2 1.3561 1.0110 3 1.2306 1.0080 4 1.1201 1.0030 5 1.0228 1.0020 6 0.9273 1.0000 7 0.8402 0.9950 8 0.7515 0.9910 9 0.6610 0.9910 10 0.5582 0.9860 Faktor-analyserer vi data uten systematisk struktur vil alle egenverdier bli 1 (hver variabel er unik og må forklares ved en egen faktor), men dette vil vi observere empirisk bare dersom n er uendelig stor!

Kaiser s kriterium. Dette er det oftest anvendte kriteriet, og også standardvalg i SPSS. Kaiser argument var at dersom vi faktor-analyserer data uten struktur (tilfeldige tall), så vil alle eigenvalues bli 1. Dersom de observerte eigenvalues er 1 eller lavere tyder det på at den variasjonen vi analyserer like gjerne kan være tilfeldig støy. så: Behold bare faktorer med Eigenvalue > 1 Dette virker rimelig nok. Men vi så nettopp at selv om tall er tilfeldig generert, så vil noen eigenvalues bli større enn 1 og særlig da i små utvalg. Hvordan dette kriteriet fungerer som kriterium for riktig antall faktorer er studert gjentatte ganger i simuleringsstudier, og konklusjonen er rimelig entydig: bruker vi dette som kriterium for antall riktige faktorer får vi gjerne flere faktorer enn det egentlig er. Vi overestimerer antall faktorer! Og det er egentlig ikke så rart. Dette er et kriterium for antall mulige faktorer ikke det riktige antall faktorer. så: Bruk dette som et kriterium for det maksimale antall faktorer. Det er som regel ingen vits i å beholde faktorer med Eigenvalue <= 1, men det riktige antall faktorer kan godt være lavere.

Cattell s kriterium. Cattell tok utgangspunkt i det samme som vi observerte i vår lille simulering dersom vi faktor-analyserer data uten struktur, så vil eigenvalues blir lavere og lavere. Dersom vi plotter disse vil vi få en jevnt fallende kurve: Dersom det foreligger en genuin faktorstruktur, så vil det oppstå et knekk i denne kurven i det vi går over til å analysere bare tilfeldig støy. så: Behold bare faktorer med eigenvalues over knekk-punktet i kurven. Dette er et subjektivt kriterium basert på visuell inspeksjon av dette scree-plottet, men simuleringsstudier har vist at dette fungerer rimelig godt som kriterium for antall riktige faktorer.

Horn s kriterium. Horn tok utgangspunkt i de samme argumentene som Kaiser og Cattell fremførte, men han foreslo en løsning som var utenkelig på Kaisers og Cattells tid i og med at den krever tilgang til en datamaskin med stor regnekapasitet. Løsningen var: generer like mange variabler som man har observert og med samme antall observasjoner som i den aktuelle studien, men la tallene være uten struktur (tilfeldige tall). Finn egenverdier og lagre disse. Gjenta det hele et stort antall ganger. og: Behold bare faktorer med eigenvalues som sjelden vil forekomme som resultat av en slik tilfeldig prosess. Typisk beholder man faktorer med eigenvalues større enn hva som forekommer i 95% av slike tilfeldig genererte eigenvalues. Dette er et av de kriteriene som i simuleringsstudier er vist å fungere best som kriterium for det riktige antall faktorer.

En liten simulering og demonstrasjon av de tre kriteriene. Data er generert fra en litt mer komplisert (og mer realistisk) faktorstruktur. Vi tenker oss at 100 personer har besvart 12 tester. Responsene er en funksjon av i hovedsak 3 latente faktorer, men noen av leddene er komplekse det vil si at de måler mer enn en faktor. Variabel: x1 = 0.77 * F1 + 0.00 * F2 + 0.00 * F3 + 0.63 * u1 x2 = 0.71 * F1 + 0.32 * F2 + 0.00 * F3 + 0.63 * u2 x3 = 0.63 * F1 + 0.32 * F2 + 0.32 * F3 + 0.63 * u3 x4 = 0.45 * F1 + 0.45 * F2 + 0.45 * F3 + 0.63 * u4 x5 = 0.00 * F1 + 0.77 * F2 + 0.00 * F3 + 0.63 * u5 x6 = 0.32 * F1 + 0.71 * F2 + 0.00 * F3 + 0.63 * u6 x7 = 0.32 * F1 + 0.63 * F2 + 0.32 * F3 + 0.63 * u7 x8 = 0.45 * F1 + 0.45 * F2 + 0.45 * F3 + 0.63 * u8 x9 = 0.00 * F1 + 0.00 * F2 + 0.77 * F3 + 0.63 * u9 x10 = 0.00 * F1 + 0.32 * F2 + 0.71 * F3 + 0.63 * u10 x11 = 0.32 * F1 + 0.32 * F2 + 0.63 * F3 + 0.63 * u11 x12 = 0.45 * F1 + 0.45 * F2 + 0.45 * F3 + 0.63 * u12

Nå er det ikke så enkelt å finne den egentlige strukturen bare ved å visuelt inspisere korrelasjonsmatrisen. Korrelasjonsmatrise: x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12 x1 1.000 0.562 0.541 0.456-0.057 0.233 0.247 0.481 0.033 0.022 0.416 0.446 x2 0.562 1.000 0.556 0.512 0.161 0.434 0.413 0.536-0.007 0.043 0.392 0.512 x3 0.541 0.556 1.000 0.571 0.216 0.407 0.471 0.618 0.106 0.214 0.561 0.619 x4 0.456 0.512 0.571 1.000 0.322 0.421 0.634 0.647 0.279 0.507 0.658 0.663 x5-0.057 0.161 0.216 0.322 1.000 0.549 0.384 0.347-0.080 0.268 0.014 0.261 x6 0.233 0.434 0.407 0.421 0.549 1.000 0.443 0.443-0.150 0.122 0.232 0.384 x7 0.247 0.413 0.471 0.634 0.384 0.443 1.000 0.447 0.133 0.336 0.489 0.512 x8 0.481 0.536 0.618 0.647 0.347 0.443 0.447 1.000 0.268 0.425 0.546 0.655 x9 0.033-0.007 0.106 0.279-0.080-0.150 0.133 0.268 1.000 0.404 0.402 0.267 x10 0.022 0.043 0.214 0.507 0.268 0.122 0.336 0.425 0.404 1.000 0.476 0.350 x11 0.416 0.392 0.561 0.658 0.014 0.232 0.489 0.546 0.402 0.476 1.000 0.659 x12 0.446 0.512 0.619 0.663 0.261 0.384 0.512 0.655 0.267 0.350 0.659 1.000 Men vi får se hva vi kan få til ved en faktor-analyse..

Total Variance Explained Factor Initial Eigenvalues Extraction SS Loadings Rotation SS Loadings Total % of Var Cum % Total % of Var Cum % Total % of Var Cum % 1 5.399 44.995 44.995 5.031 41.926 41.926 3.450 28.747 28.747 2 1.657 13.812 58.807 1.233 10.272 52.198 2.051 17.092 45.839 3 1.444 12.031 70.838 1.077 8.977 61.175 1.840 15.336 61.175 4 0.615 5.123 75.960 5 0.529 4.407 80.367 6 0.462 3.852 84.219 7 0.411 3.425 87.644 8 0.382 3.182 90.826 9 0.353 2.938 93.764 10 0.281 2.345 96.109 11 0.241 2.005 98.114 12 0.226 1.886 100.000 Her vil vi konkludere med 3 faktorer uansett hvilket kriterium vi velger!

Rotasjon og tolkning. Vi ser her på et eksempel fra den tidligere simuleringen med en perfekt to-dimensjonal struktur. Perfekt to-dimensjonal struktur. Urotert løsning: Factor Varimax rotert løsning: Factor 1 2 h 2 1 2 h 2 x1 0.495-0.395 0.401 x1 0.633 0.001 0.401 x2 0.495-0.390 0.397 x2 0.631 0.005 0.398 x3 0.496-0.397 0.404 x3 0.635 0.000 0.403 x4 0.392 0.494 0.398 x4-0.003 0.631 0.398 x5 0.403 0.491 0.403 x5 0.007 0.635 0.403 x6 0.396 0.490 0.397 x6 0.003 0.630 0.397

Den rotasjonsmetoden vi benyttet her kalles varimax. Og den kalles det fordi den roterer faktorene på en slik måte at variasjonen i kolonnene av kvadrerte faktorladninger maksimeres. Kvadrerte faktorladninger: Urotert løsning: Factor 1 2 x1 0.245 0.156 x2 0.245 0.152 x3 0.246 0.158 x4 0.154 0.244 x5 0.162 0.241 x6 0.157 0.240 Varians: 0.002 0.002 Sd: 0.048 0.047 Varimax rotert løsning: Factor 1 2 x1 0.401 0.000 x2 0.398 0.000 x3 0.403 0.000 x4 0.000 0.398 x5 0.000 0.403 x6 0.000 0.397 0.048 0.048 0.219 0.219 Denne rotasjonsmetoden er også en ortogonal rotasjon. Det vil si at faktorene som i utgangspunktet var matematisk holdt ukorrelerte også er ukorrelerte etter rotasjonen! De som liker å tenke geometrisk på dette kan tenke seg at vi roterer aksene på en slik måte at vinkelen mellom dem beholdes som 90 0. En korrelasjon på 0 tilsvarer en vinkel mellom akser på 90 0. Det finnes andre ortogonale rotasjonsmetoder, men disse er sjeldent brukte og vi diskuterer ikke disse videre her. Den andre hovedmetoden for rotasjon tillater faktorene å bli korrelerte etter rotasjon (oblique rotasjon).

Tiden er nå overmoden for å se på et eksempel med reelle data! Vi bruker data fra et gammelt spørreskjema som i sin tid ble sendt ut til alle norske psykologer og psykiatere. Her ble det blant annet spurt om hvilken psykologisk (terapeutisk) retning man følte seg tiltrukket av da man var ny-utdannet. Det ble spurt om hvor tiltrukket man var av 8 terapeutiske retninger, og respondentene ga disse en skåre fra 0 til 5 hvor 0 representerte lite tiltrukket og 5 representerte svært tiltrukket. Vi bruker her bare besvarelsene fra 260 psykologer som hadde vurdert alle retningene. Retning Navn N Mean Sd Atferdsanalyse atferd1 260 2.03 1.43 Eksistensiell psykologi eksist1 260 2.37 1.31 Gestalt teori gestalt1 260 1.01 1.18 Klientsentrert terapi klient1 260 1.90 1.42 Kognitiv terapi kogn1 260 2.51 1.42 Vegeto terapi vegeto1 260 0.91 1.20 Psykodynamisk terapi dynam1 260 2.57 1.69 Systemorientert terapi system1 260 2.29 1.60 Det er åpenbart at noen retninger var mer populære enn andre. Men det vi primært er interesserte i her er: trenger vi 8 dimensjoner for å forstå psykologers preferanserom eller kan vi kanskje greie oss med færre dimensjoner?

Er det slik at de som følte seg tiltrukket av det ene også følte seg tiltrukket av det andre osv? Vi kan jo korrelere besvarelsene. Korrelasjonsmatrise: atferd1 eksist1 gestalt1 klient1 kogn1 vegeto1 dynam1 system1 atferd1 1.00-0.13-0.04-0.05 0.40-0.24-0.47 0.34 eksist1-0.13 1.00 0.28 0.41 0.08 0.10 0.08 0.05 gestalt1-0.04 0.28 1.00 0.28 0.08 0.25 0.00 0.07 klient1-0.05 0.41 0.28 1.00 0.09 0.03 0.05-0.01 kogn1 0.40 0.08 0.08 0.09 1.00-0.21-0.39 0.38 vegeto1-0.24 0.10 0.25 0.03-0.21 1.00 0.36-0.18 dynam1-0.47 0.08 0.00 0.05-0.39 0.36 1.00-0.32 system1 0.34 0.05 0.07-0.01 0.38-0.18-0.32 1.00 og som vanlig er det ikke lett å se noen tydelig struktur her.. så vi forsøker en eksplorerende faktor-analyse.

Total Variance Explained Initial Eigenvalues Extraction SS Loadings Rotation SS Loadings Total % of Var Cum % Total % of Var Cum % Total % of Var Cum % 1 2.353 29.415 29.415 1.747 21.832 21.832 1.735 21.689 21.689 2 1.728 21.596 51.011 1.065 13.312 35.144 1.076 13.455 35.144 3 0.958 11.978 62.989 4 0.729 9.111 72.100 5 0.645 8.062 80.161 6 0.574 7.180 87.341 7 0.556 6.946 94.287 8 0.457 5.713 100.000 Her ville nok de aller fleste gått for to faktorer (men merk subjektiviteten knyttet til Cattell s kriterium).

Så vi går for to faktorer! Men er disse tolkbare? Varimax rotert løsning: Factor 1 2 atferd1 0.653-0.104 eksist1-0.043 0.639 gestalt1-0.005 0.495 klient1-0.001 0.573 kogn1 0.633 0.166 vegeto1-0.403 0.201 dynam1-0.689 0.084 system1 0.519 0.086 Tja de var da det? I praksis vil man nok gå litt frem og tilbake mellom kvantitative kriterier for antall faktorer og tolkbarhetskriteriet, men mer om dette neste gang.

Videre: 3. Validering av løsning. - KMO og Bartlett - forklart varians - rekonstruerte korrelasjoner - og viktigst: tolkbar struktur? - validering mot eksterne kriterier 4. Estimering av faktorer. - eksakte faktorskårer - skårer vektet med 0 og 1 (sumskårer)

Og vi avsluttet med en to-dimensjonal beskrivelse av psykologers preferanserom når det gjelder terapeutiske retninger.. Total Variance Explained Initial Eigenvalues Extraction SS Loadings Rotation SS Loadings Total % of Var Cum % Total % of Var Cum % Total % of Var Cum % 1 2.353 29.415 29.415 1.747 21.832 21.832 1.735 21.689 21.689 2 1.728 21.596 51.011 1.065 13.312 35.144 1.076 13.455 35.144 3 0.958 11.978 62.989 4 0.729 9.111 72.100 5 0.645 8.062 80.161 6 0.574 7.180 87.341 7 0.556 6.946 94.287 8 0.457 5.713 100.000

To tolkbare faktorer. Varimax rotert løsning: Factor 1 2 atferd1 0.653-0.104 eksist1-0.043 0.639 gestalt1-0.005 0.495 klient1-0.001 0.573 kogn1 0.633 0.166 vegeto1-0.403 0.201 dynam1-0.689 0.084 system1 0.519 0.086 Men representerer dette en god løsning?

Validering av løsningen. Dette er kanskje den viktigste prosessen i en seriøs faktor-analyse. Her rekker vi bare å peke på noen enkle og relativt tekniske forhold.

KMO og Bartlett. Spss: The Kaiser-Meyer-Olkin measure of sampling adequacy tests whether the partial correlations among variables are small. Dette er en index som sier oss noe om hvovidt de partielle korrelasjonene mellom variablene, dvs. korrelasjoner mellom par av variabler når vi har kontrollert for alle de andre, er små. Og det ønsker vi her. Det betyr i så fall at variablene har mye til felles med andre variabler. For denne finnes det bare tommelfinger-regler: noen sier denne bør være >.60, andre >.70 og de strengeste >.80. Spss: Bartlett's test of sphericity tests whether the correlation matrix is an identity matrix, which would indicate that the factor model is inappropriate. En identitets-matrise ser slik ut: Her er dette en test på om variablene kan tenkes å være samplet fra en populasjon hvor alle korrelasjoner er 0 (dette er her 0 hypotesen), og denne ønsker vi definitivt å forkaste her. Denne testen er imidlertid så sensitiv at ved stor n vil H 0 kunne forkastes selv om alle korrelasjonene er svært lave. Anbefales ikke brukt når n > 5 antall variabler. og her ser begge disse kriteriene helt OK ut.

(kvadrerte korrelasjoner) KMO = -------------------------------------------------------------------------------------- (kvadrerte korrelasjoner)+ (kvadrerte partielle korrelasjoner) KMO-Value: 0.00 to 0.49 unacceptable 0.50 to 0.59 miserable 0.60 to 0.69 mediocre 0.70 to 0.79 middling 0.80 to 0.89 meritorious 0.90 to 1.00 marvellous As a rule of thumb, KMO should be 0.60 or higher in order to proceed with a factor analysis. Kaiser suggests 0.50 as a cut-off value, and a desirable value of 0.8 or higher. Kaiser H. (1970) "A second generation little jiffy," Psychometrika, Springer, vol. 35(4), pages 401-415, December.

Forklart varians. Vi vil selvsagt være interesserte i at de faktorene vi foreslår skal forklare en del av variansen i de observerte variablene. Men hvor mye? Tja, igjen blir jo dette en subjektiv vurdering. Vi vet jo at psykologiske målinger ofte har lav reliabilitet, så at latente faktorer skulle forklare mye av variansen, er jo helt urimelig å forvente. Jeg ville jo bli overrasket dersom latente faktorer kunne forklare mer enn 50% av variansen i psykologiske målinger. Men dette vil jo avhenge av hva vi har målt og med hvilken reliabilitet, så her er det til syvende og sist forskerens (deres) kunnskap om egne målinger som blir avgjørende. Rekonstruerte korrelasjoner. Ofte er vi mest interessert i om latente faktorer kan forklare den observerte samvariasjonen mellom variablene. Da blir det viktig at vi fra de estimerte faktorene kan rekonstruere de korrelasjonene vi faktisk har observert.

Rekonstruerte korrelasjoner. Vi bruker noe vi har brukt tidligere, både om reliabilitet og da vi startet med faktoranalysen, nemlig at: rr x1,x2 = b 11 *b 21 + b 12 *b 22 Dersom vi skulle rekonstruere korrelasjonen mellom atferd1 og vegeto1 kunne vi gjøre det slik: rr atferd1,vegeto1 =.653*-.403 + -.104*.201 = -.284 Varimax rotert løsning: Factor 1 2 atferd1 0.653-0.104 eksist1-0.043 0.639 gestalt1-0.005 0.495 klient1-0.001 0.573 kogn1 0.633 0.166 vegeto1-0.403 0.201 dynam1-0.689 0.084 system1 0.519 0.086 Med litt innsats kan vi gjøre denne beregningen for alle par av variabler, og da får vi: Rekonstruerte korrelasjoner: atferd1 eksist1 gestalt1 klient1 kogn1 vegeto1 dynam1 system1 atferd1 0.437-0.095-0.055-0.060 0.396-0.284-0.459 0.330 eksist1-0.095 0.410 0.317 0.366 0.079 0.146 0.083 0.033 gestalt1-0.055 0.317 0.245 0.284 0.079 0.102 0.045 0.040 klient1-0.060 0.366 0.284 0.328 0.094 0.116 0.049 0.049 kogn1 0.396 0.079 0.079 0.094 0.428-0.222-0.422 0.343 vegeto1-0.284 0.146 0.102 0.116-0.222 0.203 0.295-0.192 dynam1-0.459 0.083 0.045 0.049-0.422 0.295 0.482-0.350 system1 0.330 0.033 0.040 0.049 0.343-0.192-0.350 0.277 Nå kan vi beregne differansen mellom observerte korrelasjoner og rekonstruerte (estimerte) korrelasjoner, og forskjellene bør selvsagt ikke være for store

Eller vi kan være late (noe som ofte er lurt når man har en datamaskin tilgjengelig), og la SPSS foreta alle beregninger for oss. Da vil utskriften se omtrent slik ut: Correlation Matrix atferd1 eksist1 gestalt1 klient1 kogn1 vegeto1 dynam1 system1 Correlation atferd1 1.000-0.130-0.044-0.048 0.404-0.235-0.474 0.335 eksist1-0.130 1.000 0.278 0.410 0.076 0.100 0.083 0.045 gestalt1-0.044 0.278 1.000 0.278 0.080 0.253-0.003 0.074 klient1-0.048 0.410 0.278 1.000 0.085 0.031 0.051-0.013 kogn1 0.404 0.076 0.080 0.085 1.000-0.208-0.392 0.382 vegeto1-0.235 0.100 0.253 0.031-0.208 1.000 0.361-0.184 dynam1-0.474 0.083-0.003 0.051-0.392 0.361 1.000-0.316 system1 0.335 0.045 0.074-0.013 0.382-0.184-0.316 1.000 Reproduced Correlations atferd1 eksist1 gestalt1 klient1 kogn1 vegeto1 dynam1 system1 Reproduced Correlation atferd1 0.438-0.095-0.055-0.060 0.396-0.284-0.459 0.330 eksist1-0.095 0.411 0.317 0.367 0.079 0.146 0.084 0.033 gestalt1-0.055 0.317 0.245 0.284 0.079 0.102 0.045 0.040 klient1-0.060 0.367 0.284 0.329 0.095 0.116 0.049 0.049 kogn1 0.396 0.079 0.079 0.095 0.428-0.222-0.422 0.343 vegeto1-0.284 0.146 0.102 0.116-0.222 0.203 0.295-0.192 dynam1-0.459 0.084 0.045 0.049-0.422 0.295 0.481-0.350 system1 0.330 0.033 0.040 0.049 0.343-0.192-0.350 0.277 Residualb atferd1-0.035 0.011 0.012 0.008 0.049-0.015 0.005 eksist1-0.035-0.039 0.044-0.004-0.046 0.000 0.013 gestalt1 0.011-0.039-0.006 0.001 0.151-0.049 0.034 klient1 0.012 0.044-0.006-0.010-0.085 0.002-0.062 kogn1 0.008-0.004 0.001-0.010 0.013 0.029 0.039 vegeto1 0.049-0.046 0.151-0.085 0.013 0.066 0.008 dynam1-0.015 0.000-0.049 0.002 0.029 0.066 0.035 system1 0.005 0.013 0.034-0.062 0.039 0.008 0.035 Extraction Method: Principal Axis Factoring. b Residuals are computed between observed and reproduced correlations.

Til syvende og sist vil det viktigste kriteriet for en god faktorstruktur være om den er tolkbar og vitenskapelig meningsfull. Den må ha en meningsfull indre struktur, og faktorene må samvariere på meningsfull måte med eksterne kriterier. Det rekker vi dessverre rett og slett ikke å gå nærmere inn på her. Da havner vi langt inn i diskusjonen av begrepsvaliditet. De som ikke bare leser med bestått kurs for øyet, men også for å få et rikere og mer fullendt liv, kan for eksempel starte her: http://en.wikipedia.org/wiki/donald_t._campbell http://www.socialresearchmethods.net/kb/mtmmmat.php http://www.socialresearchmethods.net/kb/constval.php Der er det sikkert masser av interessante referanser.

Faktor-skårer. Dersom vi bare er interesserte i å benytte faktor-analysen for å forstå variasjon i variabler og/eller samvariasjon mellom variabler, kan vi gi oss nå. Innenfor psykologien er imidlertid ofte formålet å utvikle et måleverktøy - intelligenstester, personlighetskartlegging, verktøy for kartlegging av egnethet, kartlegging av personlige problemer, osv. Da vil vi naturligvis gjerne vite hvordan ulike personer skårer på faktorene. Det er to hovedmåter å generere slike skårer på: - som Eksakte faktorskårer - som Sumskårer

Eksakte faktorskårer. Vi vet at variablene (x) kan beskrives slik som en lineær funksjon av faktorene: X 1 = b 11 *F1 + b 12 *F2 + b 13 *F3. + b 1t *Ft X 2 = b 21 *F1 + b 22 *F2 + b 23 *F3. + b 2t *Ft. X p = b p1 *F1 + b p2 *F2 + b p3 *F3. + b pt *Ft Hvor b ene kalles faktor-ladninger. Men vi vet også at faktorene selvsagt er en funksjon av variablene. Og når vi forutsetter at vi har standardisert variablene til z-skårer, kan de beskrives slik som en lineær funksjon av variablene: F1 = d 11 *zx 1 + d 21 *zx 2 + d 31 *zx 3. + d p1 *zx p F2 = d 12 *zx 1 + d 22 *zx 2 + d 32 *zx 3. + d p2 *zx p. Ft = d 1t *zx 1 + d 2t *zx 2 + d 2t *zx 3. + d pt *zx p Hvor d ene kalles faktorskåre-koeffisienter. og både b ene og d ene er da her standardiserte regresjonskoeffisienter.

Disse faktorskåre-koeffisientene kan dere få fra SPSS, og i vårt konkrete eksempel vil de se slik ut: Factor Score Coefficient Matrix Factor 1 2 atferd1 0.291-0.013 eksist1-0.053 0.403 gestalt1-0.037 0.251 klient1-0.028 0.317 kogn1 0.269 0.161 vegeto1-0.130 0.079 dynam1-0.342-0.002 system1 0.176 0.077 Extraction Method: PAF. og en persons skåre på F1 kan da beregnes slik ut fra personens standardiserte skåre på variablene: F1 =.291*zatferd1 + -.053*zeksist1 + -.037*zgestalt1 + -.028*zklient1 +.269*zkogn1 + -.130*zvegeto1 + -.342*zdynam1 +.176*zsystem1 Litt jobb det der, men SPSS kan heldigvis gjøre det for oss.

Sumskårer. Disse kalles ofte uvektede sumskårer. Men de burde kanskje heller kalles grovvektede sumskårer. Disse genereres ved å sette de høye vektene fra forrige ligning til 1 og de lave til 0. F1 = 1*atferd1 + 0*eksist1 + 0*gestalt1 + 0*klient1 + 1*kogn1 + 1*vegeto1 + 1*dynam1 + 1*system1 og da brukes det gjerne ustandardiserte variabler. Vær obs. på at dersom dere skal lage slike, så må alle variabler være positivt korrelerte. Dersom som i dette tilfellet noen er negativt korrelerte, som for eksempel atferd1 og dynam1, så må en av variablene reflekteres. Dersom variablene bare har relativt få hele tall (som her), kan dere gjøre det slik i SPSS: Recode dynam1 vegeto1 (0=5)(1=4)(2=3)(3=2)(4=1)(5=0). men dersom variablene har mange verdier eller desimaltall, kan dere heller gjøre det slik: Compute dynam1=dynam1*-1 + 5. Compute vegeto1=vegeto1*-1 + 5. En slik refleksjon betyr ingenting for faktorstrukturen. Det betyr bare at en skåre på 5 på variabelen dynam1 nå betyr lite orientert mot psykodynamisk i stedet for mye orientert mot psykodynamisk. Se plott på neste side

Når vi har faktorskårene, kan vi selvsagt plotte psykologene i det samme preferanserommet. Se om dere finner noen dere kjenner

Etter eventuell refleksjon, beregner dere dermed faktorskårene slik: F1 = atferd1 + kogn1 + vegeto1 + dynam1 + system1 F2 = eksist1 + gestalt1 + klient1 Og vil dere ha samme skalaen som opprinnelig (1 til 5), kan dere bare dividere summene med henholdsvis 5 og 3.

Noen fordeler og ulemper ved de to strategiene: Eksakte faktorskårer: Disse er en mest mulig eksakt (men kun egentlig eksakte dersom man benytter PCA) representasjon av faktorene, og dersom faktorene er ukorrelerte vil også de estimerte faktorskårene være det. De er enkle å beregne dersom vi har rådata og et program som SPSS. Ulempen er at skal vi få til det må disse vektene være svært nøyaktige, de er upraktiske i bruk og vanskelige å formidle. Mange vil også hevde at disse siden de er optimaliserte i et konkret utvalg, vil være lite generaliserbare og lite robuste. Sumskårer: Enkle å beregne. Beholder opprinnelig måleskala. Enkle å formidle. Siden de er mer omtrentlige, vil de også være mer robuste vil mange hevde. Ingen eksakt representasjon av faktorene fra faktoranalysen. Disse vil korrelere selv om vi benytter ukorrelerte faktorer i analysen.

I praksis vil eksakte faktorskårer og sumskårer vanligvis korrelere svært høyt både med hverandre og med eksterne variabler, og de vil dermed ha samme tolkning. Jeg beregnet begge deler i vårt eksempel F1 og F2 er eksakte, mens SF1 og SF2 er sumskårene, og der ser det slik ut: Correlations F1 F2 SF1 SF2 F1 1.00-0.02 0.99-0.03 F2-0.02 1.00-0.04 0.98 SF1 0.99-0.04 1.00-0.04 SF2-0.03 0.98-0.04 1.00 Den observante vil se at heller ikke korrelasjonen mellom F1 og F2 er perfekt 0. Det skyldes at vi har brukt faktoranalyse og ikke prinsipal komponent analyse. Det spiller ingen særlig rolle for prinsippet akkurat nå, så jeg skal forsøke å rekke og si litt om forholdet mellom PCA og PAF til slutt i dag. Faktor-skårene er ikke bare nyttige i en test sammenheng. Når vi har generert disse så finnes de som variabler i data, og de kan benyttes for å studere samvariasjon med andre variabler enten i kausalmodeller eller for analyser av begrepsvaliditet.

Litt om ortogonal vs. oblique ( skjev ) rotasjon.

Eksplorerende faktoranalyse med ortogonal rotasjon. Samvariasjonen mellom grupper av variabler skyldes komplekse variabler. Konfirmerende faktoranalyse med to korrelerte faktorer. Samvariasjonen mellom grupper av variabler skyldes korrelerte faktorer. Eksplorerende faktoranalyse med skjev (oblique) rotasjon. Samvariasjonen mellom grupper av variabler skyldes komplekse variabler eller korrelerte faktorer eller noe sånt.

Som alltid dersom en skal finne ut hvordan noen fungerer lag en fasit! Jeg konstruerte 8 variabler som en funksjon av to faktorer som korrelerer.50. Variablene ble konstruert slik: Variabel: x1 = 0.77 * F1 + 0.00 * F2 + 0.63 * u1 x2 = 0.77 * F1 + 0.00 * F2 + 0.63 * u2 x3 = 0.77 * F1 + 0.00 * F2 + 0.63 * u3 x4 = 0.77 * F1 + 0.00 * F2 + 0.63 * u4 x5 = 0.00 * F1 + 0.77 * F2 + 0.63 * u5 x6 = 0.00 * F1 + 0.77 * F2 + 0.63 * u6 x7 = 0.00 * F1 + 0.77 * F2 + 0.63 * u7 x8 = 0.00 * F1 + 0.77 * F2 + 0.63 * u8 Disse 8 variablene analyserte jeg med alle tre metodene: Eksplorerende faktoranalyse med varimax rotasjon Konfirmerende faktoranalyse med to korrelerte faktorer Eksplorerende faktoranalyse med oblique ( skjev ) rotasjon

PAF med varimax rotasjon. Rotated Factor Matrix Factor 1 2 x1 0.751 0.200 x2 0.748 0.203 x3 0.747 0.202 x4 0.750 0.199 x5 0.198 0.748 x6 0.203 0.745 x7 0.199 0.749 x8 0.204 0.749 Rotation Method: Varimax with Kaiser Normalization. Dette gikk jo bra det. Analysen rekonstruerer ganske bra den egentlige prosessen. Komplekse ladninger gir imidlertid alltid et hint om at en modell med korrelerte faktorer kunne være verdt å tenke på. Konfirmerende faktoranalyse med to korrelerte faktorer. Og dette gikk jo veldig bra. Analysen rekonstruerer perfekt den egentlige prosessen! Dette kan dere ikke gjøre i SPSS. Jeg brukte programmet AMOS som inngår i SPSS lisensen.

PAF med Promax ( skjev ) rotasjon. Pattern Matrix Structure Matrix Factor 1 2 Factor 1 2 x1 0.776 0.002 x1 0.777 0.385 x2 0.772 0.007 x2 0.775 0.387 x3 0.771 0.006 x3 0.774 0.386 x4 0.775 0.002 x4 0.776 0.384 x5 0.000 0.774 x5 0.382 0.774 x6 0.008 0.768 x6 0.386 0.772 x7 0.001 0.774 x7 0.383 0.775 x8 0.007 0.773 x8 0.388 0.776 Rotation Method: Promax with Kaiser Normalization. Rotation Method: Promax with Kaiser Normalization. Factor Correlation Matrix - etter oblik rotasjon. Factor 1 2 1 1.000 0.493 2 0.493 1.000 og denne fungerte jo utmerket. Vær oppmerksom på at nå er faktorene korrelerte, og da kan ikke de standardiserte regresjonskoeffisientene lenger tolkes som korrelasjoner. Derfor har vi to matriser her: Pattern Matrix inneholder de standardiserte regresjonskoeffisientene (faktorladningene), mens Structure Matrix inneholder korrelasjoner mellom variablene og faktorene. Vær også oppmerksomme på at dette ikke er samme modellen som vi analyserte ved den konfirmatoriske analysen. Dette er en blandingsmodell hvor man kan få både komplekse variabler og korrelerte faktorer.