Appendks 1: Organserng av Rksdagsdata SPSS Sannerstedt- og Sjölns data er klargjort for logtanalyse SPSS flen på følgende måte: Enhet År SKJEBNE BASIS ANTALL FARGE 1 1972 1 0 47 1 0 2 1972 1 0 47 1 0 67 1972 1 0 47 1 0 68 1972 0 0 47 1 0 69 1972 0 0 47 1 0 257 1972 0 0 47 1 0 258 1972 0 0 47 1 0 259 1975 1 0 45 1 0 361 1975 0 0 45 1 0 558 1975 1 0 45 1 0 559 1977 1 0 52 3 1 560 1977 1 0 52 3 1 649 1977 0 0 52 3 1 2690 1986 0 0 46 1 0 Matrsen leses som følger: Tenk deg at forslagene fra hver av de åtte regjerngene ordens to grupper Alle forslag som ble endret stlles opp først, deretter alle forslag som kke ble endret Hvlken rekkefølge forslagene ordnes nnen de to gruppene er kke av betydnng (Sannerstedt- og Sjöln 1990 gr heller kke grunnlag for en slk ordnng) Den første regjerngen Sannerstedt- og Sjölns materale er den sosalstske regjerngen som satt 1972 Denne fremla tl sammen 258 forslag Av dsse ble
(258*026)=67 forslag endret av Rksdagen Enhetene 1 tl 67 er følgelg kodet 1 for «endret» på avhengg varabel, som er «SKJEBNE» De resterende 258-67=191 forslagene som denne regjerngen la frem for Rksdagen ble kke endret Enhetene f o m 68 t o m 258 er følgelg kodet 0 for «ngen endrng» på avhengg varabel De første 258 forslagene flen ble fremmet av den sosalstske regjerngen som satt 1972 For dsse enhetene er varabelen «FARGE» følgelg kodet 0 for sosalstsk Vdere, den sosalstske regjerngen som satt 1972 var en ettpartregjerng Varabelen «ANTALL» er av denne grunn kodet 1 på de første 258 enhetene Tl sst, 47 pst av ledamötene Rksdagen var valgt nn på regjerngspartets lste Varabelen «BASIS» er følgelg kodet 047 på de 258 første enhetene Matrsen kompletteres ved å regstrere data på tlsvarende måte for de syv etterfølgende regjerngene materalet Datamatrsen utvser en forholdsvs begrenset varasjonen de uavhengge varablene Dette kan synes som et problem for sgnfkanstestng av modellen Det avgjørende for dette spørsmålet er mdlertd kke varasjonene varablene men spørsmålet om hvorvdt v har «celletomhet» eller kke Dette kan v sjekke SPSS ved å se på frekvensfordelngen av datakategorene våre I vårt tlfelle får v 16 kategorer (SKJEBNE ANTALL FARGE BASIS) Den laveste frekvensen er på 67 observasjoner (SKJEBNE=1; ANTALL=1;FARGE=0;BASIS=047), den høyeste frekvensen er på 256 observasjoner (SKJEBNE=0; ANTALL=1;FARGE=0;BASIS=048) Som en tommelfngerregel bør laveste frekvens hvert fall ha 10-15 observasjoner Appendks 2: Kontrollspørsmål I det følgende presenteres en sere kontrollspørsmål Umerkede spørsmål kan besvares med utgangspunkt umerket tekst Spørsmål merket * er for den speselt nteresserte Du bør jobbe frem og tlbake med tekst og spørsmål nntl du føler deg fortrolg med de umerkede spørsmålene 1 Hvlke verder regstreres på avhengg varabel logtanalysen? 2 Hva er tolknngen av dsse verdene? 3 Hva bør en sjekke før en kjører logtanalyse på et sett av uavhengge varable? 4 Hva slags struktur har logtlgnngen?
5 Hvlke hovedforskjeller er det mellom en logtlgnng og en OLS lgnng? 6 Gr resultatet av logtlgnngen uttrykk for en sannsynlghet? Hvorfor/Hvorfor kke? 7 Hvordan defneres logten? 8 Hva er en «odds»? 9 Hva gr en odds svarende tl 4 uttrykk for? 10 Hva med en odds svarende tl 1? 11 Hva med en odds svarende tl 1/6? 12 Hva er varasjonsområdet tl log(odds)? 13 Hva skjer med log(odds) når høyresden tl logtlgnngen antar store postve verder? 14 Hva skjer med log(odds) når høyresden tl logtlgnngen antar store negatve verder? 15 Hvordan løser en ut oddsen uttrykket log(odds)? 16 Hva ser en log(odds)=4 oss om oddsen for suksess? 17 Hva med en log(odds)=1? 18 En log(odds)=0? 19 En log(odds)=-4? 20 En log(odds)=-1? 21 Betrakt Rksdagsdata teksten: * (a) Hva blr endrngen oddsen for suksess ved en enhets endrng varabelen ANTALL? (b) Hva blr endrngen oddsen for suksess ved en enhets endrng varabelen BASIS? Besvar spørsmålene på to ulke måter 22 Vs hvordan en kan løse ut P fra uttrykket log(p/(1-p))=z 23 Skrv uttrykket for P på tre ulke måter når Z=α+bX 24 Er det noen substansell forskjell de tre måtene å skrve P på? 25 Vs at den P du har løst ut fra uttrykket log(p/(1-p))=z gr P+(1-P)=1 26 Hva skjer med P når Z går mot uendelg postv? 27 Hva skjer med P når Z går mot uendelg negatv? 28 Kan P noen gang bl lk 0? 29 Kan P noen gang bl lk 1? 30 Er P en lneær funksjon av Z? Begrunn svaret 31 For hvlken verd på Z er P lke en halv? 32 Hvlke symmetr egenskaper har P? 33 Endres P med lke mye dersom v øker Z med en enhet fra et utgangspunkt på null, som fra et utgangspunkt på 10?
34 Endres P med lke mye dersom v reduserer Z med en enhet fra et utgangspunkt på null, som fra et utgangspunkt på -10? 35 Er det noen forskjell på analyse av dskrete og kontnuerlge uavhengge avhengge varable logtanalysen? 36 Hva består eventuelt forskjellen? 37 Betrakt data for Rksdagen teksten Hva er endrngen sannsynlgheten for at forslaget endres dersom en går fra : (a) en sosalstsk tl en borgerlg regjerng, begge ettpartregjernger med 40 pst oppslutnng Rksdagen? (b) en sosalstske ettpartregjerng med 45 pst oppslutnng Rksdagen tl en borgerlg topartregjerng med 29 pst oppslutnng Rksdagen? (c) en borgerlg trepartregjerng med 50 pst oppslutnng Rksdagen tl en borgerlg trepartregjerng med 52 pst oppslutnng Rksdagen? (d) en sosalstsk ettpartregjerng med 45 pst oppslutnng Rksdagen tl en sosalstsk ettpartregjerng med 48 pst oppslutnng Rksdagen? 38 Hva forstår v med en punkteffekt? 39 Hva forstår v med en maksmal punkteffekt? 40 Betrakt data for Rksdagen teksten Hva er den maksmale punkteffekten for: (a) en borgerlg topartregjerng? (b) en borgerlg ettpartregjerng? 41 Betrakt data for Rksdagen teksten Hva er punkteffekten med (a) et nvå på 33 pst for en borgerlg topartregjerng? (b) et nvå på 15 pst for en borgerlg topartregjerng? 42 Hva kjennetegner en bnomsk forsøksrekke? 43 Hva gr «bnomalkoeffsenten» uttrykk for? 44 Hva kalles den fordelng en bnomsk forsøksrekke gr opphav tl? 45 Hva kjennetegner denne fordelngen når v lar N anta store verder? 46 Hvor stor bør N-K være før v benytter antagelsen om normalfordelng logtanalysen? 47 Etter hvlket prnspp estmeres koeffsentene logtlgnngen? 48 Etter hvlket prnspp estmeres koeffsentene OLS lgnngen? 49 Gjør nærmere rede for prnsppet for estmerng av koeffsentene logtlgnngen* 50 Fnnes det en eksplstt løsnng for estmatene tl koeffsentene en logtlgnng? * 51 Hvordan fnner programvaren frem tl estmatet for koeffsentene? * 52 Hva er betngelsen for å benytte T- statstkk tl hypotesetestng av logtkoeffsenter? 53 Betrakt data for Rksdagen teksten: v
(a) Bruk tommelfngerregelen tl å fnne ut om ANTALL er sgnfkant forskjellg fra null på 5 pst nvået (b) Bruk tommelfngerregelen for å fnne ut om FARGE er sgnfkant forskjellg fra null på 5 pst nvået 54 Hvlke tre metoder er det vanlg å benytte logtanlyse når v ønsker å s noe om hvorvdt data og modell passer sammen? 55 Hva uttrykker høy verd på L- statstkken? 56 Hva uttrykker lav verd på L- statstkken? 57 Hva lgger utsagnet «75 pst treff»? 58 Hva er hovedproblemet med målet «pst treff»? 59 Hvlke problemer støter v på dersom v velger en lneær sannsynlghetsmodell? 60 Kan en lneær sannsynlghetsmodell lkevel ha sn berettgelse? Dersom ja, under hvlke betngelser? Appendks 3 Nærmere om MLE prnsppet: Et eksempel Betrakt en bnær logtlgnng Tl en slk lgnng hører en datamatrse av følgende form: Tabell III1 1 Observasjon Y X 1 y 1 x 1 2 y 2 x 2 N y N x N Y er avhengg varabel og y står for den regstrerte verden tl avhengg varabel på observasjon nummer, ( = 1,, N ) Y regstreres med verdene 1 eller 0, 1 for høy verd på avhengg varabel (suksess), og 0 for lav verd på uavhengg varabel (fasko) X er den uavhengge varabelen og står for den regstrerte verden tl avhengg varabel på observasjon nummer, ( = 1,, N ) Det er ngen bånd på de verder X kan regstreres med x 1 I stedet for betegnelsen «observasjon» kunne v lke gjerne brukt betegnelsen «enhet» Observasjon gr mdlertd bedre assosasjoner dette avsnttet v
Når logtlgnngen estmeres er de kjente størrelsene Y og X Det som er ukjent for oss er sannsynlgheten for at en gtt observasjon har høy henholdsvs lav verd på Y Som v allerede har sett er denne sannsynlgheten betnget av observasjonens verd på høyresden logtlgnngen For observasjon nummer kan v uttrykke den betngede sannsynlgheten for suksess på følgende måte: p = P( y = 1 x, b) Den betngede sannsynlgheten for fasko på observasjon nummer blr ( 1 p) = 1 P( y = 1 x, b) = P( y = 0 x, b) Fra tdlgere kjenner v den presse betngelsen: p exp( α + bx ) = henholdsvs p = + exp( + bx ), ( ) 1 1 1 α 1 + exp( α + bx ) Sannsynlgheten for høy henholdsvs lav verd på Y er altså kke den samme for alle observasjoner 2 V kan lkevel regne oss frem tl sannsynlgheten for å ha observert et bestemt datasett: Først legger v merke tl at sannsynlgheten for høy verd på y 1 y observasjon nummer ( y = 1 ) svarer tl p ( 1 p) = p Sannsynlgheten for lav 1 y verd på observasjon nummer ( y = 0 ) svarer på sn sde tl p ( 1 p) = 1 p Observasjonene antas å være uavhengge av hverandre Sannsynlgheten for en bestemt kombnasjon av observasjoner bestående av totalt m høye og (N-m) lave verder på Y er da gtt ved produktet av sannsynlghetene for at hver enkelt av de N observasjonene ender med høy henholdsvs lav verd på Y Med ltt økonomserende notasjon kan v skrve dette på følgende måte: y N y 1 y p ( 1 p ), [III1] = 1 hvor N = 1 står for produktet av sannsynlghetene for at enkeltobservasjonene =1,N skal ende med suksess henholdsvs fasko Med dsse nnledende betraktnngene som bakteppe llustrerer v prnsppet for estmerngen av koeffsentene tlknytnng tl et enkelt eksempel Betrakt følgende (sparsommelge) datamatrse for en bvarat logtlgnng: 2 V har derfor kke med en bnomsk forsøksrekke å gjøre estmerngen av logtkoeffsentene Dette skaper kke problemer for antagelsen om at Y er Bernoull fordelt v
Tabell III2 Observasjon Y X 1 1 3 2 1 2 3 0 1 4 0 2 5 1 3 Som en pedagogsk forenklng estmerer v lgnngen uten konstantledd V puncher data fra tabell III2 en SPSS fle og kjører lgnngen: Z returnerer resultatet Z = 0 406 X Logten for observasjon 1 er z 1 = 0 406 ( 3) = 1218 svarende tl: = bx SPSS prosedyren Dette gr en sannsynlghet for høy verd på avhengg varabel exp( 1218 ) p 1 = = 077 1 + exp( 1218 ) Sannsynlgheten for lav verd på observasjon 1 svarer da tl ( 1 p 1) = 0 23 Ved å gjennomføre tlsvarende utregnnger for observasjonene 2 tl og med 5 produseres følgende tabell over betngede sannsynlgheter for suksess og fasko på de fem observasjonene: Tabell III3 Observasjon p (1- p ) 1 0 77 0 23 2 0 69 0 31 3 0 60 0 40 4 0 69 0 31 5 0 77 0 23 V er nå klar tl å benytte formel [III1] Innsettng for Y verdene fra tabell III2 og de betngede sannsynlghetene fra tabell III3 gr: N p = 1 y ( 1 p) 1 y 1 0 1 0 0 1 0 1 1 = p ( 1 p ) p ( 1 p ) p ( 1 p ) p ( 1 p ) p ( 1 p ) 1 1 2 2 = ( 0771 ) ( 0691 ) ( 1040 ) ( 1031 ) ( 0771 ) = 0 051 3 3 4 4 5 5 0 v
Hva forteller dette oss? Dette forteller oss at sannsynlgheten for å realsere de observerte verdene på Y og X tabell III2 er PYXb (, ) = 0 051 Kanskje blr dette enda klarere dersom v skrver sannsynlgheten som vektorer av observasjonene tabell III2 og estmatet for logtlgnngen tl dsse observasjonene: PY ( = (,, 11 0,,) 0 1 X= ( 3, 2,, 1 2,), 3 b= 0 406) = 0 051 La oss undersøke hva som skjer med denne sannsynlgheten dersom v holder observasjonene konstant men lar estmatet anta andre verder enn den verden SPSS prosedyren returnerte Resultatet av et slkt eksperment er vst fgur III1 3 3 Et regneark er her nokså nyttg v
Fgur III1 0,06 0,04 P(Y X,b) 0,02 0-0,494-0,194 0,106 0,406 0,706 1,006 1,306 1,606 b Av fguren ser v at estmatet b = 0 406, som SPSS prosedyren returnerte, maksmerer sannsynlgheten for å observere datasettet tabell 8 Dersom v velger et lavere eller et høyere estmat enn dette så reduseres sannsynlgheten for at de observerte verdene tabell III2 kan opptre sammen Et begrep som benyttes forbndelse med estmerng av logtkoeffsenter er «lkelhood funksjon» (L- funksjon) En slk tlordner sannsynlgheter for å ha observert et bestemt datasett som en funksjon av logtkoeffsenten For en gtt verdkombnasjon på avhengg varabel er sannsynlgheten som L- funksjonen tlordner betnget av de observerte verdene på uavhengg varabel, samt av den koeffsenten som velges Funksjonen som er tegnet nn fgur III1 er et eksempel på en slk L- funksjon Formelt kan funksjonen uttrykkes som L = P( Y X, b) Estmatet tl logtkoeffsentene kalles et «maxmum lkelhood estmate» (MLE) og er altså gtt ved: b = max L = P ( Y X, b ), b x
MLE prnsppet er det samme for en bvarat og en multvarat logtlgnng Sden koeffsentene kke er lneære verdene på de uavhengge varablene fnnes det mdlertd kke en eksplstt løsnng for de lgnngssystemer som MLE gr opphav tl I prakss gjennomfører derfor programvaren en søkeprosedyre, hvor verdene på koeffsentene endres nntl det punkt der vdere endrnger av koeffsentene kke endrer L -funksjonen med mer enn et bestemt nkrement ( programvaren kalles slke endrnger koeffsentene «teratons») Fgur III1 antyder at søkeprosedyren er effektv x