SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat, vår Erling Berge Institutt for sosiologi og statsvitenskap NTNU

Like dokumenter
Oppgaver fra boka: Oppgave 12.1 (utg. 9) Y n 1 x 1n x 2n. og y =

SOS3003 Eksamensoppgåver

SOS3003 Eksamensoppgåver

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat 11. Erling Berge Institutt for sosiologi og statsvitenskap NTNU

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat 12. Erling Berge Institutt for sosiologi og statsvitenskap NTNU

Tillatt utvendig overtrykk/innvendig undertrykk

Oppgave 1 (25 %) 100 e = = R = ln R = 0.020, dvs. spotrenten for 1 år er 2,0 % 100 e = e e

Logistisk regresjon 1

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat, vår Erling Berge Institutt for sosiologi og statsvitenskap NTNU

Logistisk regresjon 2

SOS 301 og SOS31/ SOS311 MULTIVARIAT ANALYSE

Christiania Spigerverk AS, Postboks 4397 Nydalen, 0402 Oslo BYGNINGSBESLAG

FYS2140 Kvantefysikk, Oblig 10. Sindre Rannem Bilden,Gruppe 4

SOS3003 Eksamensoppgåver

Forelesning 17 Logistisk regresjonsanalyse

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat, vår Erling Berge Institutt for sosiologi og statsvitenskap NTNU

Dans Dans Dans. Danseprosjektet i. Midsund kommune. Våren Dans i skolene Dans i klubbene Dans i fritida Dans i hverdagen

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat 07. Erling Berge Institutt for sosiologi og statsvitenskap NTNU

Notater. Anne Sofie Abrahamsen. Analyse av revisjon Feilkoder og endringer i utenrikshandelsstatistikken. 2005/10 Notater 2005

MASTER I IDRETTSVITENSKAP 2018/2020. Individuell skriftlig eksamen. STA 400- Statistikk. Mandag 18. mars 2019 kl

Er det enklere å anslå timelønna hvis vi vet utdanningslengden? Forelesning 14 Regresjonsanalyse

EKSAMENSOPPGAVE I IDRSA1004 Samfunnsvitenskapelig forskningsmetode og analyse

ST0202 Statistikk for samfunnsvitere

Klart vi skal debattere om skum!!

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat 03. Erling Berge Institutt for sosiologi og statsvitenskap NTNU

MA1102 Grunnkurs i analyse II Vår 2014

Notasjon og Tabell 8. ST0202 Statistikk for samfunnsvitere

Oppgave 1 (25 %) 100 e = = R = ln R = 0.025, dvs. spotrenten for 1 år er 2,5 % e e. 100 e = 94.74

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat, vår Erling Berge Institutt for sosiologi og statsvitenskap NTNU

Språk og skrift som er brukt i SOS3003

Litt enkel matematikk for SOS3003

FORELESNINGSNOTATER I INFORMASJONSØKONOMI Geir B. Asheim, våren 2001 (oppdatert ). 3. UGUNSTIG UTVALG

Om eksamen. Never, never, never give up!

Løsningsforslag til eksamen

med en mengde korrelasjoner mellom delmengdene. Det er her viktig a fa med

Oppsummering av STK2120. Geir Storvik

Litt enkel matematikk for SOS3003. Om matematikk. Litt om kva vi treng. Erling Berge

LANDSOMFATTENDE UNDERSØKELSE 22. JANUAR - 6. FEBRUAR ============================= Respons

TMA4245 Statistikk Eksamen desember 2016

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat, vår Erling Berge Institutt for sosiologi og statsvitenskap NTNU

NTNU, TRONDHEIM Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

UTPLUKK/UTSKRIFT AV SELVAVLESNINGSKORT

SKOLEEKSAMEN 29. september 2006 (4 timer)

NTNU, TRONDHEIM Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

Om eksamen. Never, never, never give up!

Intern korrespondanse

SOS3003 Eksamensoppgåver

Kategoriske data, del I: Kategoriske data - del 2 (Rosner, ) Kategoriske data, del II: 2x2 tabell, parede data (Mc Nemar s test)

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat, vår Erling Berge Institutt for sosiologi og statsvitenskap NTNU

Forelesning 13 Regresjonsanalyse

Flere utfordringer til kapittel 1

Erling Berge Institutt for sosiologi og statsvitenskap Norges Teknisk Naturvitskapelege Universitet

Løsningsforslag Eksamen 8. august 2007 TFY4250 Atom- og molekylfysikk

SOS1120 Kvantitativ metode. Regresjonsanalyse. Lineær sammenheng II. Lineær sammenheng I. Forelesningsnotater 11. forelesning høsten 2005

EKSAMEN I TMA4245 STATISTIKK Tysdag 21. mai 2013 Tid: 09:00 13:00 (Korrigert )

Mer øving til kapittel 1

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat 08. Erling Berge Institutt for sosiologi og statsvitenskap NTNU

FRAMLEGG TIL LØYSING AV EKSAMENOPPGÅVER I SOS301/ SOS311 8 DES 1997

STK juni 2016

UNIVERSITETET I OSLO

Løsningsforslag til eksamen i MAT 1100, 8/12-04 Del 1

FRAMLEGG TIL LØYSING AV EKSAMENSOPPGÅVER I SOS311 / SOS MAI 1998

Forelesning 9 Kjikvadrattesten. Kjikvadrattest for bivariate tabeller (klassisk variant) Når kan vi forkaste H 0?

110 e = = R = ln R = 0.03, dvs. spotrenten for 1 år er 3 % = R = dvs. spotrenten for 2 år er 3.

regresjonsmodeller multippel logistisk regresjon logistisk regresjon prediksjon vs assosiasjon den logistisk funksjonen (2)

Ref.: Fall SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat 05

Std. Error. ANOVA b. Sum of Squares df Square F Sig , , ,600, , , ,

SOS3003 Eksamensoppgåver

Krysstabellanalyse (forts.) SOS1120 Kvantitativ metode. 4. Statistisk generalisering. Forelesningsnotater 9. forelesning høsten 2005.

UNIVERSITETET I OSLO

Generell info vedr. avfallshåndtering ved skipsanløp til Alta Havn

KRAVFIL TIL KREDITORFORENINGEN [Spesialrapport]

ISE matavfallskverner

Eksamensoppgåve i TMA4240 Statistikk

KRAVFIL TIL KREDINOR [Spesialrapport]

EKSAMEN I SOS4020 KVANTITATIV METODE 20. mars (4 timer)

NTNU, TRONDHEIM Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

Forelesning 10 Kjikvadrattesten

Erling Berge Institutt for sosiologi og statsvitenskap Norges Teknisk Naturvitskapelege Universitet

NTNU, TRONDHEIM Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

Litt enkel matematikk for SOS3003

Mundell-Fleming modellen ved perfekt kapitalmobilitet 1

Convex hull. Konveks innhylling. La P være en mengde punkter i et k-dimensjonalt rom, P R k. (Vi skal for enkelthets skyld bare se på k = 2.

EKSAMENSOPPGÅVER SVSOS316 HAUST 2000 FRAMLEGG TIL LØYSING

Hans Holmengen Merverdiavgift i reiselivsbedrifter (Arbeidsnotat 2000:100)

vassområde, lokal tiltaksanalyse jan.2014 Voss- Osterfjorden vassområde Lokal tiltaksanalyse, endeleg versjon

Kap. 6, Kontinuerlege Sannsynsfordelingar

Nye renovatørar overtek innsamling av avfall frå 1. juni 2016

NTNU Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 8 (s. 1) Oppgaver fra boka:

ENKELT, TRYGT OG LØNNSOMT!

Matematikk for IT, høsten 2018

Vi feirer med 20-års jubileumspakker på flere av våre mest populære modeller

Kapittel 2: Hendelser

Kausalanalyse og seleksjonsproblem

EKSAMEN I SOSIOLOGI SOS KVANTITATIV METODE. ORDINÆR SKOLEEKSAMEN 4. april 2011 (4 timer)

Formelsamling for matematiske metoder 3.

Fra krysstabell til regresjon

Generelt format på fil ved innsending av eksamensresultater og emner til Eksamensdatabasen

Transkript:

SOS3003 Anvndt statistisk dataanalys i samfunnsvitnskap Forlsingsnotat, vår 2003 Erling Brg Institutt for sosiologi og statsvitnskap NTNU Vår 2004 Erling Brg 2004 Forlsing X Logistisk rgrsjon II Hamilton Kap 7 s223-233 Vår 2004 Erling Brg 2004 2

LOGISTISK REGRESJON ESTIMERING ML (Maximum liklihood) mtodn finn di paramtran i Logit likninga som maksimrr dn naturlg logaritmn til Liklihoodn, L n i= LogLiklihoodn = LL = ln(l) = log (L) = Σ i {Y i log P i + (-Y i )log (-P i )}, i=, 2, 3,..., n, LLr alltid ngativ. Maksimring av LL r drfor likvrdig md minimring av dn positiv LogLiklihoodn (dvs. -LL ) Y { ( ) ( ) } Y i i Pi P i = Vår 2004 Erling Brg 2004 3 Itrativ stimring Estimringa vart avslutta vd itrasjon nr 4 sidan paramtrstimata ndra sg md mindr nn 0,00. Utdrag frå Hamilton Tabll 7. Itration -2 Log Liklihood Constant Cofficints livd Initial 0 209,22 -,276 Stp 95,684,376 2 95,269,455 3 95,267,460 4 95,267,460 Utgangspunktt r in modll md konstantldd -,034 -,04 -,04 -,04 Vår 2004 Erling Brg 2004 4

LOGISTISK REGRESJON: TESTING () To tstar r aktull () Sannsynsrattstn Liklihood ratio tst Dnn kan nyttast analogt md F-tstn (2) Wald tstn Vår 2004 Erling Brg 2004 5 LOGISTISK REGRESJON: TESTING (2) Sannsynsrattstn : Diffransn mllom LogLiklihoodn (LL) til to modllar stimrt på samm datamatrial kan nyttast til å tst to nsta modllar mot kvarandr omlag som F obsrvatorn i OLS rgrsjon Tstn kan og nyttast på inskildkoffsintar. I små utval r dn btr nn Wald-tstn Vår 2004 Erling Brg 2004 6

LOGISTISK REGRESJON: TESTING (3) Sannsynsrat tst-obsrvatorn χ 2 Η = -2[LL(modll) - LL(modll2)] vil, drsom nullhypotsa om ingn skilnad mllom modllan r rtt, vr tilnærma (for stor n) kji-kvadratfordlt md fridomsgradr lik diffransn i talt på paramtrar i di to modllan (H) Vår 2004 Erling Brg 2004 7 Eksmpl på Sannsynsrattst Modll : brr konstant Modll 2: konstant pluss in variabl χ 2 Η = -2[LL(modll) - LL(modll2)] Finn vrdin av Kji-kvadratt og talt på fridomsgradr Eks.: LogLiklihood (mod) = 209,22/(-2) LogLiklihood (mod2) = 95,267/(-2) Frå Tab 7.: -2 Log liklihood 209,22 95,684 95,269 95,267 95,267 Vår 2004 Erling Brg 2004 8

LOGISTISK REGRESJON: TESTING (4) Wald-tstn Wald (kjikvadrat) obsrvatorn (oppgitt av SPSS) = t 2 = (b k / SE(b k )) 2 (t brukt av Hamilton) Obsrvatorn t = b k / SE(b k ) vil kunn nyttast til tsting av inskild paramtrar omlag som t-obsrvatorn i OLS rgrsjon Gitt at nullhypotsa r rtt vil t (for stor n) i logistisk rgrsjon vr tilnærma normalfordlt Gitt at nullhypotsa r rtt vil Wald obsrvatorn (for stor n) i logistisk rgrsjon vr tilnærma Kjikvadratfordlt md df= Vår 2004 Erling Brg 2004 9 Utdrag frå Hamilton Tabll 7.2 Itrasjon 0 2 3 4 5-2 Log liklihood 209,22 52,534 49,466 49,382 49,382 49,382 Variabls B S.E. Wald df Sig. Exp(B) Livd -,046,05 9,698,002,955 Educ -,66,090 3,404,065,847 Contam,208,465 6,739,009 3,347 Hsc 2,73,464 2,99,000 8,784 Constant,73,302,768,84 5,649 Vår 2004 Erling Brg 2004 0

LOGISTISK REGRESJON Konfidnsintrvall for paramtrstimat Konfidnsintrvall for paramtrstimat kan konstrurast ut frå at kvadratrota av Wald-obsrvatorn md fridomsgrad r tilnærma normalfordlt (sjå bild 9) b k -t α *SE(b k ) < β k < b k + t α *SE(b k ) dr t α r tabllvrdin tkn frå normalfordlinga md signifikansnivå α Vår 2004 Erling Brg 2004 Konfidnsintrvall basrt på t-fordlinga () I mangl av tabllar ovr normalfordling kan in gjr sg nytt av at t-fordlinga r tilnærma lik normalfordlinga vd stor n-k (t.d. n-k > 20) Vår 2004 Erling Brg 2004 2

Utdrag frå Hamilton Tabll 7.3 Stp livd B -,047 S.E.,07 Wald 7,550 df Sig.,006 Exp(B),954 duc -,206,093 4,887,027,84 contam,282,48 7,094,008 3,604 hsc 2,48,50 22,508,000,223 fmal -,052,557,009,926,950 kids -,67,566,406,236,5 nodad -2,226,999 4,964,026,08 Constant 2,894,603 3,259,07 8,060 Vår 2004 Erling Brg 2004 3 Mir om Hamilton Tabll 7.3 Itration -2 Log liklihood Cofficints Const livd duc contam hsc fmal kids nodad Stp0 209,22-0,276 Stp 47,028,565 -,027 -,30,782,764 -,05 -,365 -,074 2 4,482 2,538 -,04 -,87,47 2,239 -,037 -,580 -,844 3 4,054 2,859 -,046 -,204,269 2,40 -,050 -,662-2,84 4 4,049 2,893 -,047 -,206,282 2,48 -,052 -,67-2,225 5 4,049 2,894 -,047 -,206,282 2,48 -,052 -,67-2,226 Vår 2004 Erling Brg 2004 4

Er modlln i tabll 7.3 btr nn modlln i tabll 7.2? LL(modll i 7.3) = 4,049/(-2) LL(modll i 7.2) = 49,382/(-2) χ 2 Η = -2[LL(modll i 7.2) - LL(modll i 7.3)] Finn χ 2 Η vrdin Finn H Slå opp i tablln ovr kjikvadratfordlinga Vår 2004 Erling Brg 2004 5 Modlln av sannsynt for at vi skal obsrvr y= for prson i xp( Li ) Pr( yi = ) = E[ yi x] = = + xp + xp( L) K dr logitn L =β + β i 0 j ji j= av forklaringsvariablan X ( L ) i r in linær funksjon Ut frå formln r dt ikkj ltt å tolk kva koffsintan β tydr i Vår 2004 Erling Brg 2004 6

TOLKING: ODDS og ODDSRATER Logitn, L i, ( L i = β0 + Σj βj xji ) r dfinrt som dn naturlg logaritmn til oddsn. Dt tydr at oddsn = O i (Y i =) = xp(l i ) = L i og oddsratn = Oi (Y i = Li ) / O i (Y i = L i ) dr L i og L i har ulik vrdi for in x.j. Vår 2004 Erling Brg 2004 7 Oddsratn Oddsratn, O, kan tolkast som dn rlativ ffktn av å ha in variablvrdi hllr nn in annan t.d. drsom x ki = t+ i L i og x ki = t i L i O = O i (Y i = L i )/ O i (Y i = L i ) = xp[l i ]/ xp[l i ] = xp[β k ] Kvifor β k? Vår 2004 Erling Brg 2004 8

LOGISTISK REGRESJON Oddsratn: ksmpl Oddsn for å svar ja = b 0+b *Aldr+b 2 *Kvinn+b 3 *E.utd+b 4 *Barn i HH Oddsratn for å svar ja mllom kvinnr og mnn = b0+ b* Aldr+ b2* + b3* E. utd + b4* Barn _ i _ HH = b + b * Aldr+ b *0 + b * E. utd + b * Barn _ i _ HH 0 2 3 4 Hugs rknrglan for potnsar Vår 2004 Erling Brg 2004 9 b 2 LOGISTISK REGRESJON Oddsratn: ksmpl Oddsratn for å svar ja for itt års tilvkst i utdanning ( ) b0+ b* Aldr+ b2* Kvinn+ b3* E. utd + + b4* Barn _ i _ HH = b + b * Aldr+ b * Kvinn+ b * E. utd + b * Barn _ i _ HH 0 2 3 4 b 3 Hugs rknrglan for potnsar Vår 2004 Erling Brg 2004 20

Eksmpl frå Hamilton tabll 7.2 Kva r oddsratn for å gå inn for å stngj skoln vd itt års auk i skolgangn? Oddsratn r kvotintn mllom to odds dr dn in r oddsn for dn som har itt år mir utdanning b0+ b* ÅrBuddIByn+ b2*( Utdanning + ) + b3* UriningEigEigdom+ b4* MangHSCmøtr = b + b * ÅrBuddIByn+ b * Utdanning + b * UriningEigEigdom+ b * MangHSCmøtr 0 2 3 4 Oddsratn = Exp{b 2 } = xp(-0,66) = 0,847 Eitt kstra år utdanning førr til at oddsn vrt rdusrt md in faktor 0,847 Ein kan og si at oddsn aukar md 00(0,847-)% = -5,3% (dvs. minkar md 5,3%) b 2 Vår 2004 Erling Brg 2004 2 LOGISTISK REGRESJON BETINGA EFFEKT PLOTT Gi fast vrdiar til all x variablar unnatk in, t.d. variabl x k og st dss inn i likninga for logitn Plott Pr(Y=) som funksjon av x k, dvs P =/(+xp[-l]) = /(+xp[-konst - b k x k ]) for rimlg vrdiar av x k konst r konstantn in får vd innstting i logitn av di vald fast variablvrdian Vår 2004 Erling Brg 2004 22

Utdrag frå Hamilton Tabll 7.4 B S.E. Wald df Sig. Exp(B) Minimum Maximum Man livd -,040,05 6,559,00,96,00 8,00 9,2680 duc -,97,093 4,509,034,82 6,00 20,00 2,9542 contam,299,477 7,423,006 3,664,00,00,280 hsc 2,279,490 2,59,000 9,763,00,00,3072 nodad -,73,725 5,696,07,77,00,00,699 Constant 2,82,330 2,692,0 8,866 Logitn: L = 2.82-0.04*livd -0.97*duc +.299*contam +2.279*hsc -.73*nodad Hr lar vi livd varir og st inn høvlg vald vrdiar for di andr Vår 2004 Erling Brg 2004 23 Btinga ffkt plott frå Hamilton tabll 7.4 (fig7.5) ffktn av å bu lng i byn 0.8 0.6 0.4 0.2 0 0 20 y=/(+xp(-(2.82-0.04x-0.97 2.95+.299 0.28+2.279 0.3-.73 0.7))) y=/(+xp(-(2.82-0.04x-0.97 2.95+.299 +2.279 -.73 0))) y=/(+xp(-(2.82-0.04x-0.97 2.95+.299 0+2.279 0-.73 ))) 40 60 8 Vår 2004 Erling Brg 2004 24

Btinga ffkt plott frå Hamilton tabll 7.4 (fig7.6) ffktn av urining på ign igdom 0.8 0.6 0.4 0.2 0 0 0.2 0.4 0.6 0.8 y=/(+xp(-(2.82-0.04 9.27-0.97 2.95+.299x+2.279 0.3-.73 0.7))) y=/(+xp(-(2.82-0.04-0.97 6+.299x+2.279 -.73 0))) y=/(+xp(-(2.82-0.04 8-0.97 20+.299x+2.279 0-.73 ))) Vår 2004 Erling Brg 2004 25 Dtrminasjonskoffsintar I logistisk rgrsjonsmodllar finst ikkj mål tilsvarand dtrminasjons-koffsintn i OLS rgrsjon Flir analog mål har vor forslått Di r vrt oft kalla psudo R 2 Hamilton nyttar Aldrich og Nlson sitt psudo R 2 = χ 2 /(χ 2 +n) dr χ 2 = tstobsrvatorn for tstn av hil modlln mot in modll md brr konstant, og n = r talt på cas Vår 2004 Erling Brg 2004 26

Ulik psudo R 2 i SPSS SPSS rapportrr Cox og Snll, Naglkrk, og i multinomisk logistisk rgrsjon også McFaddn sin framlgg til R 2 Aldrich og Nlson sitt kan vi rkn ut sjølv Modl Summary Stp -2 Log liklihood *** Cox & Snll R Squar *** Naglkrk R Squar *** Psudo R-Squar Cox and Snll Naglkrk McFaddn *** *** *** Vår 2004 Erling Brg 2004 27