SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat 07. Erling Berge Institutt for sosiologi og statsvitenskap NTNU

Like dokumenter
SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat 11. Erling Berge Institutt for sosiologi og statsvitenskap NTNU

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat, vår Erling Berge Institutt for sosiologi og statsvitenskap NTNU

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat, vår Erling Berge Institutt for sosiologi og statsvitenskap NTNU

X ijk = µ+α i +β j +γ ij +ǫ ijk ; k = 1,2; j = 1,2,3; i = 1,2,3; i=1 γ ij = 3. i=1 α i = 3. j=1 β j = 3. j=1 γ ij = 0.

Oppgaver. Multiple regresjon. Forelesning 3 MET3592 Økonometri ved David Kreiberg Vår 2011

Appendiks 1: Organisering av Riksdagsdata i SPSS. Sannerstedt- og Sjölins data er klargjort for logitanalyse i SPSS filen på følgende måte:

TMA4240/4245 Statistikk Eksamen august 2016

Medisinsk statistikk, del II, vår 2008 KLMED Lineær regresjon, Rosner Regresjon?

Medisinsk statistikk, del II, vår 2009 KLMED 8005

SOS3003 Eksamensoppgåver

ØVINGER 2017 Løsninger til oppgaver

SOS3003 Eksamensoppgåver

Log Linear Model. . Web Page: 2. (estimating parameter) ก (main effect) interaction effect

Hvordan får man data og modell til å passe sammen?

MASTER I IDRETTSVITENSKAP 2012/2014. Individuell skriftlig eksamen. MAS 402- Statistikk. Tirsdag 9. oktober 2012 kl

Eksamensoppgave i SØK Statistikk for økonomer

Logistisk regresjon 1

Notasjoner, gjennomsnitt og kvadratsummer. Enveis ANOVA, modell. Flere enn to grupper. Enveis variansanalyse (One-way ANOVA, fixed effects model)

SOS 301 og SOS31/ SOS311 MULTIVARIAT ANALYSE

TMA4300 Mod. stat. metoder

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

(iii) Når 5 er blitt trukket ut, er det tre igjen som kan blir trukket ut til den siste plassen, altså:

TALLSVAR. Det anbefales at de 9 deloppgavene merket med A, B, teller likt uansett variasjon i vanskelighetsgrad. Svarene er gitt i <<< >>>.

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat 12. Erling Berge Institutt for sosiologi og statsvitenskap NTNU

EKSAMEN I FAG SIF5040 NUMERISKE METODER Tirsdag 15. mai 2001 Tid: 09:00 14:00

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat, vår Erling Berge Institutt for sosiologi og statsvitenskap NTNU

Sannsynlighet seier noko om kor truleg det er at ei hending får eit bestemt utfall. Ein matematisk definisjon på sannsynlighet er:

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat 08. Erling Berge Institutt for sosiologi og statsvitenskap NTNU

STK1110 høsten Lineær regresjon. Svarer til avsnittene i læreboka (med unntak av stoffet om logistisk regresjon)

STK1000 Innføring i anvendt statistikk Eksamensdag: Tirsdag 12. desember 2017

Oversikt 1. forelesning. ECON240 Statistikk og økonometri. Utdanning og lønn. Forskning. Datainnsamling; utdanning og inntekt

EKSAMENSOPPGAVE I SØK1004 STATISTIKK FOR ØKONOMER STATISTICS FOR ECONOMISTS

SOS3003 Eksamensoppgåver

Litt enkel matematikk for SOS3003. Om matematikk. Litt om kva vi treng. Erling Berge

De normalfordelte: x og sd for hver gruppe. De skjevfordelte og de ekstremt skjevfordelte: Median og kvartiler for hver gruppe.

SOS3003 Eksamensoppgåver

UNIVERSITETET I OSLO

TMA4265 Stokastiske prosesser

MASTER I IDRETTSVITENSKAP 2018/2020. Individuell skriftlig eksamen. STA 400- Statistikk. Mandag 18. mars 2019 kl

Simpleksmetoden. Initiell basistabell Fase I for å skaffe initiell, brukbar løsning. Fase II: Iterativ prosess for å finne optimal løsning Pivotering

Logistisk regresjon 2

2007/30. Notater. Nina Hagesæther. Notater. Bruk av applikasjonen Struktur. Stabsavdeling/Seksjon for statistiske metoder og standarder

Løsningskisse for oppgaver til uke 15 ( april)

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 σ2

Oppgaven består av 9 delspørsmål som anbefales å veie like mye, Kommentarer og tallsvar er skrevet inn mellom <<, >>, Oppgave 1

STK desember 2007

FRAMLEGG TIL LØYSING AV EKSAMENOPPGÅVER I SOS301/ SOS311 8 DES 1997

NÆRINGSSTRUKTUR OG INTERNASJONAL HANDEL

TALLSVAR. Det anbefales at de 9 deloppgavene merket med A, B, teller likt uansett variasjon i vanskelighetsgrad. Svarene er gitt i <<< >>>.

Alle deloppgaver teller likt i vurderingen av besvarelsen.

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat, vår Erling Berge Institutt for sosiologi og statsvitenskap NTNU

Alternerende rekker og absolutt konvergens

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Oppgave 1 Det er oppgitt i oppgaveteksten at estimatoren er forventningsrett, så vi vet allerede at E(ˆµ) = µ. Variansen til ˆµ er 2 2 ( )

SOS3003 Eksamensoppgåver

MOT310 Statistiske metoder 1, høsten 2011 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 1. n + (x 0 x) 1 2 ) = 1 γ

EKSAMENSOPPGAVE I IDRSA1004 Samfunnsvitenskapelig forskningsmetode og analyse

TMA4240 Statistikk Høst 2016

Løsningsforslag (ST1201/ST , kontinuasjonseksamen) ln L. X i = 2n.

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat, vår Erling Berge Institutt for sosiologi og statsvitenskap NTNU

Løsningsforslag Eksamen i Statistikk Nov 2001 Oppgave 1 a) Det fins 8 mulige kombinasjoner. Disse finnes ved å utelate ett og ett tall.

UNIVERSITETET I OSLO

NA Dok. 52 Angivelse av måleusikkerhet ved kalibreringer

Forelesning 17 Logistisk regresjonsanalyse

Auksjoner og miljø: Privat informasjon og kollektive goder. Eirik Romstad Handelshøyskolen Norges miljø- og biovitenskapelige universitet

Veiledning til obligatorisk oppgave i ECON 3610/4610 høsten N. Vi skal bestemme den fordeling av denne gitte arbeidsstyrken som

Forelesning 3 MET3592 Økonometri ved David Kreiberg Vår 2011

regresjonsmodeller multippel logistisk regresjon logistisk regresjon prediksjon vs assosiasjon den logistisk funksjonen (2)

TMA4245 Statistikk Eksamen august 2014

Masteroppgave i statistikk. GAMLSS-modeller i bilforsikring. Hallvard Røyrane-Løtvedt Kandidatnr

Spørsmål. 21 april Vår Krav til semesteroppgåva

Illustrasjon av regel 5.19 om sentralgrenseteoremet og litt om heltallskorreksjon (som i eksempel 5.18).

TALLSVAR. Det anbefales at de 9 deloppgavene merket med A, B, teller likt uansett variasjon i vanskelighetsgrad. Svarene er gitt i << >>.

Ref.: Fall SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat 05

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 8 (s. 1) Oppgaver fra boka:

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat, vår Erling Berge Institutt for sosiologi og statsvitenskap NTNU

Anvendt medisinsk statistikk, vår Repeterte målinger, del II

Forelesning 8 STK3100/4100

Investering under usikkerhet Risiko og avkastning Høy risiko. Risikokostnad prosjekt Snøskuffe. Presisering av risikobegrepet

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

TMA4245 Statistikk Eksamen 21. mai 2013

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat, vår Erling Berge Institutt for sosiologi og statsvitenskap NTNU

Dynamisk programmering. Hvilke problemer? Overlappende delproblemer. Optimalitetsprinsippet

Sparing gir mulighet for å forskyve forbruk over tid; spesielt kan ujevne inntekter transformeres til jevnere forbruk.

Forelesning 4 og 5 MET3592 Økonometri ved David Kreiberg Vår 2011

Anvendelser. Kapittel 12. Minste kvadraters metode

som vi ønsker å si noe om basert på data Eksempel. Uid-modellen: X1, X ,,,

Statistikk og økonomi, våren 2017

n n i=1 x2 i n x2 n i=1 Y i og x = 1 n i=1 (x i x)y i = 5942 og n T = i=1 (x i x) 2 t n 2

STK juni 2016

SNF-rapport nr. 23/05

Seleksjon og uttak av alderspensjon fra Folketrygden

Eksamen i: STA-1002 Statistikk og sannsynlighet 2 Dato: Fredag 31. mai 2013 Tid: Kl 09:00 13:00 Sted: Administrasjonsbygget

Notater. Bjørn Gabrielsen, Magnar Lillegård, Berit Otnes, Brith Sundby, Dag Abrahamsen, Pål Strand (Hdir)

Notat 1: Grunnleggende statistikk og introduksjon til økonometri

Audun Langørgen Alternative metoder for beregning av kostnadsnøkler for utgiftsutjevning mellom kommuner

Forelesning 25 og 26 Introduksjon til Bayesiansk statistikk

NTNU, TRONDHEIM Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

1 + γ 2 X i + V i (2)

Forelesning 19 og 20 Regresjon og korrelasjons (II)

Transkript:

SOS3003 Anvendt statstsk dataanalyse samfunnsvtenskap Forelesngsnotat 07 Erlng Berge Insttutt for sosolog og statsvtenskap NTNU Erlng Berge 2004 Forelesng VII Logstsk regresjon I Hamlton Kap 7 s27-234 Erlng Berge 2004 2 Erlng Berge 2004

LOGIT REGRESJON eller LOGISTISK REGRESJON Skal nyttast når avhengg varabel er på nomnalnvå Føreset at Y har verdane 0 eller Modellen av den betnga forventnnga tl Y, E[Y X], nyttar den logstske funksjonen Men Kvfor kan kkje E[Y X] vere en lneær funksjon også her? Erlng Berge 2004 3 Den lneære sannsynsmodellen: LPM Den lneære sannsynsmodellen (LPM) brukt på Y når Y berre kan ta to verdar (0,) føreset at v kan tolke E[Y X] som et sannsyn E[Y X] = b 0 + Σ j b j x j = Pr[Y =] Dette fører tl problem Erlng Berge 2004 4 Erlng Berge 2004 2

Er føresetnadene rette LPM? En føresetnad LPM er at resdualen e stettar krava tl OLS Resdualen er anten e = (b 0 + Σ j b j x j ) eller e = 0 (b 0 + Σ j b j x j ) Dette tyder heteroskedaststet (resdualen varerer med storleken på x-varablane) Det fnst estmerngsmetodar som kan komme rundt dette problemet (2-stegs vekta mnste kvadrats metode tl dømes) Et eksempel på LPM: Erlng Berge 2004 5 OLS regresjon av dkotom avhengg varabel på varabelen år budd byen ANOVA tabell Sum of Squares df Mean Square F Sg. Regresson 3, 3, 3,648,000(a) Resdual 34,48 5,228 Total 37,529 52 Dependent Varable: SCHOOLS SHOULD CLOSE (Constant) B,594 Std. Error,059 t 0,47 Sg.,000 YEARS LIVED IN TOWN -,008,002-3,694,000 Regresjonen ser helt OK ut desse tabellane. Erlng Berge 2004 6 Erlng Berge 2004 3

,00 0,80 SCHOOLS SHOULD CLOSE 0,60 0,40 0,20 Her kjem predkert y under 0 for rmelege verdar av x R Sq Lnear = 0,083 0,00 0,00 20,00 40,00 60,00 80,00 00,00 YEARS LIVED IN WILLIAMSTOWN Sprengsplott med regresjonslnje. Fgur 7. Hamlton Erlng Berge 2004 7 LPM er fel modell V ser eksempelet her at en for rmelege verdar av x-ane kan får en verd av predkert y der E[Y X] > eller E[Y X] < 0, Dette kan en kkje gjere noko med LPM er substanselt sett fel modell Det trengst en modell der en alltd har 0 < E[Y X] < Erlng Berge 2004 8 Erlng Berge 2004 4

Den logstske funksjonen Den generelle logstske funksjonen er Y = α/(+γ*exp[-βx ]) + ε α>0 gr den øvre grensa for Y, dvs v har at 0<Y< α γ fastlegg det horsontale punkt for rask vekst Set en α = og γ = Vl en alltd ha 0 < /(+exp[-βx ]) < Den logstske funksjonen vl for alle verdar av x lggje mellom 0 og Erlng Berge 2004 9 Logstske kurver for ulk β 0.8 0.6 0.4 0.2 y= y= +exp(-0.5x) +exp(-0.25x) +exp(-0.x) y= Horzontal lne through ( 0, ) 20 0 0 20 40 6 Erlng Berge 2004 0 Erlng Berge 2004 5

MODELL () Defnsjonar Sannsynet for at person skal ha verden på varabelen Y skrv v Pr(Y =). Da er Pr(Y ) = - Pr(Y =) Oddsen for at person skal ha verden på varabelen Y, her kalla O, er tlhøvet mellom to sannsyn: O ( y ) ( y = ) ( y ) Pr p = = = Pr = p Erlng Berge 2004 MODELL (2) Defnsjonar: LOGITEN, L, er den naturlege logartmen tl oddsen, O, for person : L = ln(o ) Modellen føreset at L er en lneær funksjon av forklarngsvarablane x j, dvs: L = β 0 + Σ j β j x j, der j=,...,k-, og =,...,n Erlng Berge 2004 2 Erlng Berge 2004 6

MODELL (3) Sett X = (samlnga av alle x j ), da er sannsynet for at Y = for person nr exp( L ) Pr( y = ) = E[ y x] = = + exp + exp( L ) der L K =β + β X 0 j j j= ( L ) Grafen tl dette sambandet er nyttg for tolknga av kva e endrng x tyder Erlng Berge 2004 3 MODELL (4) I modellen Y = E[Y X] + ε er felen enten ε = - E[Y X] med sannsyn E[Y X] (sdan Pr(Y = ) = E[Y X] ), eller felen er ε = - E[Y X] med sannsyn - E[Y X] mao felen har e fordelng kjent som bnomalfordelnga med p = E[Y X] Erlng Berge 2004 4 Erlng Berge 2004 7

Estmerng Metoden brukt for å estmere parametrane modellen heter Maxmum Lkelhood ML-metoden gr oss de parametrane som maksmerer sannsynet (Lkelhood) for å fnne de observasjonane v faktsk har Dette sannsynet skal v kalle L Krteret for å velje regresjonsparametrar er at lkelhooden skal vere størst mogeleg Erlng Berge 2004 5 Maxmum Lkelhood () Lkelhooden er lk produktet av sannsynet for kvar enskld observasjon. For en dkotom varabel der Pr(Y = )=P kan dette skrvast L n = { ( ) ( ) } Y Y P P = Erlng Berge 2004 6 Erlng Berge 2004 8

Maxmum Lkelhood (2) For lettare å kunne maksmere sannsynet L tar en den naturlege logartmen tl L : n ( L) = { y P+ ( y) ( P) } ln ln ln = Den naturlege logartmen tl L kallar v LogLkelhooden, V kan kalle den LL. LLhar e sentral rolle logstsk regresjon. Erlng Berge 2004 7 Logstsk modell staden for LPM Iteraton Step 0 2 3 4-2 Log Lkelhood 209,22 95,684 95,269 95,267 95,267 Coeffcents Constant Lved n town -,275 0,376 -,034,455 -,04,460 -,04,460 -,04 Dependent: Schools should close Lved n town Constant B -,04,460 S.E.,02,263 Wald,399 3,069 df Sg.,00,080 Exp(B),960,584 Erlng Berge 2004 8 Erlng Berge 2004 9

Fotnotar tl tabellen Step 0: Utgangspunktet er en modell med konstantledd og ngen varablar Iteratv estmerng Estmernga vart avslutta ved terasjon nr 4 sdan parameterestmata endra seg med mndre enn 0,00 Observatoren Wald som SPSS gr oss er lk kvadratet av den t som Hamlton (og STATA) gr. Erlng Berge 2004 9,00000 0,80000 SCHOOLS SHOULD CLOSE YEARS LIVED IN WILLIAMSTOWN Predcted probablty YEARS LIVED IN WILLIAMSTOWN 0,60000 Fg 7.4 Hamlton 0,40000 0,20000 Den lneære modellen er lagt nn ved sda av den logstske 0,00000 0,00 20,00 40,00 60,00 80,00 00,00 Erlng Berge 2004 20 Erlng Berge 2004 0

TESTING To testar er aktuelle () Sannsynsratetesten Lkelhood rato test Denne kan nyttast analogt med F-testen (2) Wald testen Kvadratrota av denne kan nyttast analogt med t-testen Erlng Berge 2004 2 Tolknng () Sklnaden mellom den lneære modellen og den logstske er stor nærleken av 0 og LPM er lett å tolke: Y = β 0 når x =0, og når x veks med e enng veks Y med β engar Logtmodellen er vanskelegare å tolke. Den er kkje-lneær både høve tl oddsen og sannsynet. Erlng Berge 2004 22 Erlng Berge 2004

ODDS og ODDSRATER Logten, L, ( L = β0 + Σj βj xj ) er defnert som den naturlege logartmen tl oddsen. Det tyder at oddsen = O (Y =) = exp(l ) = e L og oddsraten = O (Y = L ) / O (Y = L ) der L og L har ulk verd for en x.j. Erlng Berge 2004 23 Tolknng (2) Når alle x er lk 0 er L = β 0 Det tyder at oddsen for at y = det høvet er exp{β 0 } Dersom en held alle x-ane fast (set de lk en konstant) medan x aukar med vl oddsen for at y = verte multplsert med exp{β } Det tyder at den vl endre seg med 00(exp{β } ) % Sannsynet Pr{y = } vl endre seg med en faktor som er påverka av alle elementa logten Erlng Berge 2004 24 Erlng Berge 2004 2

LOGISTISK REGRESJON: FØRESETNADER Modellen er korrekt spesfsert logten er lneær parametrane alle relevante varablar er med ngen rrelevante er med x-varablane er målt utan fel Observasjonane er uavhengge Ikkje perfekt multkollneartet Ikkje perfekt dskrmnerng Stort nok utval Erlng Berge 2004 25 FØRESETNADER som kkje kan testast Modellen er korrekt spesfsert alle relevante varablar er med x-varablane er målt utan fel Observasjonane er uavhengge To vl teste seg sjølve Ikkje perfekt multkollneartet Ikkje perfekt dskrmnerng Erlng Berge 2004 26 Erlng Berge 2004 3

LOGISTISK REGRESJON Statstske problem kan komme av For lte utval Høg grad av multkollneartet Fører tl store standardfel (uskre estmat) Vert oppdaga og handtert på same måten som OLS regresjon Høg grad av dskrmnerng (eller separasjon) fører tl store standardfel (uskre estmat) Vert oppdaga automatsk av SPSS Erlng Berge 2004 27 Dskrmnerng/ separasjon Problem med dskrmnerng dukkar opp når v for en gtt x-verd får nesten perfekt predksjon av y-verden (nesten alle med en gtt x-verd har same y-verd) I SPSS kan dette g følgjande meldng: Warnngs There s possbly a quas-complete separaton n the data. Ether the maxmum lkelhood estmates do not exst or some parameter estmates are nfnte. The NOMREG procedure contnues despte the above warnng(s). Subsequent results shown are based on the last teraton. Valdty of the model ft s uncertan. Erlng Berge 2004 28 Erlng Berge 2004 4

Dskrmnerng Hamlton tabell 7.5 Odds for svakare krav er 44/202 = 0,28 mellom kvnner utan småbarn Odds for svakare krav er 0/79 = 0 mellom kvnner med småbarn Oddsraten er 0/0,28 = 0 slk at exp{b kvnne }=0 Dette tyder at b kvnne = mnus uendeleg Ikkje svakare krav Svakare krav OK Kvnne utan små barn 202 44 Kvnne med små barn 79 0 Erlng Berge 2004 29 Logstsk regresjon Dersom føresetnadene er korrekte vl logstsk regresjon g oss normalfordelte, forventnngsrette og varansmnmale estmat av parametrane Erlng Berge 2004 30 Erlng Berge 2004 5