SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat 01. Erling Berge Institutt for sosiologi og statsvitenskap NTNU

Like dokumenter
PENSUM SOS Forelesing I. SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat, vår 2003

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat 02. Erling Berge Institutt for sosiologi og statsvitenskap NTNU

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat, vår Erling Berge Institutt for sosiologi og statsvitenskap NTNU

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat, vår Erling Berge Institutt for sosiologi og statsvitenskap NTNU

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat, vår Erling Berge Institutt for sosiologi og statsvitenskap NTNU

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat 08. Erling Berge Institutt for sosiologi og statsvitenskap NTNU

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat 03. Erling Berge Institutt for sosiologi og statsvitenskap NTNU

SOS3003 Eksamensoppgåver

Statistisk beskrivelse av enkeltvariabler. SOS1120 Kvantitativ metode. Disposisjon. Datamatrisen. Forelesningsnotater 6. forelesning høsten 2005

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat, vår Erling Berge Institutt for sosiologi og statsvitenskap NTNU

Ref.: Fall SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat 05

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat, vår Erling Berge Institutt for sosiologi og statsvitenskap NTNU

SOS 301 og SOS31/ SOS311 MULTIVARIAT ANALYSE

NTNU, TRONDHEIM Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

SOS1120 Kvantitativ metode. Regresjonsanalyse. Lineær sammenheng II. Lineær sammenheng I. Forelesningsnotater 11. forelesning høsten 2005

Generelle lineære modeller i praksis

Fordelinger, mer om sentralmål og variasjonsmål. Tron Anders Moger

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Oversikt over Forelesing Erling Berge Institutt for sosiologi og statsvitskap NTNU

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat 06. Erling Berge Institutt for sosiologi og statsvitenskap NTNU

EKSAMEN I SOS1120 KVANTITATIV METODE 23. NOVEMBER 2004 (6 timer)

NTNU, TRONDHEIM Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

EKSAMENSOPPGAVE I IDRSA1004 Samfunnsvitenskapelig forskningsmetode og analyse

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat, vår Erling Berge Institutt for sosiologi og statsvitenskap NTNU

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat 04. Erling Berge Institutt for sosiologi og statsvitenskap NTNU

Kausalanalyse og seleksjonsproblem

SOS3003 Eksamensoppgåver

Lineære modeller i praksis

10.1 Enkel lineær regresjon Multippel regresjon

Er det enklere å anslå timelønna hvis vi vet utdanningslengden? Forelesning 14 Regresjonsanalyse

SOS 31 MULTIVARIAT ANALYSE

PENSUM SOS Mål for kurset. SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Oversikt over Forelesingsnotat, vår 2003

SOS3003 Eksamensoppgåver

Eksamensoppgåve i TMA4255 Anvendt statistikk

Forelesning 13 Regresjonsanalyse

Krysstabellanalyse (forts.) SOS1120 Kvantitativ metode. 4. Statistisk generalisering. Forelesningsnotater 9. forelesning høsten 2005.

Spørsmål. 21 april Vår Krav til semesteroppgåva

TMA4245 Statistikk Eksamen desember 2016

ST0202 Statistikk for samfunnsvitere

Eksamensoppgave i TMA4255 Anvendt statistikk

Fra krysstabell til regresjon

SOS3003 Eksamensoppgåver

EKSAMENSOPPGAVE STA-1001.

Om eksamen. Never, never, never give up!

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 8 (s. 1) Oppgaver fra boka:

Statistikk og dataanalyse

ST0202 Statistikk for samfunnsvitere Kapittel 13: Lineær regresjon og korrelasjon

Kapittel 8: Tilfeldige utvalg, databeskrivelse og fordeling til observatorar, Kapittel 9: Estimering

Kort overblikk over kurset sålangt

Statistikk er begripelig

SOS3003 Eksamensoppgåver

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 σ2

SOS3003 Eksamensoppgåver

EKSAMEN I SOS1120 KVANTITATIV METODE 5. MAI 2004 (6 timer)

Om eksamen. Never, never, never give up!

Datamatrisen: observasjoner, variabler og verdier. Variablers målenivå: Nominal Ordinal Intervall Forholdstall (ratio)

Inferens i regresjon

Literature. Regression towards the mean. Erling Berge POL3507 IMPLEMENTERING OG EVALUERING AV OFFENTLEG POLITIKK.

UNIVERSITETET I OSLO

Analyse av kontinuerlige data. Intro til hypotesetesting. 21. april Seksjon for medisinsk statistikk, UIO. Tron Anders Moger

Til bruk i metodeundervisningen ved Høyskolen i Oslo

Emnenavn: Eksamenstid: Faglærer: Bjørnar Karlsen Kivedal

EKSAMEN I SOS1120 KVANTITATIV METODE 5. DESEMBER 2005 (4 timer)

Eksamensoppgåve i TMA4240 Statistikk

Forkurs i kvantitative metoder ILP 2019

Kapittel 3: Studieopplegg

Statistikk for språk- og musikkvitere 1

NTNU, TRONDHEIM Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

Eksamensoppgave i ST3001

EKSAMEN I TMA4255 ANVENDT STATISTIKK

Dataanalyse. Hva er en dataanalyse og hvordan gå frem for å gjennomføre en dataanalyse av det innsamlede datagrunnlaget fra en feltundersøkelse?

Eksamensoppgave i TMA4255 Anvendt statistikk

Kp. 11 Enkel lineær regresjon (og korrelasjon) Kp. 11 Regresjonsanalyse; oversikt

EKSAMENSOPPGAVER STAT100 Vår 2011

PSYC 3101 KVANTITATIV METODE II Eksamen høst 2008

I enkel lineær regresjon beskrev linja. μ y = β 0 + β 1 x

Multippel regresjon. Her utvider vi perspektivet for enkel lineær regresjon til også å omfatte flere forklaringsvariable x 1, x 2,, x p.

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat 12. Erling Berge Institutt for sosiologi og statsvitenskap NTNU

TMA4245 Statistikk Eksamen august 2014

Seksjon 1.3 Tetthetskurver og normalfordelingen

Norges teknisk-naturvitenskapelige universitet Fakultet for samfunnsvitenskap og teknologiledelse Pedagogisk institutt

Eksamensoppgåve i TMA4255 Anvendt statistikk

SOS 31 MULTIVARIAT ANALYSE

Tillatte hjelpemidler: C3: alle typer kalkulator, alle andre hjelpemidler

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Eksamensoppgave i TMA4267 Lineære statistiske modeller

EKSAMEN I FAG TMA4260 INDUSTRIELL STATISTIKK

Eksamensoppgave i PSY3100 forskningsmetoder kvantitativ

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.

MOT310 Statistiske metoder 1, høsten 2011 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 1. n + (x 0 x) 1 2 ) = 1 γ

TMA4245 Statistikk Eksamen desember 2016

MASTER I IDRETTSVITENSKAP 2018/2020. Individuell skriftlig eksamen. STA 400- Statistikk. Mandag 18. mars 2019 kl

NTNU, TRONDHEIM Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

Sammenlikninger av gjennomsnitt. SOS1120 Kvantitativ metode. Kan besvare to spørsmål: Sammenlikning av to gjennomsnitt

Introduksjon til statistikk og dataanalyse. Arild Brandrud Næss TMA4240 Statistikk NTNU, høsten 2013

ST0202 Statistikk for samfunnsvitere

Eksamensoppgåve i ST0103 Brukarkurs i statistikk

Sensorveiledning: skoleeksamen i SOS Kvantitativ metode

ST0202 Statistikk for samfunnsvitere. Bo Lindqvist Institutt for matematiske fag

ST0202 Statistikk for samfunnsvitere

TMA4240 Statistikk Eksamen desember 2015

Transkript:

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat 01 Erling Berge Institutt for sosiologi og statsvitenskap NTNU Erling Berge 2004 1 PENSUM SOS 3003 Hamilton, Lawrence C. 1992 "Regression with graphics", Belmont, Duxbury, Kap. 1-7. Hardy, Melissa A. 1992 Regression with dummy variables Sage University Paper: QASS 93, London, Sage, Allison, Paul D. 2002 Missing Data Sage University Paper: QASS 136, London, Sage, Erling Berge 2004 2 Erling Berge 2004 1

Opplegg Forelesing I Føresetnader: SOS 1002 eller tilsvarande Målsetting: lese faglitteratur Pensum Semesteroppgåve: del av eksamen Variabelfordelingar. Hamilton Kap 1 s1-23 Bivariat regresjon I Hamilton Kap 2 s29-50 Erling Berge 2004 3 Mål for kurset Kunne lese og vurdere faglitteratur som drøftar kvantitative data Vi skal kjenne fallgruvene Gjennomføre enkle analysar av samvariasjon i kvantitative og kvalitative data Vi skal demonstrere at vi kjenner fallgruvene Erling Berge 2004 4 Erling Berge 2004 2

Kort repetisjon av grunnleggjande omgrep Årsak Modell Populasjon Utval Variabel: målenivå Variabel: sentraltendens Variabel: spreiing Erling Berge 2004 5 Data-analyse Deskriptive bruk av data Utvikling av klassifikasjonar Analytisk bruk av data Beskrive fenomen som ikkje kan observerast direkte (inferens) Årsaksamband mellom direkte eller indirekte observerbare fenomen (teori eller modellutvikling) Erling Berge 2004 6 Erling Berge 2004 3

KAUSALANALYSE: frå samvariasjon til årsak frå daglegspråk til teori fantasi og intuisjon, etablert fagleg tradisjon frå teori til modell operasjonalisering frå observasjon til generalisering kausalanalyse Erling Berge 2004 7 3 SENTRALE SKILNADER Observert Interesse TEORI/ MODEL - RØYNDOM UTVAL - POPULASJON SAMVARIASJON - ÅRSAK På eine sida har vi det vi faktisk kan sette på papiret, på andre sida det vi gjerne vil seie noko om. Erling Berge 2004 8 Erling Berge 2004 4

Sentrale feilkjelder Feil i teori/ modell Modellspesifikasjonskravet Feil i utval Seleksjonsproblemet Måleproblem Frafall og målefeil Validitet og reliabilitet Multiple komparasjonar Utvalsspesifikke konklusjonar Erling Berge 2004 9 Frå populasjon til utval POPULASJON (ALLE EININGAR) enkel tilfeldig trekking UTVAL (UTVALTE EININGAR) Erling Berge 2004 10 Erling Berge 2004 5

Eining og variabel Eininga, beraren av data, er kontekstuelt definert SUPER - EINING: t.d. lokalsamfunnet EINING: t.d. hushald SUB - EINING: t.d. person Variabel: empirisk omgrep brukt til å karakterisere undersøkte einingar. Kvar eining vert karakterisert ved å tilordne den ein variabelverdi. Erling Berge 2004 11 Datamatrise og målenivå Matrise definert av Einingar * Variablar Tabell over eigenskapane til alle undersøkte einingar ordna slik at alle variabelverdiane kjem i same rekkefølgje for alle einingar. Målenivå av ein variabel nominal *klassifisering ordinal *klassifisering og rang intervall *klassifisering, rang og avstand forholdstal *klassifisering, rang, avstand og nullpunkt Erling Berge 2004 12 Erling Berge 2004 6

Variabelanalyse Beskrivelse Sentraltendens og spreiing Fordelingsform Frekvensfordelingar og histogram Samanlikning av fordelingar Kvantilplott Boxplott Erling Berge 2004 13 VARIABEL: SENTRALTENDENS GJENNOMSNITT Summen av verdiane på variabelen for alle einingane dividert på talet av einingar MEDIAN Den verdien i ei ordna fordeling som har halvparten av einingane på kvar side MODUS Den typiske verdien. Den verdien i ei fordeling som har høgast frekvens. X 1 n X i n i = 1 = Erling Berge 2004 14 Erling Berge 2004 7

VARIABEL: SPREDNINGSMÅL I MODALPROSENTEN Prosent av einingane som har verdi lik modus VARIASJONSBREDDA Differansen mellom høgaste og lågaste verdi i ei ordna fordeling KVARTILDIFFERENSEN Variasjonsbreidda for dei 50% av einingane som ligg rundt medianen (Q 3 -Q 1 ) MAD - Median Absolute Deviation Medianen til absoluttverdien til skilnaden mellom median og observert verdi: MAD(x i ) = median x i -median(x i ) Erling Berge 2004 15 VARIABEL: SPREDNINGSMÅL II STANARDAVVIKET Kvadratrot av gjennomsnittleg kvadrert avvik frå gjennomsnittet s y = (Σ i (Y i - Ỹ) 2 )/(n 1) GJENNOMSNITSAVVIKET Gjennomsnittet av absoluttverdien til avviket frå gjennomsnittet VARIANSEN Kvadratet av standardavviket: s y2 = (Σ i (Y i - Ỹ) 2 )/(n 1) (ps: her er Ỹ gjennomsnittet av Y) Erling Berge 2004 16 Erling Berge 2004 8

Variabel: fordelingsform I Symmetriske fordelingar Skeive fordelingar Tunge og lette halar Normalfordelingar Er ikkje normale Er eintydig fastlagt av gjennomsnitt og standardavvik ( µ og σ ) Erling Berge 2004 17 0,40 0,30 NormalNullEin 0,20 0,10-2,00-1,00 0,00 1,00 2,00 XX Erling Berge 2004 18 Erling Berge 2004 9

0,40 0,30 NormalNullEin 0,20 0,10-2,00-1,00 0,00 1,00 2,00 XX Erling Berge 2004 19 Skeive fordelingar Positivt skeive har Ỹ > Md Negativt skeive har Ỹ < Md Symmetriske fordelingar har Ỹ Md Erling Berge 2004 20 Erling Berge 2004 10

Symmetriske fordelingar Medianen og IQR er resistente mot verknader av ekstreme verdiar. Gjennomsnitt og standardavvik er det ikkje I normalfordelinga er s y IQR/1.35 Dersom vi i ei symmetrisk fordeling finn s y > IQR/1.35 er halane tyngre enn i normalfordelinga s y < IQR/1.35 er halane lettare enn i normalfordelinga s y IQR/1.35 er halane omlag slik som i normalfordelinga Erling Berge 2004 21 Transformasjon venstreskeiv symmetrisk kvadrering høgreskeiv tredjerot Erling Berge 2004 22 Erling Berge 2004 11

Variabel: fordelingsanalyse I Boxplott Basert på kvartilverdiane og interkvartilavviket Definerer nærliggjande utliggarar som dei som ligg innanfor intervalla <Q 1-1.5IQR, Q 1 > og <Q 3 + 1.5IQR, Q 3 > og fjerntliggjande utliggjarar dei som ligg utanfor grensene < Q 1-1.5IQR, Q 3 + 1.5IQR > Erling Berge 2004 23 Variablar: fordelingsform II Kvantilar er ei generalisering av kvartilar og percentilar Kvantilverdiane er variabelverdiane som svarar til gitte fraksjonar av det samla utvalet eller observasjonsmaterialet, t.d. Medianen er 0.5 kvantilen (eller 50% percentilen) Nedre kvartil er 0.25 kvantilen 10% percentilen er 01 kvantilen osv. Erling Berge 2004 24 Erling Berge 2004 12

Variabel: fordelingsanalyse II Kvantilplott Kvantilverdi mot variabelverdi Lorentzkurva er ein spesialvariant av dette (gir oss Gini-indeksen) Kvantil-Normalplott Plott av kvantilverdiar på ein variabel mot kvantilverdiane i ei normalfordeling med same gjennomsnitt og spreiing Erling Berge 2004 25 Eksempel: Frå Randaberg Spørreskjema: spørsmål X 27 ANTALL DEKAR GRUNN DU eier: Erling Berge 2004 26 Erling Berge 2004 13

NUMBER OF DEKAR LAND OWNED N Minimum Maximum Mean Std. Deviation NUMBER OF DEKAR LAND OWNED 380 0 99900 21885.17 38279.311 Valid N (listwise) 380 Erling Berge 2004 27 200 150 Frequency 100 50 0 0 20000 40000 60000 80000 100000 NUMBER OF DEKAR LAND OWNED Mean = 21885,17 Std. Dev. = 38279,311 N = 380 Erling Berge 2004 28 Erling Berge 2004 14

XAreaOwned (NUMBER OF DEKAR LAND OWNED) N XAreaOwned 307 Valid N (listwise) 307 Minimum.00 Maximum 25000.00 Mean 3334.4104 Std. Deviation 4201.54943 Erling Berge 2004 29 N XAreaOwned 307 Valid N (listwise) 307 Range 25000.00 Minimum.00 Maximum 25000.00 Sum 1023664.00 Mean 3334.4104 Std. Error 239.79509 Std. Deviation 4201.54943 Variance 17653017.596 Skewness 1.352 Std. Error.139 Kurtosis 2.194 Std. Error.277 Erling Berge 2004 30 Erling Berge 2004 15

200 150 Frequency 100 50 0 0,00 5000,00 10000,00 15000,00 20000,00 25000,00 XAreaOwned Mean = 3334,4104 Std. Dev. = 4201,54943 N = 307 Erling Berge 2004 31 25000,00 287 20000,00 15000,00 321 346 366 344 329 10000,00 5000,00 0,00 XAreaOwned Erling Berge 2004 32 Erling Berge 2004 16

Normal Q-Q Plot of XAreaOwned NB SPSS sine figurar er spegelvendt i høve til Hamilton sine Expected Normal Value 20 000 15 000 10 000 5 000 0-5 000-10 000-10 000 0 10 000 20 000 Observed Value Erling Berge 2004 33 Normal Q-Q Plot of NormalNullEin 3 2 Expected Normal Value 1 0-1 -2-3 -3-2 -1 0 1 2 3 Standardized Observed Value Erling Berge 2004 34 Erling Berge 2004 17

Spørreskjema: spørsmål Y Hvor viktig er det at myndighetene kontrollerer og regulerer bruken av arealer gjennom for eksempel kontroll av av tomtetildelinger (kommunal formidl.) 1 2 3 4 5 6 7 8 avkjørsler fra hus til vei 1 2 3 4 5 6 7 8 kjøp og salg av landbrukseiendommer 1 2 3 4 5 6 7 8 Erling Berge 2004 35 Importance of public control of sales of agric. estates Valid 1 Frequency 50 Percent 13.2 Valid Percent 13.2 Cumulative Percent 13.2 2 40 10.5 10.5 23.7 3 34 8.9 8.9 32.6 4 59 15.5 15.5 48.2 5 45 11.8 11.8 60.0 6 50 13.2 13.2 73.2 7 85 22.4 22.4 95.5 8 12 3.2 3.2 98.7 9 5 1.3 1.3 100.0 Total 380 100.0 100.0 Erling Berge 2004 36 Erling Berge 2004 18

100 80 60 Count 40 20 0 1 2 3 4 5 6 7 8 9 I. OF P. CNTR. OF SALES OF AGRIC. EST. Erling Berge 2004 37 Spørreskjema: koding Ved utfylling: sett ring rundt et tall som synes å gi passelig uttrykk for viktigheten når 1 betyr svært lite viktig og 7 særdeles viktig, eller sett et kryss inne i parantesene ( ) som står bak svaret du velger På noen spørsmål kan du krysse av flere svar lykkes dårlig/ lite viktig lykkes godt/ svært viktig vet ikke Kodeverdi 1 2 3 4 5 6 7 8 Dei som ikkje kryssar av noko svar vert koda 9 Erling Berge 2004 38 Erling Berge 2004 19

I. OF P. CNTR. OF SALES OF AGRIC. EST. Frequency Percent Valid Percent Cumulative Percent Valid 1 50 13.2 13.8 13.8 2 40 10.5 11.0 24.8 3 4 34 59 8.9 15.5 9.4 16.3 34.2 50.4 5 45 11.8 12.4 62.8 6 50 13.2 13.8 76.6 7 85 22.4 23.4 100.0 Missing Total 8 363 12 95.5 3.2 100.0 9 5 1.3 Total 17 4.5 Total 380 100.0 Erling Berge 2004 39 100 80 60 Count 40 20 0 1 2 3 4 5 6 7 I. OF P. CNTR. OF SALES OF AGRIC. EST. Erling Berge 2004 40 Erling Berge 2004 20

N Range Minimum Maximum Sum Mean Std. Error Std. Deviation Variance Skewness Std. Error Kurtosis Std. Error I. OF P. CNTR. OF SALES OF AGRIC. EST. 380 8 1 9 1729 4.55.114 2.213 4.897 -.171.125-1.148.250 YControlSalesAgricEstate Valid N (listwise) 363 6.00 1.00 7.00 1588.00 4.3747.11045 2.10435 4.428 -.234.128-1.267.255 Erling Berge 2004 41 Normal Q-Q Plot of I. OF P. CNTR. OF SALES OF AGRIC. EST. 7 6 Expected Normal Value 5 4 3 2 1 1 2 3 Erling 4 Berge 20045 6 7 42 Observed Value Erling Berge 2004 21

Normal Q-Q Plot of I. OF P. CNTR. OF SALES OF AGRIC. EST. 10 8 Expected Normal Value 6 4 2 0 0 2 4 6 8 10 Observed Value Erling Berge 2004 43 7 10,00 6 8,00 5 6,00 4 4,00 3 2 2,00 1 0,00 I. OF P. CNTR. OF SALES OF AGRIC. EST. YControlSalesAgricEstatesORD Erling Berge 2004 44 Erling Berge 2004 22

Box-plott Boksen vert konstruert ut frå kvartilverdiane Q 1 og Q 3 Nærliggjande store verdiar vert definer som dei som ligg utanfor boksen men innan for Q 3 + 1.5*IQR eller Q 1-1.5*IQR Utliggjarar (alvorlege ekstremverdiar er dei som ligg utanfor Q 3 + 1.5*IQR eller Q 1-1.5*IQR Erling Berge 2004 45 Om datainnsamling og datakvalitet Spørsmåla teknikkane for å spørre vil vi ikkje diskutere Utvalet Frå trekking til ferdig datamatrise, seleksjon, nekting og manglande svar Kva er viktig for kvaliteten av data? Samanhengen mellom manglande observasjonar og fenomenet som vert studert Kva skal vi gjere når data er mangelfulle? Erling Berge 2004 46 Erling Berge 2004 23

Formulering av modellar Definisjon av elementa i modellen variablar, feilledd, populasjon og utval Definisjon av relasjonar mellom elementa utvalsprosedyre, tidsrekkefølgje av hendingar og observasjonar, likninga som bind elementa saman Presisering av føresetnader for bruk av gitt estimeringsmetode tilhøve til substansteori (spesifikasjon) fordeling og eigenskapar ved feilledd Erling Berge 2004 47 Elementa i modellen Populasjon: Utval: Variablar: Feilledd: Erling Berge 2004 48 Erling Berge 2004 24

Relasjonar mellom elementa Utvalsprosedyre: skeive (biased) utval Tidsrekkefølgje av hendingar og observasjonar Samvariasjon, genuin vs. spuriøs samvariasjon Konklusjonar om kausalsamband krev genuin samvariasjon Likninga: Erling Berge 2004 49 Bivariat Regresjon: Modell for populasjon Y i = β 0 + β 1 x 1i + ε i i=1,...,n n = # case i populasjonen Y og X må definerast eintydig, og Y må ha målenivå intervallskala i ordinær regresjon Erling Berge 2004 50 Erling Berge 2004 25

Bivariat Regresjon: Modell for utval Y i = b 0 + b 1 x 1i + e i i=1,...,n n = # case i utvalet Y og X må definerast eintydig, og Y må ha målenivå intervallskala eller høvestalskala (målevariabel) i ordinær regresjon Erling Berge 2004 51 Regresjonseksempelet Eksempelet som følgjer inneheld ei rekkje feil. Ein slik regresjon kvalifiserer til stryk Det blir lesaren si oppgåve å identifisere feila så fort som råd er, og så aldri gjere slike feil sjølv Tips: sjå tilbake på fordelingane av variablane ovanfor Erling Berge 2004 52 Erling Berge 2004 26

Importance of public control of sales of agric. Estates Model Summary Model R R Square Adjusted R Square Std. Error of the Estimate 1.047(a).002.000 2.213 a Predictors: (Constant), NUMBER OF DEKAR LAND OWNED Erling Berge 2004 53 Importance of public control of sales of agric. Estates ANOVA(b) Model Sum of Squares df Mean Square F Sig. 1 Regression 4.145 1 4.145.846.358(a) Residual 1851.905 378 4.899 Total 1856.050 379 a Predictors: (Constant), NUMBER OF DEKAR LAND OWNED b Dependent Variable: I. OF P. CNTR. OF SALES OF AGRIC. EST. Erling Berge 2004 54 Erling Berge 2004 27

Importance of public control of sales of agric. Estates Coefficients(a) Model 1 (Constant) NUMBER OF DEKAR LAND OWNED Unstandardized Coefficients B Std. Error 4.610.131.000.000 Standardized Coefficients Beta -.047 t 35.233 -.920 Sig..000.358 a Dependent Variable: I. OF P. CNTR. OF SALES OF AGRIC. EST. Erling Berge 2004 55 Spreiingsdiagram 10 I. OF P. CNTR. OF SALES OF AGRIC. EST. 8 6 4 2 0 0 20000 40000 60000 80000 100000 NUMBER OF DEKAR LAND OWNED Erling Berge 2004 56 Erling Berge 2004 28

Spredningsdiagram med regresjonslinje 10 I. OF P. CNTR. OF SALES OF AGRIC. EST. 8 6 4 2 0 0 20000 40000 60000 80000 100000 NUMBER OF DEKAR LAND OWNED Erling Berge 2004 57 FØRESETNADER FOR OLS REGRESJON OLS: ordinary least squares (minste kvadrat metoden) Krava til regresjonsanalysen kan kort oppsummerast ved Vi føreset at den lineære modellen er korrekt med uavhengige og identisk normalfordelte feil ( normal i.i.d. errors ) Erling Berge 2004 58 Erling Berge 2004 29

OLS metoden Observert feil e i = (Y i -b 0 -b 1 x 1i ) Kvadrert og summert observert feil Σ i (e i ) 2 = Σ i (Y i -b 0 -b 1 x 1i ) 2 Finn b 0 og b 1 som minimerer kvadratsummen Erling Berge 2004 59 Tilhøvet utval - populasjon (1) Forventa verdi: vi skriv E[ *] der * står for eitt eller anna uttrykk som inneheld minst ein variabel, t.d. E[Y i ] = E[b 0 + b 1 x 1i + e i ] = β 0 + β 1 x 1i E[b 0 ] = β 0 ; E[b 1 ] = β 1 ; E[e i ] = ε i Erling Berge 2004 60 Erling Berge 2004 30

Tilhøvet utval - populasjon (2) Tilhøvet utval - populasjon er fastlagt gjennom dei eigenskapane som feilleddet har fått gjennom utvalsprosedyren og observasjonsplanen Ved reint tilfeldige utval og fullstendig observasjon vil E[ ε i ] = 0 for alle i, og var [ε i ] = σ 2 for alle i Erling Berge 2004 61 Fullstendig observasjon Gjer det mulig å sette opp ein fullstendig spesifisert modell. Dette tyder at alle variablar som kausalt påverkar det fenomenet vi studerer (Y) er observert, dvs. inkludert i likninga Dette er i praksis umogeleg. Derfor nyttar vi feilleddet til å samle opp uobserverte faktorar Erling Berge 2004 62 Erling Berge 2004 31

Hypotesetesting I Vi konkluderer med at H 0 er sann Vi konkluderer med at H 0 er usann I røynda er H 0 sann Metoden gir rett konklusjon med sannsyn 1 α Feil av type I Testnivået α er sannsynet for feil av type I I røynda er H 0 usann Feil av type II (sannsyn 1 β) β = styrken til testen Erling Berge 2004 63 Hypotesetesting II Ein test er alltid konstruert ut frå føresetnaden at H 0 er rett Testkonstruksjonen fører fram til ein testobservator Testobservatoren er konstruert slik at den har ei kjent sannsynsfordeling, ei samplingfordeling Erling Berge 2004 64 Erling Berge 2004 32

T-test og F-test Kvadratsummar TSS = ESS + RSS RSS = Σ i (e i ) 2 = Σ i (Y i - Ŷ i ) 2 avstand observert estimert verdi ESS = Σ i (Ŷ i - Ỹ) 2 avstand estimert verdi gjennomsnitt TSS = Σ i (Y i - Ỹ) 2 avstand observert verdi gjennomsnitt Testobservator t = (b - β)/ SE b SE = standard error F = [ESS/(K-1)]/[RSS/(n-K)] K = talet av parametrar Erling Berge 2004 65 Testen sin p-verdi Testen sin p-verdi gir oss det estimerte sannsynet for å observere dei verdiane vi har i utvalet eller verdiar som er enno meir gunstige ut frå teorien om at H 0 er gal dersom utvalet vårt er reint tilfeldig trekt frå ein populasjon det H 0 er rett Svært låge p-verdiar gjer at vi ikkje kan tru at H 0 er rett Erling Berge 2004 66 Erling Berge 2004 33

Konfidensintervall for β Vel ein t α - verdi frå tabellen over t-fordelinga med n-k fridomsgrader slik at intervallet < b t α (SE b ), b + t α (SE b ) > i ein tosidig test gir eit sannsyn på α for å gjere feil av type I Dette tyder at b t α (SE b ) β b + t α (SE b ) med sannsyn 1 α Erling Berge 2004 67 Determinasjonskoeffisienten Determinasjonskoeffisienten: R 2 n n 2 2 = ESS/TSS = ( Yˆ i Y) / ( Yi Y) i= 1 i= 1 Fortel kor stor del av variasjonen rundt gjennomsnittet vi forklarer ved hjelp av variablane vi nyttar i regresjonen (Ŷ i = predikert y) I bivariat regresjon er determinasjonskoeffisienten lik korrelasjonskoeffisienten: r yu2 = s yu /s y s n u 1 Kovariansen s yu = ( Yi Y) ( Ui U) n 1 i= 1 Erling Berge 2004 68 Erling Berge 2004 34