Genaro Sucarrat. Metode og økonometri. En moderne innføring. f(x) Ceci n est pas une économie

Størrelse: px
Begynne med side:

Download "Genaro Sucarrat. Metode og økonometri. En moderne innføring. f(x) Ceci n est pas une économie"

Transkript

1 Genaro Sucarrat Metode og økonometri En moderne innføring f(x) Ceci n est pas une économie Midlertidig utgave 2015

2 Metode og økonometri en moderne innføring (midlertidig utgave 2015) Her får du tilgang til den digitale utgaven av boken Metode og økonometri (midlertidig utgave 2015) i PDF-format. Her finner du klikkbare lenker som er demonstrasjoner av modeller og formler, lenker til mer stoff og du kan enkelt bevege deg rundt i den digitale utgaven. For å bruke den digitale utgaven må du registrere ekoden som står på innsiden av omslaget i boken. Når du er innlogget kan du lese og/eller lagre PDF-filen. Ikke del din unike bokkode med andre. Tilgang til den digitale utgaven vil da bli stengt.

3 Genaro Sucarrat Metode og økonometri En moderne innføring

4 Copyright 2015 by Fagbokforlaget Vigmostad & Bjørke AS All Rights Reserved ISBN: Grafisk produksjon: John Grieg AS, Bergen Omslagsdesign ved forlaget Omslagsillustrasjon: Genaro Sucarrat Dette er en midlertidig utgave der det faglige innholdet er korrekt, men boken er ikke korrekturlest i sistekorrektur. Spørsmål om denne boken kan rettes til: Fagbokforlaget Kanalveien Bergen Tlf.: Faks: e-post: fagbokforlaget@fagbokforlaget.no Dette er en digital utgave av boken som man har tilgang til når boken er kjøpt i papir-utgave. Det er ikke tillatt å mangfoldiggjøre denne digitale utgaven. Materialet er vernet etter åndsverkloven. Uten uttrykkelig samtykke er eksemplarfremstilling bare tillatt når det er hjemlet i lov eller avtale med Kopinor.

5 Innhold: Oversikter: Datasett, Stata videoer, Rettelser 4 1 Velkommen! 9 2 Repetisjon: Grunnleggende statistikk 13 3 Metode 28 4 Regresjonsmodellen 42 5 Funksjonell form 68 6 Kvalitative forklaringsvariabler 86 7 Heteroskedastisitet Autokorrelasjon og dynamiske modeller Spesifikasjonsfeil og modellvalg 129 Litteratur 144 Statistiske tabeller 146 Stikkord 154

6 Til: Oversikter Oversikter: Datasett, Stata videoer, Rettelser Datasett Stata videoer Rettelser Til: Innhold 4

7 Til: Oversikter Datasett MERK: Du må være tilkoblet internett for å kunne laste ned datasettene (se bokens omslag for nettadresse). viagra.xls: Kapittel 2 SalaryDataProfessionalSurvey2009Norway.xls: Kapittel 4, 5, 6, 7 og 9 husdata utvalg.xls: Kapittel 4 matutgifter.xls: Kapittel 5 utroskap utvalg.xls: Kapittel 6 husdata opprinneligmenjustert.xls: Kapittel 7 og 9 makrodata.xls: Kapittel 8 Til: Innhold 5

8 Til: Oversikter Stata videoer MERK: Du må være tilkoblet internett for å kunne spille av videoene (se bokens omslag for nettadresse). Videoene under utgjør løsningsforslag til utvalgte dataoppgaver i oppgavesettene. I tillegg til å være listet opp under, så er de også tilgjengelige via den oppgaven de utgjør et løsningsforslag til. Videoene er alle i mp4-format, hvilket betyr at de aller fleste elektroniske dingser (datamaskiner, nettbrett, smarttelefoner, mm.) burde være i stand til å spille dem av uten problemer. Hvis ikke, så kan du kan laste ned og installere VLC Media player. Dette er en åpen og gratis media-avspiller (les mer i Wikipedia) som er tilgjengelig for (blant annet) PC, Mac, Linux, nettbrett og smarttelefoner (både Mac OS og Android baserte). Alle videoene er på under 1MB. Husk å bruke pauseknappen hvis det går for fort! Hvordan importerer/laster jeg inn en Excel fil? (18 sek.) Hvordan aktiverer jeg dataredigeringsvinduet? (7 sek.) Hvordan beregner jeg utvalgsgjennomsnittet, utvalgsstandardavviket, osv.? (14 sek.) Hvordan lager jeg en ny variabel hvor et tall trekkes fra? (19 sek.) Hvordan lager jeg et histogram? (16 sek.) Hvordan åpner jeg/får jeg tak i introduksjonsboken Getting Started With Stata (pdf)? (15 sek.) Hvordan estimerer jeg en modell? (17 sek.) Hvordan lager jeg restverdiene/residualene til en estimert modell? (19 sek.) Hvordan lager jeg de anslåtte/predikerte verdiene til en estimert modell? (16 sek.) Hvordan estimerer jeg en modell med flere forklaringsvariabler? (22 sek.) Hvordan lager jeg en ny variabel hvor man tar den naturlige logaritmen? (19 sek.) Hvordan lager jeg en ny variabel lik en brøk bestående av to andre variabler? (22 sek.) Hvordan lager jeg en ny variabel og taster inn verdiene manuelt? (24 sek.) Hvordan lager jeg en dummy variabel? (18 sek.) Til: Innhold 6

9 Til: Oversikter Hvordan lager jeg en ny variabel (f.eks. en samspillsvariabel) hvor jeg ganger en variabel med en annen? (27 sek.) Hvordan beregner jeg korrelasjonsmatrisen til en gruppe variabler? (18 sek.) Hvordan estimerer jeg en modell med heteroskedastisitetsrobuste standardfeil av White typen? (21 sek.) Hvordan lager jeg en ny variabel lik de kvadrerte restverdiene/residualene til en modell? (33 sek.) Hvordan lager jeg en lagget (dvs. tidsforskjøvet) variabel? (25 sek.) Hvordan gjennomfører jeg 1-kuttmetoden? (40 sek.) Hvordan gjennomfører jeg bakovereliminasjonsmetoden? (37 sek.) Til: Innhold 7

10 Til: Oversikter Rettelser Oversikten under inneholder rettelser av eventuelle feil i teksten (definisjoner, formler og eksempler) og i oppgavesettene siden versjon 2.1.0, og evt. tillegg av faglig viktighet. Oversikten inneholder ikke endringer av stilistisk art, f.eks. skrivefeil og setningsforbedringer, og andre endringer av mindre faglig viktighet. Versjon (30. juni 2015). Denne versjonen inneholder ingen kjente faglige feil Til: Innhold 8

11 Til: Kapittelinnhold 1 VELKOMMEN! 1 Velkommen! 1.1 Hva er metode? Hva er økonometri? Hva er multippel regresjon? Hva slags spørsmål kan økonometrisk analyse gi svar på? Hva betyr figuren på forsiden av boka? Økonometrisk programvare Alternativ litteratur Økonometri er et tidsriktig fag. Og hvis jeg tør spå, så vil det bare bli viktigere og viktigere. Som Berkeley professor og sjefsøkonomen til Google, Hal Varian, sier til New York Times: Hva er det som er allestedsnærværende og billig? Data. Og hva er komplementært til data? Analyse. Min anbefaling til studenter er derfor at man tar massevis av kurs om hvordan man kan manipulere og analysere data: Databaser, maskinlæring, økonometri, statistikk, visualisering, og så videre Hal Varian 1 Denne boken er et resultat av materiale som jeg siden 2012 har laget til et Bachelorkurs i økonometri ved Handelshøyskolen BI. I 2014 endret kurset navn til MET 3590 Metode og økonometri for å reflektere en pensumendring som innebar et større innslag av generell metode. Min aller største takk går i denne forbindelse til tidligere studenter og til mine medforelesere. Uttallige feil og mangler har blitt rettet opp som følge av deres tilbakemeldinger, og minst like mange forbedringer har blitt gjort. Gjenværende feil og mangler er, selvfølgelig, helt og holdent mitt ansvar. 1.1 Hva er metode? På sitt mest generelle så omfatter metode alle mulige spørsmål forbundet med en undersøkelse eller analyse av en problemstilling. Vi har naturligvis ikke anledning til å dekke alle slike spørsmål i denne boken. Noen eksempler på spørsmål av metodologisk art er: Hva er en problemstilling og hvordan bør den formuleres? Hvordan bør vi gå fram for å belyse eller analysere problemstillingen eller samlingen spørsmål som vi ønsker svar på? Hva er forholdet mellom data og problemstilling? Hvordan kan måten vi samler inn data på, f.eks. spørsmålenes utforming, påvirke svarene vi får? Hvordan bruker vi statistiske teknikker for å belyse problemstillinger? Kan resultatene fra en undersøkelse generaliseres utover undersøkelsesenhetene (f.eks. de personene som ble intervjuet)? 1 New York Times ( Freakonomics bloggen) den 25. februar 2008: com/2008/02/25/hal-varian-answers-your-questions/ Til: Innhold 9

12 Til: Kapittelinnhold 1 VELKOMMEN! 1.2 Hva er økonometri? Økonometri ( econometrics på engelsk) er statistisk analyse av økonomiske data, hvor økonomiske data forstås i sin bredeste betydning. Økonometridelen til Kurset MET 3590 Metode og økonometri gir en innføring i bruken av kanskje det aller viktigste verktøyet innen flervariabelanalyse, nemlig den multiple regresjonsmodellen. Denne boken er derfor (blant annet) ment som en innføring og veiviser til den multiple regresjonsmodellen. 1.3 Hva er multippel regresjon? Multippel regresjon ( multiple regression på engelsk) er en form for flervariabel eller multivariat analyse. De aller fleste økonomiske fenomenene eller spørsmålene vi er interessert i å studere bestemmes nemlig av mer enn én variabel. Et eksempel er lønn. I tillegg til antall år med arbeidserfaring, så kan det tenkes at variabler som antall år med utdanning, type utdanning, alder, næring, kjønn, jobbsted, og så videre, kan ha en innvirkning på lønnsnivå. Multippel regresjonsanalyse er særlig egnet til å studere innvirkningen av hver av disse variablene i et helhetlig rammeverk. Det er viktig å understreke at multippel regresjon utgjør et helhetlig rammeverk. Et alternativ til å studere innvirkningene i et helhetlig rammeverk er å studere innvirkningen til variablene hver for seg, f.eks. ved hjelp av tovariabel eller bivariat analyse. Hvis forklaringsvariablene (dvs. arbeidserfaring, utdanning, osv.) er korrelerte hvilket de veldig ofte er, så vil disse bivariate analysene som regel føre til feilaktige konklusjoner. Det er grunnen til at et helhetlig flervariabel rammeverk er å foretrekke framfor separate tovariabel analyser. 1.4 Hva slags spørsmål kan økonometrisk analyse gi svar på? Veldig mange og de blir stadig flere! Den økte tilgangen til mer og mer data, og den fenomenalt raske teknologiutviklingen, bidrar begge til at regresjonsanalyse og andre former for dataanalyse i stadig større grad benyttes til å besvare flere og flere spørsmål. Et lite knippe eksempler er: Hypotesetesting. Er det f.eks. slik at mer utdanning i gjennomsnitt øker lønnen? Er begynnerlønnen i gjennomsnitt høyere for de som velger økonomisk-admistrative fag? Betyr kjønn noe for lønnsnivået? Effektberegning. Betyr ett år mer med arbeidserfaring mer enn ett år med med utdanning? Har utdanning en større effekt for de med økonomisk utdanning? Prediksjon. Hva er f.eks. predikert (dvs. anslått eller framskrevet) lønn for kvinner på 26 år med 4 års høyere utdanning? Hva med menn på samme alder og samme utdannelse? Til: Innhold 10

13 Til: Kapittelinnhold 1 VELKOMMEN! Kontrafaktisk analyse. Hvilken lønn ville Kari sannsynligvis hatt hvis hun hadde tatt 4 år ekstra med høyere utdanning? Hvilken lønn ville Ola sannsynligvis hatt hvis han hadde hatt 2 år mindre med arbeidserfaring? Kvalitetskontroll. Er det på tide å sende produksjonsmaskinen til vedlikehold fordi unormalt mange feil oppstår? Er det på tide å skifte ut utstyret? 1.5 Hva betyr figuren på forsiden av boka? Figuren er en allusjon til et kjent maleri av den surrealistiske maleren René Magritte (les mer i Wikipedia om René). Maleriet det er snakk om er av en pipe hvor det under står Ceci n est pas une pipe, altså Dette er ingen pipe på fransk. Dette stusset folk over, for maleriet er da åpenbart av en pipe! En journalist spurte for eksempel: Herr Magritte, hvorfor sier du at det ikke er en pipe når det åpenbart er en pipe? Da svarte René: Hvis det er en pipe, så røyk den da! Poenget til René var at maleriet i seg selv ikke var en pipe, men en billedlig representasjon eller beskrivelse av pipen. Akkurat som malerier, så er kvantitative formler og uttrykk (f.eks. statistikk) kun representasjoner eller forenklede beskrivelser av virkeligheten. De utgjør ikke virkeligheten. Figuren på forsiden er med andre ord ment å understreke viktigheten av å utvikle et kritisk forhold til bruken av kvantitative metoder. Studiet av metode og økonometri er ment til å bidra til dette. 1.6 Økonometrisk programvare Innledningsvis pekte vi på den økende tilgangen til mer og mer data som en viktig motivasjon for å studere økonometri. En annen viktig grunn er den økende tilgangen til sofistikert statistisk programvare, og paradoksalt nok at den sofistikerte statistiske programvaren blir enklere og enklere å bruke. Med andre ord, økonometrisk programvare utgjør en en stadig viktigere del av økonomisk dataanalyse. De to internasjonalt mest brukte økonometriske programvarene er Stata og EViews. Det er imidlertid også verdt å nevne OxMetrics som et minst like godt (men ikke like utbredt) alternativ på grunn av noen av dens unike moduler. 2 Andre populære statistikkprogrammer, som f.eks. SPSS og Minitab, tilbyr mange av men ikke alle de vanligste økonometriske metodene. Det er grunnen til at vi benytter oss av den spesialiserte økonometrisk programvaren Stata. Handelshøyskolen BI tilbyr studentene i MET 3590 Metode og økonometri programvaren Stata helt gratis, både for PC og Mac. Programvaren kan lastes ned via: 2 Dette gjelder særlig kointegrasjonsanalyse, finansiell modellering og modellseleksjon. Til: Innhold 11

14 Til: Kapittelinnhold 1 VELKOMMEN! Hvis man følger installasjonsveiledningen, så er det meste mer eller mindre selvforklarende bortsett fra når man blir spurt om hva slags executable som skal installeres. Her velger man IC alternativet (kontakt IT ved eventuelle problemer/spørsmål: BIT Support i Facebook, det er ikke nødvendig å være medlem av Facebook, eller send epost til it@bi.no). Stata er en kommersiell programvare, og vi får av og til spørsmål om det eksisterer gode alternativer som er gratis og fritt tilgjengelig. Og det gjør det. Det mest brukervennlige er spesielt beregnet på studenter og heter Gretl (mer info i Wikipedia). Programmet innholder veldig mange av de økonometriske funksjonalitetene til Stata og EViews. Ulempen med Gretl er at relativt få bedrifter og offentlige institusjoner bruker det. 3 En annen gratis programvare er R (mer info i Wikipedia). Denne programvaren er mye mer omfattende enn de overnevnte, og brukes av en mengde bedrifter og offentlige institusjoner over hele verden. R er imidlertid ikke like brukervennlig for begynnende studenter, og bærer mer preg av å være et statistisk programmeringsspråk. På lengre sikt er dette både en styrke og en mulighet, siden dette gir studenter muligheten til å utvikle statistisk programmeringskompetanse i et kraftig og internasjonalt meget utbredt språk. Programvaren RStudio (gratis) tilbyr et integrert brukergrensesnitt (et såkalt IDE ) som forenkler bruken, og RCommander (mer info i Wikipedia) er et annet populært alternativ (også gratis). Men på grunn av R sin natur og dens omfang, så vil nok de aller fleste synes det er vanskeligere å bruke innledningsvis. For de som imidlertid ønsker å tenke litt mer langsiktig for å gjøre seg mer attraktiv i arbeidsmarkedet (f.eks. i forhold til bruk og analyse av Big Data ), så kan det være en idé å allerede nå gjøre seg kjent med R. New York Times er et eksempel på en avis som har skrevet om den stadig økende bruken av R: Data Analysts Captivated by R s Power. 1.7 Alternativ litteratur Pensum til metodelen dekkes av Johannessen et al. (2011), mens pensum til økonometridelen dekkes av Gujarati (2014). Boken du nå leser kan ses på som en kortversjon av metodepensumet, og et fullverdig alternativ til økonometripensumet. For mer dyptgående og bredere innføringer i generell samfunnsvitenskapelig metode, så anbefales Hellevik (2011) og Ringdal (2013). For en god innføring i økonometri på norsk (men med et mer teoretisk preg), så anbefaler vi Bårdsen and Nymoen (2011). To engelske alternativer som dekker det meste av økonometri som en bachelor- og/eller masterstudent vil få bruk for er Wooldridge (2009) og Patterson (2000). En god innføring i økonometri spesielt tilpasset studenter som spesialiserer seg i finans er Brooks (2010). 3 NHH har nylig begynt å ta i bruk Gretl som økonometriverktøy i metodekurset til Bachelorgraden i økonomi og administrasjon: Anvendt metode. Til: Innhold 12

15 Til: Kapittelinnhold 2 REPETISJON: GRUNNLEGGENDE STATISTIKK 2 Repetisjon: Grunnleggende statistikk 2.1 Deskriptiv statistikk Forventning Sannsynlighetsfordelinger Statistisk hypotesetesting P -verdier Konfidensintervaller Oppgavesett Løsningsforslag Økonometrisk analyse bygger på grunnleggende statistikk. Dette kapitlet er ment som en kort repetisjon av de viktigste idéene derfra. 2.1 Deskriptiv statistikk La X 1, X 2,..., X n betegne utvalgsverdiene til en variabel X. Med andre ord, X i er verdien til observasjon i, og antallet observasjoner i utvalget er n. Noen av de viktigste beskrivende eller deskriptive størrelsene som vi vil få bruk for er: Utvalgsgjennomsnittet til X: X = 1 n n X i. (2.1) i=1 Utvalgsvariansen til X: s 2 X = 1 n 1 n (X i X) 2. (2.2) I ord, gjennomsnittlig kvadrert avvik fra gjennomsnittet. Strengt tatt så er det ikke et gjennomsnitt, siden vi deler på n 1 i stedet for n. Men intuitivt, og for de aller fleste praktiske formål, så utgjør størrelsen det gjennomsnittlige kvadrerte avviket. Det er dyptliggende teoretiske grunner til at vi deler på n 1 i stedet for n (i praksis er forskjellen som regel ubetydelig), og disse dyptliggende teoretiske grunnene skal vi ikke komme inn på her. i=1 Utvalgsstandardavviket til X: s X = s 2 X. (2.3) I ord, kvadratroten til utvalgsvariansen til X. Størrelsene over beskriver kjennetegn ved én variabel X. Ofte er vi imidlertid interessert i størrelser som uttryker hvordan to variabler X og Y er forbundet med hverandre: Til: Innhold 13

16 Til: Kapittelinnhold 2 REPETISJON: GRUNNLEGGENDE STATISTIKK Utvalgskovariansen mellom X og Y : s XY = 1 n 1 n (X i X) (Y i Y ). i=1 Utvalgskovariansen er et mål på sammenheng mellom to variabler X og Y, og målet kan anta både positive og negative verdier. Hvis verdien er positiv, så indikerer dette at en høyere X-verdi ofte er forbundet med en høyere Y -verdi (dvs. en positiv sammenheng). Motsatt, hvis verdien til s XY er negativ, så indikerer dette at en høyere X-verdi ofte er forbundet med en lavere Y -verdi (dvs. en negativ sammenheng). En verdi nær null indikerer ingen eller en svak sammenheng. En svakhet ved utvalgskovariansen er at det er unormert. Dette betyr at målet ikke varierer mellom en fast øvre grense og en fast nedre grense. For eksempel, hvis vi blir fortalt at utvalgskovariansen mellom to variabler er 400 tusen, så vet vi ikke om dette uttrykker en sterk eller svak positiv sammenheng, siden målet ikke er begrenset oppad. Utvalgskorrelasjonen mellom X og Y : r XY = s XY s X s Y, (2.4) hvor s Y er utvalgsstandardavviket til Y. I ord: Utvalgskovariansen mellom X og Y delt på produktet til utvalgsstandardavvikene deres. Akkurat som utvalgskovariansen, så er utvalgskorrelasjonen også et mål på sammenheng mellom to variabler X og Y som kan være enten positiv eller negativ. Men i motsetning til utvalgskovariansen, så er utvalgskorrelasjonen normert: Den varierer mellom en fast øvre grense og en fast nedre grense. Disse grensene er henholdsvis 1 og 1. En verdi nær 1 indikerer en sterk positiv sammenheng mellom X og Y, mens en verdi nær 1 indikerer en sterk negativ sammenheng. En verdi nær 0 indikerer en svak eller ingen sammenheng mellom X og Y. 2.2 Forventning Den statistiske definisjonen av forventning kan brukes til å lage populasjonsteoretiske motstykker til utvalgsstørrelser som utvalgsgjennomsnittet, utvalgsstandardavviket, utvalgskorrelasjonen, og så videre. I all korthet så er forventningen definert som en sum hvor verdien til hvert ledd blir vektet med en sannsynlighet (et tall mellom 0 og 1): (ledd nr. i) wi. (2.5) w i er altså sannsyligheten (vekten) til ledd nummer i. Det vanligste eksemplet på en forventning er populasjonsgjennomsnittet (til en variabel X): Xi w i. (2.6) Til: Innhold 14

17 Til: Kapittelinnhold 2 REPETISJON: GRUNNLEGGENDE STATISTIKK Med andre ord, hver verdi til X ganges med sannsynligheten sin w i. Populasjonsgjennomsnittet er rett og slett summen av disse produktene. Anta for eksempel at variabelen X kan anta to verdier, 1 og 2, og at deres respektive sannsynligheter er 0,2 og 0,8. Det gir en forventning lik 1 0, , 8 = 0, 2 + 1, 6 = 1, 8. Statistiske forventninger er så ofte brukt i statistikken at de har fått sitt egen symbol, E, den første bokstaven i det engelske ordet for forventning: Expectation. Populasjonsgjennomsnittet (til en variabel X) betegnes derfor E(X). Med hensyn til eksemplet over, så innebærer dette at E(X) = 1, 8. Populasjonsvariansen (til en variabel X), en annen viktig forventning, er definert som E [(X E(X)) 2 ], dvs. (Xi E(X)) 2 w i, (2.7) og betegnes V ar(x). Med hensyn til eksemplet over, så får vi V ar(x) = (1 1, 8) 2 0, 2 + (2 1, 8) 2 0, 8 = 0, 16. Videre er populasjonskovariansen og populasjonskorrelasjonen mellom to variabler X og Y definert som (henholdsvis): Cov(X, Y ) = E [(X E(X)) (Y E(Y ))] (2.8) Corr(X, Y ) = Cov(X, Y ). V ar(x) V ar(y ) (2.9) Definisjonen av forventing leder til en hel mengde av regneregler og alternative uttrykksmåter. Noen av disse, i tillegg til definisjonene over, er oppsummert her: E(X) = X i w i, hvor w i er sannsynligheten til X i E(X + Y ) = E(X) + E(Y ), hvor X og Y er variabler E(a) = a, hvor a er en konstant E(aX) = ae(x), hvor a er en konstant og X er en variabel E(aX + by ) = ae(x) + be(y ), hvor a og b er konstanter, og hvor X og Y er variabler V ar(x) = E[(X E(X)) 2 ] V ar(x) = E(X 2 ) E(X) 2 (en alternativ skrivemåte) Til: Innhold 15

18 Til: Kapittelinnhold 2 REPETISJON: GRUNNLEGGENDE STATISTIKK V ar(ax) = a 2 V ar(x), hvor a er en konstant V ar(a) = 0, hvor a er en konstant V ar(a + X) = V ar(x), hvor a er en konstant Cov(X, Y ) = E[(X E(X))(Y E(Y ))], hvor X og Y er variabler Cov(X, Y ) = E(XY ) E(X)E(Y ) (en alternativ skrivemåte) Cov(aX, by ) = abcov(x, Y ), hvor a og b er konstanter, og hvor X og Y er variabler V ar(x + Y ) = V ar(x) + V ar(y ) + 2Cov(X, Y ), hvor X og Y er variabler V ar(x Y ) = V ar(x) + V ar(y ) 2Cov(X, Y ), hvor X og Y er variabler Corr(X, Y ) = Cov(X,Y ) V ar(x) V ar(y ) 2.3 Sannsynlighetsfordelinger De sannsynlighetsfordelingene som vi vil benytte i dette kurset vil som oftest være forbundet med testuttrykk. De fire fordelingene som vi i større eller mindre grad vil benytte oss av er: Normalfordelingen, t-fordelingen, F -fordelingen og kjikvadratfordelingen. Tabeller for disse fordelingene er inneholdt bakerst. 2.4 Statistisk hypotesetesting En viktig anvendelse av statistikk er testing eller undersøking av påstander, dvs. hypoteser. I statistisk hypotesetesting skilles det mellom to typer hypoteser: Nullhypotesen (H 0 ) og alternativhypotesen (H A ). I prinsippet så er det undersøkeren eller anvenderen av statistikk som bestemmer hva som skal være hva, men det eksisterer noen veletablerte konvensjoner: Alternativhypotesen (H A ): Påstanden eller hypotesen man ønsker å teste Nullhypotesen (H 0 ): Det motsatte av alternativhypotesen i form av likhet, f.eks. at gjennomsnittlig årslønn til populasjonen av mediekonsulenter i Norge er lik 400 tusen kroner. Andre forhold av betydning for om en påstand skal utgjøre nullhypotesen eller alternativhypotesen er tidligere etablert kunnskap, og moralske og medisinske betraktninger. Hvis f.eks. tidligere etablert kunnskap indikerer at gjennomsnittlig årslønn er 400 tusen, så indikerer dette at nullhypotesen bør være 400 tusen selv om dette også er påstanden vi ønsker å teste/undersøke. Når det gjelder moralske og medisinske betraktninger, så argumenteres det (for eksempel) av og til innen matforskning at Til: Innhold 16

19 Til: Kapittelinnhold 2 REPETISJON: GRUNNLEGGENDE STATISTIKK en hypotese om skadelighet bør utgjøre nullhypotesen inntil det motsatte er bevist i forhold til visse tilsetningstoffer. Dette er for å forsikre seg om at man kun tillater tilsetningsstoffer som vi er helt sikre på ikke er skadelige. Et liknende argument har blitt framsatt i forhold til forskningen av om strålingen fra mobiltelefoner kan forårsake kreft, og i undersøkelser om global oppvarming. I tillegg til nullhypotesen og alternativhypotesen, så benytter statistisk hypotesetesting seg av fire andre ingredienser: Signifikansnivå (α): Sannsynligheten for å forkaste en sann nullhypotese. De oftest brukte nivåene er 10%, 5% og 1%, dvs. α = 0, 10, α = 0, 05 og α = 0, 01. Testuttrykk (eller testobservator): En formel hvis verdi indikerer om en nullhypotese er gal eller ikke. Jo lenger unna verdien til testutrykket er fra null, jo mer sannsynlig er det at nullhypotesen er gal. Forkastningsområdet: Verdiene til et testuttrykk som gjør at vi forkaster nullhypotesen. Kritisk(e) verdi(er): Grensen(e) til forkastningsområdet Gangen i statistisk hypotesetesting kan beskrives i fire trinn: 1. Velg α, og bestem H 0 og H A 2. Finn den kritiske verdien, eller de kritiske verdiene, til forkastningsområdet 3. Beregn verdien til testuttrykket 4. Konkludér: Forkast H 0 hvis verdien til testuttrykket ligger i forkastningsområdet. Hvis ikke, så beholdes H 0 Statistisk hypotesetesting kan resultere i feilaktige konklusjoner, og ofte så skiller man mellom to typer feil: Type 1 og type 2 feil. Hvis man forkaster H 0 selv om den er riktig, så sier vi at man begår en type 1 feil. Hvis man beholder H 0 selv om den er gal, så sier vi at man begår en type 2 feil. De ulike situasjonene kan oppsummeres i følgende tabell: H 0 sann H 0 gal H 0 forkastes Type 1 feil Riktig H 0 beholdes Riktig Type 2 feil I situasjoner hvor H 0 er riktig, så er sannsynligheten for type 1 feil gitt ved signifikansnivået α. Med andre ord, valg av signifikansnivå α uttrykker i en viss forstand kostnaden forbundet ved å feilaktig forkaste nullhypotesen: Jo lavere α, jo sterkere bør indikasjonene være om at nullhypotesen er gal for å forkaste den. Til: Innhold 17

20 Til: Kapittelinnhold 2 REPETISJON: GRUNNLEGGENDE STATISTIKK 2.5 P -verdier P -verdier er abstrakte størrelser, fordi de oppsummerer veldig mye informasjon i bare ett enkelt tall som ligger mellom 0 og 1. Innledningsvis så kan det derfor være vanskelig å forstå både nytten og bruken av p-verdier. P -verdien forbundet med en hypotesetest er rett og slett definert som: Det laveste signifikansnivået vi kan forkaste nullhypotesen på. I praksis innebærer dette følgende. Anta f.eks. at et statistisk dataprogram beregner p-verdien forbundet med en test til å være 0,07, dvs. 7%. Dette innebærer at man forkaster nullhypotesen for signifikansnivåer høyere enn 7%, for eksempel 10%, og at man beholder nullhypotesen for signifikansnivåer lik eller lavere enn 7%, for eksempel 1% og 5%. Video. Understanding the p-value av Statistics Learning Centre (4 min. og 42 sek.): Konfidensintervaller Utvalgsgjennomsnittet X utgjør et punktestimat, f.eks. gjennomsnittlig årslønn, av en populasjonsverdi. Av og til så kan det imidlertid være mer interessant å beregne intervaller som inneholder populasjonsverdien med en viss grad av sikkerhet, f.eks. at intervallet fra 380 tusen til 410 tusen inneholder populasjonsverdien med 95% sikkerhet. Slike intervaller kalles konfidensintervaller, og uttrykkes ofte på en formell måte: Et 100 (1 α)% konfidensintervall til en populasjonsverdi er gitt ved et intervall, dvs. en øvre og nedre verdi, som inneholder populasjonsverdien med 100 (1 α)% sikkerhet. Fordelen med å beskrive eller definere konfidensintervaller på denne måten er at man uttrykker sikkerheten forbundet med intervallet ved hjelp av α, dvs. signifikansnivået. Med andre ord, hvis vi tester en nyllhypotese lik 400 tusen i årslønn med et 5% signifikansnivå, så er dette det samme som å sjekke om et 95% konfidensintervall inneholder verdien 400 tusen. Video. Understanding Confidence Intervals av Statistics Learning Centre (4 min. og 02 sek.): Til: Innhold 18

21 Til: Kapittelinnhold 2 REPETISJON: GRUNNLEGGENDE STATISTIKK 2.7 Oppgavesett 1. Deskriptiv statistikk. Ta utgangspunkt i følgende datasett fra et studie av virkningen av Viagra (et reseptbelagt legemiddel) på en effektvariabel kalt libido : Person i Libido (Y i ) Dose (X i ) Kilde: Side 350 i Field (2009), Discovering Statistics using SPSS, 3. utgave, SAGE X i = 1: Placebo. X i = 2: Lav dose med Viagra. X i = 3: Høy dose med Viagra. (a) La summen av libido verdiene være lik 52, dvs. Y i = 52. Hva er utvalgsgjennomsnittet til variabelen libido? (b) Hva er utvalgsgjennomsnittet til variabelen libido for de som fikk placebo? (c) Hva er utvalgsgjennomsnittet til variabelen libido for de som fikk Viagra (dvs. enten lav eller høy dose)? (d) La 15 i=1 (Y i Y ) 2 = 43, 73, hvor Y er utvalgsgjennomsnittet til Y i (dvs. libido). Beregn utvalgsvariansen og utvalgsstandardavviket til variabelen libido (e) Hva er medianverdien til variabelen libido? (f) Hva er modusverdien til libido? (g) Hva er maksimums- og minimumsverdiene til libido? Og hva er variasjonsbredden (sample range)? Til: Innhold 19

22 Til: Kapittelinnhold 2 REPETISJON: GRUNNLEGGENDE STATISTIKK 2. Summer. La X i og Y i være definert som i forrige oppgave og regn ut følgende summer: (a) 4 i=1 Y i (b) 5 i=2 Y i 1 i (c) 6 i=3 ay i, hvor a = 0, 5 (d) 8 i=5 a iy i, hvor a 5 = 0, 2, a 6 = 0, 1, a 7 = 0, 4, a 8 = 0, 3 (e) 2 i=1 (2Y i + 3X i ) (f) 5 i=3 (i + 3) (g) 12 i=10 X iy i (h) 3 2 i=1 j=1 X iy j, hvor Y j = Y i for alle 15 personene 3. Vektede summer. Følgende tabell angir mulige avkastninger i % for en investering, og sannsynlighetene forbundet med hver avkastning: Avkastning i % (X) Sannsynlighet (w) (a) Beregn forventet avkastning til investeringen, dvs. den vektede avkastningen med sannsynlighetene som vekter: X w = X i w i (b) Beregn den vektede variansen til avkastningen, dvs. (X i X w ) 2 w i, og kall denne verdien for s(w) 2 (c) Beregn det vektede standardavviket til avkastningen, dvs. s(w) = s(w) 2 4. Forventning. La E(X) = 1/2, E(Y ) = 3/5, E(X 2 ) = 2/7 og E(Y 2 ) = 2/3, og la a og b være to konstanter: a = 1, b = 2. Beregn følgende uttrykk: (a) E(a + bx) (b) E(aX + by ) (c) V ar(b) Til: Innhold 20

23 Til: Kapittelinnhold 2 REPETISJON: GRUNNLEGGENDE STATISTIKK (d) V ar(ax) (e) V ar(bx + ay ), hvor X og Y er statistisk uavhengige (f) V ar(bx+ay ), hvor X og Y er statistisk avhengige, og hvor E(XY ) = 1/4 (g) Cov(a + X, by ), hvor X og Y er statistisk uavhengige (h) Corr(aX, by ), hvor X og Y er statistisk avhengige, og hvor E(XY ) = 1/4 5. Normalfordelingen. La Z betegne verdien til et testuttrykk (dvs. en testobservator ) som er standard normalfordelt: (a) Hva er sannsynligheten for at Z er mindre enn: i) 0? ii) 1? iii) 1,9? iv) 1, 2? (b) Hva er sannsynligheten for at Z er større enn: i) 0,5? ii) 1,3? iii) 1,6? iv) 1, 9? (c) Hva er sannsynligeten for at Z ligger mellom: i) 0, 3 og 0,2? ii) 1, 7 og 0, 1? iii) 0, 4 og 0,9? 6. t-fordelingen. La T (df) betegne verdien til et testuttrykk som er t-fordelt med df frihetsgrader: (a) Hva er sannsynligheten for at: i) T (9) er større enn 1,1? ii) T (15) er større enn 1,341? iii) T (40) er større enn 1,684? iv) T (80) er større enn 1,99? (b) Hva er sannsynligheten for at: i) T (30) er mindre enn 1,055? ii) T (50) er mindre enn 2,403? iii) T (60) er mindre enn 1, 045? iv) T (20) er mindre enn 0? (c) Hva er sannsynligheten for at: i) T (13) ligger mellom 0, 870 og 1,35? ii) T (27) ligger mellom 1, 703 og 1,703? iii) T (40) ligger mellom 0, 851 og 0,681? 7. Konfidensintervaller. Et 100 (1 α)% konfidensintervall for et populasjonsgjennomsnitt blir som oftest beregnet ved hjelp av formlene Ø = Y + t α/2 (df) s/ n, N = Y t α/2 (df) s/ n, hvor Ø og N er henholdsvis den øvre og nedre grensen til konfidensintervallet, df = n 1 er antall frihetsgrader, s er utvalgsstandardavviket og n er antall Til: Innhold 21

24 Til: Kapittelinnhold 2 REPETISJON: GRUNNLEGGENDE STATISTIKK observasjoner. t α/2 (df) er den kritiske verdien forbundet med et signifikansnivå lik α/2 for en t-fordelt variabel med df frihetsgrader. (a) Beregn et 90% konfidensintervall for populasjonsgjennomsnittet til libido (bruk data-ene i oppgave 1). Hva er tolkningen av intervallet? (b) Beregn et 95% konfidensintervall for populasjonsgjennomsnittet til libido. Hva er tolkningen av intervallet? (c) Beregn et 99% konfidensintervall for populasjonsgjennomsnittet til libido. Hva er tolkningen av intervallet? 8. Hypotesetesting. Hypotesen om at Viagra har en effekt på libido kan testes ved å undersøke om gjennomsnittlig libidoverdi er ulik for gruppen som fikk viagra sammenlignet med de som ikke fikk. Med andre ord, hypotesen kan testes ved hjelp av testuttrykket Y 1 Y 2, s 2 1 n 1 + s2 2 n 2 hvor Y 1 er utvalgsgjennomsnittet til libido for de som fikk placebo, Y 2 er gjennomsnittet til libido for de som fikk Viagra (enten høy eller lav dose), n 1 og n 2 er antall observasjoner for henholdsvis de som fikk placebo og Viagra, og s 2 1 = 1, 7 og s 2 2 = 2, 77 er utvalgsvariansene til de to gruppene. Anta at testuttrykket er t-fordelt med df = n min 1 frihetsgrader, hvor n min er den minste av n 1 and n 2 (a) Definér nullhypotesen og alternativhypotesen (b) Beregn de kritiske verdiene og forkastningsområdet (bruk et 1% signifikansnivå) (c) Beregn verdien til testuttrykket (d) Konkludér 9. P -verdier. Anta at nullhypotesen er H 0 : µ = 0. (a) Hvis alternativhypotesen er H A : µ < 0, og hvis verdien til et standard normalfordelt testuttrykk er lik 0,15, hva er da p-verdien? (b) Hvis alternativhypotesen er H A : µ > 0, og hvis verdien til et standard normalfordelt testuttrykk er lik 0,64, hva er da p-verdien? Til: Innhold 22

25 Til: Kapittelinnhold 2 REPETISJON: GRUNNLEGGENDE STATISTIKK (c) Hvis alternativhypotesen er H A : µ 0, og hvis verdien til et standard normalfordelt testuttrykk er lik 0, 31, hva er da p-verdien? (d) Hvis alternativhypotesen er H A : µ > 0, og hvis verdien til et t(19)-fordelt testuttrykk er lik 1,729, hva er da p-verdien? (e) Hvis alternativhypotesen er H A : µ < 0, og hvis verdien til et t(19)-fordelt testuttrykk er lik 1, 729, hva er da p-verdien? (f) Hvis alternativhypotesen er H A : µ < 0, og hvis verdien til et t(35)-fordelt testuttrykk er lik 0, 682, hva er da p-verdien? (g) Hvis alternativhyptesen er H A : µ 0, og hvis verdien til et t(21)-fordelt testuttrykk er lik 2, 518, hva er da p-verdien? 10. Dataoppgaver. (a) Last datasettet viagra.xls inn i Stata [Hint: I hovedvinduet til Stata, velg File Import Excel spreadsheet, trykk Browse knappen, finn fram til hvor filen viagra.xls er lagret, velg filen, tikk deretter av for Import first row as variable names, trykk OK. Video (18 sek.)] (b) Sjekk at verdiene i datasettet samsvarer med de i oppgave 1 ved å aktivere dataredigeringsvinduet i Stata [Hint: Data Data Editor Data Editor (Browse). Video (7 sek.)] (c) Beregn utvalgsgjennomsnittet, utvalgsstandardavviket, og maksimumsog minimumsverdiene til variablene [Hint: I hovedvinduet til Stata, velg Statistics Summaries, tables and tests Summary and descriptive statistics Summary statistics, trykk OK. Video (14 sek.)] (d) Lag en ny variabel med navn doseny som er lik dose 1 [Hint: Data Create or change data Create new variable, skriv doseny i feltet Variable name, skriv dose-1 i feltet Specify a value or an expression, trykk OK. Video (19 sek.)] (e) Lag et histogram over fordelingen til libido [Hint: I hovedvinduet til Stata, velg Graphics Histogram, velg libido i nedtrekksmenyen under Variable, trykk OK. Video (16 sek.)] (f) Finn fram til pdf-manualen Getting started with Stata... [Hint: Help PDF documentation, gå nedover til omtrent midten på side 2, trykk på Getting started with Stata for Windows/Mac/Unix. Video (15 sek.)] Til: Innhold 23

26 Til: Kapittelinnhold 2 REPETISJON: GRUNNLEGGENDE STATISTIKK 2.8 Løsningsforslag 1. Deskriptiv statistikk. (a) Y = 1 Yi = 1 52 = 3, 47 n 15 (b) Y placebo = = 11 5 = 2, 2 (c) Y viagra = = = 4, 1 (d) Utvalgsvariansen: s 2 Y = 15 i=1 (Y i Y ) 2 n 1 = 43,73 14 = 3, 12. Utvalgsstandardavviket: s Y = s 2 Y = 3, 12 = 1, 77 (e) Libido verdiene i stigende rekkefølge: 1, 1, 2, 2, 2, 3, 3, 3, 4, 4, 4, 5, 5, 6, 7. Median = 3 (f) Modusverdier: 2,3 og 4 (g) Maksimum = 7 og minimum = 1, så variasjonsbredden = 7 1 = 6 2. Summer. (a) 7 (b) 5 i=2 yi 1 i = Y Y Y4 4 1 Y5 5 1 = = = 260 (c) 5,5 (d) 3,3 (e) 16 (f) 21 (g) 39 (h) 3 2 i=1 j=1 X iy j = 3 i=1 (X iy 1 + X i Y 2 ) = 3 i=1 X i (Y 1 + Y 2 ) = (Y 1 + Y 2 ) 3 i=1 X i = (Y 1 + Y 2 ) (X 1 + X 2 + X 3 ) = (3 + 2) ( ) = Vektede summer. (a) X w = X i w i = ( 20) 0.1+( 10) 0, , , , 05 = 8, 75 (b) s(w) 2 = (X i X) 2 w i = ( 20 8, 75) 2 0, 1 + ( 10 8, 75) 2 0, 15 + (10 8, 75) 2 0, 45 + (25 8, 75) 2 0, 25 + (30 8, 75) 2 0, 05 = 826, 56 0, , 56 0, , 56 0, , 06 0, , 56 0, 05 = 82, , , , , 58 = 224, 69 Til: Innhold 24

27 Til: Kapittelinnhold 2 REPETISJON: GRUNNLEGGENDE STATISTIKK (c) s(w) = s(w) 2 = 224, 69 = 14, Forventning. (a) E(a + bx) = E(a) + E(bX) = a + be(x) = /2 = 2 (b) E(aX + by ) = E(aX) + E(bY ) = ae(x) + be(y ) = 1 1/ /5 = 5/ /10 = 17/10 = 1, 7 (c) V ar(b) = 0, fordi b er en konstant (variansen til en konstant er alltid lik 0) (d) V ar(ax) = a 2 V ar(x) = a 2 [E(X 2 ) E(X) 2 ] = 1 [2/7 (1/2) 2 ] = 2/7 1/4 = 8/28 7/28 = 1/28 0, 04 (e) V ar(bx + ay ) = b 2 V ar(x) + a 2 V ar(y ) + 2abCov(X, Y ). Uavhengighet mellom X og Y betyr at Cov(X, Y ) = 0. Videre har vi at b 2 V ar(x) = b 2 [E(X 2 ) E(X) 2 ] = 2 2 [2/7 (1/2) 2 ] = 4/28, og at a 2 V ar(y ) = a 2 [E(Y 2 ) E(Y ) 2 ] = 1 2 [2/3 (3/5) 2 ] = 23/75. Så V ar(bx + ay ) = 4/ /75 0, 45 (f) V ar(bx + ay ) = b 2 V ar(x) + a 2 V ar(y ) + 2abCov(X, Y ). Fra oppgave e) vet vi at b 2 V ar(x) = 4/28 og at a 2 V ar(y ) = 23/75. Videre har vi at Cov(X, Y ) = E(XY ) E(X)E(Y ) = 1/4 (1/2) (3/5) = 1/4 3/10 = 5/20 6/20 = 1/20. Det gir: V ar(bx + ay ) = 4/ / /20 0, 25 (g) La oss skrive Z = a+x og W = by. Det gir Cov(a+X, by ) = Cov(Z, W ). Siden X og Y er statistisk uavhengige, så betyr det at Z og W også er statistisk uavhengige (funksjoner av statistisk uavhengige variabler er også statistisk uavhengige). Og siden statistisk uavhengighet impliserer en kovarianse lik null, så betyr det at Cov(Z, W ) = Cov(a + X, by ) = 0 (h) Corr(aX, by ) = Cov(aX,bY ). Vi har: Cov(aX, by ) = E(aXbY ) V ar(ax) V ar(by ) E(aX)E(bY ) = abe(xy ) ae(x)be(y ) = ab[e(xy ) E(X)E(Y )] = 1 2 [1/4 (1/2) (3/5)] = 1/10. Videre har vi at V ar(ax) = a 2 V ar(x) = a 2 [E(X 2 ) E(X) 2 ] = 1 2 [2/7 (1/2) 2 ] = 1/28, og at V ar(by ) = b 2 V ar(y ) = b 2 [E(Y 2 ) E(Y ) 2 ] = 2 2 [2/3 (3/5) 2 ] = 92/75. Det gir 1/10 1/28 92/75 5. Normalfordelingen. 0,1 0,1890 1,1076 0, 48 (a) i) 0,50 ii) 0,84 iii) 0,97 iv) 0,12 (b) i) 0,31 ii) 0,10 iii) 0,05 iv) 0,97 (c) i) 0,20 ii) 0,42 iii) 0,47 Til: Innhold 25

28 Til: Kapittelinnhold 2 REPETISJON: GRUNNLEGGENDE STATISTIKK 6. t-fordelingen. (a) i) 0,15 ii) 0,10 iii) 0,05 iv) 0,025 (b) i) 0,85 ii) 0,99 iii) 0,15 iv) 0,50 (c) i) 0,70 ii) 0,90 iii) 0,55 7. Konfidensintervaller. (a) Konfidensintervallet er på 90%, så α = 0, 10 og α/2 = 0, 05. Videre har vi at df = n 1 = 15 1 = 14. Det betyr: Ø = 3, , 761 1, 77/ 15 = 4, 27 N = 3, 47 1, 761 1, 77/ 15 = 2, 67 Tolkning: Populasjonsgjennomsnittet til variabelen libido ligger mellom 2,67 og 4,27 med 90% sikkerhet (b) Konfidensintervallet er på 95%, så α = 0, 05 og α/2 = 0, 025. Videre har vi at df = n 1 = 15 1 = 14. Det betyr: Ø = 3, , 145 1, 77/ 15 = 4, 45 N = 3, 47 2, 145 1, 77/ 15 = 2, 49 Tolkning: Populasjonsgjennomsnittet til variabelen libido ligger mellom 2,49 og 4,45 med 95% sikkerhet (c) Konfidensintervallet er på 99%, så α = 0, 01 og α/2 = 0, 005. Videre har vi at df = n 1 = 15 1 = 14. Det betyr: Ø = 3, , 977 1, 77/ 15 = 4, 83 N = 3, 47 2, 977 1, 77/ 15 = 2, 11 Tolkning: Populasjonsgjennomsnittet til variabelen libido ligger mellom 2,11 og 4,83 med 99% sikkerhet 8. Hypotesetesting. (a) H 0 : µ 1 µ 2 = 0 H A : µ 1 µ 2 0 (tosidig test) (b) Antall frihetsgrader: df = 5 1 = 4 Kritiske verdier: t 0,005 (4) = 4, 604 og t 0,005 (4) = 4, 604 Forkastningsområde: Verdier lavere enn 4, 604 og verdier høyere enn 4,604 (c) Verdien til testuttrykket: 2, ,7 + 2, = 1, 9 0, 617 = 1, 9 0, 785 = 2, 42. Til: Innhold 26

29 Til: Kapittelinnhold 2 REPETISJON: GRUNNLEGGENDE STATISTIKK (d) Testverdien 2, 42 ligger ikke i forkastningsområdet, så vi forkaster ikke nullhypotesen om ingen effekt 9. P -verdier. (a) P -verdi = P rob(z < 0, 15) = 0, 5596 (b) P -verdi = 1 P rob(z < 0, 64) = 1 0, 7389 = 0, 2611 (c) P -verdi = 2 P rob(z < 0, 31) = 2 0, 3783 = 0, 7566 (d) P -verdi = P rob(t(19) > 1, 729) = 0, 05 (e) P -verdi = P rob(t(19) < 1, 729) = P rob(t(19) > 1, 729) = 0, 05 (f) P -verdi = P rob(t(35) < 0, 682) = P rob(t(35) > 0, 682) = 0, 25 (g) P -verdi = 2 P rob(t(21) < 2, 518) = 2 P rob(t(21) > 2, 518) = 2 0, 01 = 0, 02 Til: Innhold 27

30 Til: Kapittelinnhold 3 METODE 3 Metode 3.1 Introduksjon Grunnlagsproblemer Forberedelse Datainnsamling Analyse Oppgavesett Løsningsforslag Metode, akkurat som sex, er bedre å få demonstrert enn forklart Professor Edward E. Leamer (1983, s. 40), 4 University of California, Los Angeles (UCLA) 3.1 Introduksjon Jeg er enig med Professor Edward E. Leamer (se sitatet over) i at metode er mye mer spennende å få demonstrert enn forklart. Men, akkurat som sex, hvis man ikke allerede er godt kjent med hva metode er, så kan det være nyttig med å få litt forklaring først. Dette kapitlet er ment som en kortfattet forklaring av de mest sentrale idéene innen metode. På sitt mest generelle så omfatter metode alle mulige spørsmål forbundet med en undersøkelse eller analyse. Trenger vi metode i økonomiske fag? Svaret på dette spørsmålet er et høylydt JA! Metode spiller nemlig en sentral og viktig rolle i forberedelsene, gjennomføringen og tolkningen av undersøkelser og analyser. Virker markedsføring? Hva bestemmer etterspørselen etter et produkt? Hvordan oppfører finansielle priser seg? Operasjonsanalyse, logistikk, ledelse og beslutningsanalyse generelt er alle basert på undersøkelser hvor metodologiske valg tas hele tiden. Å studere metode skal derfor (forhåpentligvis!) gjøre oss i bedre stand til å kunne gjennomføre undersøkelser og analyser av kvalitet, og til å kritisk kunne evaluere styrker og svakheter ved andres undersøkelser og analyser. Prosessen som leder fram til presentasjonen eller offentliggjøring av resultatene fra et sett med analyser eller undersøkelser kalles ofte for forsknings-, analyse- eller utredningsprosessen. Gjennom hele denne prosessen står metode og metodevalg sentralt. For å organisere diskusjonen av denne prosessen, så skal vi dele den opp i fire faser: (1) Forberedelse, (2) datainnsamling, (3) dataanalyse og (4) rapportering. 1. Forberedelse. Denne fasen starter ofte med en løs idé, eller et tema eller felt man har lyst til å studere. For å konkretisere problemstillingen eller de spørsmålene man ønsker å besvare med analysen, så kan det være nødvendig å lese seg opp på temaet man har valgt, og evt. lese annen litteratur av relevanse (særlig tidligere studier og undersøkelser på det samme tema). 4 Du finner mer informasjon om Edward her: edward.leamer/ og Til: Innhold 28

31 Til: Kapittelinnhold 3 METODE 2. Datainnsamling. Denne fasen består i å samle inn data-ene som skal analyseres for å belyse problemstillingen, eller svare på spørsmålene formulert i fase 1. Enten kan man velge å bruke foreliggende data, dvs. andres data, eller å samle inn data selv. Eller begge deler. Hvis man velger å samle inn data selv, så innebærer dette at man må bestemme hvilke enheter (f.eks. personer) som skal undersøkes, hvor mange og hvordan. Hvis f.eks. data-ene skal innhentes vha. spørreundersøkelser, så innebærer dette blant annet at man må ta valg angående hvordan skjemaene skal utformes, distribueres, innhentes og kodes etter at de er besvart. 3. Dataanalyse. Denne fasen bestå i å analysere data og å tolke resultatene. Kvantitativ analyse vil ofte innebære en eller annen form for statistisk analyse, mens kvalitativ analyse vil ofte innebære en at fortolkning står sentralt. Når man velger å kombinere flere typer metoder, så kalles dette for metodetriangulering. 4. Rapportering. Den siste fasen består i å presentere eller kommunisere resultatene fra analysen. Denne kan skje i form av en rapport eller oppgave (f.eks. bachelor- eller masteroppgave), et notat, en artikkel, en bok, eller lignende. Fasene er beskrevet i rekkefølge, men i praksis så vil man ofte ende opp med å hoppe fram og tilbake mellom de ulike fasene. Hovedformålet med dette kapitlet er å diskutere ulike aspekter ved de tre første fasene, men før det er det viktig å nevne noen mer grunnleggende og filosofiske forhold som alltid lurer i bakgrunnen. 3.2 Grunnlagsproblemer Ofte trekker man et skille mellom naturvitenskapene (f.eks. fysikk, kjemi, astronomi, biologi, osv.) på den ene siden og samfunnsvitenskapene (f.eks. sosiologi, psykologi, økonomiske fag, osv.) på den andre siden. Naturvitenskapene studerer oppførselen til partikler, kjemiske prosesser, planetbaner og liknende. Med andre ord, det er ingen tenkende skapninger involvert som kan forandre atferd hvis de har lyst, eller menneskelige handlinger med konsekvenser av sosial art (f.eks. prompe på bussen), moralsk art (f.eks. abort), juridisk art (f.eks. hasjsalg) eller katastrofal art (f.eks. atomkrig eller menneskeskapt global oppvarming). I samfunnsvitenskapene derimot, så studerer vi nettopp slike tenkende skapninger som i prinsippet kan forandre atferd, reflektere over sine handlinger, og ta valg med sosiale, moralske, juridiske og potensielt sett katastrofale konsekvenser. Ontologi Studjeobjektene til samfunnsvitenskapene er med andre ord fundamentalt forskjellige fra studieobjektene til naturvitenskapene: Mennesker er tenkende vesener, mens partikler, kjemiske prosesser og planetbaner er ikke-tenkende fenomener. Den grenen av filosofien som diskuterer egenarten til partikler, kjemiske prosesser, biologi, hvordan alt dette samhandler til å utgjøre et tenkende menneske, i hvilken grad Til: Innhold 29

32 Til: Kapittelinnhold 3 METODE fysikk og kjemi (f.eks. via nevrospykologi) kan belyse menneskelig atferd, om Gud eksisterer og hennes/hans evt. innvirkning på menneskelig og annen atferd, kalles for ontologi ( ontology på engelsk). Er f.eks. økonomisk atferd bestemt av gener? Og, hvis så er tilfelle, i hvilken grad? Svarene man gir disse spørsmålene avhenger av ontologisk ståsted, dvs. hvilken teori man har om menneskets egenart, og om hva som eksisterer. Video. Amy og Sheldon i The Big Bang Theory gjør det slutt (som venner) pga. ontologisk uenighet om hva som er mest fundamentalt av nevrobiologi og teoretisk fysikk (2 min. og 23 sek.): FitG_PLO9Rg Epistemologi Hvilket ontologiske ståsted man har legger åpenbart føringer på hva slags kunnskap man potensielt sett kan skaffe seg om økonomisk atferd, hva slags kunnskap det er hensiktsmessig å forsøke å tilegne seg, og hvordan man på en best mulig måte bør gå fram for å tilegne seg kunnskapen. Den delen av filosofien som diskuterer denne type spørsmål kalles for epistemologi ( epistemology på engelsk) eller kunnskapsteori. Et eksempel på et meget viktig spørsmål som drøftes i epistemologien er hva som skiller vitenskapelig kunnskap fra ikke-vitenskapelig kunnskap. Er f.eks. innsikt fra astrologi (dvs. stjernekonstellasjoner) vitenskapelig kunnskap? Skal vi kun godta observerbare størrelser som en mulig kilde til kunnskap, eller skal vi f.eks. også godta introspeksjon og premiss-konsekvens baserte resonnementer (deduktiv analyse) som kilder til kunnskap? Disse spørsmålene diskuteres i epistemologien. Kvantitative og kvalitative metoder Metode eller metodelære omhandler aspekter ved hvordan man går fram for å skaffe seg kunnskap. Grovt sett kan vi trekke et skille mellom kvantitative metoder på den ene siden og kvalitative metoder på den andre. Dette er et grovt skille, fordi veldig mange metoder har et innslag av begge typer. Kvantitative metoder innebærer ofte som navnet tilsier bruk av kvantitative teknikker, og da særlig statistikk. Målet er ofte generaliserende kunnskap, dvs. innsikt som gjelder for mange enheter (f.eks. personer eller bedrifter), og kvantitativ analyse er ofte på analytisk form (dvs. at det skilles klart mellom årsaksvariabler og effektvariabel). Kvalitative metoder derimot innebærer som regel liten eller ingen bruk av kvantitative teknikker. Videre er analyseformen ofte ikke-analytisk i den forstand at årsaksvariabler og effektvariabler ikke defineres klart, og i den forstand at kvalitativ analyse tar sikte på å forstå et fenomen i stedet for å forklare eller anslå det. Et eksempel på et spørsmål som egner seg for kvalitativ analyse er hva god ledelse egentlig er, i motsetning til spørsmålet om hva som bestemmer god ledelse. Sistnevnte spørsmål kan ofte belyses ved kvantitativ analyse. Med andre ord, mens man i kvalitativ analyse forsøker å komme fram til en gyldig oppfatning i en Til: Innhold 30

33 Til: Kapittelinnhold 3 METODE eller annen passende forstand av hva god ledelse er eller kan være, så tar man i kvantitativ analyse en definisjon av god ledelse for gitt og setter i stedet i gang med å undersøke hva som bestemmer det. Oppsummert og ganske forenklet så kan man derfor si at kvantitative analyse ofte tar sikte på å forklare og/eller anslå, mens kvalitativ analyse ofte tar sikte på å forstå. Se for eksempel Hollis (1994) for en drøfting langs disse linjer. 3.3 Forberedelse Ofte starter man med en idé om et tema. Eksempler på slike temaer er a) norske småbedrifter, b) markedsføring over internett, c) forretningsrett i en globalisert verden, d) norske finansielle markeder og e) ledelse. Hver av disse fem eksemplene er imidlertid altfor åpne og omfattende til å kunne utgjøre fruktbare og interessante problemstillinger. Så det er behov for avgrensning. Dette kan oppnås ved å begrense seg i tid og rom, for eksempel (i forhold til a)) små oljebedrifter i Stavanger i Den romlige avgrensingen er altså oljebedrifter i Stavanger, mens den tidsmessige avgrensningen er Som oftest er det imidlertid nødvendig med ytterligere avgrensninger. Det kan oppnås ved å eksplisitt (og presist) formulere spørsmålene man ønsker å besvare, og ved å eksplisitt skrive ned de hypotesene, modellene og teoriene man ønsker man å undersøke. Teoretiske vs. operasjonelle definisjoner En viktig del av avgrensningen består i å definere sentrale begreper. I denne forbindelse er det nyttig å skille mellom teoretiske definisjoner og operasjonelle definisjoner. Ta for eksempel ideen om en god leder. Å definere dette teoretisk består i å klargjøre hva som egentlig legges i dette. Anta at vi for eksempel definerer en god leder til å være en leder som er handligsdyktig og utvetydig. Man kan selvfølgelig sette spørsmålstegn ved i hvilken grad dette er en god definisjon, men la oss for øyeblikket hoppe over denne diskusjonen og anta at dette er den teoretiske definisjonen vår. Dette leder oss til neste spørsmål: Hvordan måler vi handlingsdyktighet og utvetydighet? Med andre ord, hvordan måler vi vår teoretiske definisjon i praksis? Måten vi velger å måle den teoretiske definisjonen på utgjør vår operasjonelle definisjon av god leder. Hvis det er samsvar mellom den teoretiske definisjonen og den operasjonelle, så sier vi at den definisjonsmessige validiteten eller gyldigheten er høy. Videre, hvis vi har flere operasjonelle definisjoner av den samme teoretiske definisjonen, og hvis de ulike operasjonelle definisjonene er korrelerte, så sier vi at det er høy grad av kriterievaliditet eller kriteriegyldighet mellom de ulike operasjonelle definisjonene. Hvis vi har ulike teoretiske definisjoner av ulike begreper som antas å være korrelerte, og hvis de ulike operasjonelle definisjonene av de ulike teoretiske begrepene er korrelerte på samme måte, så sier vi at de teoretiske definisjonene er begrepsgyldige. Populasjon og utvalg Til: Innhold 31

34 Til: Kapittelinnhold 3 METODE En viktig del av avgrensningen består i å identifisere enhetene som skal studeres, f.eks. en gruppe mennesker, land, biler, butikker, restauranter, kjøpstransaksjoner, og så videre. Den gruppen av enheter man ønsker å studere kalles for populasjonen. Et utvalg av populasjonen er rett og slett en delmengde av populasjonen. Ofte består en populasjon av veldig mange enheter. Hele Norges befolkning utgjør for eksempel i skrivende stund omtrent 5 millioner innbyggere, mens kinas befolkning er på mer enn 1 milliard. Det viser seg at hvis man velger ut en del av populasjonen slik at den er representativ i en passende forstand, så kan vi ofte studere et slikt utvalg i stedet for populasjonen for å skaffe oss innsikt om populasjonen. Dette er en meget effektiv framgangsmåte hvis man vet i hvilken grad utvalget representerer populasjonen. For å trekke et utvalg enheter fra en populasjon på en slik måte at den sannsynlige sammensetning er kjent, så brukes sannsynlighetsutvelging. Dette innebærer at de ulike enhetene f.eks. personer til en populasjon har en kjent sannsynlighet for å komme med i utvalget. Nytten av dette er at statistiske metoder da kan brukes for å generalisere resultatene fra analysen av utvalget til populasjonen. Den enkleste formen for sannsynlighetsutvelging er enkel tilfeldig utvelging. Dette innebærer at alle enhetene i populasjonen har lik sannsynlighet for å komme med i utvalget. Mer presist, hvis f.eks. n betegner størrelsen på en populasjon bestående av dagligvarebutikkeiere i Norge, så har hver av dem en sannsynlighet lik 1/n for å komme med i utvalget. En annen form for sannsynlighetsutvelging er stratifisert utvelging. Dette innebærer at man trekker fra ulike strata som befolkningen har blitt delt opp i. Et stratum strata er flertall for stratum er rett og slett en undergruppe av populasjonen med spesifikke kjennetegn. Hvis f.eks. populasjonen består av alle dagligvarebutikkeiere i Norge, så er et eksempel på en undergruppe de eierne som er under 25 år. Motivasjonen for å dele populasjonen opp i strata før man trekker et utvalg er å forsikre seg om at undergruppen er tilstrekkelig representert. En tredje form for sannsynlighetsuvelging er klyngeutvelging (dvs. områdeutvelging). Dette innebærer at enheter grupperes sammen i geografiske klynger før det trekkes fra klyngene. Et eksempel er at butikkeiere i Nord-Norge utgjør en klynge, at eiere i Midt-Norge utgjør en annen, at eiere i Vest-Norge utgjør en tredje og at eiere i Øst-Norge utgjør en fjerde. Motivasjonen bak klyngeutvelgelse er å sikre at visse enheter har en tilstrekkelig stor sjanse for å komme med i utvalget. Klyngeutvelging kan ses på som en form for stratifisert utvelging, hvor ett eller flere geografiske områder utgjør stratumet eller strata-ene. En fjerde form for utvelging, som altså ikke er en form for sannsynlighetsutvelging, men som det er verdt å nevne, er det som kalles bekvemmelighetsutvelging. Dette innebærer rett og slett å velge ut enheter på bekvemmelighetsbasis, for eksempel blant venner og bekjente, uten noen form for innsikt i sannsynlighetene forbundet med at disse kommer med i utvalget. Dette innebærer i praksis at man i liten grad har innsikt i hvilken grad utvalget representerer populasjonen. Til: Innhold 32

35 Til: Kapittelinnhold 3 METODE Moralske og juridiske aspekter Mange analyser og undersøkelser reiser juridiske og moralske problemstillinger. Rent juridisk, for eksempel, så er det en del begrensninger på hva slags data det i Norge er lov å samle inn og oppbevare via spørreundersøkelser. Dette er regulert av Personopplysningsloven, og det er Datatilsynet sin oppgave å overvåke at loven overholdes. I tillegg til ren juss, så kan det også være moralske forhold som er av relevanse. Slike moralske forhold kan for eksempel være relatert til dyrevern, miljøvern, kjønns- og rasediskrimering, og så videre. 3.4 Datainnsamling Typer data Variablene vi ønsker å analysere kommer i form av data, og generelt så skilles det mellom tre typer: Tverrsnittsdata, tidsseriedata og paneldata. Tverrsnittsdata ( crosssectional data på engelsk) er fra samme tidspunkt. Eksempler er prisene på ulike sportsbiler i en viss måned, prisene på en flybillett til London på en viss dag, salget av ski i ulike sportsbutikker i løpet av et år, antallet nedlastinger av ulike applikasjoner ( apps ) i løpet av en uke, og så videre. Tidsseriedata ( time-series data på engelsk) eller longitudinelle data består av observasjoner observert over tid. Hvis f.eks. prisen til den samme type telefon observeres hver måned, f.eks. fra januar til desember, så utgjør disse tolv observasjonene en tidsserie. Andre eksempler på tidsseriedata er den daglige prisen til en aksje, den ukentlige verdien til en aksjeindeks, den månedlige valutakursen, kvartalsvis vekst i Bruttonasjonalprodukt (BNP), og så videre. Paneldata ( panel-data på engelsk) er en blanding av tverrssnittsdata og tidsseriedata. I all korthet så utgjør observasjonene i paneldata tverrsnittsdata over tid. Med andre ord, hvis vi returnerer til sportsbileksemplet over, så er prisene på samme sportsbiler observert hver måned et eksempel på paneldata. Et annet eksempel, som faktisk er opphavet til navnet, er når man observerer ulike kjennetegn ved de samme personene et panel over tid. Målenivået til variabler Variabler kan anta ulike verdier, og forholdet mellom disse verdiene bestemmer hva slags analyser man kan gjennomføre med ulike statistiske teknikker. For å beskrive forholdet mellom verdiene, så skilles det ofte mellom fire nivåer : Forholdstallsnivå, intervallnivå, ordinalnivå og nominalnivå. Forholdstallsnivå er det høyeste nivået en variabel kan være på, mens nominalnivå er det laveste. Jo høyere nivå en variabel er på, jo flere former for analyse kan variabelen utsettes for. Verdiene til variabler på forholdstallsnivå ( ratio level på engelsk) er kjennetegnet ved tre egenskaper. Den første er at verdiene kan rangeres. Et eksempel på en slik variabel er pris, mens et eksempel på en variabel hvis verdier ikke kan rangeres Til: Innhold 33

36 Til: Kapittelinnhold 3 METODE er kjønn (det gir f.eks. ikke mening å si at verdien mann er høyere enn kvinne). Den andre egenskapen til en forholdstallsvariabel er at verdiene kan måles langs en skala, dvs. at verdiene har en form for avstand mellom hverandre. Igjen så er pris et eksempel på en slik variabel: Det er større avstand mellom 20 kr og 10 kr enn mellom 15 kr og 10 kr. Den tredje egenskapen til en variabel på forholdstallsnivå er at den har et naturlig nullpunkt. I praksis så innebærer det at det gir mening å si (f.eks.) at en verdi er dobbelt, tredobbelt eller en fjerdedel så stor som en annen. Igjen så er prisen til en vare et eksempel, siden (f.eks.) det gir mening å si at 8 kr er fem ganger så mye som 1,6 kr, osv. Eksempler på variabler som ikke har et naturlig nullpunkt er temperatur. Det er f.eks. vilkårlig at 0 celcius grader tilsvarer vannets frysepunkt. For hvis temperatur måles i fahrenheit, så er vannets frysepunkt 32 grader. Med andre ord, det gir ikke mening å si at 10 grader celcius er halvparten så varmt som 20 grader celcius, siden de tilsvarende temperaturene målt i fahrenheit ville vært 44 og 54 grader, dvs. at sistnevnte bare er 1,2 ganger større enn førstnevnte. 5 Verdiene til variabler på intervallnivå ( scale level på engelsk) har de to første egenskapene til forholdstallsvariabler, dvs. at verdiene kan rangeres og måles langs en skala, men ikke den tredje egenskapen, dvs. et naturlig nullpunkt. Ett eksempel på en variabel på intervallnivå er temperatur. Verdiene til variabler på ordinalnivå ( ordinal level på engelsk) har bare den første egenskapen til variabler på forholdstallsnivå, nemlig at verdiene kan rangeres. Et eksempel på en variabel på ordinalnivå er bokstavkarakterer. Det gir mening å f.eks. si at A er høyere enn B, at B er høyere enn C, osv. Men det gir ikke mening å si at det er like langt mellom A og C som mellom B og D. Det gir heller ikke mening å si at E er dobbelt så bra som F, og så videre. Verdiene til variabler på nominalnivå ( nominal level på engelsk) har ingen av de tre overnevnte egenskapene. Eksempler på variabler på dette nivået er kjønn, livssyn, nasjonalitet, bosted og sivilstatus. For ingen av disse variablene gir det mening å rangere verdiene, tillegge avstand mellom dem eller å si at en verdi f.eks. er dobbelt så stor som en annen. kildekritikk Idag er det enkelt å finne informasjon om så å si ethvert tema via et enkelt søk på internett. Men hva er egentlig kvaliteten på denne informasjonen? Hvor nøyaktig er den? Det at informasjon idag er så enkelt tilgjengelig, og det at informasjonsmengden er så stor, gjør det ekstra viktig å ha et kritisk forhold til opprinnelsen til data. I historielæren kalles dette for kildekritikk. Et viktig skille i kildekritikken er det mellom primærkilder og sekundærkilder. Ifølge Kjelstadli (2007), så er en primærkilde den kilden som ligger nærmest i tid og rom til det som skjedde, blant de kildene vi har til rådighet. Hvis f.eks. en lærebok viser til et studie først publisert i en artikkel i et forskningstidskrift, så er det den opprinnelige artikkelen 5 Forholdet mellom celcius og fahrenheit grader er: Fahrenheit grader = (Celcius grader) (9/5)+ 32, se Til: Innhold 34

37 Til: Kapittelinnhold 3 METODE som utgjør primærkilden. Beskrivelsen i læreboka utgjør en sekundærkilde. Et annet viktig skille i kildekritikken er det mellom førstehåndskilder og andrehåndskilder. Førstehåndskilder er personer som enten var tilstede eller deltok i begivenheten eller prosessen som ga opphavet til data. Hvis kilden(e) er personer som ikke var tilstede eller deltok i begivenheten som utgjør opphavet til data, så sier vi at kilden(e) er andrehåndskilder. Både når det gjelder sekundærkilder og andrehåndskilder, så kan man forvente at disse på generelt grunnlag ikke vil være like presise og troverdige som primærkilder og førstehåndskilder. Grunnen til dette er at på veien fra primærkilde til sekundærkilde, og på veien fra førstehåndskilde til andrehåndskilde, så må informasjonen fortolkes og ofte forkortes/oppsummeres av den personen eller de personene som gjengir de opprinnelige begivenhetene eller resultatene. Spørreundersøkelser Med dagens teknologi er det enkelt og billig å gjennomføre spørreundersøkelser via internett. Av den grunn er det ekstra viktig å være klar over at spørsmålenes setningsmessige utforming, deres rekkefølge, antallet deres, svaralternativene og hvordan de presenteres teknologisk, kan ha betydning for svarene. Som tittelen på en kjent bok av Tove L. Mordal (1989) treffende oppsummerer: Som man spør får man svar. 3.5 Analyse Typer undersøkelsesopplegg Det finnes uttalige måter å undersøke og analysere data på. Ekstensive undersøkelsesopplegg er kjennetegnet av at mange enheter analyseres langs få variabler. Et typisk eksempel er spørreundersøkelser bestående av en håndfull spørsmål som sendes til tusenvis av personer. Motstykket til ekstensive analyseopplegg er intensive undersøkelsesopplegg. Disse er kjennetegnet ved at få enheter analyseres på mange variabler. Et typisk eksempel er dybdeintervjuer av en håndfull personer. Et annet viktig skille er det mellom forklarende eller predikerende undersøkelsesopplegg på den ene side, og fortolkende undersøkelsesopplegg på den andre side. Sistnevnte er undersøkelser som tar sikte på å forstå hva et fenomen er. Et eksempel er et studie som tar sikte på å belyse hva det vil si å ha et kjøpsbehov. Et forklarende eller predikerende undersøkelsesopplegg ville imidlertid tatt en definisjon av et kjøpsbehov for gitt, og i stedet tatt sikte på forklare hvorfor slike kjøpsbehov oppstår, eller å predikere (dvs. forutsi) når de oppstår. Et tredje skille er det mellom kvantitative undersøkelsesopplegg og kvalitative undersøkelsesopplegg. Førstnevnte tar i bruk kvantitative teknikker, f.eks. statistikk, mens sistnevnte tar ikke i bruk slike teknikker. Et typisk eksempel på kvalitativ analyse er historisk analyse. Når det gjelder økonometrisk analyse, altså den analyseformen som er hovedfokuset til denne boka, så er dette en form for kvantitativ analyse som ofte brukes i ekstensiv analyse av Til: Innhold 35

38 Til: Kapittelinnhold 3 METODE forklarende/predikerende art. Metodetriangulering består i å kombinere ulike typer analyseopplegg. Typer sammenhenger I forklarende eller predikerende analyse så studerer man sammenhengen mellom variabler. Grovt kan det skilles mellom to typer sammenhenger, deterministiske og ikke-deterministiske. Hvis en begivenhet, f.eks. et spørsmål om å man ønsker drikke til kioskmat, med nødvendighet (i bokstavelig betydning) etterfølges av et ja fra den som spørres, så innebærer det at det er en deterministisk sammenheng mellom variablene. Slike deterministiske sammenhenger er i praksis ikke-eksisterende i samfunnsvitenskapene, dvs. når menneskelige valg og handlinger er involvert. I stedet så er de aller fleste sammenhenger preget av ikke-determinisme. Med andre ord, et spørsmål om drikke til kioskmaten fører ikke nødvendigvis til et ja. I stedet er fokuset på styrken til den ikke-deterministiske sammenhengen, dvs. hva sannsynligheten for å svare ja på spørsmålet om drikke til kioskmaten. Sannsynligheten for å svare ja kan f.eks. avhenge av hva slags kioskmat man kjøper, når på dagen kjøpet finner sted, hvem som kjøper, osv. Et annet viktig skille er det mellom lineære sammenhenger og ikke-lineære sammenhenger. I kapitlet om funksjonell form vil vi studere hva dette betyr i detalj. Her, så holder det å løst si at en lineær sammenheng mellom to variabler kan oppsummeres ved hjelp av en rett strek i et diagram, mens en ikke-lineær sammenheng oppsummeres ved hjelp av en kurvlineær strek. Et siste skille mellom typer sammenhenger som vi skal nevne her er det mellom substansielle sammenhenger og spuriøse sammenhenger. Et velkjent eksempel på sistnevnte (dvs. en spuriøs eller falsk sammenheng) er sammenhengen mellom antall storker og antall babyfødsler i Danmark. Det er naturligvis ingen substansiell eller reell sammenheng, og i kapitlet om utokorrelasjon og dynamiske modeller så vil vi se hvorfor slike spuriøse eller falske sammenhenger ofte oppstår. En substansiell eller reell sammenheng mellom to variabler foreligger altså når den ene er med på forårsake den andre. Tolkning av resultatene Resultatene fra en undersøkelse eller analyse kan alltid tolkes på flere måter. Derfor er det særdeles viktig å være bevisst på de ulike kildene til feiltolkning. Følgende lille knippe er spesielt vanlige eksempler på kilder til feiltolkninger og feilkonklusjoner: Manglende definisjonsmessig gyldighet mellom den eller de teoretiske definisjonene som er brukt, og den eller de operasjonelle. Utvalgsfeil. Dvs. at resultatene fra analysen ikke er generaliserbare til den populasjonen av enheter som man ønsker å si noe om. At spørsmål, spørreundersøkelse eller studiesituasjon er utformet på en slik måte at de påvirker resultatene. Et velkjent eksempel på hvordan studiesitua- Til: Innhold 36

39 Til: Kapittelinnhold 3 METODE sjonen kan påvirke resultetene er Coca-Cola eksperimentet fra I eksperimentet ble tre cola-smaker blind-testet. Den nye cola-smaken viste seg å vaere en fiasko, fordi man ikke tok hensyn til den psykologiske merkevare-effekten, se Gelb og Gelb (1986). På fagsjargong så sier vi at studiet manglet ekstern validitet ( external validity på engelsk), dvs. manglende gyldighet utenfor studiet. Placebo-effekter. Ofte er det slik at det å bli studert i seg selv kan ha en effekt. Dette kalles ofte for placebo-effekten etter medisinske studier, hvor en gruppe av de som studeres ofte får en pille eller medisin uten virkning, dvs. placebo. I medisinske studier så er det veldokumentert at de som får slike virkningsløse piller likevel føler at pillen har en effekt. En slik psykologisk effekt kalles altså en placebo-effekt og er veldokumentert også utenfor medisinske studier. Testrepetisjon ( repeated testing på engelsk). La oss starte med en analogi. Hvis du kaster mynt og krone mange nok ganger, så vil du til slutt oppleve å få kron fem ganger på rad. Dette er en usannsynlig begivenhet i betydningen at det skjer veldig sjeldent, men med nok tålmodighet så vil du klare det. På samme måte så kan med utgangspunkt i statistisk teori argumentere at hvis man leter etter en sammenheng mellom to variabler mange nok ganger, eller på mange nok måter, så vil man til slutt finne en sammenheng selv om det egentlig ikke er det. Til: Innhold 37

40 Til: Kapittelinnhold 3 METODE 3.6 Oppgavesett 1. Komikeren Harald Eia var med på å lage TV-serien Hjernevask (se Wikipedia for mer informasjon), som ble vist på NRK i Serien ble møtt med kritikk av ekspertmiljøer innen bl.a. filosofi og biologi. Eia hevdet i serien at menneskelig atferd i hovedsak er bestemt av arv eller gener (dvs. vi er sånn ) i stedet for miljø (dvs. vi har blitt sånn ). Som en konsekvens av dette argumenterte Eia videre for at det derfor bør legges mer vekt på biologi i studiet av mennesker. (a) Hva er ontologien til Harald Eia? (b) Hva er hans epistemologi? (c) Debatten om arv vs. miljø er relevant for egenskapsteorier eller trekkteorier av lederskap ( trait theory of leadership på engelsk). Hvorfor? 2. Ta utgangspunkt i de teoretiske definisjonene under av godt lederskap. Foreslå én operasjonell definisjon av hver av dem, og pek på én mulig svakhet ved hver operasjonell definisjon (a) Hardt arbeid (b) Effektiv måloppnåelse (c) Naturlig autoritet (d) Karismatisk utstråling (e) Populæritet blant de ansatte 3. Et datasett fra et studie av virkningen av Viagra ble brukt i oppgavesettet til forrige kapittel (se avsnitt 2.7): (a) Hva er populasjonen som utvalget er ment å representere? I hvilken grad representerer utvalget populasjonen? (b) Hva slags type datasett er det snakk om? (c) På hvilket målenivå er variablene? (d) Kilden til datasettet er Field (2009, s. 350). Er dette en primærkilde eller en sekundærkilde? Er det en førstehåndskilde eller en annenhåndskilde? (e) Mot slutten av oppgavesettet (i oppgave 8) så ble det gjennomført en test av om Viagra har en effekt på libido. Var denne testen basert på en kvantitativ eller kvalitativ metode? 4. En konsulent ønsker å studere organisasjonell endring i et utvalg bedrifter. Hun ønsker å studere 20 bedrifter. For hver av bedriftene ønsker hun å gjennomføre 2 dybdeintervjuer og 10 spørreskjemaundersøkelser med 10 spørsmål. Svarene fra sistnevnte ønsker hun å analysere med statistiske teknikker. Til: Innhold 38

41 Til: Kapittelinnhold 3 METODE (a) Er dette et ekstensivt eller intensivt (eller begge deler) undersøkelsesopplegg? (b) Er dette et kvantitativt eller et kvalitativt (eller begge deler) undersøkelsesopplegg? Til: Innhold 39

42 Til: Kapittelinnhold 3 METODE 3.7 Løsningsforslag 1. (a) At arv er viktigere enn miljø (b) At man bør vektlegge arv mer enn miljø i studiet av mennesker (c) Ifølge trekkteorier så er godt lederskap forankret i egenskapene til lederen, som enten er medfødte (arv) eller tilegnet (miljø), eller begge deler. Et ontologisk syn på om slike egenskaper er arvede eller tilegnede (eller begge deler) vil derfor legge føringer på hele analyse- og utredelsesprosessen, inkludert tolkningen av resultatene. 2. De ulike teoretiske definisjonene av godt lederskap kan operasjonaliseres på mange måter, så forslagene under må tolkes som nettopp det de er: Forslag. (a) Operasjonell definisjon: Antall jobbtimer per uke. Svakhet: At leder muligens ikke er effektiv i hver av jobbtimene, slik at antall jobbtimer overdriver hvor hardt leder egentlig jobber (b) Operasjonell definisjon: Antall mål som blir nådd. Svakhet: Ofte er noen mål viktigere enn andre (c) Operasjonell definisjon: Hvor mange ansatte som svarer ja på spm. Har leder en naturlig autoritet? Svakhet: Det varierer hva folk legger i naturlig autoritet (d) Operasjonell definisjon: Hvor mange ansatte som svarer ja på spørsmålet Er lederen karismatisk? Svakhet: Det varierer hva folk legger i karisma (e) Operasjonell definisjon: Antall jobbkonflikter. Svakhet: Hvis ansatte ikke tør å komme i konflikt med leder, og leder av den grunn er upopulær, så vil ikke et lavt antall jobbkonflikter bety at leder er populær 3. (a) Oppgavesettet inneholder veldig lite informasjon om personene som utgjør utvalget til datasettet. Det står f.eks. ikke eksplisitt at alle personene er menn, men det er det naturlig å anta med tanke på hva Viagra brukes til. Populasjonen som utvalget er ment å representere er derfor menn, og da sannsynligvis alle menn. I hvilken utvalget representerer populasjonen er uklart, siden blant annet alderssammensetningen til utvalget ikke er oppgitt (b) Datasettet er fra et visst tidspunkt, så det er av typen tverrsnittsdata (c) Variabelen dose er på ordinalnivå, siden det gir mening å rangere verdiene: Høy dose er mer enn lav dose, og lav dose er mer enn ingenting (placebo). Variabelen libido er i hvertfall på ordinalnivå siden det gir mening å rangere verdiene. Om variabelen også er på intervallnivå, dvs. at det gir mening å sammenligne avstanden til verdiene, er imidlertid ikke Til: Innhold 40

43 Til: Kapittelinnhold 3 METODE klart, siden det ikke er oppgitt presis informasjon om hvordan libido er målt (d) Kilden til datasettet er Field (2009, s. 350), men dette er ikke opprinnelsen til datasettet. Så kilden er en sekundærkilde. Videre, siden forfatteren av Field (2009) ikke deltok i eller var til stede ved undersøkelsen, så er dette en andrehåndskilde (e) Kvantitativ metode 4. (a) Begge deler. Det er intensivt siden hun ønsker å gjennomføre dybdeintervju ( mange variabler ), og ekstensivt siden hun ønsker å gjennomføre en spørreskjemaundersøkelse av = 200 respondenter. (b) Begge deler. Dybdeintervjuer er som regel preget av en stor grad av fortolkning, så dette er kvalitativ analyse. Videre så er bruk av statistiske teknikker en form for kvantitativ analyse. Til: Innhold 41

44 Til: Kapittelinnhold 4 REGRESJONSMODELLEN 4 Regresjonsmodellen 4.1 Regresjonsmodellen Tolkninger Beregning/estimering av B-ene Mål på forklaringskraft/føyning Enkel hypotesetesting: t-tester Konfidensintervaller Multippel hypotesetesting: F -tester Mer om parameterrestriksjoner Egenskaper til estimatorer De klassiske forutsetningene Utledning av MKM-formlene for enkel regresjon Oppgavesett: Enkel regresjon Løsningsforslag oppgavesett: Enkel regresjon Oppgavesett: Multippel regresjon Løsningsforslag oppgavesett: Multippel regresjon Regresjonsmodellen Det kanskje aller viktigste og mest brukte verktøyet innen økonomisk dataanalyse (og mange andre områder) er regresjonsmodellen. På generell form er den gitt ved Y i = B 1 + B 2 X 2i + B 3 X 3i + + B k X ki + u i, (4.1) og de ulike delene til modellen har opptil flere navn: Y i : Venstresidevariabel, avhengig variabel, endogen variabel eller regressand B-ene: Koeffisienter eller parametre. B 1 kalles for konstantleddet eller konstanten ( intercept på engelsk), mens B 2,..., B k kalles for stigningstall, effektene eller innvirkningene X-ene: Høyresidevariabler, uavhengige variabler, eksogene variabler, predikatorer eller innvirkningsvariabler u i : Feilleddet, restleddet, restverdien, residualen, residualverdien, forklaringsfeilen eller prediksjonsfeilen i: Observasjonsnummer, dvs. i = 1, 2, 3,..., n, hvor n er antall observasjoner Det er nyttig å skille mellom den enkle regresjonsmodellen og den multiple regresjonsmodellen. Den enkle regresjonsmodellen er gitt ved Y i = B 1 + B 2 X 2i + u i, og er enkel fordi den kun inneholder én X-variabel. Den multiple regresjonsmodellen inneholder to eller flere X-variabler, og skrives på generell form som (4.1). Til: Innhold 42

45 Til: Kapittelinnhold 4 REGRESJONSMODELLEN 4.2 Tolkninger De forskjellige delene til (4.1) gis ofte spesifikke tolkninger: B 1 + B 2 X 2i + B 3 X 3i + + B k X ki tolkes som oftest som forklaringen eller anslaget/prediksjonen til modellen, og kalles også for regresjonslinjen eller den betingede forventningen til Y i u i, dvs. feilleddet eller restleddet, tolkes som oftest som feilen til forklaringen eller anslaget/prediksjonen. Dette er grunnen til at u i ofte omtales som forklaringsfeilen eller anslags-/prediksjonsfeilen til modellen (for observasjon i) B 1, dvs. konstantleddet, tolkes ofte som den gjennomsnittlige verdien til Y når alle X-verdiene er lik 0. Av og til oppstår situasjoner hvor denne tolkningen ikke gir mening. Dette kan f.eks. skje hvis den anslåtte prisen til en vare er negativ for et salg lik null. I slike tilfeller så har konstantleddet bare en ren teknisk tolkning, nemlig at den bidrar til å plassere regresjonslinjen slik at summen av de kvadrerte prediksjonsfeilene minimeres B 2, B 3,..., B k, dvs. stigningstallene, tolkes ofte som den gjennomsnittlige endringen i Y gitt én enhets økning i X-en det er snakk om under den forutsetning at de andre X-ene ikke endrer seg. Strengt tatt så er dette en form for årsakstolkninger eller kausaltolkning av B-ene Eksempel 4.1. Datasettet SalaryDataProfessionalSurvey2009Norway.xls er fra en undersøkelse av norske arbeidstakere i 2009 og inneholder 374 observasjoner (dvs. n = 374). 6 To av variablene er årslønn (i tusen kroner) og antall år med arbeidserfaring. Hvis vi betegner årslønnen til arbeidstaker i for Y i og antall år med arbeidserfaring til arbeidstaker i for X i, så er følgende et eksempel på en enkel regresjonsmodell over sammenhengen mellom årslønn og antall år med arbeidserfaring: Hva er tolkningen av B 1 og B 2? Y i = B 1 + B 2 X i + u i. Løsning. Tolkning av B 1 : Den gjennomsnittlige årslønnen til arbeidstakerne når antall år med arbeidserfaring er lik 0. Tolkning av B 2 : Hvis antall år med arbeidserfaring øker med 1 år, så endrer årslønnen seg i gjennomsnitt med B 2 kroner. Eksempel 4.2. Ta utgangspunkt i den multiple regresjonsmodellen Y i = B 1 + B 2 X 2i + B 3 X 3i + u i, 6 Kilden til det opprinnelige datasettet er Universum, og datasettet ble våren 2013 gitt som case til eksamen i MET3592 Økonometri. Til: Innhold 43

46 Til: Kapittelinnhold 4 REGRESJONSMODELLEN hvor Y i og X 2i er definert som i eksempel 4.1. Variabelen X 3i er et mål på antall år med utdannelse, og er fra det samme datasettet. Hva er tolkningen av B 1, B 2 og B 3? Løsning. Tolkning av B 1 : Den gjennomsnittlige årslønnen til arbeidstakerne når både antall år med arbeidserfaring og antall år med utdannelse er lik 0. Tolkning av B 2 : Hvis antall år med arbeidserfaring øker med 1 år, så endrer årslønnen seg i gjennomsnitt med B 2 kroner, gitt at antall år med utdanning ikke endrer seg. Tolkning av B 3 : Hvis antall år med utdanning øker med 1 år, så endrer årslønnen seg i gjennomsnitt med B 3 kroner, gitt at antall år med arbeidserfaring ikke endrer seg. 4.3 Beregning/estimering av B-ene Den fremgangsmåten som oftest brukes for å estimere B-ene kalles for Minste Kvadraters Metode (MKM) ( Ordinary Least Squares (OLS) på engelsk). I all korthet så består MKM i at man finner de B-verdiene som minimerer summen av de kvadrerte prediksjonsfeilene. Hvis b 1, b 2, b 3,..., b k betegner de beregnede eller estimerte verdiene, og hvis û i betegner forklarings- eller prediksjonsfeilen til den estimerte modellen for observasjon nr. i, det vil si så kan problemet også skrives som eller û i = Y i (b 1 + b 2 X 2i + + b k X ki ), (4.2) minimér û 2 i, (4.3) minimér (Y i b 1 b 2 X 2i b k X ki ) 2. (4.4) Verdien û i kalles også for restverdien eller residualen til observasjon nr. i, slik at û 1, û 2,..., û n utgjør restverdiene eller residualene til den estimerte modellen. I den forbindelse så merker vi oss at det er vanlig å betegne den estimerte modellen for Ŷ i : Ŷ i = b 1 + b 2 X 2i + + b k X ki. (4.5) Det betyr at Ŷi også er den estimerte forklarings- eller prediksjonsverdien for observasjon i. De generelle formlene for MKM estimatene b 1, b 2, b 3,..., b k er meget omstendelige. For den enkle regresjonsmodellen derimot, så kan formlene uttrykkes ved hjelp av enkle størrelser som vi allerede kjenner. Populasjonsversjonen til den enkle regresjonsmodellen er gitt ved Y i = B 1 + B 2 X 2i + u i, (4.6) Til: Innhold 44

47 Til: Kapittelinnhold 4 REGRESJONSMODELLEN mens den estimerte versjonen er Y i = b 1 + b 2 X 2i + û i. (4.7) Det kan vises (se avsnitt 4.11) at MKM formlene for b 1 og b 2 er gitt ved b 2 = s XY, (4.8) s 2 X b 1 = Y b 2 X, (4.9) hvor s XY er utvalgskovariansen mellom Y i og X i, s 2 X er utvalgsvariansen til X i, Y er utvalgsgjennomsnittet til Y i og X er utvalgsgjennomsnittet til X i. Eksempel 4.3. Eksempel 4.1 viser til et datasett basert på en undersøkelse av norske arbeidstakere. I det datasettet, så er utvalgsgjennomsnittene til variablene Y i og X i, årslønn i tusen kroner og antall år med arbeidserfaring, henholdsvis Y = 457, 1858 og X = 5, 6230, mens utvalgsvariansen til X i og utvalgskovariansen er s 2 X = 22, 7127 og s XY = 293, 865. Hva er de estimerte verdiene b 1 og b 2? Hva er tolkningene deres? Løsning: b 2 = s XY 293, 865 = = 12, 9384 og s 2 X 22, 7127 b 1 = Y b 2 X = 457, , , 6230 = 384, Tolkning av b 1 : Den gjennomsnittlige årslønnen til arbeidstakerne uten arbeidserfaring er ca kroner og 20 øre. Tolkning av b 2 : Hvis arbeidserfaringen øker med 1 år, så øker årslønnen i gjennomsnitt med kroner og 40 øre. Eksempel 4.4. Ta utgangspunkt i den estimerte modellen Ŷi = b 1 + b 2 X i, hvor b 1 og b 2 er de beregnede verdiene fra forrige eksempel. Person nr. 8 i datasettet, dvs. i = 8, har 1 år med arbeidserfaring og en årslønn på 390 tusen kroner. Med andre ord, Y 8 = 390 og X 8 = 1. Hva er den predikerte eller anslåtte årslønnen til person nr. 8? Hva er den estimerte modellens prediksjons- eller forklaringsfeil for person nr. 8? Løsning: Ŷ 8 = b 1 + b 2 X 8 = 384, , = 397, 3716 û 8 = Y 8 Ŷ8 = , 3716 = 7, Med andre ord, den anslåtte årslønnen til person nr. 8 ifølge modellen er kroner og 60 øre, mens prediksjons- eller anslagsfeilen er på kroner og 60 øre. Til: Innhold 45

48 Til: Kapittelinnhold 4 REGRESJONSMODELLEN 4.4 Mål på forklaringskraft/føyning Siden feilleddet u i (og dens estimerte motpart û i ) utgjør forklarings- eller anslagsfeilen, så tar de aller fleste målene på forklaringskraft/føyning denne størrelsen som utgangspunkt. Regresjonsmodellens varians og standardavvik, for eksempel, er definert som henholdsvis σ 2 = E(u 2 i ) og σ = E(u 2 i ) (varians) (standardavvik). Utvalgsversjonen til sistnevnte, som kalles standardfeilen til regresjonen, er gitt ved σ = û2 i n k. (4.10) Med andre ord, jo større σ er, jo dårligere forklaringskraft. Det samme gjelder σ og σ 2. En begrensning ved σ som mål på forklaringskraft er at den ikke har en fast øvre grense: Verdien 0 utgjør den nedre grensen (som er fast) mens s Y utgjør den øvre grensen (som varierer med observasjonsverdiene Y i ). Et mål på forklarings- eller prediksjonskraft som bøter på dette problemet er determinasjonskoeffisienten. Dette målet betegnes R 2 ( R i andre, R-squared på engelsk) og varierer mellom 0 og 1 (sålenge konstantleddet er inkludert). 7 R 2 = 1 betyr at modellen har maksimal eller 100% forklaringskraft, mens R 2 = 0 betyr at modellen har ingen eller 0% forklaringskraft. R 2 er definert som R 2 = ESS T SS, (4.11) hvor ESS er den forklarte kvadratsummen ( Explained Sum of Squares på engelsk) og hvor TSS er totalkvadratsummen ( Total Sum of Squares på engelsk): Det kan vises at R 2 også kan skrives som ESS = (Ŷi Y ) 2 (4.12) T SS = (Y i Y ) 2. (4.13) R 2 = 1 RSS T SS, (4.14) hvor RSS ( Residual Sum of Squares på engelsk) er residualkvadratsummen û 2 i. I det spesielle tilfellet hvor regresjonsmodellen bare inneholder konstantleddet, altså Y i = b 1 + û i, 7 Hvis konstantleddet ikke inkluderes, så kan R 2 faktisk være negativ i enkelttilfeller. Til: Innhold 46

49 Til: Kapittelinnhold 4 REGRESJONSMODELLEN så kan det vises at RSS = T SS. Med andre ord, R 2 er alltid lik 0 i en regresjon som bare inneholder konstantleddet. Det kan også vises at, i enkel regresjon, så er R 2 = (r Y,X ) 2. Mer generelt, så har vi at R 2 = (r Y, Ŷ )2. Med andre ord, i enkel regresjon så har vi at r Y,X og r Y, Ŷ er like. Eksempel 4.5. Det kan vises at residualkvadratsummen (dvs. RSS) og totalkvadratsummen (dvs. T SS) i den estimerte modellen i eksempel 4.3 er Hva er σ og R 2? RSS = , 72 og T SS = , 61. Løsning. Antall estimerte B-er er 2 (dvs. k = 2), mens antall observasjoner (dvs. n) er 374. Det betyr at σ = RSS n k = , = 17654, 5 = 132, Videre har vi at R 2 = 1 RSS T SS = , , 61 = 1 0, 8224 = 0, Med andre ord, antall år med arbeidserfaring forklarer 17,76% av variasjonen i årslønn. En av anvendelsene til R 2 er å sammenligne ulike modeller med ulike kombinasjoner av forklaringsvariabler for å finne fram til den beste modellen i form av forklaringskraft. Et problem med R 2 for dette formål er at verdien til R 2 av tekniske grunner 8 aldri faller som regel øker den når man inkluderer flere X-variabler. Og det selv om X-variablene er irrelevante! Med andre ord, man kan bli lurt til å tro at en modell med mange irrelevante forklaringsvariabler er bedre enn en modell med få men bare relevante forklaringsvariabler. Dette er motivasjonen for justert R 2 ( adjusted R-squared på engelsk), som betegnes R 2. Justert R 2 varierer også mellom 0 og 1, dvs. mellom 0% forklaringskraft og 100% forklaringskraft, og dens verdi er gitt ved R 2 = 1 [ (1 R 2 ) ( )] n 1, (4.15) n k hvor n er antall observasjoner og k antall estimerte koeffisienter (dvs. antall b-er). 9 8 Disse tekniske grunnene er relatert til MKM-estimatoren sin natur. 9 I enkelttilfeller, hvis R 2 er veldig liten, så kan R 2 være negativ, se eksempel 9.3 for et eksempel på dette. Til: Innhold 47

50 Til: Kapittelinnhold 4 REGRESJONSMODELLEN Eksempel 4.6. I eksempel 4.5 fant vi at R 2 = 0, Hva er justert R 2? Løsning. Siden n = 374 og k = 2, så [ ( )] R 2 n 1 = 1 (1 R 2 ) n k [ ( )] = 1 (1 0, 1776) = 1 [0, , 0027] = 1 0, 8246 = 0, En annen gruppe med mål på forklarings- eller prediksjonskraft er informasjonskriterier. Disse fungerer på samme måte som justert R 2, men med motsatt fortegn: Jo lavere verdi, jo bedre forklarings- eller prediksjonskraft. De mest brukte informasjonskriteriene er de til Akaike (1974) og Schwarz (1978). Begge disse er justerte mål i den forstand at de korrigerer for antall forklaringsvariabler. 4.5 Enkel hypotesetesting: t-tester Enkel hypotesetesting består i å teste én populasjonskoeffisient B om gangen, i motsetning til multippel hypotesetesting som består i å teste verdien til flere B-er om gangen (se avsnitt 4.7). Nullhypotesen i en t-test er gitt ved likhet, dvs. B- en det er snakk om antas å være lik en viss verdi, for eksempel 10. Da skriver vi H 0 : B = 10. Alternativhypotesen er enten tosidig, da skriver vi H A : B 10, eller ensidig, dvs. enten H A : B > 10 eller H A : B < 10. Testuttrykket eller testobservatoren til en enkel hypotesetest er t-fordelt med n k frihetsgrader, og er gitt ved b H 0 verdi. (4.16) se(b) H 0 verdi er verdien til B gitt i nullhypotesen, mens se(b) er standardfeilen til den beregnede verdien b. Verdien se(b) er alltid større enn 0, og er et mål på hvor presist estimatet b er: Jo større, jo mer upresist. Med andre ord, se(b) er et slags standardavvik for den estimerte verdien b. Vi kommer tilbake til den eksakte sammensetningen til uttrykket se(b) senere. Eksempel 4.7. Estimeringsresultatene (se eksemplene over) til den enkle regresjonsmodellen Y i = B 1 + B 2 X i + u i kan oppsummeres som Ŷ i = 384, 4332 (10,6345) + 12, 9384 (1,4436) X i, R 2 = 0, 1776, n = 374, hvor tallene i parentes er standardfeilene til de beregnede verdiene. Med andre ord, se(b 1 ) = 10, 6345 og se(b 2 ) = 1, Merk: se(b 1 ) og se(b 2 ) har ikke blitt regnet ut Til: Innhold 48

51 Til: Kapittelinnhold 4 REGRESJONSMODELLEN i eksemplene over (verdiene er regnet ut med hjelp av Stata). Test påstanden om at arbeidserfaring har en effekt på årslønn, og bruk et signifikansnivå på 5%. Løsning: 1. α = 0, 05, H 0 : B 2 = 0 og H A : B Forkastningsområdet. Antall B-er er 2 (dvs. k = 2), så antall frihetsgrader er n k = = 372. Denne raden er ikke inneholdt i t-tabellen bak i boka, så vi runder den av nedover til nærmeste frihetsgrad som er inneholdt i tabellen, dvs Det gir kritiske verdier på t 0,025 (100) = 1, 984 og t 0,025 (100) = 1, 984. Med andre ord, forkastningsområdet består av verdier større enn 1,984 og verdier mindre enn 1, Testverdi: b 2 H 0 verdi se(b 2 ) = 12, , 4436 = 8, Konklusjon. Testverdien 8,9626 ligger i forkastningsområdet, så vi forkaster H 0. Med andre ord, vi har funnet støtte for alternativhypotesen H A om at arbeidserfaring har en effekt på årslønn. 4.6 Konfidensintervaller Et estimat b av en populasjonskoeffisient B utgjør et punktestimat. Et konfidensintervall for B kan forstås som et intervallestimat, siden populasjonskoeffisienten B vil ligge i intervallet dvs. mellom den øvre og nedre grensen med en viss grad av sikkerhet. Mer presist så er den øvre grensen og den nedre grensen til et (1 α) 100% konfidensintervall gitt ved øvre grense = b + t α/2 (df) se(b), (4.17) nedre grense = b t α/2 (df) se(b), (4.18) hvor t α/2 (df) er den kritiske verdien til en t-fordeling med df frihetsgrader forbundet med en halesannsynligheten lik α/2. For eksempel, hvis nedre grense = 0, 5 og øvre grense = 1, 3 utgjør grensene til et 90% konfidensintervall for populasjonskoeffisienten B, så sier vi at verdien til B ligger mellom 0,5 og 1,3 med 90% grad av konfidens eller sikkerhet. En annen måte å si det på er at det er 90% sjanse for at B ligger i intervallet. 10 Å runde av nedover innebærer at vi gir en liten fordel til nullhypotesen H 0. Denne fordelen er imidlertid veldig liten, siden antall frihetsgrader er stort. Hadde vi rundet av antall frihetsgrader oppover, så hadde vi gitt en liten fordel til alternativhypotesen. Statistisk programvare (f.eks. qt funksjonen i R) gir oss den nøyaktige verdien, som i dette tilfellet er t 0,025 (372) = 1, 966. Med andre ord, en liten forskjell for de aller fleste formål. Til: Innhold 49

52 Til: Kapittelinnhold 4 REGRESJONSMODELLEN Eksempel 4.8. Ta utgangspunkt i informasjonen fra eksempel 4.7. Beregn et 90% konfidensintervall for B 2 og tolk det. Løsning. Siden t-tabellen bak i boka ikke inneholder 372 frihetsgrader, så gjør vi som tidligere (se f.eks. eksempel 4.7): Vi runder av nedover til 100. Det gir: øvre grense = b 2 + t α/2 (df) se(b 2 ) = 12, t 0.05 (100) 1, 4436 = 12, , 660 1, 4436 = 15, 3348 nedre grense = b 2 t α/2 (df) se(b 2 ) = 12, 9384 t 0.05 (100) 1, 4436 = 12, , 660 1, 4436 = 10, Tolkningen er at populasjonsverdien B 2 ligger mellom verdiene 10,5420 og 15,3348 med 90% sikkerhet. 4.7 Multippel hypotesetesting: F -tester Multippel hypotesetesting innebærer at man tester flere B-er om gangen. Gitt f.eks. modellen Y = B 1 + B 2 X B k X k + u, (4.19) så er utgangspunktet en null- og en alternativhypotese på følgende generelle form: H 0 : B 1 = verdi 1 og B 2 = verdi 2 og,..., og B k = verdi k H A : Én eller flere av påstandene i H 0 er gale Utsagnet Én eller flere av påstandene i H 0 er gale er det samme som å si at én eller flere av likhetene i H 0 ikke gjelder. Med andre ord, hvis bare én av likhetene i H 0 ikke gjelder, så er dette altså tilstrekkelig for at hele nullhypotesen H 0 er gal. Her er noen konkrete eksempler på multiple null- og alternativhypoteser: H 0 : B 1 = 0 og B 2 = 3 H A : Én eller begge påstandene i H 0 er gale H 0 : B 2 = 0 og B 4 = 3 H A : Én eller begge påstandene i H 0 er gale H 0 : B 2 = 0 og B 3 = 0 og B 4 = 0 H A : Én eller flere påstander i H 0 er gale H 0 : B 2 = 0 og B 3 = 2 B 2 og B 4 = 1 H A : Én eller flere påstander i H 0 er gale Til: Innhold 50

53 Til: Kapittelinnhold 4 REGRESJONSMODELLEN For å kunne gjennomføre multiple hypotesetester i praksis, så må to modeller estimeres: Én modell med restriksjonene i H 0 og én modell uten. Vi vil ofte bruke forkortelsen r (med restriksjoner) for førstnevnte, og ur (uten restriksjoner) for sistnevnte. Selve testen gjennomføres som en såkalt F -test, og testuttrykket til F -testen er gitt ved F = (RSS r RSS ur )/m (4.20) RSS ur /(n k) hvor RSS ur er RSS til modellen uten restriksjoner RSS r er RSS til modellen med restriksjoner m er antall påstander (dvs. antall likheter = ) i H 0 n er antall observasjoner k er antall estimerte parametre i modellen uten restriksjoner Når venstresiden til modellene er like, 11 så kan testuttrykket (4.20) også skrives på en annen måte som ofte er enklere å regne ut, nemlig F = hvor m, n og k er definert som over, og hvor R 2 ur er R 2 til modellen uten restriksjoner R 2 r er R 2 til modellen med restriksjoner (R2 ur R 2 r)/m (1 R 2 ur)/(n k), (4.21) Testuttrykket (4.20) (og dermed også (4.21)) har en såkalt F -fordeling, derav navnet F -testen. Grafisk så kan F -fordelingen beskrives som 11 Mer presist, det kan vises at de to uttrykkene er identiske hvis T SS ur og T SS r er like. Til: Innhold 51

54 Til: Kapittelinnhold 4 REGRESJONSMODELLEN hvor bokstaven F er et eksempel på en verdi til testuttrykket. Et område under kurven, f.eks. det grå området, tolkes som en sannsynlighet. Når området ligger til høyre for verdien det er snakk om, dvs. akkurat som i figuren, så kaller vi det for halesannsynligheten. En fotskrift på verdien F indikerer størrelsen på halesannsynligheten. Hvis f.eks. det grå området tilsvarer en halesannsynlighet på 10%, så skriver vi F 0,10. Hvis det tilsvarer en halesannsynlighet på 5%, så skriver vi F 0,05, og så videre. F -fordelingen avhenger også av det som kalles for teller frihetsgrader og nevner frihetsgrader. Disse vil vi betegne for henholdsvis Df 1 og Df 2. For å koble alt dette sammen, så vil vi bruke betegnelsen F α (Df 1, Df 2 ). For eksempel, verdien F forbundet med en halesannsynlighet på 1% og frihetsgrader lik Df 1 = 2 og Df 2 = 10 vil vi skrive som F 0,01 (2, 10). Eksempel 4.9. Ta utgangspunkt i modellen Y i = B 1 + B 2 X 2i + B 3 X 3i + u i, hvor Y i er årslønn, X 2i er antall år med arbeidserfaring og X 3i er et mål på antall år med utdannelse. Modellen estimeres til Ŷ i = 270, , 817X 2i + 5, 430X 3i, R 2 = 0, Test om arbeidserfaring eller utdanning, eller begge, har en effekt på årslønn, og bruk 1% som signifikansnivå. Løsning: 1. α = 0, 01 H 0 : B 2 = 0 og B 3 = 0 H A : Én eller begge påstandene i H 0 er gale 2. Antall teller frihetsgrader, Df 1, er gitt ved m = 2, mens antall nevner frihetsgrader, Df 2, er gitt ved n k = = 371. F -tabellene bakerst i boka inneholder ikke raden for Df 2 = 371. Som en tilnærming runder vi derfor av nedover til nærmeste radverdi, som i dette tilfellet er 300. Det gir en kritisk verdi tilnærmet lik F 0,01 (2, 371) F 0,01 (2, 300) = 4, 677. Med andre ord, forkastningsområdet består av verdier lik eller større enn 4, Testverdi. Modellen med restriksjoner inneholder kun konstantleddet, så R 2 r = 0. For modellen uten restriksjoner får vi R 2 ur = 0, Det gir: (R 2 ur R 2 r)/m (1 R 2 ur)/(n k) (0, )/2 0, 0957 = = (1 0, 1914)/(371) 0, 0022 = 43, 5 4. Konklusjon. Testverdien ligger i forkastningsområdet, så vi forkaster H 0. Med andre ord, vi har funnet støtte for hypotesen (H A ) om at enten arbeidserfaring eller utdanning, eller begge, har en effekt på årslønn. Til: Innhold 52

55 Til: Kapittelinnhold 4 REGRESJONSMODELLEN 4.8 Mer om parameterrestriksjoner For å fullt ut forstå og kunne utnytte multippel hypotesetesting, så er det viktig å forstå idéen om parameterrestriksjoner. Ta for eksempel modellen Y i = B 1 + B 2 X 2i + B 3 X 3i + u i. (4.22) Slik den står, så er det ingen restriksjoner eller begrensninger på verdiene til B 1, B 2 og B 3. Med andre ord, vi har ikke begrenset parameterne B 1, B 2 og B 3 til å være lik spesifikke verdier. Å pålegge én eller flere restriksjoner på B-ene innebærer at man begrenser én eller flere B-er til å være lik spesifikke verdier. Hvis vi for eksempel pålegger parameterrestriksjonen B 2 = 0, så resulterer dette i modellen Y i = B X 2i + B 3 X 3i + u i = B 1 + B 3 X 3i + u i. Med andre ord, modellen Y i = B 1 +B 3 X 3i +u i oppnås eller følger som en konsekvens av å pålegge restriksjonen B 2 = 0 i (4.22). Et annet eksempel er restriksjonene B 1 = 1 og B 3 = 0. Hvis disse pålegges (4.22), så gir dette Y i = 1 + B 2 X 2i + 0 X 3i + u i = 1 + B 2 X 2i + u i. Med andre ord, modellen Y i = 1 + B 2 X 2i + u i oppnås eller følger som en konsekvens av å pålegge restriksjonene B 1 = 1 og B 3 = 0 i (4.22). En idé som er relatert til parameterrestriksjoner, er idéen om at en modell er inneholdt eller nøstet i en annen. Hvis en modell følger som en konsekvens av å pålegge et sett av parameterrestriksjoner på en annen modell, så sier vi at førstnevnte er inneholdt i sistnevnte. Modellen Y i = B 1 + u i er for eksempel inneholdt i (4.22), siden den følger av restriksjonene B 2 = 0 og B 3 = 0. Det samme er modellen Y i = X 2i + X 3i + u i, siden denne følger av å pålegge restriksjonene B 1 = 0, B 2 = 1 og B 3 = 1. Et eksempel på en modell som ikke er inneholdt i (4.22) er Y i = B 1 + B 4 X 4i + u i, siden variabelen X 4i ikke er en del av modellen i (4.22). 4.9 Egenskaper til estimatorer Det er ønskelig at de beregnede verdiene b 1, b 2,..., b k skal utgjøre så gode estimater av B-ene som mulig. Tre statistiske begreper som ofte benyttes for å studere om en estimator er god eller ikke er forventningsretthet, konsistens og effisiens. En estimator b for populasjonsverdien B sies å være forventningsrett hvis Til: Innhold 53 E(b) = B. (4.23)

56 Til: Kapittelinnhold 4 REGRESJONSMODELLEN Annerledes sagt, i gjennomsnitt så er estimatet b lik B. Ofte så viser det seg at en estimator b ikke har denne egenskapen. Derimot så er den kjennetegnet ved at sannsynligheten for at b er ulik B går mot 0 når antallet observasjoner går mot uendelig. Mer formelt så sier vi at b er en konsistent estimator av B hvis P r( b B > c) 0 når n (4.24) for hvilken som helst tall c > 0. Som oftest er en forventningsrett estimator også konsistent, men ikke alltid. Videre finnes det enkelttilfeller hvor estimator b er konsistent men ikke forventningsrett. Dette motiverer et begrep som ikke benyttes så ofte i statistikken, men som vi vil benytte her, nemlig korrekthet. Vi sier at en estimator er korrekt hvis den enten er forventningsrett eller konsistent, eller begge deler. Forventningsretthet, konsistens og korrekthet er alle begreper som omhandler treffsikkerheten til en estimator. Men hvordan velger vi mellom to treffsikre estimatorer b og b? Ett kriterium er effisiens. Vi sier at en estimator er mer effisient enn en annen hvis førstnevnte er mindre variabel enn den andre. Mer formelt, b er mer effisient enn b hvis V ar(b) < V ar(b ). (4.25) 4.10 De klassiske forutsetningene Mange av kjennetegnene til regresjonsmodellen er basert på et sett av forutsetninger som ofte kalles for de klassiske forutsetningene. Ulike forfattere presenterer disse forutsetningene på ulik måte og i et ulikt antall. Her, hvor vi baserer oss på framstillingene til Hayashi (2000, ss. 4-13) og Wooldridge (2009, ss ), vil vi formulere forutsetningene som bestående av fem stykker. Den første forutsetningen er: 1. Verdiene Y i, X 2i,..., X ki kommer fra et tilfeldig utvalg bestående av n observasjoner, hvor i = 1, 2,..., n. Den viktigste implikasjonen av dette er at observasjonene er uavhengige av hverandre. 12 Neste forutsetning er: 2. Sammenhengen mellom Y i og X 2i,..., X ki er gitt ved for hver observasjon i = 1, 2,..., n, hvor Y i = B 1 + B 2 X 2i B k X ki + u i (4.26) E(Y i X 2i,..., X ki ) = B 1 + B 2 X 2i + + B k X ki. (4.27) 12 Hvis variablene er tidsserier (se kapittel 8), så er denne forutsetningen som regel ikke oppfylt. Til: Innhold 54

57 Til: Kapittelinnhold 4 REGRESJONSMODELLEN Denne forutsetningen innebærer at B 1 + B 2 X 2i + + B k X ki kan tolkes som forklaringen eller anslaget til Y i gitt verdiene X 2i,..., X ki. En viktig implikasjon av (4.26) og (4.27) er at E(u i X 2i,..., X ki ) = 0. Med andre ord, i gjennomsnitt så er anslagsfeilen lik null for ulike kombinasjoner av X-ene. 3. Ingen eksakt multikolinearitet mellom høyresidevariablene. Dette innebærer at ingen av X-ene kan skrives som en eksakt lineær kombinasjon av de andre X-ene. Vi vil komme tilbake til hva dette betyr i detalj i kapitlet om kvalitative forklaringsvariabler (se kapittel 6). 4. Homoskedastisitet: E(u 2 i X 2i,..., X ki ) = σ 2. Denne forutsetningen innebærer at presisjonen til modellen ikke avhenger av verdiene til X-ene. Hvis for eksempel én av X-ene er en kjønnsvariabel med to verdier, dvs. en verdi for mann og en annen for kvinne, og hvis (for eksempel) modellpresisjonen er høyere for kvinner enn for menn, så betyr det at forutsetningen om homoskedastisitet ikke er oppfylt. Konsekvensene av at denne forutsetningen ikke er oppfylt kommer vi tilbake til i kapittel u i er normalfordelt (med gjennomsnitt lik 0 og varians lik σ 2 ). De fire første antakelsene utgjør de såkalte Gauss-Markov forutsetningene, og leder til resultatet om at MKM estimatoren er den beste (i betydningen mest effisient) lineære forventningsrette estimatoren som er tilgjengelig. På engelsk, Best Linear Unbiased Estimator, dvs. BLUE. For at t-verdiene skal være t-fordelt i endelige utvalg, og for at F -verdiene skal være F -fordelte i endelige utvalg, så må også forutsetning nr. 5 være oppfylt. I uendelige store utvalg derimot (i praksis så betyr det at utvalget er så stort at testuttrykkene oppfører seg som om utvalget er uendelig), så vil t-testene og F -testene være gyldige selv om u i ikke er normalfordelt. Med andre ord, t- og F -testene er gyldige asymptotisk så lenge de fire første forutsetningene er oppfylt. Video. Eksempler på viktigheten av at forutsetningene man antar er oppfylt: Utledning av MKM-formlene for enkel regresjon Den underliggende idéen om hvordan Minste Kvadraters Metode (MKM) fungerer kan enkelt illustreres for enkel regresjon. Populasjonsversjonen til den enkle regresjonsmodellen er gitt ved Y i = B 1 + B 2 X i + u i, Til: Innhold 55

58 Til: Kapittelinnhold 4 REGRESJONSMODELLEN mens den estimerte versjonen er gitt ved Y i = b 1 + b 2 X i + û i. Med andre ord, b 1 og b 2 er estimerte eller beregnede verdier for henholdsvis B 1 og B 2. Det MKM gjør er å finne fram til verdiene b 1 og b 2 som minimerer summen av de kvadrerte forklarings- eller prediksjonsfeilene û2 i = (Y i (b 1 + b 2 X i )) 2. For gitte verdier Y 1,..., Y n og X 1,..., X n, så er dette en funksjon som avhenger av b 1 og b 2. De partiell deriverte med hensyn på b 1 og b 2 er û 2 i b 1 = 2(Y i (b 1 + b 2 X i )) ( 1) = 2 Y i + 2nb 1 + 2b 2 Xi û 2 i b 2 = 2(Y i (b 1 + b 2 X i )) ( X i ) = 2 Y i X i + 2b 1 Xi + 2b 2 X 2 i. Kvadratsummen û 2 i minimeres når de deriverte er lik 0 (dvs. første ordensbetingelsene for minimum), som gir og 2 Y i + 2nb 1 + 2b 2 Xi = 0 Y i + nb 1 + b 2 Xi = 0 (4.28) 2 Y i X i + 2b 1 Xi + 2b 2 X 2 i = 0 Y i X i + b 1 Xi + b 2 X 2 i = 0, (4.29) Med andre ord, (4.28) og (4.29) utgjør to likninger i de to ukjente b 1 og b 2. Løser vi (4.28) med hensyn på b 1, så får vi b 1 = Y b 2 X, Til: Innhold 56

59 Til: Kapittelinnhold 4 REGRESJONSMODELLEN dvs. formelen for konstantleddet. Setter vi denne inn for b 1 i (4.28) og løser med hensyn på b 2, så gir det b 2 = Yi X i ( Y i )( X i ) n X 2 i ( X i ) 2 = Yi X i ny X X 2 i nx 2 n = (Yi Y )(X i X) (Xi X) 2 = s XY s 2 X Med andre ord, formelen for b 2. At disse verdiene virkelig minimerer kvadratsummen kan sjekkes via de andrederiverte. I det mer generelle tilfellet, dvs. når û 2 i = (Y i (b 1 + b 2 X 2i + + b k X ki )) 2, så går vi fram på nøyaktig samme måte. Først partiell deriverer vi med hensyn på b-ene. Deretter setter vi de deriverte lik 0 og løser likningssystemet som dette utgjør med hensyn på b-ene. Dette gjøres mest effektivt ved hjelp av matriser og vektorer, se f.eks. Wooldridge (2009).. Til: Innhold 57

60 Til: Kapittelinnhold 4 REGRESJONSMODELLEN 4.12 Oppgavesett: Enkel regresjon 1. Datasettet husdata utvalg.xls er et tilfeldig utvalg (20 observasjoner) av datasettet til eksamenscaset i MET 3592 Økonometri høsten Filen inneholder informasjon om salget av 20 hus og leiligheter for 2010 i et område i Oslo gjennomført av en filial til Aktiv eiendomsmegling: m2: Størrelse på bolig (målt i kvadratmeter) Rom: P risantydning : Salgssum : Salgssuminklgjeld : Gjeld : Antall rom til bolig Prisantydning før salg i tusen kroner Salgssum i tusen kroner Salgssum inklusiv fellesgjeld i tusen kroner Salgssuminklgjeld Salgssum (a) Hva slags datasett er dette? (b) På hvilket målenivå er variablene? 2. For å studere sammenhengen mellom salgssum (Y i ) og prisantydning (X i ) i datasettet, så estimeres modellen Den estimerte modellen betegnes Med utgangspunkt i tallene Y i = B 1 + B 2 X i + u i. (4.30) Ŷ i = b 1 + b 2 X i. (4.31) n Y i = , i=1 n X i = , i=1 n (Y i Y ) 2 = , i=1 n (X i X) 2 = , i=1 så skal du gjøre følgende: n (Y i Y )(X i X) = , i=1 (a) Vis at estimatene til B 1 og B 2 er henholdsvis 13,8107 og 1,0374. (Merk: Tallene dine kan avvike som følge av antallet desimaler som brukes i utregningene.) (b) Tolk estimatene b 1 og b 2 Til: Innhold 58

61 Til: Kapittelinnhold 4 REGRESJONSMODELLEN (c) Beregn anslåtte eller predikerte salgssummer for følgende prisantydninger: 500 tusen kroner, 1 million kroner, 2 millioner kroner og 5 millioner kroner (d) For observasjon nr. 11 så er prisantydningen kr. og salgssummen kr. Hva er restverdien (dvs. anslagsfeilen) til den estimerte modellen for observasjon nr. 11? (e) Det viser seg at den forklarte variasjonen (ESS; Explained Sum of Squares ) til den estimerte modellen er Hva er den uforklarte variasjonen (RSS; Residual Sum of Squares )? (f) Beregn og tolk determinasjonskoeffisienten (R 2, R-squared eller coefficient of determination ). Hva er utvalgskorrelasjonen mellom salgssum og prisantydning? (g) Beregn den justerte determinasjonskoeffisienten (R 2, Adjusted R 2 ) (h) Beregn standardfeilen til den estimerte regresjonen ( SER ; standard error of regression ) 3. Ta utgangspunkt i datasettet fra oppgave 1 og informasjonen i oppgave 2: (a) Estimatet b 1 til B 1 i modellen Y i X i = B 1 + u i, er lik 76,25. Gi en tolkning av estimatet (b) I media så har det blitt hevdet at eiendomsmeglere prisantyder for lavt for å lokke til seg kjøpere. 13 Test om eiendomsmeglerne i gjennomsnitt prisantyder for lavt. Bruk et signifikansnivå på 1%, og bruk at standardfeilen til b 1, dvs. se(b 1 ), er lik 25, Ta utgangspunkt i den estimerte modellen fra oppgave 2, dvs. Y = b 1 +b 2 X+û, hvor b 1 = 13, 8107 og b 2 = 1, 0374: (a) Standardfeilen til b 1, dvs. se(b 1 ), er lik 86,6596. Test om konstantleddet B 1 er signifikant ulikt 0 på et 5% signifikansnivå (b) Beregn og tolk et tosidig 95% konfidensintervall for B 1 (c) Standardfeilen til b 2, dvs. se(b 2 ), er lik 0,0496. Test om effektparameteren B 2 er signifikant større enn 1 på et 1% signifikansnivå. Øker salgssummen i gjennomsnitt med mer enn 1000 kr. hvis prisantydningen øker med 1000 kr.? (d) Beregn et tosidig 99% konfidensintervall for B 2 5. Dataoppgaver: 13 Aftenposten, 18. februar 2013: Forbrukerombudet: - Meglere bruker lokkepriser bevisst Til: Innhold 59

62 Til: Kapittelinnhold 4 REGRESJONSMODELLEN (a) Last datasettet husdata utvalg.xls inn i en statistisk programvare [Hint til Stata: I hovedvinduet til Stata, velg File Import Excel spreadsheet, trykk Browse knappen, finn fram til hvor filen husdata utvalg.xls er lagret, velg filen, tikk deretter av for Import first row as variable names, trykk OK.] (b) Estimér modellen Y i = B 1 + B 2 X i + u i [Hint til Stata: Statistics Linear models and related Linear regression, velg Salgssum som avhengig variabel ( dependent variable ) og Prisantydning i Independent variables feltet, trykk OK. Video (17 sek.)] (c) Lag en ny variabel uhatt som er lik residualene til den estimerte modellen [Hint til Stata: Statistics Postestimation Predictions, residuals, etc., skriv uhatt i feltet New variable name:, velg Residuals (equation-level scores), trykk OK. Video (19 sek.)] (d) Lag en ny variabel yhatt som er lik de predikerte salgsverdiene [Hint til Stata: Statistics Postestimation Predictions, residuals, etc., skriv yhatt i feltet New variable name:, velg Linear prediction (xb), trykk OK. Video (16 sek.)] Til: Innhold 60

63 Til: Kapittelinnhold 4 REGRESJONSMODELLEN 4.13 Løsningsforslag oppgavesett: Enkel regresjon 1. (a) Tverrsnittsdata ( cross-sectional data ) 2. (a) (b) Antall rom er på ordinalnivå ( ordinal scale ), resten på forholdstallsnivå ( ratio scale ) b 2 = n i=1 (Y i Y )(X i X) n i=1 (X i X) 2 = = 1, b 1 = Y b 2 X = 1745, 75 1, , 5 = 13, 8107 (b) b 1 : En prisantydning på 0 kroner er i gjennomsnitt forbundet med en salgssum på ca kroner. b 2 : Hvis prisantydningen øker med tusen kroner, så øker salgssummen i gjennomsnitt med ca kroner. (c) 500 tusen: Ŷ = b 1 + b 2 X = 13, , = 532, 5107, dvs. ca kroner. 1 million: Ca kroner. 2 millioner: Ca kroner. 5 millioner: Ca kroner (d) û 11 = Y 11 b 1 b 2 X 11 = , , = 205, 5833, dvs. ca kroner. (e) Per definisjon har vi at T SS = ESS + RSS, hvilket betyr at RSS = T SS ESS. Videre har vi at T SS = n i=1 (Y i Y ) 2, så RSS = = (f) R 2 er gitt ved ESS/T SS: / = 0, Med andre ord, prisantydning forklarer eller predikerer 96,05% av variasjonen i salgssum. Utvalgskorrelasjonen mellom prisantydning og salgssum: r = s XY s X s Y = (Yi Y )(X i X) 2 (Yi (Xi = 0, 98, hvor Y er salgssum og X er prisantydning. Y ) X) 2 (g) Justert R 2 : R 2 = 1 (1 R 2 ) n 1, hvor n er antall observasjoner og k n k antall estimerte parametre. Det gir R 2 = 1 (1 0, 9605) 20 1 = 0, (h) SER = RSS n k = 20 2 = ,78 = 113, (a) Salgssum er i gjennomsnitt kroner høyere enn prisantydning (b) H 0 : B 1 = 0 og H A : B 1 > 0. Siden antall frihetsgrader er n k = 20 1 = 19, så blir den kritiske verdien t 1% (19) = 2, 539. Det betyr at forkastningsområdet er gitt ved verdier lik eller større enn 2,539. Verdien til testuttrykket (eller testobservator, statistic ) er gitt ved b 1 /se(b 1 ) = 76, 25/25, 1780 = 3, Konklusjon: Vi forkaster nullhypotesen om at B 1 = 0, Til: Innhold 61

64 Til: Kapittelinnhold 4 REGRESJONSMODELLEN siden testverdien er større enn den kritiske verdien (dvs. den ligger i forkastningsområdet). Med andre ord, resultatet støtter hypotesen om at eiendomsmeglere i gjennomsnitt prisantyder for lavt 4. (a) H 0 : B 1 = 0 og H A : B 1 0. Siden antall frihetsgrader er n k = 20 2 = 18, så blir de kritiske verdiene t 2,5% (18) = 2, 101 og t 2,5% (18) = 2, 101. Verdien til testuttrykket eller testobservator ( statistic ) er gitt ved b 1 /se(b 1 ) = 13, 8107/86, 6596 = 0, Konklusjon: Vi forkaster ikke null-hypotesen om at B 1 = 0, siden testverdien (verdien til testuttrykket) ikke er lik eller overskrider de kritiske verdiene. (b) Øvre grense er gitt ved b 1 +se(b 1 ) t 2,5% (18) = 13, , , 101 = 195, 8825, mens nedre grense er gitt ved b 1 se(b 1 ) t 2,5% (18) = 168, Tolkning: Med 95% sikkerhet så ligger B 1 i intervallet [ 168, 2611; 195, 8825]. (c) H 0 : B 2 = 1 og H A : B 2 > 1. Siden antall frihetsgrader er n k = 20 2 = 18, så er den kritiske verdien t 1% (18) = 2, 552. Verdien til testobservator ( statistic ) eller testuttrykket er gitt ved (b 2 1)/se(b 2 ) = (1, )/0, 0496 = 0, Konklusjon: Vi forkaster ikke H 0 om at B 2 = 1, siden testverdien ikke er større enn den kritiske verdien. Vi har derfor ikke funnet støtte for påstanden om at salgsummen i gjennomsnitt øker med mer enn 1000 kr. hvis prisantydningen øker med 1000 kr. (d) Øvre grense er gitt ved b 2 + se(b 2 ) t 0,5% (18) = 1, , , 878 = 1, 1801, mens nedre grense er gitt ved b 2 se(b 2 ) t 0,5% (18) = 0, Tolkning: Med 99% sikkerhet så ligger B 2 i intervallet [0, 8947; 1, 1801]. Til: Innhold 62

65 Til: Kapittelinnhold 4 REGRESJONSMODELLEN 4.14 Oppgavesett: Multippel regresjon 1. F -fordelingen: (a) La teller frihetsgrader være lik 2 og nevner frihetsgrader være lik 30. Hva er kritisk verdi hvis signifikansnivået er henholdsvis 10%, 5% og 1%? (b) La teller frihetsgrader være lik 4 og nevner frihetsgrader være lik 47. Hva er kritisk verdi hvis signifikansnivået er henholdsvis 10%, 5% og 1%? (c) La teller frihetsgrader være lik 5 og nevner frihetsgrader være lik Hva er kritisk verdi hvis signifikansnivået er henholdsvis 10%, 5% og 1%? (d) Du får oppgitt at verdien til et F -fordelt testuttrykk er lik 1,896. Videre så får du opplyst at testuttrykket er F -fordelt med 7 teller frihetsgrader og 35 nevner frihetsgrader. Hva er p-verdien? (e) Du får oppgitt at verdien til et F -fordelt testuttrykk er lik 4,977. Videre så får du opplyst at testuttrykket er F -fordelt med 2 teller frihetsgrader og 60 nevner frihetsgrader. Hva er p-verdien? (f) Du får oppgitt at verdien til et F -fordelt testuttrykk er lik 7,091. Videre så får du opplyst at testuttrykket er F -fordelt med 6 teller frihetsgrader og 50 nevner frihetsgrader. Hva er p-verdien? (g) Du får oppgitt at verdien til et F -fordelt testuttrykk er lik 5,175. Videre så får du opplyst at testuttrykket er F -fordelt med 3 teller frihetsgrader og 25 nevner frihetsgrader. Hva er p-verdien? 2. Ta utgangspunkt i modellen Salgssum i = B 1 + B 2 m2 i + B 3 Rom i + B 4 Gjeld i + u i. Hvordan ser modellen ut med følgende parameter restriksjoner?: (a) B 3 = 0 (b) B 1 = 0 og B 3 = 0 (c) B 3 = 0 og B 4 = 1 (d) B 2 = 0, B 3 = 0 og B 4 = 0 3. Hvilke av følgende modeller er inneholdt (dvs. kan oppnås ved hjelp av parameter restriksjoner) i modellen fra forrige oppgave?: (a) Salgssum i = B 2 m2 i + u i (b) Salgssum i /m2 i = B 1 + B 3 Rom i + B 4 Gjeld i + u i (c) Salgssum i = B 1 + B 2 m2 i + B 3 Rom i + B 4 Gjeld i + B 5 Byggeår i + u i Til: Innhold 63

66 Til: Kapittelinnhold 4 REGRESJONSMODELLEN (d) Salgssum i + Gjeld i = B 1 + B 2 m2 i + B 3 Rom i + u i 4. Datasettet husdata utvalg.xls er et tilfeldig utvalg (20 observasjoner) av datasettet til eksamenscaset i MET 3592 Økonometri høsten Filen inneholder informasjon om salget av 20 hus og leiligheter for 2010 i et område i Oslo: m2: Størrelse på bolig (målt i kvadratmeter) Rom: P risantydning : Salgssum : Salgssuminklgjeld : Gjeld : Antall rom til bolig Prisantydning i tusen kroner før salg Salgssum i tusen kroner Salgssum inklusiv fellesgjeld Salgssuminklgjeld Salgssum I en analyse av sammenhengen mellom Salgssum, m2, Rom og Gjeld, så ble følgende modeller estimert (tallene i parentes er standardfeilene til estimatene): Salgssum i = 335, 37 (222,95) + 28, 55 (6,17) m2 i + 41, 40Rom i 1, 20Gjeld i (4.32) (112,96) R 2 = 0, 8296 RSS = (0,20) Salgssum i = 338, 23 (217,06) + 30, 30 (3,83) m2 i 1, 19Gjeld i (4.33) (0,20) R 2 = 0, 8282 RSS = Ŷ i = 337, 49 (216,51) + 29, 48m2 i, hvor Y i = Salgssum i + Gjeld i (4.34) (3,72) R 2 = 0, 7770 RSS = Salgssum i = 1745, 75 (124,66) R 2 = 0, 0000 RSS = (4.35) (a) Gi en tolkning av de estimerte stigningstallene i modell (4.32). (b) Test om antall rom betyr noe for salgssummen (bruk både en t-test og en F -test) i modell (4.32) på et 10% signifikansnivå. (c) Test restriksjonene B 3 = 0 og B 4 = 1 i modell (4.32) ved hjelp av en F -test på et 5% signifikansnivå. Tolk resultatet med hensyn på B 4. (d) Test om én eller flere forklaringsvariabler i modell (4.32) har en innvirkning på salgssummen på et 5% signifikansnivå. Til: Innhold 64

67 Til: Kapittelinnhold 4 REGRESJONSMODELLEN 5. Dataoppgaver: (a) Last datasettet husdata utvalg.xls [Hint til Stata: I hovedvinduet til Stata, velg File Import Excel spreadsheet, trykk Browse knappen, finn fram til hvor filen husdata utvalg.xls er lagret, velg filen, tikk deretter av for Import first row as variable names, trykk OK] (b) Estimér modell (4.32) [Hint til Stata: Statistics Linear models and related Linear regression, velg Salgssum som avhengig variabel ( dependent variable ), og m2, rom og gjeld i Independent variables feltet, trykk OK. Video (21 sek)] (c) Lag en ny variabel yvar som er lik Salgssum + Gjeld [Hint til Stata: Data Create or change data Create new variable, skriv yvar i feltet Variable name, skriv Salgssum+Gjeld i feltet Specify a value or expression (husk stor S i Salgssum og stor G i Gjeld!), trykk OK] (d) Estimér modell (4.34) [Hint til Stata: Statistics Linear models and related Linear regression, velg yvar som avhengig variabel ( dependent variable ), og m2 i Independent variables feltet, trykk OK] (e) Estimér modell (4.35) [Hint til Stata: Statistics Linear models and related Linear regression, velg Salgssum som avhengig variabel ( dependent variable ), husk å forsikre deg om at feltet Independent variables er tomt, trykk OK] Til: Innhold 65

68 Til: Kapittelinnhold 4 REGRESJONSMODELLEN 4.15 Løsningsforslag oppgavesett: Multippel regresjon 1. (a) 2,49, 3,32 og 5,39 (b) Hvis vi bruker tilnærmingen F α (4, 47) F α (4, 45), så får vi F 0,10 (4, 45) = 2, 07, F 0,05 (4, 45) = 2, 58 og F 0,01 (4, 45) = 3, 77. (c) Hvis vi bruker tilnærmingen F α (5, 1592) F α (5, 1000), så får vi F 0,10 (5, 1000) = 1, 85, F 0,05 (5, 1000) = 2, 22 og F 0,10 (5, 1000) = 3, 04 (d) 0,10 (eller 10%) (e) 0,01 (eller 1%) (f) P -verdien er mindre enn 0,01 (eller mindre enn 1%) (g) P -verdien er mindre enn 0,01 (eller mindre enn 1%) 2. (a) Salgssum i = B 1 + B 2 m2 i + B 4 Gjeld i + u i (b) Salgssum i = B 2 m2 i + B 4 Gjeld i + u i (c) Salgssum i = B 1 + B 2 m2 i + Gjeld i + u i, eller Salgssum i Gjeld i = B 1 + B 2 m2 i + u i (d) Salgssum i = B 1 + u i 3. (a) Inneholdt, fordi den kan oppnås ved hjelp av parameter restriksjonene B 1 = 0, B 3 = 0 og B 4 = 0 (b) Ikke inneholdt, fordi venstresidevariabelen ikke kan oppnås ved hjelp av parameter restriksjoner (c) Ikke inneholdt, fordi den inkluderer en variabel (Byggeår) som ikke er inneholdt i modellen fra forrige oppgave (d) Inneholdt, fordi den kan oppnås ved hjelp av parameter restriksjonen B 4 = 1 4. (a) b 2 : Én kvadratmeter større bolig øker salgssummen med kroner i gjennomsnitt. b 3 : Ett rom mer øker salgssummen med kroner i gjennomsnitt. b 4 : 1000 kroner mer i gjeld reduserer salgssummen med 1200 kroner i gjennomsnitt (b) H 0 : B 3 = 0, H A : B 3 0. t-test: Kritisk verdi t 0,05 (16) = 1, 746 og t = 41, 40/112, 96 = 0, Konklusjon: H 0 forkastes ikke. F -test: Kritisk verdi F 0,10 (1, 16) = 3, 05 og F = (0,8296 0,8282)/1 = 0, Konklusjon: (1 0,8296)/(20 4) H 0 beholdes. (c) H 0 : B 3 = 0 og B 4 = 1, H A : Én eller begge påstandene i H 0 er uriktige. F -test: Kritisk verdi F 0,05 (2, 16) = 3, 63. Restriksjonene B 3 = 0 og B 4 = 1 er oppfylt i modell (4.34). Siden venstresidevariabelen til Til: Innhold 66

69 Til: Kapittelinnhold 4 REGRESJONSMODELLEN modell (4.34) ikke er lik venstresidevariabelen til modell (4.32), så må vi bruke testuttrykket i form av RSS, det vil si F = (RSS R RSS ur)/m ( )/ /(20 4) RSS ur/(n k) = = 0, Konklusjon: H 0 beholdes. Tolkning av resultatet med hensyn på B 4 : Resultatet av testen forkaster ikke hypotesen om at 1000 mer i gjeld reduserer salgssummen i gjennomsnitt med samme beløp (dvs kroner). [Dette er av interesse fordi estimatet i (4.32) antyder at beløpene ikke er like: 1000 mer i gjeld reduserer salgssummen i gjennomsnitt med 1200 kroner.] (d) H 0 : B 2 = 0, B 3 = 0, B 4 = 0, H A : Én eller flere av likhetene i H 0 er ikke oppfylt. F -test: Kritisk verdi F 0,05 (3, 16) = 3, 24 og F = (0,8296 0)/3 = (1 0,8296)/(20 4) 25, 97. Konklusjon: H 0 forkastes, én eller flere av påstandene i H 0 er uriktige. Til: Innhold 67

70 Til: Kapittelinnhold 5 FUNKSJONELL FORM 5 Funksjonell form 5.1 Eksponensialfunksjonen Den naturlige logaritmefunksjonen En definisjon av linearitet i parameterne Log-log sammenhenger Log-lin sammenhenger Lin-log sammenhenger Inverse sammenhenger Polynomer Anslag av Y med utgangspunkt i en modell av ln Y Hvor kommmer lin-log, log-lin og log-log tolkningene fra? Oppgavesett Løsningsforslag Regresjonsmodellen (4.1) er lineær i parameterne (en definisjon av hva som menes med dette gis i avsnitt 5.3), hvilket betyr at den i utgangspunktet ikke er i stand til beskrive ikke-lineære sammenhenger. Denne mangelen kan imidlertid bøtes på ved hjelp av eksponensial- og logaritmefunksjoner, og ved hjelp av brøker og polynomer. Dette kapitlet gir en innføring i hvordan slike uttrykk kan brukes i regresjonsmodellen til å beskrive ikke-lineære sammenhenger. Vi starter med en oversikt over de viktigste kjennetegnene til eksponensial- og logaritmefunksjonene. Deretter definerer vi linearitet i parametre. I de resterende avsnittene studerer vi hvordan vi kan bruke eksponensial- og logaritmefunksjoner, brøker og polynomer til å beskrive ikke-lineære sammenhenger. 5.1 Eksponensialfunksjonen Eksponensialfunksjonen er gitt ved e x, (5.1) hvor e er et tall som er omtrent lik 2,72 hvis det avrundes til to desimaler. 14 To grunnleggende egenskaper ved eksponensialfunksjonen er: (1) At e x alltid er positiv, dvs. e x > 0 for alle x-verdier, og (2) at e x alltid er voksende, dvs. større x-verdi innebærer alltid større e x verdi. Følgende figur, som er lånt fra Wikipedia, framstiller eksponensialfunksjonen grafisk for ulike verdier av x: 14 Avrundet til 21 desimaler, så er tallet e lik 2, ifølge R versjon Til: Innhold 68

71 Til: Kapittelinnhold 5 FUNKSJONELL FORM Legg spesielt merke til at e 0 = 1, akkurat som for alle andre verdier som opphøyes i 0. Faktisk, siden eksponensialfunksjonen egentlig bare er et tall opphøyd i x, så gjelder (akkurat som for alle andre tall) følgende regneregler for eksponensialfunksjonen (x og y er to tall): e x e y = e x+y ex e y = e x y (e x ) y = e x y 5.2 Den naturlige logaritmefunksjonen Den naturlige logaritmefunksjonen er mer abstrakt enn eksponensialfunksjonen, siden dens analytiske form ikke er eksplisitt. Ofte betegnes funksjonen ln x, (5.2) hvor ln står for naturlig logaritme. Grafisk ser funksjonen ut som Til: Innhold 69

72 Til: Kapittelinnhold 5 FUNKSJONELL FORM hvor vi har ln x verdiene på y-aksen. (Igjen har vi lånt figuren fra Wikipedia.) Legg spesielt merke til følgende egenskaper. For det første så er ikke funksjonen definert hverken for x = 0 eller for negative x-verdier. For det andre så er funksjonen positiv for x-verdier større enn 1, og negativ når x ligger mellom 0 og 1. For det tredje, når x går mot 0, så går ln x mot minus uendelig. For det fjerde, når x går mot uendelig, så går ln x også mot uendelig. En femte egenskap ved funksjonen, den kanskje aller viktigste egenskapen, er sammenhengen x = e ln x. (5.3) Denne egenskapen er viktig fordi den leder til et helt sett av fundamentale egenskaper og regneregler. Disse egenskapene og regnereglene er: x = e ln x, gitt at x > 0 ln 1 = 0 ln e = 1 ln 0 eksisterer ikke ln(x y) = ln x + ln y, gitt at x > 0 og y > 0 ( ) ln = ln x ln y, gitt at x > 0 og y > 0 x y ln x y = y ln x, gitt at x > 0 (men y kan derimot være enten negativ, positiv eller lik 0) Til: Innhold 70

Hypotesetesting. Notat til STK1110. Ørnulf Borgan Matematisk institutt Universitetet i Oslo. September 2007

Hypotesetesting. Notat til STK1110. Ørnulf Borgan Matematisk institutt Universitetet i Oslo. September 2007 Hypotesetesting Notat til STK1110 Ørnulf Borgan Matematisk institutt Universitetet i Oslo September 2007 Teorien for hypotesetesting er beskrevet i kapittel 9 læreboka til Rice. I STK1110 tar vi bare for

Detaljer

ST0202 Statistikk for samfunnsvitere Kapittel 9: Inferens om én populasjon

ST0202 Statistikk for samfunnsvitere Kapittel 9: Inferens om én populasjon ST0202 Statistikk for samfunnsvitere Kapittel 9: Inferens om én populasjon Bo Lindqvist Institutt for matematiske fag 2 Kap. 9: Inferens om én populasjon Statistisk inferens har som mål å tolke/analysere

Detaljer

Sammenlikninger av gjennomsnitt. SOS1120 Kvantitativ metode. Kan besvare to spørsmål: Sammenlikning av to gjennomsnitt

Sammenlikninger av gjennomsnitt. SOS1120 Kvantitativ metode. Kan besvare to spørsmål: Sammenlikning av to gjennomsnitt SOS1120 Kvantitativ metode Forelesningsnotater 10. forelesning høsten 2005 Per Arne Tufte Sammenlikninger av gjennomsnitt Sammenlikner gjennomsnittet på avhengig variabel for ulike grupper av enheter Kan

Detaljer

1 Section 7-2: Estimere populasjonsandelen. 2 Section 7-4: Estimere µ når σ er ukjent

1 Section 7-2: Estimere populasjonsandelen. 2 Section 7-4: Estimere µ når σ er ukjent 1 Section 7-2: Estimere populasjonsandelen 2 Section 7-4: Estimere µ når σ er ukjent Kapittel 7 Nå begynner vi med statistisk inferens! Bruke stikkprøven til å 1 Estimere verdien til en parameter i populasjonen.

Detaljer

Tyngdekraft og luftmotstand

Tyngdekraft og luftmotstand Tyngdekraft og luftmotstand Dette undervisningsopplegget synliggjør bruken av regning som grunnleggende ferdighet i naturfag. Her blir regning brukt for å studere masse, tyngdekraft og luftmotstand. Opplegget

Detaljer

Oppgave 1. og t α/2,n 1 = 2.262, så er et 95% konfidensintervall for µ D (se kap 9.9 i læreboka): = ( 0.12, 3.32).

Oppgave 1. og t α/2,n 1 = 2.262, så er et 95% konfidensintervall for µ D (se kap 9.9 i læreboka): = ( 0.12, 3.32). Løsningsforslag til eksamen i MOT310 STATISTISKE METODER 1 VARIGHET: 4 TIMER DATO: 16. november 2009 TILLATTE HJELPEMIDLER: Kalkulator: HP30S, Casio FX82 eller TI-30 Tabeller og formler i statistikk (Tapir

Detaljer

1 8-1: Oversikt. 2 8-2: Grunnleggende hypotesetesting. 3 Section 8-3: Å teste påstander om andeler. 4 Section 8-5: Teste en påstand om gjennomsnittet

1 8-1: Oversikt. 2 8-2: Grunnleggende hypotesetesting. 3 Section 8-3: Å teste påstander om andeler. 4 Section 8-5: Teste en påstand om gjennomsnittet 1 8-1: Oversikt 2 8-2: Grunnleggende hypotesetesting 3 Section 8-3: Å teste påstander om andeler 4 Section 8-5: Teste en påstand om gjennomsnittet Definisjoner Hypotese En hypotese er en påstand om noe

Detaljer

Statistisk generalisering

Statistisk generalisering Statistisk generalisering Forelesningsnotat høsten 2005 (SOS1120 Kvantitativ metode) av Per Arne Tufte (1) Innledning Så langt har vi undersøkt om det er sammenheng og eventuelt hvor sterk sammenhengen

Detaljer

TMA4240 Statistikk Høst 2012

TMA4240 Statistikk Høst 2012 TMA424 Statistikk Høst 212 Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag Øving blokk II Oppgave 1 Oppgave 11.3 fra læreboka. Oppgave 2 Oppgave 11.19 fra læreboka. Oppgave

Detaljer

Repeterbarhetskrav vs antall Trails

Repeterbarhetskrav vs antall Trails Repeterbarhetskrav vs antall Trails v/ Rune Øverland, Trainor Automation AS Artikkelserie Dette er andre artikkel i en serie av fire om tar for seg repeterbarhetskrav og antall trials. Formålet med artikkelserien

Detaljer

HØGSKOLEN I STAVANGER

HØGSKOLEN I STAVANGER EKSAMEN I: MOT310 STATISTISKE METODER 1 VARIGHET: 4 TIMER DATO: 25. NOVEMBER 2003 TILLATTE HJELPEMIDLER: KALKULATOR, TABELLER OG FORMLER I STATISTIKK (TAPIR FORLAG) OPPGAVESETTET BESTÅR AV 3 OPPGAVER PÅ

Detaljer

Løsningsforslag ECON 2130 Obligatorisk semesteroppgave 2017 vår

Løsningsforslag ECON 2130 Obligatorisk semesteroppgave 2017 vår Løsningsforslag ECON 130 Obligatorisk semesteroppgave 017 vår Andreas Myhre Oppgave 1 1. (i) Siden X og Z er uavhengige, vil den simultane fordelingen mellom X og Z kunne skrives som: f(x, z) = P(X = x

Detaljer

Emnenavn: Eksamenstid: Faglærer: Bjørnar Karlsen Kivedal

Emnenavn: Eksamenstid: Faglærer: Bjørnar Karlsen Kivedal EKSAMEN Emnekode: SFB12016 Dato: 06.06.2019 Hjelpemidler: Godkjent kalkulator Emnenavn: Metodekurs II: Samfunnsvitenskapelig metode og anvendt statistikk Eksamenstid: 09.00-13.00 Faglærer: Bjørnar Karlsen

Detaljer

Studieåret 2014/2015

Studieåret 2014/2015 UiO Institutt for spesialpedagogikk SPED4090 / Retningslinjer for og krav til masteroppgaven Studieåret 2014/2015 A. FORBEREDELSE, PROSJEKTPLANLEGGING, VEILEDNING... 2 1. Forberedende arbeid... 2 2. Prosjektplanlegging...

Detaljer

Emnenavn: Eksamenstid: Faglærer: Bjørnar Karlsen Kivedal

Emnenavn: Eksamenstid: Faglærer: Bjørnar Karlsen Kivedal EKSAMEN Emnekode: SFB12016 Dato: 18.12.2018 Hjelpemidler: Godkjent kalkulator Emnenavn: Metodekurs II: Samfunnsvitenskapelig metode og anvendt statistikk Eksamenstid: 09.00-13.00 Faglærer: Bjørnar Karlsen

Detaljer

Løsningsforslag til seminar 4 Undervisningsfri uke

Løsningsforslag til seminar 4 Undervisningsfri uke Løsningsforslag til seminar 4 Undervisningsfri uke Iman Ghayoornia February 22, 2016 Oppgave 2.1 Se Excel-filen som er tilgjengelig på emnesiden. Hvis du lurer på hvordan jeg fikk verdiene i cellene så

Detaljer

ST0202 Statistikk for samfunnsvitere Kapittel 10: Inferens om to populasjoner

ST0202 Statistikk for samfunnsvitere Kapittel 10: Inferens om to populasjoner ST0202 Statistikk for samfunnsvitere Kapittel 10: Inferens om to populasjoner Bo Lindqvist Institutt for matematiske fag 2 Kapittel 10: Inferens om to populasjoner Situasjon: Vi ønsker å sammenligne to

Detaljer

TMA4240 Statistikk Høst 2009

TMA4240 Statistikk Høst 2009 TMA4240 Statistikk Høst 2009 Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag Øving nummer b7 Oppgave 1 Automatisert laboratorium Eksamen november 2002, oppgave 3 av 3 I eit

Detaljer

a ) Forventningen estimeres med gjennomsnittet: x = 1 12 (x 1 + + x 12 ) = 1 (755 + 708 + + 748) = 8813/12 = 734.4

a ) Forventningen estimeres med gjennomsnittet: x = 1 12 (x 1 + + x 12 ) = 1 (755 + 708 + + 748) = 8813/12 = 734.4 ÅMA110 Sannsylighetsregning og statistikk Løsningsforslag til eksamen høst 011, s. 1 (Det tas forbehold om feil i løsningsforslaget. Oppgave 1 Vi betrakter dataene x 1,..., x 1 somutfall av n = 1 u.i.f.

Detaljer

Kap. 10: Inferens om to populasjoner. Eksempel. ST0202 Statistikk for samfunnsvitere

Kap. 10: Inferens om to populasjoner. Eksempel. ST0202 Statistikk for samfunnsvitere Kap. 10: Inferens om to populasjoner Situasjon: Vi ønsker å sammenligne to populasjoner med populasjonsgjennomsnitt henholdsvis μ 1 og μ. Vi trekker da ett utvalg fra hver populasjon. ST00 Statistikk for

Detaljer

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere ST0202 Statistikk for samfunnsvitere Bo Lindqvist Institutt for matematiske fag 2 Kap. 10: Inferens om to populasjoner Situasjon: Vi ønsker å sammenligne to populasjoner med populasjonsgjennomsnitt henholdsvis

Detaljer

Studieåret 2015/2016

Studieåret 2015/2016 UiO/Institutt for spesialpedagogikk SPED4090 / Retningslinjer for og krav til masteroppgaven Studieåret 2015/2016 A. PROSJEKTPLANLEGGING OG VEILEDNING... 2 1. Prosjektplanlegging... 2 2. Veiledning...

Detaljer

Analyse av kontinuerlige data. Intro til hypotesetesting. 21. april 2005. Seksjon for medisinsk statistikk, UIO. Tron Anders Moger

Analyse av kontinuerlige data. Intro til hypotesetesting. 21. april 2005. Seksjon for medisinsk statistikk, UIO. Tron Anders Moger Intro til hypotesetesting Analyse av kontinuerlige data 21. april 2005 Tron Anders Moger Seksjon for medisinsk statistikk, UIO 1 Repetisjon fra i går: Normalfordelingen Variasjon i målinger kan ofte beskrives

Detaljer

Last ned Metode og økonometri - Genaro Sucarrat. Last ned

Last ned Metode og økonometri - Genaro Sucarrat. Last ned Last ned Metode og økonometri - Genaro Sucarrat Last ned Forfatter: Genaro Sucarrat ISBN: 9788245020632 Antall sider: 165 Format: PDF Filstørrelse:27.86 Mb Boken gir en innføring i generell samfunnsvitenskapelig

Detaljer

STATISTIKK FRA A TIL Å

STATISTIKK FRA A TIL Å STATISTIKK FRA A TIL Å VEILEDER FOR FORELDRE MED BARN I 5. 7. KLASSE EMNER Side 1 Innledning til statistikk S - 2 2 Grunnleggende om statistikk S - 3 3 Statistisk analyse S - 3 3.1 Gjennomsnitt S - 4 3.1.1

Detaljer

Repeterbarhetskrav vs antall Trails

Repeterbarhetskrav vs antall Trails Repeterbarhetskrav vs antall Trails v/ Rune Øverland, Trainor Automation AS Artikkelserie Dette er første artikkel i en serie av fire som tar for seg repeterbarhetskrav og antall trials. Formålet med artikkelserien

Detaljer

+ S2 Y ) 2. = 6.737 6 (avrundet nedover til nærmeste heltall) n Y 1

+ S2 Y ) 2. = 6.737 6 (avrundet nedover til nærmeste heltall) n Y 1 Løsningsforslag for: MOT10 STATISTISKE METODER 1 VARIGHET: 4 TIMER DATO: 6. november 007 TILLATTE HJELPEMIDLER: Kalkulator: HP0S, Casio FX8 eller TI-0 Tabeller og formler i statistikk (Tapir forlag) MERKNADER:

Detaljer

Løsningsforslag Til Statlab 5

Løsningsforslag Til Statlab 5 Løsningsforslag Til Statlab 5 Jimmy Paul September 6, 007 Oppgave 8.1 Vi skal se på ukentlige forbruk av søtsaker blant barn i et visst område. En pilotstudie gir at standardavviket til det ukentige forbruket

Detaljer

På lederutviklingsprogrammene som ofte gjennomføres på NTNU benyttes dette verktøyet. Du kan bruke dette til inspirasjon.

På lederutviklingsprogrammene som ofte gjennomføres på NTNU benyttes dette verktøyet. Du kan bruke dette til inspirasjon. På lederutviklingsprogrammene som ofte gjennomføres på NTNU benyttes dette verktøyet. Du kan bruke dette til inspirasjon. Rolleanalyse rollen som leder på NTNU Denne oppgaven går ut på å kartlegge hvilken

Detaljer

SMF3081F Videregående metodekurs

SMF3081F Videregående metodekurs SMF3081F Videregående metodekurs - 2016-2017 Emnekode: SMF3081F Emnenavn: Videregående metodekurs Faglig nivå: Bachelor (syklus 1) Studiepoeng: 5 Varighet: Høst Varighet (fritekst): Høst Språk: Norsk Forutsetter

Detaljer

NASJONALE PRØVER 2015. En presentasjon av resultatene til 5.trinn ved Jåtten skole, skoleåret 2015-16

NASJONALE PRØVER 2015. En presentasjon av resultatene til 5.trinn ved Jåtten skole, skoleåret 2015-16 NASJONALE PRØVER 2015 En presentasjon av resultatene til 5.trinn ved Jåtten skole, skoleåret 2015-16 Gjennomføring av nasjonale prøver 2015 Nasjonale prøver for 5.trinn ble gjennomført i oktober 2015.

Detaljer

SMF3081 Videregående metodekurs

SMF3081 Videregående metodekurs SMF3081 Videregående metodekurs - 2016-2017 Emnekode: SMF3081 Emnenavn: Videregående metodekurs Faglig nivå: Bachelor (syklus 1) Studiepoeng: 5 Varighet: Høst Varighet (fritekst): 13-14 uker To timers

Detaljer

OPPGAVESETTET BESTÅR AV 3 OPPGAVER PÅ 6 SIDER MERKNADER: Alle deloppgaver vektlegges likt.

OPPGAVESETTET BESTÅR AV 3 OPPGAVER PÅ 6 SIDER MERKNADER: Alle deloppgaver vektlegges likt. EKSAMEN I: MOT310 STATISTISKE METODER 1 VARIGHET: 4 TIMER DATO: 08. mai 2008 TILLATTE HJELPEMIDLER: Kalkulator: HP30S, Casio FX82 eller TI-30 Tabeller og formler i statistikk (Tapir forlag) OPPGAVESETTET

Detaljer

Kort overblikk over kurset sålangt

Kort overblikk over kurset sålangt Kort overblikk over kurset sålangt Kapittel 1: Deskriptiv statististikk for en variabel Kapittel 2: Deskriptiv statistikk for samvariasjon mellom to variable (regresjon) Kapittel 3: Metoder for å innhente

Detaljer

Oppgaver til Studentveiledning I MET 3431 Statistikk

Oppgaver til Studentveiledning I MET 3431 Statistikk Oppgaver til Studentveiledning I MET 3431 Statistikk 20. mars 2012 kl 17.15-20.15 i B2 Handelshøyskolen BI 2 Oppgaver 1. Konfidensintervaller Vi ser på inntekten til en tilfeldig valgt person (i tusen

Detaljer

Sentralmål og spredningsmål

Sentralmål og spredningsmål Sentralmål og spredningsmål av Peer Andersen Peer Andersen 2014 Sentralmål og spredningsmål i statistikk I dette notatet skal vi se på de viktigste momentene om sentralmål og spredningsmål slik de blir

Detaljer

Mer om likninger og ulikheter

Mer om likninger og ulikheter Mer om likninger og ulikheter Studentene skal kunne utføre polynomdivisjon anvende nullpunktsetningen og polynomdivisjon til faktorisering av polynomer benytte polynomdivisjon til å løse likninger av høyere

Detaljer

Fasit - Oppgaveseminar 1

Fasit - Oppgaveseminar 1 Fasit - Oppgaveseminar Oppgave Betrakt konsumfunksjonen = z + (Y-T) - 2 r 0 < 0 Her er Y bruttonasjonalproduktet, privat konsum, T nettoskattebeløpet (dvs skatter og avgifter fra private til det

Detaljer

TMA4245 Statistikk Eksamen desember 2016

TMA4245 Statistikk Eksamen desember 2016 Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag TMA4245 Statistikk Eksamen desember 2016 Oppgave 1 En bedrift produserer elektriske komponenter. Komponentene kan ha to typer

Detaljer

SMF3081F Videregående metodekurs

SMF3081F Videregående metodekurs SMF3081F Videregående metodekurs - 2015-2016 Emnekode: SMF3081F Emnenavn: Videregående metodekurs Faglig nivå: Bachelor (syklus 1) Studiepoeng: 5 Varighet: Høst Språk: Norsk Forutsetter bestått: REA1131F

Detaljer

Forelesning 9 mandag den 15. september

Forelesning 9 mandag den 15. september Forelesning 9 mandag den 15. september 2.6 Største felles divisor Definisjon 2.6.1. La l og n være heltall. Et naturlig tall d er den største felles divisoren til l og n dersom følgende er sanne. (1) Vi

Detaljer

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere ST0202 Statistikk for samfunnsvitere Bo Lindqvist Institutt for matematiske fag 2 Statistisk inferens (kap. 8) Statistisk inferens er å tolke/analysere resultater fra utvalget for å finne ut mest mulig

Detaljer

Multippel regresjon. Her utvider vi perspektivet for enkel lineær regresjon til også å omfatte flere forklaringsvariable x 1, x 2,, x p.

Multippel regresjon. Her utvider vi perspektivet for enkel lineær regresjon til også å omfatte flere forklaringsvariable x 1, x 2,, x p. Multippel regresjon Her utvider vi perspektivet for enkel lineær regresjon til også å omfatte flere forklaringsvariable x 1, x 2,, x p. Det er fortsatt en responsvariabel y. Måten dette gjøre på er nokså

Detaljer

SENSORVEILEDNING FOR DEN KVANTITATIVE DELEN AV EKSAMENSOPPGAVEN I SOS1002 VÅREN 2007

SENSORVEILEDNING FOR DEN KVANTITATIVE DELEN AV EKSAMENSOPPGAVEN I SOS1002 VÅREN 2007 SENSORVEILEDNING FOR DEN KVANTITATIVE DELEN AV EKSAMENSOPPGAVEN I SOS1002 VÅREN 2007 Oppgave 1 Nedenfor ser du en forenklet tabell basert på informasjon fra den norske delen av European Social Survey 2004.

Detaljer

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere ST0202 Statistikk for samfunnsvitere Bo Lindqvist Institutt for matematiske fag 2 Statistisk inferens (kap. 8) Statistisk inferens er å tolke/analysere resultater fra utvalget for å finne ut mest mulig

Detaljer

Kapittel 3: Studieopplegg

Kapittel 3: Studieopplegg Oversikt over pensum Kapittel 1: Empirisk fordeling for en variabel o Begrepet fordeling o Mål for senter (gj.snitt, median) + persentiler/kvartiler o Mål for spredning (Standardavvik s, IQR) o Outliere

Detaljer

ST0103 Brukerkurs i statistikk Forelesning 26, 18. november 2016 Kapittel 8: Sammenligning av grupper

ST0103 Brukerkurs i statistikk Forelesning 26, 18. november 2016 Kapittel 8: Sammenligning av grupper ST0103 Brukerkurs i statistikk Forelesning 26, 18. november 2016 Kapittel 8: Sammenligning av grupper Bo Lindqvist Institutt for matematiske fag 2 Kapittel 8: Sammenligning av grupper Situasjon: Vi ønsker

Detaljer

OPPGAVEHEFTE I STK1000 TIL KAPITTEL Regneoppgaver til kapittel 7. X 1,i, X 2 = 1 n 2. D = X 1 X 2. På onsdagsforelesningen påstod jeg at da må

OPPGAVEHEFTE I STK1000 TIL KAPITTEL Regneoppgaver til kapittel 7. X 1,i, X 2 = 1 n 2. D = X 1 X 2. På onsdagsforelesningen påstod jeg at da må OPPGAVEHEFTE I STK000 TIL KAPITTEL 7 Regneoppgaver til kapittel 7 Oppgave Anta at man har resultatet av et randomisert forsøk med to grupper, og observerer fra gruppe, mens man observerer X,, X,2,, X,n

Detaljer

Fasit for tilleggsoppgaver

Fasit for tilleggsoppgaver Fasit for tilleggsoppgaver Uke 5 Oppgave: Gitt en rekke med observasjoner x i (i = 1,, 3,, n), definerer vi variansen til x i som gjennomsnittlig kvadratavvik fra gjennomsnittet, m.a.o. Var(x i ) = (x

Detaljer

Krysstabellanalyse (forts.) SOS1120 Kvantitativ metode. 4. Statistisk generalisering. Forelesningsnotater 9. forelesning høsten 2005.

Krysstabellanalyse (forts.) SOS1120 Kvantitativ metode. 4. Statistisk generalisering. Forelesningsnotater 9. forelesning høsten 2005. SOS112 Kvantitativ metode Krysstabellanalyse (forts.) Forelesningsnotater 9. forelesning høsten 25 4. Statistisk generalisering Per Arne Tufte Eksempel: Hypoteser Eksempel: observerte frekvenser (O) Hvordan

Detaljer

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere 2 Statistisk inferens (kap. 8) Statistisk inferens er å tolke/analysere resultater fra utvalget for å finne ut mest mulig om populasjonen. Konkret: Analysere en observator for å finne ut noe om korresponderende

Detaljer

Togforsinkelsen (Eksamen Des2003.1a) I denne oppgaven kan du bruke uten å vise det at

Togforsinkelsen (Eksamen Des2003.1a) I denne oppgaven kan du bruke uten å vise det at Kapittel 4 Forventningsverdi, varians, kovarians for én stokastisk variabel og funksjoner av stokastiske variabler TMA4245 V2007: Eirik Mo 2 4.1 Forventing til en stokastisk variabel DEF 4.1: La X være

Detaljer

Statistikk og dataanalyse

Statistikk og dataanalyse Njål Foldnes, Steffen Grønneberg og Gudmund Horn Hermansen Statistikk og dataanalyse En moderne innføring Kapitteloversikt del 1 INTRODUKSJON TIL STATISTIKK Kapittel 1 Populasjon og utvalg 19 Kapittel

Detaljer

MAT1030 Forelesning 30

MAT1030 Forelesning 30 MAT1030 Forelesning 30 Kompleksitetsteori Roger Antonsen - 19. mai 2009 (Sist oppdatert: 2009-05-19 15:04) Forelesning 30: Kompleksitetsteori Oppsummering I dag er siste forelesning med nytt stoff! I morgen

Detaljer

Repetisjon: høydepunkter fra første del av MA1301-tallteori.

Repetisjon: høydepunkter fra første del av MA1301-tallteori. Repetisjon: høydepunkter fra første del av MA1301-tallteori. Matematisk induksjon Binomialteoremet Divisjonsalgoritmen Euklids algoritme Lineære diofantiske ligninger Aritmetikkens fundamentalteorem Euklid:

Detaljer

NTNU Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

NTNU Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap NTNU Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap EKSAMENSOPPGAVE I SVSOS107 SAMFUNNSVITENSKAPELIG FORSKNINGSMETODE Eksamensdato: 18. mai 001 Eksamenssted: Idrettsbygget

Detaljer

TMA4240/TMA4245 Statistikk: Oppsummering kontinuerlige sannsynlighetsfordelinger

TMA4240/TMA4245 Statistikk: Oppsummering kontinuerlige sannsynlighetsfordelinger TMA4240/TMA4245 Statistikk: Oppsummering kontinuerlige sannsynlighetsfordelinger Kontinuerlig uniform fordeling f() = B A, A B. En kontinuerlig størrelse (vekt, lengde, tid), som aldri kan bli mindre enn

Detaljer

SKOLEEKSAMEN I. SOS4010 Kvalitativ metode. 19. oktober 2015 4 timer

SKOLEEKSAMEN I. SOS4010 Kvalitativ metode. 19. oktober 2015 4 timer SKOLEEKSAMEN I SOS4010 Kvalitativ metode 19. oktober 2015 4 timer Ingen hjelpemidler, annet enn ordbøker som er kontrollert av SV-infosenter, er tillatt under eksamen. Sensur for eksamen faller 12. november

Detaljer

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere 2 Statistisk inferens (kap. 8) Statistisk inferens er å tolke/analysere resultater fra utvalget for å finne ut mest mulig om populasjonen. Konkret: Å analysere en utvalgsobservator for å trekke slutninger

Detaljer

1 9-3: Sammenligne gjennomsnitt for to uavhengige stikkprøver. 2 9-4: Sammenligne gjennomsnitt for to relaterte stikkprøver

1 9-3: Sammenligne gjennomsnitt for to uavhengige stikkprøver. 2 9-4: Sammenligne gjennomsnitt for to relaterte stikkprøver 1 9-3: Sammenligne gjennomsnitt for to uavhengige stikkprøver 2 9-4: Sammenligne gjennomsnitt for to relaterte stikkprøver 3 Oppvarming til kap 10: Rette linjer Sammenligne to populasjoner Data fra to

Detaljer

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT Eksamen i: ECON2130 Statistikk 1 UNIVERSITETET I OSLO ØONOIS INSTITUTT Eksamensdag: 01.06.2015 Sensur kunngjøres: 22.06.2015 Tid for eksamen: kl. 09:00 12:00 Oppgavesettet er på 4 sider Tillatte hjelpemidler:

Detaljer

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere ST0202 Statistikk for samfunnsvitere Bo Lindqvist Institutt for matematiske fag 2 Kap. 10: Inferens om to populasjoner Situasjon: Det er to populasjoner som vi ønsker å sammenligne. Vi trekker da et utvalg

Detaljer

MASTER I IDRETTSVITENSKAP 2014/2016. Individuell skriftlig eksamen. STA 400- Statistikk. Fredag 13. mars 2015 kl. 10.00-12.00

MASTER I IDRETTSVITENSKAP 2014/2016. Individuell skriftlig eksamen. STA 400- Statistikk. Fredag 13. mars 2015 kl. 10.00-12.00 MASTER I IDRETTSVITENSKAP 2014/2016 Individuell skriftlig eksamen i STA 400- Statistikk Fredag 13. mars 2015 kl. 10.00-12.00 Hjelpemidler: kalkulator Eksamensoppgaven består av 10 sider inkludert forsiden

Detaljer

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i: STK 1000 Innføring i anvendt statistikk. Eksamensdag: Torsdag 1. juni 2006. Tid for eksamen: 09.00 12.00. Oppgavesettet er på

Detaljer

Page 1 EN DAG PÅ HELSESTASJONEN. Lises klassevenninnner. Formelen: Du har en hypotese om vanlig høyde

Page 1 EN DAG PÅ HELSESTASJONEN. Lises klassevenninnner. Formelen: Du har en hypotese om vanlig høyde 1 E DAG PÅ HELSESTASJOE Lises klassevenninnner Lise er veldig liten Hva gjør at du sier at hun er liten? Du har en hypotese om vanlig høyde Du har en hypotese om vanlig høyde Du sammenligner Lises høyde

Detaljer

Oppgave 1. T = 9 Hypotesetest for å teste om kolesterolnivået har endret seg etter dietten: T observert = 2.16 0

Oppgave 1. T = 9 Hypotesetest for å teste om kolesterolnivået har endret seg etter dietten: T observert = 2.16 0 Løsningsforslag til eksamen i MOT310 STATISTISKE METODER 1 VARIGHET: 4 TIMER DATO: 08. mai 2008 TILLATTE HJELPEMIDLER: Kalkulator: HP30S, Casio FX82 eller TI-30 Tabeller og formler i statistikk (Tapir

Detaljer

OPPGAVERAMME NAT1001 Naturfag, Vg1 yrkesfaglig utdanningsprogram

OPPGAVERAMME NAT1001 Naturfag, Vg1 yrkesfaglig utdanningsprogram OPPGAVERAMME NAT1001 Naturfag, Vg1 yrkesfaglig utdanningsprogram SPESIELLE FORHOLD SOM GJELDER FAGET Hovedområdet Forskerspiren er vesentlig for naturfag, og skal derfor alltid være med i eksamensoppgaven

Detaljer

Utarbeidelse av forskningsprotokoll

Utarbeidelse av forskningsprotokoll Utarbeidelse av forskningsprotokoll Rubrikker :Utarbeidelsen av forskningsprotokollen skjer gjerne i flere trinn. Det er vanlig at man tar utgangspunkt i en problemstilling eller et spesifikt forskningsspørsmål

Detaljer

MASTER I IDRETTSVITENSKAP 2014/2016. Utsatt individuell skriftlig eksamen. STA 400- Statistikk. Mandag 24. august 2015 kl. 10.00-12.

MASTER I IDRETTSVITENSKAP 2014/2016. Utsatt individuell skriftlig eksamen. STA 400- Statistikk. Mandag 24. august 2015 kl. 10.00-12. MASTR I IDRTTSVITNSKAP 2014/2016 Utsatt individuell skriftlig eksamen i STA 400- Statistikk Mandag 24. august 2015 kl. 10.00-12.00 Hjelpemidler: kalkulator ksamensoppgaven består av 10 sider inkludert

Detaljer

Eksamensoppgave i TMA4240 Statistikk

Eksamensoppgave i TMA4240 Statistikk Institutt for matematiske fag Eksamensoppgave i TMA4240 Statistikk Faglig kontakt under eksamen: Mette Langaas a, Ingelin Steinsland b, Geir-Arne Fuglstad c Tlf: a 988 47 649, b 926 63 096, c 452 70 806

Detaljer

Høye skårer indikerer høye nivåer av selvkontroll.

Høye skårer indikerer høye nivåer av selvkontroll. Psykologisk institutt PSY2012 Forskningsmetodologi III: Statistisk analyse, design og måling Eksamen vår 2015 Skriftlig skoleeksamen tirsdag 19. mai, 09:00 (4 timer) Resultater publiseres 10. juni Kalkulator

Detaljer

Mesteparten av kodingen av Donkey Kong skal du gjøre selv. Underveis vil du lære hvordan du lager et enkelt plattform-spill i Scratch.

Mesteparten av kodingen av Donkey Kong skal du gjøre selv. Underveis vil du lære hvordan du lager et enkelt plattform-spill i Scratch. Donkey Kong Ekspert Scratch Introduksjon Donkey Kong var det første virkelig plattform-spillet da det ble gitt ut i 1981. I tillegg til Donkey Kong var det også her vi første gang ble kjent med Super Mario

Detaljer

Statistikk 1. Nico Keilman. ECON 2130 Vår 2014

Statistikk 1. Nico Keilman. ECON 2130 Vår 2014 Statistikk 1 Nico Keilman ECON 2130 Vår 2014 Pensum Kap 1-7.3.6 fra Løvås «Statistikk for universiteter og høgskoler» 3. utgave 2013 (eventuelt 2. utgave) Se overspringelsesliste på emnesiden Supplerende

Detaljer

Under noen av oppgavene har jeg lagt inn et hint til hvordan dere kan går frem for å løse dem! Send meg en mail om dere finner noen feil!

Under noen av oppgavene har jeg lagt inn et hint til hvordan dere kan går frem for å løse dem! Send meg en mail om dere finner noen feil! Under noen av oppgavene har jeg lagt inn et hint til hvordan dere kan går frem for å løse dem! Send meg en mail om dere finner noen feil! 1. Husk at vi kan definere BNP på 3 ulike måter: Inntektsmetoden:

Detaljer

SENSORVEILEDNING FOR EKSAMENSOPPGAVEN I SVSOS107 VÅREN 2002

SENSORVEILEDNING FOR EKSAMENSOPPGAVEN I SVSOS107 VÅREN 2002 SENSORVEILEDNING FOR EKSAMENSOPPGAVEN I SVSOS107 VÅREN 2002 Generell informasjon Dette er den siste eksamensoppgaven under overgangsordningen mellom gammelt og nytt pensum i SVSOS107. Eksamensoppgaven

Detaljer

TMA4240 Statistikk H2010 (20)

TMA4240 Statistikk H2010 (20) TMA4240 Statistikk H2010 (20) 10.5: Ett normalfordelt utvalg, kjent varians (repetisjon) 10.4: P-verdi 10.6: Konfidensintervall vs. hypotesetest 10.7: Ett normalfordelt utvalg, ukjent varians Mette Langaas

Detaljer

Datamatrisen: observasjoner, variabler og verdier. Variablers målenivå: Nominal Ordinal Intervall Forholdstall (ratio)

Datamatrisen: observasjoner, variabler og verdier. Variablers målenivå: Nominal Ordinal Intervall Forholdstall (ratio) Datamatrisen: observasjoner, variabler og verdier. Variablers målenivå: Nominal Ordinal Intervall Forholdstall (ratio) Beskrive fordelinger (sentraltendens, variasjon og form): Observasjon y i Sentraltendens

Detaljer

Sentralverdi av dataverdi i et utvalg Vi tenker oss et utvalg med datapar. I vårt eksempel har vi 5 datapar.

Sentralverdi av dataverdi i et utvalg Vi tenker oss et utvalg med datapar. I vårt eksempel har vi 5 datapar. Statistisk behandling av kalibreringsresultatene Del 4. v/ Rune Øverland, Trainor Elsikkerhet AS Denne artikkelserien handler om statistisk behandling av kalibreringsresultatene. Dennne artikkelen tar

Detaljer

Statistikk, FO242N, AMMT, HiST 2. årskurs, 30. mai 2007 side 1 ( av 8) LØSNINGSFORSLAG HØGSKOLEN I SØR-TRØNDELAG

Statistikk, FO242N, AMMT, HiST 2. årskurs, 30. mai 2007 side 1 ( av 8) LØSNINGSFORSLAG HØGSKOLEN I SØR-TRØNDELAG Statistikk, FO242N, AMMT, HiST 2. årskurs, 30. mai 2007 side 1 ( av 8) LØSNINGSFORSLAG HØGSKOLEN I SØR-TRØNDELAG AVDELING FOR MAT- OG MEDISINSK TEKNOLOGI Matteknologisk utdanning Kandidatnr: Eksamensdato:

Detaljer

Oppgaver til Studentveiledning 3 MET 3431 Statistikk

Oppgaver til Studentveiledning 3 MET 3431 Statistikk Oppgaver til Studentveiledning 3 MET 3431 Statistikk 24. april 2012 kl 17.15-20.15 i B2 Handelshøyskolen BI 2 Oppgaver 1. Eksamensoppgaver: Eksamen 01/06/2011: Oppgave 1-7. Eksamensoppgaven fra 06/2011

Detaljer

MOT310 Statistiske metoder 1, høsten 2010 Løsninger til regneøving nr. 11 (s. 1) der

MOT310 Statistiske metoder 1, høsten 2010 Løsninger til regneøving nr. 11 (s. 1) der MOT310 Statistiske metoder 1, høsten 2010 Løsninger til regneøving nr. 11 (s. 1) Oppgave 13.1 Modell: Y ij = µ i + ε ij, der ε ij uavh. N(0, σ 2 ) Boka opererer her med spesialtilfellet der man har like

Detaljer

SPSS Statistics-kurs 2013

SPSS Statistics-kurs 2013 SPSS Norge AS endrer navn til Intelytics AS SPSS Statistics-kurs 2013 Kurskalender 2013-1. halvår Dager Pris Jan Feb Mars April Mai Juni 10.-11. 6.-7. 4.-5. 4.-5. 6.-7. 6.-7. 23.-24. 27.-28. 19.-20. 25.-26.

Detaljer

Espen Grimmert. Slik bruker du SOSIALE MEDIER PÅ JOBBEN

Espen Grimmert. Slik bruker du SOSIALE MEDIER PÅ JOBBEN Espen Grimmert Slik bruker du SOSIALE MEDIER PÅ JOBBEN Copyright 2015 by Fagbokforlaget Vigmostad & Bjørke AS All Rights Reserved ISBN: 978-82-450-1942-1 ISBN: 978-82-450-1744-1 (trykt) Tilrettelagt for

Detaljer

SOS1120 Kvantitativ metode. Regresjonsanalyse. Lineær sammenheng II. Lineær sammenheng I. Forelesningsnotater 11. forelesning høsten 2005

SOS1120 Kvantitativ metode. Regresjonsanalyse. Lineær sammenheng II. Lineær sammenheng I. Forelesningsnotater 11. forelesning høsten 2005 SOS1120 Kvantitativ metode Regresjonsanalyse Forelesningsnotater 11. forelesning høsten 2005 Per Arne Tufte Lineær sammenheng I Lineær sammenheng II Ukelønn i kroner 4000 3500 3000 2500 2000 1500 1000

Detaljer

Oppgave 1. Det oppgis at dersom y ij er observasjon nummer j fra laboratorium i så er SSA = (y ij ȳ i ) 2 = 3.6080.

Oppgave 1. Det oppgis at dersom y ij er observasjon nummer j fra laboratorium i så er SSA = (y ij ȳ i ) 2 = 3.6080. EKSAMEN I: MOT310 STATISTISKE METODER 1 VARIGHET: 4 TIMER DATO: 28. FEBRUAR 2005 TILLATTE HJELPEMIDLER: KALKULATOR, TABELLER OG FORMLER I STATISTIKK (TAPIR FORLAG) OPPGAVESETTET BESTÅR AV 4 OPPGAVER PÅ

Detaljer

Uendelige rekker. Konvergens og konvergenskriterier

Uendelige rekker. Konvergens og konvergenskriterier Uendelige rekker. Konvergens og konvergenskriterier : Et absolutt nødvendig, men ikke tilstrekkelig vilkår for konvergens er at: lim 0 Konvergens vha. delsummer :,.,,,. I motsatt fall divergerer rekka.

Detaljer

Introduksjon til statistikk og dataanalyse

Introduksjon til statistikk og dataanalyse Introduksjon til statistikk og dataanalyse Hollywood-filmer fra 2011 135 filmer Samla budsjett: $ 7 166 500 000 Samla billettsalg: $ 20 199 000 000 2 Datasettet vårt Filmene er delt i 8 sjangere: Action

Detaljer

MAT4010 PROSJEKTOPPGAVE: Statistikk i S2. Olai Sveine Johannessen, Vegar Klem Hafnor & Torstein Mellem

MAT4010 PROSJEKTOPPGAVE: Statistikk i S2. Olai Sveine Johannessen, Vegar Klem Hafnor & Torstein Mellem MAT400 PROSJEKTOPPGAVE: Statistikk i S2 Olai Sveine Johannessen, Vegar Klem Hafnor & Torstein Mellem 20. mai 205 Innhold. Stokastisk Variabel.. Stokastiske variable som funksjoner 3 2. Forventningsverdi

Detaljer

EKSAMEN I SOS1120 KVANTITATIV METODE 6. DESEMBER 2007 (4 timer)

EKSAMEN I SOS1120 KVANTITATIV METODE 6. DESEMBER 2007 (4 timer) EKSAMEN I SOS1120 KVANTITATIV METODE 6. DESEMBER 2007 (4 timer) Bruk av ikke-programmerbar kalkulator er tillatt under eksamen. Utover det er ingen hjelpemidler tillatt. Sensur faller torsdag 3. Januar

Detaljer

EKSAMEN I SOS1120 KVANTITATIV METODE 5. MAI 2004 (6 timer)

EKSAMEN I SOS1120 KVANTITATIV METODE 5. MAI 2004 (6 timer) EKSAMEN I SOS1120 KVANTITATIV METODE 5. MAI 2004 (6 timer) Bruk av ikke-programmerbar kalkulator er tillatt under eksamen. Utover det er ingen hjelpemidler tillatt. Sensur faller fredag 28. mai kl. 14.00,

Detaljer

Kapittel 4: Matematisk forventning

Kapittel 4: Matematisk forventning Kapittel 4: Matematisk forventning TMA4240 Statistikk (F2 og E7) Multivariate tilfeller foreleses mandag 6.september, 2004 Ole.Petter.Lodoen@math.ntnu.no p.1/16 Forventing til funksjon av flere stokastiske

Detaljer

HØGSKOLEN I STAVANGER

HØGSKOLEN I STAVANGER HØGSKOLEN I STAVANGER Avdeling for TEKNISK NATURVITEN- EKSAMEN I: TE199 SANNSYNLIGHETSREGNING MED STATISTIKK SKAPELIGE FAG VARIGHET: 4 TIMER DATO: 5. JUNI 2003 TILLATTE HJELPEMIDLER: KALKULATOR OPPGAVESETTET

Detaljer

Arbeidstid. Medlemsundersøkelse. 7. 19. mai 2014. Oppdragsgiver: Utdanningsforbundet

Arbeidstid. Medlemsundersøkelse. 7. 19. mai 2014. Oppdragsgiver: Utdanningsforbundet Arbeidstid Medlemsundersøkelse 7. 19. mai 2014 Oppdragsgiver: Utdanningsforbundet Prosjektinformasjon Formål: Dato for gjennomføring: 7. 19. mai 2014 Datainnsamlingsmetode: Antall intervjuer: 1024 Utvalg:

Detaljer

HØGSKOLEN I STAVANGER

HØGSKOLEN I STAVANGER EKSAMEN I: MOT310 STATISTISKE METODER VARIGHET: 4 TIMER DATO: 27. FEBRUAR 2004 TILLATTE HJELPEMIDLER: KALKULATOR, TABELLER OG FORMLER I STATISTIKK (TAPIR FORLAG) OPPGAVESETTET BESTÅR AV 3 OPPGAVER PÅ 5

Detaljer

6.2 Signifikanstester

6.2 Signifikanstester 6.2 Signifikanstester Konfidensintervaller er nyttige når vi ønsker å estimere en populasjonsparameter Signifikanstester er nyttige dersom vi ønsker å teste en hypotese om en parameter i en populasjon

Detaljer

Univariate tabeller. Bivariat tabellanalyse. Forelesning 8 Tabellanalyse. Formålet med bivariat analyse:

Univariate tabeller. Bivariat tabellanalyse. Forelesning 8 Tabellanalyse. Formålet med bivariat analyse: Forelesning 8 Tabellanalyse Tabellanalyse er en godt egnet presentasjonsform hvis: variablene har et fåtall naturlige kategorier For eksempel kjønn, Eu-syn variablene er delt inn i kategorier For eksempel

Detaljer

Statistikk for språk- og musikkvitere 1

Statistikk for språk- og musikkvitere 1 Statistikk for språk- og musikkvitere 1 Mitt navn: Åsne Haaland, Vitenskapelig databehandling USIT Ikke nøl, avbryt med spørsmål! Hva oppnår en med statistikk? Få oversikt over data: typisk verdi, spredning,

Detaljer

Årsplan, 8. trinn, 2012-2013

Årsplan, 8. trinn, 2012-2013 Kunnskapsløftet strukturerer naturfag i følgende hovedområder: Forskerspiren Mangfold i naturen Kropp og helse Verdensrommet Fenomener og stoffer Teknologi og design Årsplan, 8. trinn, 2012-2013 Innenfor

Detaljer