1 10-2: Korrelasjon. 2 10-3: Regresjon



Like dokumenter
1 9-3: Sammenligne gjennomsnitt for to uavhengige stikkprøver : Sammenligne gjennomsnitt for to relaterte stikkprøver

Kapittel 3: Studieopplegg

Oppgaver til Studentveiledning I MET 3431 Statistikk

Statistikk og dataanalyse

ST0202 Statistikk for samfunnsvitere

Notasjon og Tabell 8. ST0202 Statistikk for samfunnsvitere

Oppgaver til Studentveiledning 3 MET 3431 Statistikk

1 11-1: Kji-kvadrat fordelingen : Krysstabeller og kji-kvadrattesten. 3 Kji-kvadrattesten i JMP

6.2 Signifikanstester

Oppgaver til Studentveiledning II MET 3431 Statistikk

TMA4240 Statistikk H2010 (20)

2. Hva er en sampelfordeling? Nevn tre eksempler på sampelfordelinger.

SOS1120 Kvantitativ metode. Regresjonsanalyse. Lineær sammenheng II. Lineær sammenheng I. Forelesningsnotater 11. forelesning høsten 2005

1 Sec 3-2: Hvordan beskrive senteret i dataene. 2 Sec 3-3: Hvordan beskrive spredningen i dataene

Hypotesetest: generell fremgangsmåte

QED Matematikk for grunnskolelærerutdanningen. Bind 2. Fasit kapittel 4 Statistikk og kvantitativ metode

Kap. 10: Inferens om to populasjoner. Eksempel. ST0202 Statistikk for samfunnsvitere

Oppgave 1. T = 9 Hypotesetest for å teste om kolesterolnivået har endret seg etter dietten: T observert =

Simulering med Applet fra boken, av z og t basert på en rekke utvalg av en gitt størrelse n fra N(μ,σ). Illustrerer hvordan estimering av variansen

Fasit for tilleggsoppgaver

1 Section 7-2: Estimere populasjonsandelen. 2 Section 7-4: Estimere µ når σ er ukjent

1 8-1: Oversikt : Grunnleggende hypotesetesting. 3 Section 8-3: Å teste påstander om andeler. 4 Section 8-5: Teste en påstand om gjennomsnittet

(b) På slutten av dagen legger sekretæren inn all innsamlet informasjon i en ny JMP datafil. Hvor mange rader og søyler(kolonner) har datafila?

QED 1 7. Matematikk for grunnskolelærerutdanningen. Bind 2. Fasit kapittel 4 Statistikk og kvantitativ metode

Eksamensoppgave i samfunnsfaglig forskningsmetode 16. mai 2003

1 Section 6-2: Standard normalfordelingen. 2 Section 6-3: Anvendelser av normalfordelingen. 3 Section 6-4: Observator fordeling

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

Verdens statistikk-dag. Signifikanstester. Eksempel studentlån.

Fra i går Signifikanssannsynlighet (p verdi) vs. signifikansnivå Utgangspunkt for begge: Signifikansnivå α. evt.

ST0202 Statistikk for samfunnsvitere

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.

Eksamen i. MAT110 Statistikk 1

Introduksjon til inferens

Tid: 29. mai (3.5 timer) Ved alle hypotesetester skal både nullhypotese og alternativ hypotese skrives ned.

Kort overblikk over kurset sålangt

ÅMA110 Sannsynlighetsregning med statistikk, våren Hypotesetesting (kp. 6) Hypotesetesting. Kp. 6 Hypotesetesting ...

Hypotesetesting. mot. mot. mot. ˆ x

Oppgaver til Studentveiledning 4 MET 3431 Statistikk

Datamatrisen: observasjoner, variabler og verdier. Variablers målenivå: Nominal Ordinal Intervall Forholdstall (ratio)

MASTER I IDRETTSVITENSKAP 2013/2015 MASTER I IDRETTSFYSIOTERAPI 2013/2015. Individuell skriftlig eksamen. STA 400- Statistikk

β(µ) = P(akseptere H 1 µ)

Kapittel 9 og 10: Hypotesetesting

Hypotesetesting (kp. 6) ÅMA110 Sannsynlighetsregning med statistikk, våren Tre deler av faget/kurset: 1. Beskrivende statistikk

Inferens i regresjon

Forkaste H 0 "Stikkprøven er unormal" Akseptere H 0 "Stikkprøven er innafor normalen" k kritisk verdi. Utgangspunkt for H 0

ÅMA110 Sannsynlighetsregning med statistikk, våren Hypotesetesting (kp. 6) Hypotesetesting, innledning. Kp.

Sensorveiledning: skoleeksamen i SOS Kvantitativ metode

Inferens i fordelinger

Kontroller at oppgavesettet er komplett før du begynner å besvare spørsmålene. Ved sensuren teller alle delspørsmål likt.

Verdens statistikk-dag.

10.1 Enkel lineær regresjon Multippel regresjon

ST0103 Brukerkurs i statistikk Forelesning 26, 18. november 2016 Kapittel 8: Sammenligning av grupper

TMA4240 Statistikk H2010 (19)

Snøtetthet. Institutt for matematiske fag, NTNU 15. august Notat for TMA4240/TMA4245 Statistikk

Statistikk, FO242N, AMMT, HiST 2. årskurs, 30. mai 2007 side 1 ( av 8) LØSNINGSFORSLAG HØGSKOLEN I SØR-TRØNDELAG

ST0202 Statistikk for samfunnsvitere Kapittel 10: Inferens om to populasjoner

ST0202 Statistikk for samfunnsvitere

Multippel regresjon. Her utvider vi perspektivet for enkel lineær regresjon til også å omfatte flere forklaringsvariable x 1, x 2,, x p.

Kapittel 9 og 10: Hypotesetesting

Kapittel 10: Hypotesetesting

7.2 Sammenligning av to forventinger

ST0202 Statistikk for samfunnsvitere

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 3

Løsningsforslag øving 9, ST1301

ST0202 Statistikk for samfunnsvitere

Forelesning 23 og 24 Wilcoxon test, Bivariate Normal fordeling

ST0202 Statistikk for samfunnsvitere

UNIVERSITETET I OSLO

ST0202 Statistikk for samfunnsvitere

Analyse av kontinuerlige data. Intro til hypotesetesting. 21. april Seksjon for medisinsk statistikk, UIO. Tron Anders Moger

HØGSKOLEN I STAVANGER

Loven om total sannsynlighet. Bayes formel. Testing for sykdom. ST0202 Statistikk for samfunnsvitere

Hypotesetesting av λ og p. p verdi.

Effektstørrelse. Tabell 1. Kritiske verdier for Pearson s produkt-moment-korrelasjon med 5% og 1% signifikansnivå. N 5% 1% N 5% 1%

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

EKSAMEN KANDIDATNUMMER: EKSAMENSDATO: 26. mai SENSURFRIST: 16. juni KLASSE: HIS TID: kl

Emnenavn: Eksamenstid: Faglærer: Bjørnar Karlsen Kivedal

Løsningsforlag statistikk, FO242N, AMMT, HiST 2.årskurs, 7. desember 2006 side 1 ( av 8) LØSNINGSFORSLAG

+ S2 Y ) 2. = (avrundet nedover til nærmeste heltall) n Y 1

SENSORVEILEDNING FOR EKSAMENSOPPGAVEN I SVSOS107 VÅREN 2002

Oppgave 13.1 (13.4:1)

Econ 2130 uke 16 (HG)

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

2.2 Korrelasjon. Våre øyne ikke gode til å bedømme hvor sterk en sammenheng er Trenger kvantitativt mål på sammenheng Korrelasjon et slikt mål

STUDIEÅRET 2014/2015. Utsatt individuell skriftlig eksamen i. STA 200- Statistikk. Mandag 24. august 2015 kl

Gruppe 1 Gruppe 2 Gruppe a) Finn aritmetisk gjennomsnitt, median, modus og standardavvik for gruppe 2.

Løsningsforslag ECON 2130 Obligatorisk semesteroppgave 2017 vår

MASTER I IDRETTSVITENSKAP 2013/2015 MASTER I IDRETTSFYSIOTERAPI 2013/2015. Utsatt individuell skriftlig eksamen. STA 400- Statistikk

ST0202 Statistikk for samfunnsvitere

EKSAMENSOPPGAVER STAT100 Vår 2011

Løsningsforslag til obligatorisk innlevering 3.

Kan vi stole på resultater fra «liten N»?

ST0202 Statistikk for samfunnsvitere Kapittel 11: Anvendelser av kjikvadratfordelingen Kapittel 12: Variansanalyse (ANOVA)

Kapittel 2: Hendelser

EKSAMEN. TILLATTE HJELPEMIDLER: Kalkulator. Hornæs: Formelsamling statistikk HiG. John Haugan: Formler og tabeller.

EKSAMEN. Flexibel ingeniørutdanning, 2kl. Bygg m.fl.

Kapittel 2. Utforske og beskrive data. Sammenhenger mellom variable Kap. 2.1 om assosiasjon og kryssplott forrige uke. Kap. 2.2, 2.3, 2.

EKSAMEN. TILLATTE HJELPEMIDLER: Kalkulator. Hornæs: Formelsamling statistikk HiG. John Haugan: Formler og tabeller.

Emnenavn: Eksamenstid: Faglærer: Bjørnar Karlsen Kivedal

α =P(type I feil) = P(forkast H 0 H 0 er sann) =1 P(220 < X < 260 p = 0.6)

Transkript:

1 10-2: Korrelasjon 2 10-3: Regresjon

Example Krysser y-aksen i 1: b 0 = 1 Stiger med 2 hver gang x øker med 1: b 1 = 2 Formelen til linja er derfor y = 1 + 2x

Eksempel Example Vi lar fem personer se en konfektreklame og noterer hvor mange konfektesker de kjøper i løpet av en måned: Person 1 2 3 4 5 Gj.snitt std.avvik Antall reklamer 5 4 4 6 8 5.4 1.67 Antall kjøp 8 9 10 13 15 11.0 2.92 Finnes det et tall som måler sammenhengen? Kan vi finne en hypotesetest som avgjør om det er sammenheng?

Scatterplot Visualisér dataene i et scatterplott Det ser ut som det er en korrelasjon Jo mer reklame, jo mere kjøp En positiv korrelasjon

Korrelasjon mellom to variable Kapittel 10 Dataene består av par (x, y) Hvordan samvarierer de to variablene x og y? Vi sier at en korrelasjon finnes mellom x og y dersom det er en sammenheng mellom dem på en eller annen måte Samvariasjonen (korrelasjonen) beskrives ved hjelp av den lineæare korrelasjonskoeffisienten r r Dataene er parvise: (x, y) Dataene brukes til å regne ut korrelasjonskoeffisienten r r måler hvor sterkt x og y er korrelerte

JMP Analyze > Fit Y by X og så velger du Density Ellipse r = 0.87

r måler bare lineær korrelasjon

Positiv, negativ eller ingen korrelasjon? Example Korrelasjonen er alltid et tall mellom 1 og +1: Er r nær +1 så har vi positiv samvariasjon Er r nær 0 så har vi ingen samvariasjon Er r nær 1 så har vi negativ samvariasjon I konfekteksempelet var korrelasjonen +0.87. Det er en sterk positiv korrelasjon mellom antall reklamer man har sett og antall konfektesker man kjøper Hva skal vi med r? Den brukes til å avgjøre om det finnes samvariasjon mellom to ting. Vi skal snart se dette i t-testen for lineær samvariasjon...

Formelen Beregne r r = n xy ( x)( y) n( x 2 ) ( x) 2 n( y 2 ) ( y) 2 Tolke r r regnes ut av kalkulator/jmp/excel Vi fokuserer på forståelsen og tolkningen av r, det er viktigere enn hvordan den regnes ut Egenskaper til r 1 r 1 r måler styrken i den lineære korrelasjonen mellom x og y

Forklart varians Tolkning av r 2 Example r 2 er andelen av variasjon i y som blir forklart av variasjon i x Person 1 2 3 4 5 Gj.snitt std.avvik Antall reklamer 5 4 4 6 8 5.4 1.67 Antall kjøp 8 9 10 13 15 11.0 2.92 Korrelasjonskoeffisienten er r = +0.87, og r 2 = 0.757 Vi sier at 75.7% av variasjonen i kjøp skyldes variasjonen i sette reklamer Det innebærer at 24.3% av variasjonen i kjøp ikke har sammenheng med reklame

Typiske feil i korrelasjon 1 En typisk feil er å tro at korrelasjon betyr at det er en årsak-virkning effekt (kausalitet) 2 Det kan være en korrelasjon, selv om den ikke er lineær. r vil ikke fange opp dette. Se figur side 9. Example Det er ikke sikkert at det er reklamen som gjør at folk kjøper mer konfekt. Det kan tenkes at det er en bakenforliggende faktor, som gjør at folk både ser mer reklame og kjøper mer konfekt. Vil du påvise årsak-virkning, så er det best å gjøre et randomisert eksperiment. Observasjonelle studier gir mindre mulighet til å påvise kausalitet, pga sammenblanding (eng: confounding)

Hypotesetest for lineær korrelasjon Notasjon r er korrelasjonen i stikkprøven, (en observator) ρ er korrelasjonen i populasjonen, (en parameter) Nullhypotesen: ingen korrelasjon En tosidig hypotesetest skrives da: H 0 : ρ = 0 vs. H 1 : ρ 0

Korrelasjon og regresjon i JMP Analyze > Fit Y by X Velg antall reklamer på x-aksen og antall kjøp på y-aksen For å få korrelasjonskoeffisienten r: Rød diamant og Density ellipse..

Test for lineær korrelasjon 1 H 0 : ρ = 0 vs. H 1 : ρ 0 2 Bestem signifikansnivået α 3 Regn ut r 4 Regn ut testobservatoren t = r 1 r 2 n 2 har n 2 frihetsgrader 5 Hvis t overstiger den kritiske verdien (tabell A3), forkast H 0 : ρ = 0. Hvis ikke, så kan vi ikke forkaste H 0 6 Hvis H 0 forkastes, så er det en lineær korrelasjon mellom variablene Hvis H 0 ikke forkastes, så kan vi ikke konkludere med at det er en lineær korrelasjon

Reklame-Kjøp sammenhengen er signifikant Example 1 Enten virker ikke reklame, eller så økes kjøpelysten, dvs. ensidig test: H 0 : ρ = 0 vs H 1 : ρ > 0 2 α = 0.05 og vi har sett at r = 0.87 3 t = 0.87 1 0.87 2 5 2 = 3.06 4 Kritisk verdi for ensidig test med 3 df er da (A3): t 0.05 = 2.353 5 Siden testobservatoren 3.06 er større enn kritisk verdi: forkast H 0 6 Det er en lineær korrelasjon mellom antall sette reklamer og antall kjøp

Example Markedsføringsbudsjett 67 64 45 78 60 55 Innspillt første helg 46 48 40 52 50 42 6 Hollywood filmer. Er det en korrelasjon mellom budsjett og billettinntekter? H 0 : ρ = 0 vs H 1 : ρ > 0

Example 1 H 0 : ρ = 0 vs H 1 : ρ > 0 2 Signifikansnivået settes til α = 0.05 3 Kalkulator/JMP/Excel regner ut r = 0.861 4 t = 0.861 1 0.861 2 6 2 = 3.38 5 Kritisk verdi med 4 df er t 0.05 = 2.132 6 Testobservator er høyere enn kritisk verdi: Forkast H 0 7 Vi har grunnlag til å hevde at det er en positiv korrelasjon mellom budsjett og inntekter

Regresjon Section 10-3 Anta at vi har vist at det er en signifikant korrelasjon Da vil vi beskrive korrelasjonen mellom x og y Det gjøres med en regresjonsformel y = b 0 + b 1 x Kalkulator/JMP/Excel beregner denne formelen Formelen beskriver en regresjonslinje x kalles den uavhengige variabelen y er den avhengige variabelen

Regresjonsformelen Example Person 1 2 3 4 5 Antall reklamer 5 4 4 6 8 Antall kjøp 8 9 10 13 15 Side 16: korrelasjonen er signifikant Regresjon handler om å gi en eksakt formel for korrelasjonen

Regresjonsformelen Example JMP (rød diamant: Fit Line) gir formelen y = 2.8 + 1.5 x Dette er formelen for en rett linje med b 0 = 2.80 og stigningstall b 1 = 1.52 Kalles regresjonslinja Regresjonsformelen Konfektkjøp = 2.80 + 1.52 Reklamer sett Truls-Ivar har sett reklamen 7 ganger. Han vil kjøpe pakker med konfekt Konfektkjop = 2.80 + 1.52 7+ = 13.44

Notasjon Stikkprøven Observatorer b 0 og b 1 Regresjonslinja y = b 0 + b 1 x Populasjonen Parametre β 0 og β 1 Regresjonslinja y = β 0 + β 1 x Beregne b 0 og b 1 Kalkulator/JMP/Excel kan beregne b 0 og b 1 Det viktigste for oss er å kunne tolke dem

Regresjonslinja Regresjonslinja er den linja som best passer til punktene i scatterplottet. Sjekk ut scriptet demoleastsquares i JMP, ligger i folder Sample scripts

Regresjonslinja for Hollywood Example budsjett 67 64 45 78 60 55 Innspillt 46 48 40 52 50 42 6 Hollywood filmer. JMP: Fit Y by X gir Innspilt = 24.41 + 0.36 Budsjett For hver million brukt i markedsføring, så spilles det inn 0.36 mer på første helg En film med budsjett på 63 millioner forventes å spille inn Innspilt = 24.41 + 0.36 63 = 47.1

Sammenheng mellom regningen og tips Example Er det en sammenheng mellom størrelse på regning og størrelse på tips? 1 Er det en korrelasjon? Test på α = 0.05 nivået 2 Beregn r 2 og tolk svaret 3 Hvis det er en korrelasjon, hva er da regresjonslinja? 4 Forutsi hva en regning på 50 dollar vil gi i tips

Example SVAR: Legger inn i JMP/kalkulator og får 1 r = 0.828 og t = q 0.828 1 0.828 2 = 2.953 Vi tester H 0 : ρ = 0 vs 6 2 H 1 : ρ 0. Da blir kritisk verdi t 0.025 = 2.77. Vi forkaster H 0 ; det er grunn til å hevde at det er en korrelasjon mellom størrelsen på regningen og tipset 2 r 2 = 0.686. 68.6% av variasjonen i tips skyldes variasjon i regningsstørrelsen. De resterende 31.4% skyldes andre faktorer enn størrelsen på regningen. 3 JMP/kalkulator gir Tips = 0.35 + 0.15 Regning 4 En regning på 50 dollar forventes å gi 0.35 + 0.15 50 = 7.15 dollar i tips

Oppgaver Les Bla gjennom kapittel 11 i boka til neste gang. Oppgaver kapittel 9 10-2: 1, 3, 9, 15, 21, 29 10-3: 1, 3, 7, 15, 21