Regler i statistikk STAT 100



Like dokumenter
ST0202 Statistikk for samfunnsvitere Kapittel 9: Inferens om én populasjon

MAT4010 PROSJEKTOPPGAVE: Statistikk i S2. Olai Sveine Johannessen, Vegar Klem Hafnor & Torstein Mellem

Statistikk og dataanalyse

Kort overblikk over kurset sålangt

Høgskolen i Telemark. Institutt for økonomi og informatikk FORMELSAMLING Statistikk I. Til bruk ved eksamen. Per Chr. Hagen

Løsningsforslag Til Statlab 5

Kap. 10: Inferens om to populasjoner. Eksempel. ST0202 Statistikk for samfunnsvitere

Statistikk, FO242N, AMMT, HiST 2. årskurs, 30. mai 2007 side 1 ( av 8) LØSNINGSFORSLAG HØGSKOLEN I SØR-TRØNDELAG

Kapittel 3: Studieopplegg

Fasit for tilleggsoppgaver

Løsningsforslag til obligatorisk innlevering 3.

Oppgave 1. T = 9 Hypotesetest for å teste om kolesterolnivået har endret seg etter dietten: T observert =

ÅMA110 Sannsynlighetsregning med statistikk, våren

Løsningsforslag ECON 2130 Obligatorisk semesteroppgave 2017 vår

ST0202 Statistikk for samfunnsvitere Kapittel 10: Inferens om to populasjoner

Oppgave 1. og t α/2,n 1 = 2.262, så er et 95% konfidensintervall for µ D (se kap 9.9 i læreboka): = ( 0.12, 3.32).

2. Hva er en sampelfordeling? Nevn tre eksempler på sampelfordelinger.

Innhold. Innledning. Del I

A. i) Sett opp en frekvenstabell over de fire mulige kombinasjonene av kjønn og røykestatus. Dvs. fyll inn. Ikke - røyker Sum Jente Gutt Sum 25

Formelsamling V-2014 MAT110. Statistikk 1. Per Kristian Rekdal

ST0202 Statistikk for samfunnsvitere Kapittel 6: Normalfordelingen

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.

OPPGAVESETTET BESTÅR AV 3 OPPGAVER PÅ 6 SIDER MERKNADER: Alle deloppgaver vektlegges likt.

TMA4245 Statistikk Eksamen desember 2016

6.2 Signifikanstester

Inferens i regresjon

HØGSKOLEN I STAVANGER

Tillatte hjelpemidler: C3: alle typer kalkulator, alle andre hjelpemidler

Kapittel 2: Hendelser

Supplement til power-point presentasjonen i medisinsk statistikk, forelesning 7 januar Skrevet av Stian Lydersen 16 januar 2013

HØGSKOLEN I STAVANGER

ST0202 Statistikk for samfunnsvitere

Oppgaven består av 9 delspørsmål som anbefales å veie like mye. Kommentarer og tallsvar er skrevet inn mellom << >>. Oppgave 1

EKSAMENSOPPGAVER STAT100 Vår 2011

ST0202 Statistikk for samfunnsvitere

HØGSKOLEN I STAVANGER

Mer om hypotesetesting

EKSAMEN I FAG TMA4255 ANVENDT STATISTIKK

Formelsamling i medisinsk statistikk

Innhold. Innledning. Del I

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010 Oppsummering

Page 1 EN DAG PÅ HELSESTASJONEN. Lises klassevenninnner. Formelen: Du har en hypotese om vanlig høyde

10.1 Enkel lineær regresjon Multippel regresjon

Eksamen i : STA-1002 Statistikk og. Eksamensdato : 26. september Sted : Administrasjonsbygget. Tillatte hjelpemidler : - Godkjent kalkulator

ST0202 Statistikk for samfunnsvitere

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

Hypotesetesting. Hvorfor og hvordan? Gardermoen 21. april 2016 Ørnulf Borgan. H. Aschehoug & Co Sehesteds gate 3, 0102 Oslo Tlf:

Analyse av kontinuerlige data. Intro til hypotesetesting. 21. april Seksjon for medisinsk statistikk, UIO. Tron Anders Moger

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Dekkes av pensumsidene i kap. lesingsnotatene. Hypotesetesting er en systematisk fremgangsmåte

Andre sett med obligatoriske oppgaver i STK1110 høsten 2010

TMA4240 Statistikk Eksamen desember 2015

Høgskoleni Øs fold EKSAMEN. Om noe er uklart eller mangelfullt i oppgaven inngår det som en del av oppgaven å ta de nødvendige forutsetninger.

EKSAMEN I TMA4245 Statistikk

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

betyr begivenheten at det blir trukket en rød kule i første trekning og en hvit i andre, mens B1 B2

Høgskoleni østfold EKSAMEN

Statistikk 1. Nico Keilman. ECON 2130 Vår 2014

TMA4240 Statistikk Høst 2016

Tid: Torsdag 11.desember 9:00 12:30 (3.5 timer) Emneansvarlig: Solve Sæbø, Tlf

1 Section 7-2: Estimere populasjonsandelen. 2 Section 7-4: Estimere µ når σ er ukjent

Utvalgsfordelinger. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer.

1 8-1: Oversikt : Grunnleggende hypotesetesting. 3 Section 8-3: Å teste påstander om andeler. 4 Section 8-5: Teste en påstand om gjennomsnittet

Sentralverdi av dataverdi i et utvalg Vi tenker oss et utvalg med datapar. I vårt eksempel har vi 5 datapar.

Tid: 29. mai (3.5 timer) Ved alle hypotesetester skal både nullhypotese og alternativ hypotese skrives ned.

i x i

MOT310 Statistiske metoder 1, høsten 2010 Løsninger til regneøving nr. 11 (s. 1) der

QED Matematikk for grunnskolelærerutdanningen. Bind 2. Fasit kapittel 4 Statistikk og kvantitativ metode

Oppgave 1. Det oppgis at dersom y ij er observasjon nummer j fra laboratorium i så er SSA = (y ij ȳ i ) 2 =

Oppgave 1: Feil på mobiltelefoner

TALLSVAR. Det anbefales at de 9 deloppgavene merket med A, B, teller likt uansett variasjon i vanskelighetsgrad. Svarene er gitt i <<< >>>.

Sammenlikninger av gjennomsnitt. SOS1120 Kvantitativ metode. Kan besvare to spørsmål: Sammenlikning av to gjennomsnitt

TMA4240 Statistikk Høst 2015

QED 1 7. Matematikk for grunnskolelærerutdanningen. Bind 2. Fasit kapittel 4 Statistikk og kvantitativ metode

BIO2150 Biostatistikk og studiedesign. Ordliste

FORMELSAMLING STATISTIKK, HiG

> 6 7 ) = 1 Φ( 1) = = P (X < 7 X < 8) P (X < 8) < ) < ) = Φ(2) =

Togforsinkelsen (Eksamen Des2003.1a) I denne oppgaven kan du bruke uten å vise det at

TMA4240 Statistikk Høst 2007

Hypotesetesting. mot. mot. mot. ˆ x

1 Section 4-1: Introduksjon til sannsynlighet. 2 Section 4-2: Enkel sannsynlighetsregning. 3 Section 5-1: Introduksjon til sannsynlighetsfordelinger

ST0202 Statistikk for samfunnsvitere

a ) Forventningen estimeres med gjennomsnittet: x = 1 12 (x x 12 ) = 1 ( ) = 8813/12 = 734.4

Oppfriskning av blokk 1 i TMA4240

ST0202 Statistikk for samfunnsvitere

TMA4240 Statistikk H2010

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 3

Eksamensoppgave i TMA4245 Statistikk

UNIVERSITETET I OSLO Matematisk Institutt

Eksamensoppgave i TMA4240 Statistikk

TMA4240/TMA4245 Statistikk: Oppsummering kontinuerlige sannsynlighetsfordelinger

Krysstabellanalyse (forts.) SOS1120 Kvantitativ metode. 4. Statistisk generalisering. Forelesningsnotater 9. forelesning høsten 2005.

TALLSVAR. Det anbefales at de 9 deloppgavene merket med A, B, teller likt uansett variasjon i vanskelighetsgrad. Svarene er gitt i << >>.

UNIVERSITETET I OSLO

Kapittel 4.4: Forventning og varians til stokastiske variable

TMA4240 Statistikk 2014

TMA4240 Statistikk Høst 2009

ÅMA110 Sannsynlighetsregning med statistikk, våren ÅMA110 Sannsynlighetsregning med statistikk, våren 2010

Transkript:

TORIL FJELDAAS RYGG - VÅREN 2010 Regler i statistikk STAT 100 Innhold side Sannsynlighetsregning 3 - Uttrykk 3 - Betinget sannsynlighet 4 - Regler for sannsynlighet 4 - Bayes teorem 4 - Uavhengige begivenheter 5 - Telleregler: Kombinatorikk 5 Summenotasjon 6 Stokastiske(tilfeldige) variabler 7 - Varians og standardavvik 7 - Kontinuerlige sannsynlighetsmodeller 7 - Flere variable: Lineærkombinasjoner 8 - Uavhengighet 8 Vanlige sannsynlighetsmodeller 9 - Binomisk fordeling 9 - Normalfordeling 9 - Standardnormalfordeling 10 - Normaltilnærming av binomisk fordeling 10 - Gjennomsnitt som en tilfeldig variabel 11 - Sentralgrenseteoremet 11 - Kjikvadratfordelingen 11 - Student t-fordeling 12 - Fisher F-fordeling 12 - Frihetsgrader 12 Beskrive et utvalg 13 - Gjennomsnitt 13 - Varians og standardavvik 13

Estimering og hypotesetesting 14 - Parametere 14 - Forventningsrette estimatorer 14 - Standardavvik til estimatorene 15 - Estimatoren sin standardfeil 16 - Konfidensintervall for en parameter 16 - Hypotesetesting 18 - Statistisk signifikans 20 - p-verdi generelt 20 - Tosidige tester 21 - Test av p i binomisk fordeling 22 - Oppsummering av hypotesetest av p 23 Sammenligning av grupper 24 - Parvis sammenligning 24 - To uavhengige utvalg 25 - Variansanalyse 27 - Enveis variansanalyse 27 - Kontraster og enveis variansanalyse 30 - Analyse av kategoriske krysstabeller 32 Analyse av sammenhenger 35 - Generelt 35 - Første møte med data 35 - Vurdere spredningsplott 35 - Tallfeste spredning 36 - Korrelasjon 36 - Lineær regresjon 38 - Prediksjon innen lineær regresjon 42 - Modellkritikk av lineær regresjon 43 Generelt 44 - Konfidensintervall 44 - p-verdi 44 - Ulike navn for estimert standardavvik 44 - Forkastningsområde ved ulike tester 45 - Skrivemåter ved utregning 45 Programmet R 46 - Ord og uttrykk 46 Tabeller 47 - Kumulativ binomisk sannsynlighet 47 - Kumulativ poissonfordeling 48 - Kumulativ standardnormalfordeling 49 - Standardnormalfordelingens kvantiltabell 50 - t-fordelingens kvantiltabell 51 - Kjikvadratfordelingens kvantiltabell 52 - Fisher F-fordeling 53 ~ 2 ~

SANNSYNLIGHETSREGNING Tilfeldighet: Individuelle hendelser som ikke kan forutsies. Allikevel et system som beskriver hvor ofte de opptrer i det lange løp. Sannsynlighet: Andel ganger en hendelse opptrer i det lange løp. Utfall: Resultat av et enkelt forsøk. Utfallsrom(S): Alle mulige utfall et forsøk kan ha. (S Sample space) Begivenhet/hendelse: Ett eller flere utfall som tilfredsstiller visse karakteristika. En hendelse inntreffer hvis resultatet av forsøkene blir ett av de karakteristiske utfallene. Eks: Minst 3, Partall Diskrete utfallsrom: Utfall som kan nummereres. Kontinuerlige utfallsrom: Inkluderer alle verdier i et intervall på tallinjen. P(A): Sannsynligheten for en hendelse A. (Probability) Relativ frekvens: A etter n forsøk. Antall ganger A har inntruffet Totalt antall forsøk(n) Dersom n blir stor nærmer seg relativ frekvens Uniform sannsynlighet: Alle utfall har like stor sjanse for å inntreffe. P(A) = Antall gunstige utfall for hendelsen A Antall mulige utfall A B AUB = A og/eller B - Union A B A B = A og B - Snitt A B = Ikke A - Komplement A B Begge kan ikke - Disjunkte inntre samtidig A B = Ø (Den tomme mengde) ~ 3 ~

Betinget sannsynlighet A B betyr - A dersom B allerede har skjedd/ - A dersom vi kjenner B/ - A gitt B P(A B) betyr - sannsynligheten for A når vi vet at B har inntruffet - sannsynligheten for A gitt B Regler for sannsynligheter 0 P(A) 1 Dersom S er hele utfallsrommet er P(S) = 1 P(Ø) = O, der Ø er tom mengde og ikke kan skje P(A) = Antall gunstige utfall for hendelsen A Antall mulige utfall P(A) + P( ) = 1 P(AUB) = P(A) + P(B) P(A B) P(A B) = A B Telt to ganger P(A B) = P(A B) P(B) = P(B A) P(A) P(A 1 A 2 A 3) = P(A 1) P(A 2 A 1) P(A 3 A 1 A 2) P( B) = 1 P(A B) (Gitt B. Enten A eller ) A B P(A B) P( B) Antall B P(A ) P( ) Antall Antall A Antall 1 Finne sannsynlighet: P(A) = P(A B) P(B) + P(A ) P( ) (1-P(B)) Bayes teorem: Finne P(A B) når vi vet P(B A) P(A B) = Fordi: P(A B) = = = ~ 4 ~

Uavhengige begivenheter A og B er uavhengige hvis P(A B) = P(A) Kunnskap om at B har inntruffet endrer ikke sannsynligheten for A: P(A B) = = P(A) Får man mynt 1 gang, påvirker det ikke neste kast. P(A B) = P(A) P(B) Disjunkthet er ikke det samme som uavhengighet. Telleregler kombinatorikk Potensregelen: Vi trekker ut k enheter, med tilbakelegging, fra en samling med n merkede enheter. Totalt antall mulige ordnede utfall er n k. Antall permutasjoner: Vi velger ut k enheter, uten tilbakelegging, fra en samling med n merkede enheter. Totalt antall mulige ordnede utfall kalles antall permutasjoner av k fra n, og er lik: P n,k = n (n-1) (n-k + 1) = Fakultet: Symbolet n! uttales n-fakultet og er definert slik at 0! = 1 og at n! = n (n-1) 3 2 1 Antall rekkefølger: n forskjellige enheter kan organiseres i n! forskjellige rekkefølger. Antall kombinasjoner: Vi velger ut k enheter, uten tilbakelegging, fra en samling med n merkede enheter. Totalt antall ikke-ordnede kombinasjoner av k fra n skrives C n,k =( ) = Tilfeldig utvalg: Vi trekker ut k enheter, uten tilbakelegging, fre en samling med n merkede enheter. I hver trekning sørger vi for at alle gjenverende enheter har like stor sannsynlighet for å bli trukket ut. Da får vi et tilfeldig utvalg. Ved tilfeldig utvalg av k blant n gjelder: 1. Sannsynligheten for at en bestemt enhet blir trukket ut, er lik. 2. Sannsynligheten for at en bestemt enhet trekkes i rekning nummer i, er lik. 3. Alle enhetene har samme sannsynlighet for å bli trukket ut. ~ 5 ~

SUMMENOTASJON x 1 = 1 x 2 = 2 x 3 = 3 y 1 = 1 y 2 = 2 y 3 = 4 ( ) ( ) ( ) ~ 6 ~

STOKASTISKE(TILFELDIGE) VARIABLER Stokastisk variabel: En stokastisk variabel X knytter en bestemt tallverdi til ethvert utfall i utfallsrommet S. De følger lovmessigheter. De følger en viss sannsynlighet. En tilfeldig variabel er diskret dersom den bare kan ta ett endelig eller tellbart antall verdier. Ofte heltall. Kontinuerlig hvis den kan ta alle verdier i et intervall. Forventningsverdi: Forventningen til en diskret variabel X defineres som: Forventningsverdi = Sum av (verdi sannsynlighet) E(a) = a E(bX) = b E(X) E(a + bx) = a + b E(X) E(a + bx + cx 2 ) = a + b E(X) + c E(X 2 ) Varians og standardavvik Standardavviket er lik kvadratroten av variansen som defineres lik: [ ] X er en stokastisk variabel, mens a og b er konstanter. Da gjelder: Var(X) er aldri negativ Var(X + a) = Var(X) Var(bX) = b 2 Var(X) Var(bX + a) = b 2 Var(X) Kontinuerlige sannsynlighetsmodeller En kontinuerlig tilfeldig variabel kan ta alle mulige verdier i et intervall. Sannsynlighetstettheten f(x) beskriver fordelingen til en kontinuerlig variabel, og har følgende egenskaper: ~ 7 ~

Det totale arealet under kurven er lik 1. P(a X b) er lik arealet under kurven fra a til b. Kurven er aldri negativ, dvs. at f(x) 0 FORVENTNING OG VARIANS: En kontinuerlig stokastisk variabel X har forventningsverdi og varians lik Flere variable Lineærkombinasjoner A i-ene og b er kjente konstanter, og X i-ene er tilfeldige uavhengige variable(diskrete eller kontinuerlige) FORVENTNING OG VARIANS: Fordelingsfunksjon: Den kumulative fordelingsfunksjonen F er definert for alle verdier av x, slik: F(x) = P(X x) Uavhengighet To diskrete stokastiske variabler X og Y er uavhengige hvis og bare hvis følgende likning er tilfredstilt for alle mulige verdipar (x, y) i simultanfordelingen til X og Y. ~ 8 ~

VANLIGE SANNSYNLIGHETSMODELLER Binomisk fordeling: Vi har en binomisk forsøksrekke med n delforsøk dersom: 1. Hvert delforsøk bare har to interessante utfall: A eller ikke A. 2. Sannsynligheten p = P(A) er den samme i alle n delforsøkene. 3. Delforsøkene er statistisk uavhengige av hverandre. 4. X = antall ganger A inntrer i de n forsøkene. I løpet av hele forsøksrekken vil hendelsen A inntreffe totalt X ganger. Da er X en binomisk fordelt variabel: Punktsannsynligheten til X er gitt ved: ( ) for x = 0, 1, 2, 3,, n Der antall kombinasjoner er: ( ) Her er n! = n (n-1) 3 2 1 Vi definerer 0! = 1 FORVENTNING OG VARIANS dersom X er binomisk fordelt (n,p) KUMULATIV BINOMISK SANNSYNLIGHET(SE TABELL): P(X k) for forskjellige valg av k, n og p. OBS! P(X k) = 1 - P(X k-1), f.eks. P(X 12) = 1 P (X 11) Normalfordeling: En variabel X er normalfordelt med forventningsverdi og standardavvik hvis sannsynlighetstettheten er lik: ~ 9 ~

er populasjonsgjennmsnittet og populasjonsstandardavviket. En normalfordelt variabel er kontinuerlig og fordelinga er symmetrisk om er HVIS DATA ER NORMALFORDELTE/NÆR NORMALFORDELTE, VIL FØLGENDE VÆRE OPPFYLT: Ca 68% av observasjonene vil ligge i en avstand mindre enn fra. Ca 95% av observasjonene vil ligge i en avstand mindre enn 2 fra. Ca 99.7% av observasjonene vil ligge i en avstand mindre enn 3 fra. Standardnormalfordeling: La X være en observasjon fra en normalfordeling med forventning standardavvik. Den standardiserte verdien av X er: og KVANTILER Invers tabellbruk Normaltilnærming av binomisk fordeling: La X være binomisk fordelt med n og p, der n er stor og p ikke for nære 0 eller 1. Da har vi følgende tilnærming: Når er n stor? np 5 n(1-p) 5 ~ 10 ~

Gjennomsnitt som en tilfeldig variabel: Anta at du har n uavhengige observasjoner(x 1, X 2,, X n) fra samme populasjon (tilfeldig utvalg). Dvs. av X-ene er uavhengige, med samme og. Gjennomsnittet er definert som: Sentralgrenseteoremet: La X 1, X 2,, X n være et tilfeldig utvalg fra normalfordeling med forventning standardavvik. Da er gjennomsnittet normalfordelt og Hvis de ikke er normalfordelt, men hvis n er stor nok, vil gjennomsnittet være tilnærmet normalfordelt Kjikvadratfordelingen Kjikvadratfordelingen har bare en parameter, som kalles fordelingens antall frihetsgrader. Jo ferre frihetsgrader, jo mer venstreskjev blir den. Med over 20 frihetsgrader blir den derimot tilnermet normalfordelt. La x 1, x 2,..., x n være uavhengige standardnormalfordelte variabler. Da er summen 2 α kjikvadratfordelt med n frihetsgrader.hvis x-ene er delvis avhengige av hverandre, vil Y være kjikvadratfordelt med et lavere antall frihetsgrader. OBS: Ikke viktig å kunne mye om fordelinga i seg selv, men man bruker den i analyse av kategoriske krysstabeller. Da har Q en tilnærmet kjikvadratfordeling med (r-1) (k-1) frihetsgrader, der r er antall rader og k antall kolonner. Se boka for mer informasjon om kjikvadratfordeling i seg selv. ~ 11 ~

Student t-fordeling En metode som passer bedre enn standardnormalfordeling når man har forsøk med små utvalg, men ellers ganske lik. Får derimot bredere spredningsintervall for T enn for Z. Begge har forventning 0, men variansen er større en 1 i t-fordelingen. Den er (n 1)/(n 3), men går mot 1 når n vokser. Har man mer enn 30 observasjoner kan man ikke se forskjell på de to fordelingene. Hvis vi har n observasjoner i et tilfeldig utvalg fra en populasjon som er er: hvor betyt t-fordelt med n-1 frihetsgrader. Fisher F-fordeling Brukes i f.eks. enveis variansanalyse (kommer senere). Den sammenligner to varianser ved å lage en brøk mellom utvalgsvariansene. OBS: Denne fordelingen er heller ikke så viktig i seg selv, men den brukes i enveis variansanalyse, som er et viktig emne. Frihetsgrader(df = degrees of freedom) Går ut på hvor mange ulike verdier de observerte dataene har mulighet til å ha når man f.eks. vet gjennomsnittet. Er ofte n-1 frihetsgrader, siden den siste verdien må stemme overens med de andre for å gi det riktige snittet. n er antall observasjoner. Man kan derfor regne seg frem til den siste verdien. I modeller hvor man får en linje som verdiene sprer seg rundt har man n-2 frihetsgrader. Det er fordi man bruker opp en i hver ende av linjen, mens resten av verdiene kan fordele seg rundt den. ILLUSTRASJON AV n-1 FRIHETSGRADER: ( ) x 2 er ikke uavhengig. Den er låst siden vi vet at snittet skal være 85 og vet hva x 1 er. Det er derfor ikke frihet igjen til x 2. Her er det derfor n-1 = 2-1 = 1 frihetsgrader. ~ 12 ~

BESKRIVE ET UTVALG Et utvalg bør være representativt og uavhengig av hverandre. Du har en samling uavhengige observasjoner, alle trukket fra en ferdig definert populasjon. Da har vi observasjonene: x 1, x 2,, x n, alle er realisasjoner av tilfeldige variable med samme fordeling og dermed samme forventning og samme standardavvik. Gjennomsnitt i utvalget: Gå ut i fra at vi har gjort n observasjoner eller målinger av en variabel, x 1, x 2,, x n VARIANS OG STANDARDAVVIK Summetegn: Først subtrahere, så kvadrere, så summere, så dividere, så ta kvadratrot ~ 13 ~

ESTIMERING OG HYPOTESETESTING Parameter: En konstant som er med på å beskrive sannsynlighetsfordelingen. F.eks. forventning (populasjonsgjennomsnitt) Normalfordelinga lar seg beskrive av to parametre, forventning og standardavvik. Kjenner man disse parametrene, kjenner man verden. Det er derimot ofte umulig i praksis å finne den eksakte verdien til en parameter. I så fall må man undersøke hele populasjonen. Vi nøyer oss med å estimere (anslå) verdien av parameteren. Dette blir gjort ved å ta et tilfeldig utvalg frå populasjonen og la en funksjon av utvalget være estimatoren (den som anslår) til parameteren. Dermed vil estimatoren være en tilfeldig variabel, slik at to personer som estimerer samme parameter, vil få forskjellig estimat (anslag) hvis de har hvert sitt utvalg. Vi bruker ofte betegnelsen ^ (hatt) for estimatoren, slik at blir tolket som estimatoren for. Gjetter på at utvalget representerer virkeligheten. ( ) ( ) Forventningsrette estimatorer: Anta at man skal estimere en eller annen parameter, t.d., ved hjelp av estimatoren. Siden er en funksjon av utvalget, er den selv en tilfeldig variabel, og dermed har den også en forventning. Dersom E( ) =, sier vi at estimatoren er forventningsrett. Denne egenskapen betyr at i det lange løp vil du verken underestimere eller overestimere dersom du bruker. Du gjør med andre ord ingen systematiske feil. Eks: Dersom man velger får man et forventningsrett estimat av. ~ 14 ~

Standardavvik til estimatorene Estimatorene har en usikkerhet, representert ved deres standardavvik. Er dette stort, er estimatoren usikker og dermed dårlig. Tre krav til estimatorer Estimatoren skal være forventningsrett, Estimatoren skal ha minst mulig varians (evt. standardavvik) Estimatoren sin varians (evt. standardavvik) skal gå mot null når størrelsen på utvalget øker. ESTIMAT FOR (POPULASJONS)STANDARDAVVIKET; Siden (populasjons)variansen er variasjonen i hele populasjonen, er variansen i utvalget vår beste gjetting på populasjonens varians. (Viktig å dividere på n-1 og ikke n. Hvis man dividerer på n, blir forventningen ( ) ), altså en underestimering) PUNKTESTIMERING FOR SANNSYNLIGHETEN (p) I DEN BINOMISKE FORDELINGEN Vi gjør n forsøk der en aktuell hendelse A inntreffer X ganger. Da er X binomisk fordelt. Vi ønsker å estimere sannsynligheten: p = P(A). Vårt beste anslag på denne er den relative frekvensen siden p er andelen av A i populasjon. Estimatoren er forventningsrett, med varians som minker når tallet på forsøk (n) øker. For å halvere usikkerheten, må utvalget firedobles. har størst usikkerhet ved p=0,5. p=0 gir ingen usikkerhet Ingen man kan velge ut. p=1 gir ingen usikkerhet Alle like. Likt utvalg uansett. ~ 15 ~

Estimatoren sin standardfeil(se): Ofte er standardavviket til estimatoren ukjent. er ukjent når er ukjent. er ukjent når er ukjent. Men standardavviket kan igjen estimeres ved henholdsvis: Disse kan regnes ut på bakgrunn av innsamlede data. Det er altså estimert usikkerhet til estimatet. Konfidensintervall(KI) for en parameter (Parameter er en ukjent størrelse som beskriver populasjonen) Et konfidensintervall for en parameter er et intervall på tallinja på formen [a, b], der a og b er tall som blir beregnet på grunnlag av observerte data(og dermed er også a og b tilfeldige, de vil variere hvis du gjentar forsøket.) Intervallet har en egenskap som blir kalt konfidensnivå, (1 - P(a parameter b) = 1 - Hvis er 0,05 vil 1 - være 0,95. Skal man si noe om en ukjent forventning, så er: P(a b) = 0,95 (a, b) er det vi kaller et 95 % KI for EGENSKAPER TIL ET KONFIDENSINTERVALL Konfidensintervallets grenser er tilfeldige (avhenger av de data du samler inn), mens den ukjente parameteren er konstant, og ligger fast på tallinja. Et konfidensintervall vil enten inneholde den ukjente parameteren eller ikke gjøre det. Vi vet ikke om et bestemt konfidensintervall inneholder den ukjente parameteren. Hvis vi gjentar samme datainnsamling mange ganger, antar vi at 95 % av konfidensintervallene ville inneholde den ukjente parameteren (gjelder 95 % konfidensintervall). KONFIDENSINTERVALL FOR EN FORVENTNING, DER VI HAR KJENT STANDARDAVVIK Anta at vi har et tilfeldig utvalg (X1, X2,, Xn) fra en normalfordelt populasjon med forventning og standardavvik (der blir ansett som kjent, mens er ukjent). ~ 16 ~

Et 100(1 ) % konfidensintervall for er gitt ved: [ ] Der er verdien standard normalfordeling, slik at arealet mellom og er lik (1 - ) VERDIER AV OG 100(1 a) 90% 95% 99% 99.9% 0.050 0.025 0.005 0.0005 1.645 1.960 2.576 3.291 Kan ellers bruke tabell over standard normalfordeling til å finne andre verdier. BREDDE(LENGDE) TIL KONFIDENSINTERVALL Intervallet øker dersom konfidensgraden (1,), øker og blir smalere dersom konfidensgraden, (1,) blir mindre. Intervallet blir smalere dersom en øker antall observasjoner. Konfidensintervallet blir smalere dersom vi kan redusere standardavviket Dersom vi setter en øvre grense på lengden til intervallet til L, blir utvalgsstørrelsen (nødvendig antall målinger): ( ) KONFIDENSINTERVALL FOR p Anta at vi observerer en binomisk variabel X med n forsøk, men der p er ukjent. Husk normaltilnærming for binomisk variabel. Hvis X er tilnærmet normalfordelt, er også tilnærmet normalfordelt, der Da er et tilnærmet 100(1- ) % konfidensintervall for p gitt ved [ ] Der er verdien standard normalfordeling, slik at arealet mellom og er lik (1 - ) ~ 17 ~

BESTEMMELSE AV n LENGDE AV INTERVALL Konfidensintervallets lengde L er gitt ved Dersom vi setter en øvre grense L, blir utvalgsstørrelsen(nødvendig antall målinger) ( ) Hvis vi ikke har noen idé om verdien av p, kan vi utnytte at uansett: ( ) Hypotesetesting Ønsker å teste om en ukjent parameter har bestemte verdier eller ligger i et bestemt område. Sett opp nullhypotese og alternativ hypotese. Test: En regel som avgjør om nullhypotesen skal forkastes eller ikke. Ikke forkast nullhypotesen før du er rimelig sikker på at denne er feil. FRAMGANGSMÅTE 1. Finn en passende sannsynlighetsmodell og formuler null hypotesen og den alternative hypotesen. 2. Finn en testobservator (noe du kjenner sannsynlighetsfordelingen til under null hypotesen.) 3. Velg hvor stor sannsynlighet for feilkonklusjon du kan akseptere. 4. Vedta forkastingsområdet sin kritiske grenseverdi. 5. Vi samler inn data, sammenligner observert verdi på testobservatoren med grenseverdien og konkluderer. 6. Eventuelt beregn hvor sannsynlig det observerte er, dersom nullhypotesen er sann TRE GENERELLE HYPOTESER OM EN FORVENTNING H 0: H 1: > H 0: H 1: < H 0: = H 1: Tosidig test en kjent verdi, f. eks 79 kg H 1 er arbeidshypotesen vi vil teste, dvs. den påstanden som krever bevis. Blir kalt den alternative hypotesen. H 0, nullhypotesen, er den motsatte påstanden. Vi anser Nullhypotesen er sann inntil det motsette er bevist. ~ 18 ~

ANTA DU SKAL TESTE: H 0: og H 1: > For en eller annen kjent verdi av Ta utgangspunkt i størrelsen: Naturlig å forkaste H 0 dersom er stor. Dersom er stor vil Z være stor. Z er standard normalfordelt dersom H 0 er sann, der (79 kg i ekempel) er forventning under H 0. Ideen er å si at nullhypotesen må være feil dersom Z er stor. Problemet er å bestemme hvor stor Z må være for at vi skal forkaste H 0 og påstå H 1. FORKASTNINGSOMRÅDET Når er stor? Dersom H 0 er sann, er Z standard normalfordelt og vi kan finne P(Z > z), der z er utregnet verdi. Med andre ord kan vi finne sannsynligheten for det som har inntruffet (eller noe enda mer ekstremt) dersom H 0 er sann. Eller vi kan finne en konstant som har sannsynlighet a for at Z er større enn denne. Da finner vi forkastningsområdet TRE GENERELLE HYPOTESER H 0: H 1: > Forkast H 0 hvis Z er stor ( k 1). H 0: H 1: < Forkast H 0 hvis Z er liten ( k 2). H 0: = H 1: Forkast H 0 hvis Z er liten ( k 3) eller stor ( k 4). ~ 19 ~

TYPER FEIL VED HYPOTESETESTING Naturen/sannheten H 0 rett H 0 feil Din påstand H 0 rett OK Type II-feil H 0 feil Type I-feil OK Type I-feil: Forkaster H 0, selv om den er rett. Type II-feil: Forkaster ikke H 0, selv om den er feil. Type I-feil mer alvorlig enn Type II-feil. Hvis man er for redd for å gjøre Type I-feil, gjør man nesten alltid Type II-feil. Statistisk signifikans I hypotesetesting er det vanlig å stille krav til en test. = P(forkaste H 0 dersom H 0 er sann). Det er det samme som = P(type 1 feil). blir kalt signifikansnivået til testen. Det er denne feilen vi vil ha kontroll på. Det er vanlig å velge signifikansnivået = 0.05, men mange andre nivå er mulig å velge. Hvis = 0.05 er k 1.64 SIGNIFIKANS OG FORKASTNINGSOMRÅDE Dersom du tester: H 0: H 1: > med signifikansnivå. Finn en k slik at P(Z k) =, Forkast H 0 dersom Z k, eventuelt. Alle må kunne finne k, og dermed teste sitt forkastningsområde. Testen sitt signifikansnivå er, det samme som maksimalt sannsynlighet for type I-feil. P-VERDI GENERELT Sannsynligheten for at testobservatoren har den utregnede verdien eller en mer ekstrem, dersom en antar at H 0 er sann, blir kalt for p-verdien. p-verdien forteller oss hvor stor grunn vi har til å tvile på H 0. Dersom p-verdien er liten, blir H 0 forkasta og vi påstår at H 1 er den mest riktige konklusjonen. Grensa for p -verdien blir gjerne sett ved 0.05 eller 0.01. ~ 20 ~

SAMMENHENG MELLOM BRUK AV p-verdi OG SIGNIFIKANSTESTING P -verdi: Sannsynligheten for å få et resultat som er minst like ekstremt som det observerte resultatet hvis H 0 er rett. Signifikansnivå : Den største Sannsynligheten for å feilaktig forkaste H 0 som vi er villige til å akseptere. Dersom p-verdien for en testobservator er lik eller mindre enn signifikansnivå, sier at data gir grunnlag for å forkaste nullhypotesen med statistisk signifikans. Altså: Bestem signifikansnivå, og forkast H 0 dersom p-verdien er mindre enn. MER OM p-verdi OG SIGNIFIKANSNIVÅ Dersom H 0 er sann, er Z standard normalfordelt og vi kan finne Enten en konstant k, som er slik at P(Z > k) = Eller vi kan gå rett på det observerte P(Z > observert ) Med andre ord kan vi finne sannsynligheten for det som har inntreffet (eller noe enda mer ekstremt) dersom H 0 er sann. Det første kalles testing på signifikansnivå, det andre p-verdi Tosidige tester (Alternativet er ulikt fra ensidige tester) H 0: = H 1: TOSIDIGE TESTER p-verdi Dersom H 0 er sann, er Z standard normalfordelt. At er stor eller liten, er det samme som at er stor. Merk at p-verdien blir dobbelt så stor som for en ensidig test, Z er lik. TOSIDIGE TESTER SVIGNIFIKANSNIVÅ Finn en k slik at P( Z > k) =. Da må k = F.eks = 0.05, da må = 1.960. = 0.05 /2 = 0,025 = 1,96 Ved ensidig test er det nok at = 1.645. ~ 21 ~

Nivå ( ) 0.100 1.282 0.050 1.645 0.025 1.960 0.010 2.326 0.005 2.576 0.001 3.090 Ved tosidige tester, finn halve nivået slik at du har. Eks: nivå 0.1 (10%) tosidig test, da = 1.645. SAMMENHENG MELLOM TOSIDIGE TESTER OG KONFIDENSINTERVALL H 0: = H 1: Tosidig test: Test denne på nivå, da vil alle verdier av som faller utenfor et (1 )100 % KI bli forkastet. Et konfidensintervall kan betraktes som en samling tosidige tester som ikke kan forkastes p = 0,182 90 % KI - intervall dekker 80 % KI - intervall dekker ikke. Test av p i binomisk fordeling Anta X er binomisk fordelt (n, p) For eksempel ønsker vi å teste H 0: p p 0 H 1: p > p 0. der p 0 er en kjent verdi Hvis n er liten, kan du regne ut testens p-verdi direkte. Dersom du observerer at X = k, finn P(X k) dersom H 0 er sann. Husk at p-verdien er sannsynligheten for det observerte eller noe som er enda mer ekstremt. TEST AV BINOMISK SANNSYNLIGHET NÅR n ER STOR Vi har tidligere sett at når n er stor nok, så kan du tilnærme med normalfordeling. ~ 22 ~

Under H 0: p = p 0, vil Oppsummering hypotesetest av p Ved signifikansnivå. Anta du skal teste H0: p = p0. Alternativ hypotese o Dersom H 1: p > p 0, forkast H 0 dersom Z > o Dersom H 1: p < p 0, forkast H 0 dersom Z < - o Dersom H 1: p p 0, forkast H 0 dersom Z > der: ~ 23 ~

SAMMENLIGNING AV GRUPPER Parvis sammenligning Et par er en organisering av forsøket som gjør at gruppene blir sammenlignet under relativt homogene betingelser. Målet er å fjerne (eller redusere) uønsket variasjon som ikke er av interesse for forsøke, men som vil forkludre resultatet. Observasjoner innen par vil da være avhengige, mens det er uavhengighet mellom par. Avhengigheten innen par gjør at man får tilnærmet like betingelser for testene. EKSEMPLER PÅ PAR: - Høyre og venstre fot kan teste hver sin joggesko - To griser fra samme kull kan teste hvert sitt fôr. - To arealer ved siden av hverandre kan ha hver sin sort korn. - Før og etter resultater hos en enkeltperson kan si noe om treningsmetode. METODEN: Metoden går ut på å sammenligne differansen innad i parene, noe som gjør at man ikke får støy i forhold til at noen par i utgangspunktet er flinkere, bedre etc. Vi har følgende par av X og Y, samt differansen. Par X Y Differanse 1 X 1 Y 1 D 1 = X 1 - Y 1 2 X 2 Y 2 D 2 = X 2 - Y 2........ n X n Y n D n = X n Y n D i = X i Y i i = 1, 2,..., n E(X i) = µ 1 og E(Y i) = µ 2 E(D i) = µ 1 - µ 2 = µ d Var(D i) = σ d 2 D i~n(µ d, σ d) µ d - Gjennomsnittlig forskjell i par µ d = 0 betyr at det ikke er forskjell µ d > 0 betyr at µ 1 er større enn µ 2 HYPOTESETEST AV µ d ved signifikansnivå α ~ 24 ~

Alternative hypoteser: - Dersom µ 1 > µ 2, forkast H 0 dersom T > t α - Dersom µ 1 < µ 2, forkast H 0 dersom T < -t α - Dersom µ 1 µ 2, forkast H 0 dersom T > t α/2 der: som er t-fordelt med n-1 frihetsgrader under H 0, der n er antall par. Når man tester under H 0 forsvinner den ukjente variabler: og vi står igjen med kjente ( ) Man slår opp verdier i tabell eller lar dataen regne. k p-verdi KONFIDENSINTERVALL FOR FORVENTET DIFFERANSE VED PARVISE DATA Et 100(1 α) % konfidensintervall for µ d er gitt ved 0,95 -k 0 k Verdien 0 har her stor fokus, siden 0 betyr at det ikke er noen differanse. Hvis konfidensintervallet inneholder 0 gjør det at man ikke kan forkaste H 0. To uavhengige utvalg Man har ikke en type data som gjør det naturlig å konstruere par. Ethvert forsøk på å skape par vil være unaturlig og ikke fungere til å teste parvis. I uavhengige utvalg kan man ha stor variasjon innad, noe som gjør at forskjell mellom A og B kan drukne. Man sammenligner forventningene i to grupper, som for parvis sammenligning, men her er det også uavhengighet innen gruppene i tilegg til mellom gruppene. Vi har full randomisering. POPULASJON Gruppe Variabel Snitt Standardavvik 1 X µ 1 σ 1 2 Y µ 2 σ 2 ~ 25 ~

UTVALG/DATA Gruppe Observasjoner Snitt Standardavvik 1 n 1 S 1 2 n 2 S 2 Vi ønsker å undersøke differansen µ 1 - µ 2, men vi ser ikke på differansen mellom enkeltobservasjoner. ESTIMERING AV µ 1 - µ 2 OG σ Felles (interpolert) varians(s pooled) blir da estimert med: Hvis n 1 = n 2 = n: OBS: At σ 1 = σ 2, dvs. samme standardavvik i begge grupper, er en modellantagelse. Den kan enten grunngis ved fagkunnskap, eller ved å se etter om S 1 og S 2 er relativt like. De vil derimot ikke bli helt like selv om standardavviket er likt, siden S 1 og S 2 er basert på observasjoner. En (veldig) grov tommelfingerregel er at hvis med moderat antall observasjoner, kan man anta at σ 1 = σ 2 FORDELINGSEGENSKAPER er t-fordelt med (n 1 + n 2-2) frihetsgrader ~ 26 ~

Kan brukes til å teste hypotesene som er det samme som ET 100 %(1 - α) KONFIDENSINTERVALL FOR DIFFERANSEN der er en tabellverdi med (n 1 + n 2-2) frihetsgrader. Hvis intervallet dekker 0 kan man ikke si at det er en forskjell. Variansanalyse Varians inne i gruppe er uforklart og kan omtales som støy. Vi har ikke data som kan forklare det. Variasjon mellom gruppene forklares ved hjelp av faktoren/gruppen de sorteres etter. Variansanalysen er en generalisering av to-utvalgs T-testen og benyttes for å kunne sammenligne gjennomsnitt i mange grupper samtidig. Analysen kalles ofte ANOVA Analysis of variance Hovedpoenget med variansanalysen er å sammenligne variasjonen innad i gruppene med variasjonen mellom gruppene. Enveis variansanalyse Vi har k grupper vi vil sammenligne med hensyn på en eller annen respons. La Y ij være observasjon nr. j fra gruppe i. der i = 1, 2,.., k og j = 1, 2, 3,..., n Antall observasjoner: N = n 1, n 2, n 3,..., n k Totalt gjennomsnitt: Totalt standardavvik: S T Gjennomsnitt i gruppe i: Standardavvik i gruppe i: S i ~ 27 ~

OPPSPLITTING AV DATA Observasjon = signal(det jeg forstår) + støy(det jeg ikke forstår) ( ) Vi kan trekke fra totalgjennomsnittet på hver side: ( ) Avvik fra totalt snitt = gruppas avvik fra totalt snitt + tilfeldig avvik i hver gruppe KVADRATSUMMER Kvadrer begge sider av likhetstegnet. Summer deretter begge sider av likningen for alle verdier av i og j. Da får du følgende tre kvadratsummer: ( ) SS G er da et uttrykk for variasjon mellom grupper SS E er et uttrykk for variasjon innen grupper SS T = SS G + SS E Dvs. Total variasjon = forklart variasjon + uforklart variasjon Hvis SS G er stor i forhold til SS E er det naturlig å anta forskjell mellom grupper. MODELL FOR ENVEIS VARIANSANALYSE Anta at vi har k grupper med n i observasjoner i gruppe i. Anta at disse er et tilfeldig utvalg fra en normalfordeling med forventning µ i, i = 1, 2,, k og standardavvik σ (merk at standardavviket antas likt i alle grupper). Dvs: eller ESTIMERING AV PARAMETRE Modellen i enveis variansanalyse inneholder k + 1 parametre. Dvs. alle k gruppene og standardavviket. ~ 28 ~

Forventning i hver gruppe blir estimert ved utvalgsgjennomsnittet Felles standardavvik blir estimert ved: Varians er, også kjent som MS E som nevnt ovenfor. Dette er vårt beste estimat på den ukjente variansen σ 2. Standardfeilen til er: Altså: ANDEL FORKLART VARIASJON: Andelen variasjon som er forklart av modellen(gruppene) VARIANSANALYSETABELL SS df MS F P Variasjonskilde Kvadratsum Frihetsgrader Varians F-verdi p-verdi Mellom gr. SSG k 1 Innad i gr. SSE N k Total SST N 1 HYPOTESETESTING ~ 29 ~

Under H 0 vil alt være helt likt. H 1 sier ikke noe om hvor forskjellen ligger, bare at minst to av gruppeforventningene er ulike. FORKASTE H 0 - Hvis vi observerer SST er det naturlig å forkaste H 0 hvis SS G er stor. - Det er det samme som at SS E må være liten, siden summen er fast. - Derfor er det også naturlig å forkaste H 0 hvis SSG/SSE er stor - Blir naturlig å forkaste H 0 dersom er stor: NÅR F ER STOR Under H 0 er F Fisher-fordelt (f-fordelt) med (k 1) og (N k) frihetsgrader. Lat som om H 0 er sann. Da har F en kjent fordeling, og vi kan regne ut sannsynligheten for å få en stå stor F som den vi fikk. Hvis det er veldig usannsynlig, forkaster vi H 0. Verdier for F finner man ved å bruke tabellen som ligger vedlagt. (k-1) settes som v 1. (N-k) settes som v 2. α er sannsynligheten for å få verdien Fα. α er p-verdien. Kontraster og enveis variansanalyse Hvis vi forkaster H 0, vet vi allikevel ikke hvor forskjellen mellom gruppene ligger. Kontraster til forventningene sier noe om dette. Kontraster er lineærkombinasjoner av forventninger som uttrykker det vi er interessert i. Den ser på forskjellen mellom gruppene. En forskjell mellom forventningene i de k gruppene kan måles på forskjellige måter, for eksempel ved: ~ 30 ~

( ) ( ) Det er viktig at summen av parametrene blir 0, dvs. at alle parametrene teller like mye så man finner forskjellen mellom dem. Slike lineære funksjoner kalles kontraster, i parametrene 1, 2, 3,, k. De er viktige og mye brukt i variansanalysen. Generelt er en slik kontrast en lineær funksjon på formen: der er konstanter og oppfyller betingelsen at er tallene man ganger µ med for å balansere den lineære funksjonen. Det er naturlig å estimere forventningene i hver gruppe med tilsvarende gjennomsnittene i observasjonen, dvs: En fornuftig estimator for kontrasten θ er dermed: er forventningsrett, mens var( ) kan estimeres forventningsrett ved: ( ) ( ) T kan brukes til å teste hypoteser, f.eks. ~ 31 ~

Analyse av kategoriske krysstabeller (toveistabeller) En krysstabell (kontigenstabell) er en tabell som oppsummerer resultatet fra et forsøk der en registrerer to kategoriske variable. Individene blir kvalifisert etter disse to variablene. I tabellen teller vi opp hvor mange som kommer i snittet av to kategorier. En variabel kalles rad-variabel og den andre kalles kolonne-variabel. En har r kategorier for rad-variabelen og k kategorier for kolonne-variabelen. I eksempelet er status kolonne-variabel og røykevaner er rad-variabelen. OBS: Fordelingen er binomisk. BETINGET FORDELINGSRESULTAT DATASTRUKTUR ~ 32 ~

R i totalt antall enheter med radkjennetegn A i K j totalt antall enheter med kolonnekjennetegn B j HYPOTESER I TOVEISTABELLER H 0: Det er ingen sammenheng mellom kolonne- og radvariable, de er uavhengige. H 1: Det er sammenheng mellom kolonne- og radvariable, de er avhengige. - Vi har n (uavhengige og tilfeldig valgte) observasjoner fra en populasjon og noterer hvilken kategori hver av disse kommer i for to kategoriske variable. - Variabel 1 (radvariabelen) har kategori A 1, A 2,, A r. - Variabel 2 (kolonnevariabelen) har kategori B 1, B 2,, B k. - Tell deretter opp hvor mange som har kommet i snittet (A i, B j) for alle par i og j. Kall dette antallet X ij. Denne er binomisk fordelt med n og sannsynlighet p ij = P (A i B j). Hvis begivenhetene A i og B j er uavhengige, vil ( ) ( ) Vi får dermed: ( ) ( ) ( ) ( ) UAVHENGIGHET MELLOM TO VARIABLE Vi kan estimere slik: ( ) Dersom det er uavhengighet mellom kolonnevariabelen og radvariabelen, dvs. hvis H 0 er sann, vil forventet antall ( ( )) observasjoner i celle (i, j) bli ( ) ( ) ( ) ( ) EKSEMPEL OBSERVERTE OG FORVENTEDE VERDIER ~ 33 ~

FORKASTE H 0 Vi forkaster H 0 dersom det er store avvik mellom de observerte verdiene x ij og de forventa (under H 0) verdiene E ij. Da er følgende stor: ( ) FORDELING UNDER NULLHYPOTESEN Vi har sannsynlighetsfordelinga til Q under H 0. Dermed kan vi finne en konstant, k, som er slik at dersom H 0 er sann, er det sannsynlighet α for at Q skal bli større enn denne. Dvs. P(det inntrufne) dersom H 0 er sann. Hvis H 0 er sann, følger Q (tilnærmet) det vi kaller en kjikvadratfordeling med (r-1) (k-1) frihetsgrader, der r er antall rader og k er antall kolonner. Kjikvadratfordeling skrives og fordelingen finner man i en tabell. 2 α ~ 34 ~

ANALYSE AV SAMMENHENGER Generelt Noen ganger er det forskjell på betydningen av to variable, X og Y: RESPONSVARIABELEN (Y) er selve målet for den undersøkelsen vi foretar. Den blir ofte kalt den avhengige variabelen. FORKLARINGSVARIABELEN (X) forklarer eller gir årsaken til noe av variasjonen i responsvariabelen. Den blir ofte kalt den uavhengige variabelen. Vanligvis oppfatter vi den ene variabelen Y som en funksjon av den andre, X. Det fremgår vanligvis av teksten hva som er hva. EKSEMPLER VEKT OG HØYDE Respons er vekt, forklaringsvariabel er høyde Man kan da se på hvordan høyde påvirker vekt, og se hvordan vekten øker når man blir høyere. Det blir mindre fornuftig å se på hvorda vekt bestemmer høyde. Her er begge kontinuerlige. VEKT OG KJØNN Respons er vekt, forklaringsvariabel er kjønn. Her kan man se på hvor stor vektforskjell det er mellom kjønn. Forklaringsvariabelen er her kategorisk( jente og ikke jente ) SJUKDOM OG KJØNN Respons er sjuk/ikke sjuk, forklaringsvariabelen er kjønn Her er begge kategoriske. Første møte med data Hvis man skal studere sammenhenger mellom to numeriske variable tegner man et spredningsplott(scatterplot). Et spredningsplott viser sammenhengen mellom to variable som er målt på de samme objektene. Verdiene til de to variablene finner man på x-aksen og y-aksen, og hvert objekt opptrer som et punkt i plottet. Plasseringen er da bestemt med verdier fra begge variablene. Målet er å finne matematiske modeller for å beskrive sammenhengen mellom to variable. Det kan f.eks. være en lineær linje eller en 2. gradskurve. Vurdere et spredningsplott Når man har et spredningsplott ser man etter mønstre eller avvik fra slike mønstre. Det man ofte bruker for å beskrive det er: - Retning - Form - Styrke ~ 35 ~

Tallfeste spredning Det holder ikke å bare vite senter og spredning for å studere sammenheng mellom variable. Dette ser man av eksempelet under hvor man har samme gjennomsnitt og standardavvik for både Y1 og Y2. Descriptive Statistics: X; Y1; Y2 Variable N Mean StDev X 10 5.500 3.028 Y1 10 5.500 3.028 Y2 10 5.500 3.028 Korrelasjon Tallfesting av sammenheng mellom to variable. Korrelasjon måler styrke og retning av den lineære sammenhengen. Korrelasjonskoeffisien blir vanligvis kalt r, og er gitt ved: Vi har n observasjonspar (x 1, y 1), (x 2, y 2),..., (x n, y n) S xy er en estimator for kovariansen Cov(x, y) og defineres s x og s y er standardavvik. Får man oppgitt s xx og s yy tar man kvadratroten. OBS: Dette pleier man å la dataen regne ut. ~ 36 ~

KORRELASJONSKOEFFISIENTEN(r): - Skiller ikke mellom variablene. - Krever at begge variable er kvantitative(numeriske) - Blir ikke forandret dersom vi forandrer skala - Dersom r > 0 indikerer det at det er en positiv sammenheng mellom variable - Dersom r < 0 indikerer det en negativ sammenheng mellom variable. - Dersom r = 0 er det ingen lineær sammenheng mellom variable. - r vil alltid være et tall mellom -1 og +1 - r måler styrken av den lineære sammenhengen mellom to kvantitative variable - r beskriver ikke sammenhengen mellom to variable der denne har form som en ikke-lineær kurve. ULIKE FORMER FOR SAMMENHENG MELLOM TO VARIABLE SVAKHETER - Sier ikke noe om årsak/virkning. - En linje som følger en 2. gradsfunksjon kan f.eks. få r = 0, se illustrasjon - Data som følger en rett linje kan får en lavere r hvis man har fått inn feildata som gjør at en enkelt observasjon skiller seg ut. - Har mange svakheter, så man må se dottplottet i tilegg. ~ 37 ~

Lineær regresjon En regresjonslinje er en rett linje som beskriver hvordan responsvariabel(y) forandrer seg når forklaringsvariabelen (x) forandrer seg α er der linja skjærer y-aksen og verdien man får når x = 0. Er ikke alltid man kan tolke denne på en fornuftig måte, men gir mening i noen tilfeller. β er stigningstallet til linja. Det er den verdien Y øker med når x øker med 1. MODELL FOR LINEÆR REGRESJON Anta at du har n uavhengige observasjoner av (Y, x). For hver av disse antar vi: e i-ene er enkeltmålingenes avvik fra linjen. Hvis man ikke tar med dette leddet antar man at alle med samme x-verdi får samme y-verdi, altså ingen spredning. Y kan deles inn i en forklart del og en uforklart del. Feilleddet er en tilfeldig størrelse som forstyrrer den lineære sammenhengen. Modellen medfører: Y i-ene er uavhengige Y i er normalfordelt som skal bli forstått Y x PARAMETRE I REGRESJONSMODELLEN Modellen har 3 ukjente parametre som må tolkes konkret for datamaterialet man jobber med: α, β og σ ESTIMERING AV PARAMETRE: MINSTE KVADRATERS REGRESJONSLINJE Vanligvis er parametre ukjente og må dermed estimeres. Minste kvadraters metode for å estimere regresjonslinja går ut på å tilpasse den linja som passer best mulig til data etter følgende kriterium: - Bestem estimatene for α og β (og dermed linja) slik at kvadratsummen av alle vertikale avvik mellom de observerte datapunktene og linja blir minst mulig. ~ 38 ~

Minste kvadraters linje er Legg merke til at stigningstallet er proporsjonalt med korrelasjonen Legg merke til at linja går gjennom punktet FORKLART OG UFORKLART DEL Vi har modellen Vi kan dele opp den observerte Y i: - Forklart del: - Uforklart del: - er ukjent. Derimot kan den anslås ved det vi kaller residual: ( ) KVADRATSUMMER(SS sum of squares) Vi har ( ) eventuelt Da kan vi også skrive: ( ) ( ) ( ) ( ) ( ) ( ) ( ) ~ 39 ~

ESTIMERING AV σ: ( ) ANDEL VARIASJON FORKLART AV MODELLEN(r 2 ) r 2 er lik korrelasjonen opphøyd i annen. Hvis r = 0,9 vil man derfor kunne forklare 81 % av variasjonen ved en lineær sammenheng. Stor σ gir liten r 2, og stor r 2 gir liten σ. KVALITET PÅ ESTIMATENE Estimatene er normalfordelte og forventningsrette, men og ikke uavhengige. ( ) Variansen til regresjonskoeffisienten: ( ) Variansen blir mindre hvis man får en større n. Det gir mindre variasjon.. Standardfeilen til ( ) ( ) ( ) FORDELINGSRESULTAT FOR Vi har resultat: Da er - er forventningsrett estimat for - ( ( )) ( ) SAMMENHENG MELLOM X OG Y - HYPOTESER Man vurderer om det er en sammenheng eller tilfeldigheter som gjør at den estimerte regresjonslinjens stigningstall er forskjellig fra null. ~ 40 ~

Hvis β = 0 betyr det ingen sammenheng mellom de to variablene x og Y, siden x- leddet forsvinner. FORKASTE H 0 VED SIGNIFIKANSNIVÅ α: - - - TESTING AV β ( ) Hvis man tester ( ) mot et eller annet alternaltiv, vil Dermed har man bare kjente verdier og kan regne ut T. Se tabellverdi. KONFIDENSINTERVALL FOR β Et 100(1-α)% konfidensintervall for β er gitt ved: ( ) Det er interessant om intervallet dekker 0, siden dette sier noe om det er sammenheng mellom x og Y. kan forkastes hvis 0 ikke befinner seg inne i intervallet, siden det er innholdet i intervallet man tror på. ˆ FORVENTET RESPONS NÅR VI KJENNER X ESTIMERING AV E(Y X 0) Et naturlig estimat for dette er Standardfeilen for estimatet er gitt ved ( ) ( ) ~ 41 ~

KONFIDENSINTERVALL FOR FORVENTET RESPONS Et 100(1 α)% konfidensintervall for E(Y x 0) er gitt ved ( ) ( ) Prediksjon innen lineær regresjon Anslå verdien av en enkelt observasjon. Vi har sett på forventet respons(i betydning gjennomsnitt for hele populasjonen) for en gitt verdi av x. Nå skal vi se på en enkelt observasjon. En av hovedmålsettingene ved regresjonsanalyse er å utføre prediksjon, dvs. beregne verdier av ukjent Y på grunnlag av den kjente x. Eks. Hvor mye man anslår at en person veier når vi kjenner høyden. Vi kan regne ut et intervall som med en viss sikkerhet inneholder den ukjente responsen, et prediksjonsintervall. FORSKJELL PÅ ESTIMERING OG PREDIKSJON Merk at i den ene situasjonen skal vi estimere en forventning E(Y x 0), populasjonsgjennomsnittet for Y for alle med samme x, altså hvor linja går i det punktet. I den andre situasjonen skal vi prøve å anslå verdien på en tilfeldig variabel, Y, når vi kjenner x. Vi bruker i begge situasjonene. Hver enkelt observasjon er mer usikker enn gjennomsnittet, siden det i snitt vil jevne seg ut. En enkelt observasjon kan derimot ha store avvik, både til den ene og den andre siden. I tilegg til usikkerheten knyttet til hvor linja skal gå, må vi ta hensyn til usikkerheten som skylder feilleddet e. Derfor er prediksjonsintervallet(for observasjonene) bredere enn konfidensintervallet(for den ukjente linja) PREDIKSJONSINTERVALL Et 100(1 α)% prediksjonsintervall er gitt ved ( ) Forskjellen fra konfidensintervallet er at man legger til 1 under rottegnet. ~ 42 ~

BREDDEN TIL INTERVALLENE Konfidensintervall: n Bredden 0 hos KI for E(Y x 0) Prediksjonsintervall: n Bredden Hvis s = 0 rett linje Prediksjonsintervallene blir ofte veldig brede, med stor usikkerhet. Det er mange usikre elementer. Modellkritikk av lineær regresjon - Følger ikke alltid en rett linje (residual) Residualene summerer seg alltid til 0. Dermed er snittet lik 0. - Er ikke nødvendigvis konstant varians Forutsetning for residualene hos modellen o Uavhengige o o Konstanten er uavhengig av x o Dottplottet skal heller ikke vise mønster Støy har ingen struktur! ~ 43 ~

GENERELT Konfidensintervall Bredden varierer med n: Flere frihetsgrader gir en annen t. Flere data gir et smalere intervall ENSIDIG OG TOSIDIG TEST I statistikkprogrammer får man oppgitt p-verdien til tosidig test. Hvis man halvverer verdien kan man få ensidig test. Hvis man har p-verdien til en ensidig test, kan man doble verdien for å finne for tosidig test. p-verdi p-verdi er sannsynligheten for det observerte eller noe enda mer ekstremt hvis H 0 er sann. Dvs. sannsynligheten for å observere det man observerer, som kan ligge ganske langt unna hypotesen, hvis H 0 er sann. Hvis p-verdien er veldig liten, kan man forkaste H 0. Hvor liten bestemmes av hvor stor sikkerhet man godtar og om det er en ensidig eller tosidig test. Det er vanlig å forkaste H 0 hvis p-verdien er mindre enn 0,050. α-verdien sier hvor stor usikkerhet man har, f.eks. 0,050, som er 5 % usikkerhet. Merk: tester man tosidig, må man bruke α/2, siden man får en usikkerhet i hver ende av skalaen. α = 0,050 i en ensidig test gir 95 % sikkerhet. For å få samme sikkerheten i en tosidig test må man ha α = 0,025, siden den usikkerheten i hver ende etterlater et sikkert intervall på 95 %. SAMMENHENG MELLOM α-verdi OG P-VERDI p-verdien er det minste valget av α-verdien som vil lede til forkastning av H 0 på grunn av de observerte data. VERDIER PÅ GRAFEN I de ulike modellene regner man ofte ut en verdi, f.eks. T, og sammenligner så mot tabellverdien for metoden. Tabellverdien settes som k og hvis T-verdien befinner seg utenfor, altså er større i forhold til illustrasjonen, forkastes H 0. Arealet α er da sikkerheten man tester på, og man ser om sannsynligheten er større eller mindre. Hvis man regner ut på data, kan derimot den finne den eksakte p-verdien til resultatet. Setter man resultatet som k er dermed arealet α lik p-verdien og den eksakte sannsynligheten for det observerte. Ulike navn for estimert standardavvik ~ 44 ~

Forkastningsområde ved ulike tester Her er et eksempel fra lineær regresjon, men forkastningsområdene er det samme i andre tester også. Hypotesene vil bare skrives annerledes: - - - Skrivemåter ved utregning MODELLBRUK Når man regner ut er det viktig å ta med hvilke modell man bruker, og forklare de ulike verdiene og parametrene. EKSEMPEL PÅ FØRING AV MODELL Y i = + x i + e i der e i -ene er uavhengige og N(0, ). Y i er avling nr. i, og x i er såtid nr i. i = 1, 2,....14. Estimater (fra utskrift) ˆ 554.5 ˆ 2,82 ˆ 21.8 Dersom vi sår 1, april estimerer vi gjennomsnittsavling til 554,5 kg Foreventet tap i avling pr sådag utsatt estimeres til 2,82 kg. Spredning (standardavvik) for avling med samme såtid estimeres til 21,8 kg. GJENNOMFØRING AV ULIKE TESTER Når man bruker ulike tester, f.eks. T-test, bør man få med hvilke nivå man tester på, antall frihetsgrader etc. En grei måte å skrive dette på er: EKSEMPEL PÅ FØRING AV T-TEST T = y y 1 2 = 1 1 1 1 S p n 0.4715 n 10 10 1 2 4.51 3.93 = 2,75 > t 0.05,27 = 1.703 ~ 45 ~

PROGRAMMET R Ord og uttrykk I LINEÆRREGRESJON: KJIKVADRATFORDELING ~ 46 ~

TABELLER Kumulativ binomisk sannsynlighet KUMULATIV SANNSYNLIGHET P(X k) finnes i tabellen P(X k) = 1 - P(X k-1) ~ 47 ~

Kumulativ poissonfordeling ~ 48 ~

Kumulativ standardnormalfordeling ~ 49 ~

Standardnormalfordelingens kvantiltabell ~ 50 ~

t-fordelingens kvantiltabell TABELL TIL NÅR σ ER UKJENT 5 frihetsgrader, =0,05 og ukjent σ gir t = 2,015 5 frihetsgrader, =0,05 og kjent σ gir t = 1,645 ~ 51 ~

Kjikvadratfordelingens kvantiltabell ~ 52 ~

Tabell for Fisher F-fordeling ~ 53 ~