Regler i statistikk STAT 100

Save this PDF as:
 WORD  PNG  TXT  JPG

Størrelse: px
Begynne med side:

Download "Regler i statistikk STAT 100"

Transkript

1 TORIL FJELDAAS RYGG - VÅREN 2010 Regler i statistikk STAT 100 Innhold side Sannsynlighetsregning 3 - Uttrykk 3 - Betinget sannsynlighet 4 - Regler for sannsynlighet 4 - Bayes teorem 4 - Uavhengige begivenheter 5 - Telleregler: Kombinatorikk 5 Summenotasjon 6 Stokastiske(tilfeldige) variabler 7 - Varians og standardavvik 7 - Kontinuerlige sannsynlighetsmodeller 7 - Flere variable: Lineærkombinasjoner 8 - Uavhengighet 8 Vanlige sannsynlighetsmodeller 9 - Binomisk fordeling 9 - Normalfordeling 9 - Standardnormalfordeling 10 - Normaltilnærming av binomisk fordeling 10 - Gjennomsnitt som en tilfeldig variabel 11 - Sentralgrenseteoremet 11 - Kjikvadratfordelingen 11 - Student t-fordeling 12 - Fisher F-fordeling 12 - Frihetsgrader 12 Beskrive et utvalg 13 - Gjennomsnitt 13 - Varians og standardavvik 13

2 Estimering og hypotesetesting 14 - Parametere 14 - Forventningsrette estimatorer 14 - Standardavvik til estimatorene 15 - Estimatoren sin standardfeil 16 - Konfidensintervall for en parameter 16 - Hypotesetesting 18 - Statistisk signifikans 20 - p-verdi generelt 20 - Tosidige tester 21 - Test av p i binomisk fordeling 22 - Oppsummering av hypotesetest av p 23 Sammenligning av grupper 24 - Parvis sammenligning 24 - To uavhengige utvalg 25 - Variansanalyse 27 - Enveis variansanalyse 27 - Kontraster og enveis variansanalyse 30 - Analyse av kategoriske krysstabeller 32 Analyse av sammenhenger 35 - Generelt 35 - Første møte med data 35 - Vurdere spredningsplott 35 - Tallfeste spredning 36 - Korrelasjon 36 - Lineær regresjon 38 - Prediksjon innen lineær regresjon 42 - Modellkritikk av lineær regresjon 43 Generelt 44 - Konfidensintervall 44 - p-verdi 44 - Ulike navn for estimert standardavvik 44 - Forkastningsområde ved ulike tester 45 - Skrivemåter ved utregning 45 Programmet R 46 - Ord og uttrykk 46 Tabeller 47 - Kumulativ binomisk sannsynlighet 47 - Kumulativ poissonfordeling 48 - Kumulativ standardnormalfordeling 49 - Standardnormalfordelingens kvantiltabell 50 - t-fordelingens kvantiltabell 51 - Kjikvadratfordelingens kvantiltabell 52 - Fisher F-fordeling 53 ~ 2 ~

3 SANNSYNLIGHETSREGNING Tilfeldighet: Individuelle hendelser som ikke kan forutsies. Allikevel et system som beskriver hvor ofte de opptrer i det lange løp. Sannsynlighet: Andel ganger en hendelse opptrer i det lange løp. Utfall: Resultat av et enkelt forsøk. Utfallsrom(S): Alle mulige utfall et forsøk kan ha. (S Sample space) Begivenhet/hendelse: Ett eller flere utfall som tilfredsstiller visse karakteristika. En hendelse inntreffer hvis resultatet av forsøkene blir ett av de karakteristiske utfallene. Eks: Minst 3, Partall Diskrete utfallsrom: Utfall som kan nummereres. Kontinuerlige utfallsrom: Inkluderer alle verdier i et intervall på tallinjen. P(A): Sannsynligheten for en hendelse A. (Probability) Relativ frekvens: A etter n forsøk. Antall ganger A har inntruffet Totalt antall forsøk(n) Dersom n blir stor nærmer seg relativ frekvens Uniform sannsynlighet: Alle utfall har like stor sjanse for å inntreffe. P(A) = Antall gunstige utfall for hendelsen A Antall mulige utfall A B AUB = A og/eller B - Union A B A B = A og B - Snitt A B = Ikke A - Komplement A B Begge kan ikke - Disjunkte inntre samtidig A B = Ø (Den tomme mengde) ~ 3 ~

4 Betinget sannsynlighet A B betyr - A dersom B allerede har skjedd/ - A dersom vi kjenner B/ - A gitt B P(A B) betyr - sannsynligheten for A når vi vet at B har inntruffet - sannsynligheten for A gitt B Regler for sannsynligheter 0 P(A) 1 Dersom S er hele utfallsrommet er P(S) = 1 P(Ø) = O, der Ø er tom mengde og ikke kan skje P(A) = Antall gunstige utfall for hendelsen A Antall mulige utfall P(A) + P( ) = 1 P(AUB) = P(A) + P(B) P(A B) P(A B) = A B Telt to ganger P(A B) = P(A B) P(B) = P(B A) P(A) P(A 1 A 2 A 3) = P(A 1) P(A 2 A 1) P(A 3 A 1 A 2) P( B) = 1 P(A B) (Gitt B. Enten A eller ) A B P(A B) P( B) Antall B P(A ) P( ) Antall Antall A Antall 1 Finne sannsynlighet: P(A) = P(A B) P(B) + P(A ) P( ) (1-P(B)) Bayes teorem: Finne P(A B) når vi vet P(B A) P(A B) = Fordi: P(A B) = = = ~ 4 ~

5 Uavhengige begivenheter A og B er uavhengige hvis P(A B) = P(A) Kunnskap om at B har inntruffet endrer ikke sannsynligheten for A: P(A B) = = P(A) Får man mynt 1 gang, påvirker det ikke neste kast. P(A B) = P(A) P(B) Disjunkthet er ikke det samme som uavhengighet. Telleregler kombinatorikk Potensregelen: Vi trekker ut k enheter, med tilbakelegging, fra en samling med n merkede enheter. Totalt antall mulige ordnede utfall er n k. Antall permutasjoner: Vi velger ut k enheter, uten tilbakelegging, fra en samling med n merkede enheter. Totalt antall mulige ordnede utfall kalles antall permutasjoner av k fra n, og er lik: P n,k = n (n-1) (n-k + 1) = Fakultet: Symbolet n! uttales n-fakultet og er definert slik at 0! = 1 og at n! = n (n-1) Antall rekkefølger: n forskjellige enheter kan organiseres i n! forskjellige rekkefølger. Antall kombinasjoner: Vi velger ut k enheter, uten tilbakelegging, fra en samling med n merkede enheter. Totalt antall ikke-ordnede kombinasjoner av k fra n skrives C n,k =( ) = Tilfeldig utvalg: Vi trekker ut k enheter, uten tilbakelegging, fre en samling med n merkede enheter. I hver trekning sørger vi for at alle gjenverende enheter har like stor sannsynlighet for å bli trukket ut. Da får vi et tilfeldig utvalg. Ved tilfeldig utvalg av k blant n gjelder: 1. Sannsynligheten for at en bestemt enhet blir trukket ut, er lik. 2. Sannsynligheten for at en bestemt enhet trekkes i rekning nummer i, er lik. 3. Alle enhetene har samme sannsynlighet for å bli trukket ut. ~ 5 ~

6 SUMMENOTASJON x 1 = 1 x 2 = 2 x 3 = 3 y 1 = 1 y 2 = 2 y 3 = 4 ( ) ( ) ( ) ~ 6 ~

7 STOKASTISKE(TILFELDIGE) VARIABLER Stokastisk variabel: En stokastisk variabel X knytter en bestemt tallverdi til ethvert utfall i utfallsrommet S. De følger lovmessigheter. De følger en viss sannsynlighet. En tilfeldig variabel er diskret dersom den bare kan ta ett endelig eller tellbart antall verdier. Ofte heltall. Kontinuerlig hvis den kan ta alle verdier i et intervall. Forventningsverdi: Forventningen til en diskret variabel X defineres som: Forventningsverdi = Sum av (verdi sannsynlighet) E(a) = a E(bX) = b E(X) E(a + bx) = a + b E(X) E(a + bx + cx 2 ) = a + b E(X) + c E(X 2 ) Varians og standardavvik Standardavviket er lik kvadratroten av variansen som defineres lik: [ ] X er en stokastisk variabel, mens a og b er konstanter. Da gjelder: Var(X) er aldri negativ Var(X + a) = Var(X) Var(bX) = b 2 Var(X) Var(bX + a) = b 2 Var(X) Kontinuerlige sannsynlighetsmodeller En kontinuerlig tilfeldig variabel kan ta alle mulige verdier i et intervall. Sannsynlighetstettheten f(x) beskriver fordelingen til en kontinuerlig variabel, og har følgende egenskaper: ~ 7 ~

8 Det totale arealet under kurven er lik 1. P(a X b) er lik arealet under kurven fra a til b. Kurven er aldri negativ, dvs. at f(x) 0 FORVENTNING OG VARIANS: En kontinuerlig stokastisk variabel X har forventningsverdi og varians lik Flere variable Lineærkombinasjoner A i-ene og b er kjente konstanter, og X i-ene er tilfeldige uavhengige variable(diskrete eller kontinuerlige) FORVENTNING OG VARIANS: Fordelingsfunksjon: Den kumulative fordelingsfunksjonen F er definert for alle verdier av x, slik: F(x) = P(X x) Uavhengighet To diskrete stokastiske variabler X og Y er uavhengige hvis og bare hvis følgende likning er tilfredstilt for alle mulige verdipar (x, y) i simultanfordelingen til X og Y. ~ 8 ~

9 VANLIGE SANNSYNLIGHETSMODELLER Binomisk fordeling: Vi har en binomisk forsøksrekke med n delforsøk dersom: 1. Hvert delforsøk bare har to interessante utfall: A eller ikke A. 2. Sannsynligheten p = P(A) er den samme i alle n delforsøkene. 3. Delforsøkene er statistisk uavhengige av hverandre. 4. X = antall ganger A inntrer i de n forsøkene. I løpet av hele forsøksrekken vil hendelsen A inntreffe totalt X ganger. Da er X en binomisk fordelt variabel: Punktsannsynligheten til X er gitt ved: ( ) for x = 0, 1, 2, 3,, n Der antall kombinasjoner er: ( ) Her er n! = n (n-1) Vi definerer 0! = 1 FORVENTNING OG VARIANS dersom X er binomisk fordelt (n,p) KUMULATIV BINOMISK SANNSYNLIGHET(SE TABELL): P(X k) for forskjellige valg av k, n og p. OBS! P(X k) = 1 - P(X k-1), f.eks. P(X 12) = 1 P (X 11) Normalfordeling: En variabel X er normalfordelt med forventningsverdi og standardavvik hvis sannsynlighetstettheten er lik: ~ 9 ~

10 er populasjonsgjennmsnittet og populasjonsstandardavviket. En normalfordelt variabel er kontinuerlig og fordelinga er symmetrisk om er HVIS DATA ER NORMALFORDELTE/NÆR NORMALFORDELTE, VIL FØLGENDE VÆRE OPPFYLT: Ca 68% av observasjonene vil ligge i en avstand mindre enn fra. Ca 95% av observasjonene vil ligge i en avstand mindre enn 2 fra. Ca 99.7% av observasjonene vil ligge i en avstand mindre enn 3 fra. Standardnormalfordeling: La X være en observasjon fra en normalfordeling med forventning standardavvik. Den standardiserte verdien av X er: og KVANTILER Invers tabellbruk Normaltilnærming av binomisk fordeling: La X være binomisk fordelt med n og p, der n er stor og p ikke for nære 0 eller 1. Da har vi følgende tilnærming: Når er n stor? np 5 n(1-p) 5 ~ 10 ~

11 Gjennomsnitt som en tilfeldig variabel: Anta at du har n uavhengige observasjoner(x 1, X 2,, X n) fra samme populasjon (tilfeldig utvalg). Dvs. av X-ene er uavhengige, med samme og. Gjennomsnittet er definert som: Sentralgrenseteoremet: La X 1, X 2,, X n være et tilfeldig utvalg fra normalfordeling med forventning standardavvik. Da er gjennomsnittet normalfordelt og Hvis de ikke er normalfordelt, men hvis n er stor nok, vil gjennomsnittet være tilnærmet normalfordelt Kjikvadratfordelingen Kjikvadratfordelingen har bare en parameter, som kalles fordelingens antall frihetsgrader. Jo ferre frihetsgrader, jo mer venstreskjev blir den. Med over 20 frihetsgrader blir den derimot tilnermet normalfordelt. La x 1, x 2,..., x n være uavhengige standardnormalfordelte variabler. Da er summen 2 α kjikvadratfordelt med n frihetsgrader.hvis x-ene er delvis avhengige av hverandre, vil Y være kjikvadratfordelt med et lavere antall frihetsgrader. OBS: Ikke viktig å kunne mye om fordelinga i seg selv, men man bruker den i analyse av kategoriske krysstabeller. Da har Q en tilnærmet kjikvadratfordeling med (r-1) (k-1) frihetsgrader, der r er antall rader og k antall kolonner. Se boka for mer informasjon om kjikvadratfordeling i seg selv. ~ 11 ~

12 Student t-fordeling En metode som passer bedre enn standardnormalfordeling når man har forsøk med små utvalg, men ellers ganske lik. Får derimot bredere spredningsintervall for T enn for Z. Begge har forventning 0, men variansen er større en 1 i t-fordelingen. Den er (n 1)/(n 3), men går mot 1 når n vokser. Har man mer enn 30 observasjoner kan man ikke se forskjell på de to fordelingene. Hvis vi har n observasjoner i et tilfeldig utvalg fra en populasjon som er er: hvor betyt t-fordelt med n-1 frihetsgrader. Fisher F-fordeling Brukes i f.eks. enveis variansanalyse (kommer senere). Den sammenligner to varianser ved å lage en brøk mellom utvalgsvariansene. OBS: Denne fordelingen er heller ikke så viktig i seg selv, men den brukes i enveis variansanalyse, som er et viktig emne. Frihetsgrader(df = degrees of freedom) Går ut på hvor mange ulike verdier de observerte dataene har mulighet til å ha når man f.eks. vet gjennomsnittet. Er ofte n-1 frihetsgrader, siden den siste verdien må stemme overens med de andre for å gi det riktige snittet. n er antall observasjoner. Man kan derfor regne seg frem til den siste verdien. I modeller hvor man får en linje som verdiene sprer seg rundt har man n-2 frihetsgrader. Det er fordi man bruker opp en i hver ende av linjen, mens resten av verdiene kan fordele seg rundt den. ILLUSTRASJON AV n-1 FRIHETSGRADER: ( ) x 2 er ikke uavhengig. Den er låst siden vi vet at snittet skal være 85 og vet hva x 1 er. Det er derfor ikke frihet igjen til x 2. Her er det derfor n-1 = 2-1 = 1 frihetsgrader. ~ 12 ~

13 BESKRIVE ET UTVALG Et utvalg bør være representativt og uavhengig av hverandre. Du har en samling uavhengige observasjoner, alle trukket fra en ferdig definert populasjon. Da har vi observasjonene: x 1, x 2,, x n, alle er realisasjoner av tilfeldige variable med samme fordeling og dermed samme forventning og samme standardavvik. Gjennomsnitt i utvalget: Gå ut i fra at vi har gjort n observasjoner eller målinger av en variabel, x 1, x 2,, x n VARIANS OG STANDARDAVVIK Summetegn: Først subtrahere, så kvadrere, så summere, så dividere, så ta kvadratrot ~ 13 ~

14 ESTIMERING OG HYPOTESETESTING Parameter: En konstant som er med på å beskrive sannsynlighetsfordelingen. F.eks. forventning (populasjonsgjennomsnitt) Normalfordelinga lar seg beskrive av to parametre, forventning og standardavvik. Kjenner man disse parametrene, kjenner man verden. Det er derimot ofte umulig i praksis å finne den eksakte verdien til en parameter. I så fall må man undersøke hele populasjonen. Vi nøyer oss med å estimere (anslå) verdien av parameteren. Dette blir gjort ved å ta et tilfeldig utvalg frå populasjonen og la en funksjon av utvalget være estimatoren (den som anslår) til parameteren. Dermed vil estimatoren være en tilfeldig variabel, slik at to personer som estimerer samme parameter, vil få forskjellig estimat (anslag) hvis de har hvert sitt utvalg. Vi bruker ofte betegnelsen ^ (hatt) for estimatoren, slik at blir tolket som estimatoren for. Gjetter på at utvalget representerer virkeligheten. ( ) ( ) Forventningsrette estimatorer: Anta at man skal estimere en eller annen parameter, t.d., ved hjelp av estimatoren. Siden er en funksjon av utvalget, er den selv en tilfeldig variabel, og dermed har den også en forventning. Dersom E( ) =, sier vi at estimatoren er forventningsrett. Denne egenskapen betyr at i det lange løp vil du verken underestimere eller overestimere dersom du bruker. Du gjør med andre ord ingen systematiske feil. Eks: Dersom man velger får man et forventningsrett estimat av. ~ 14 ~

15 Standardavvik til estimatorene Estimatorene har en usikkerhet, representert ved deres standardavvik. Er dette stort, er estimatoren usikker og dermed dårlig. Tre krav til estimatorer Estimatoren skal være forventningsrett, Estimatoren skal ha minst mulig varians (evt. standardavvik) Estimatoren sin varians (evt. standardavvik) skal gå mot null når størrelsen på utvalget øker. ESTIMAT FOR (POPULASJONS)STANDARDAVVIKET; Siden (populasjons)variansen er variasjonen i hele populasjonen, er variansen i utvalget vår beste gjetting på populasjonens varians. (Viktig å dividere på n-1 og ikke n. Hvis man dividerer på n, blir forventningen ( ) ), altså en underestimering) PUNKTESTIMERING FOR SANNSYNLIGHETEN (p) I DEN BINOMISKE FORDELINGEN Vi gjør n forsøk der en aktuell hendelse A inntreffer X ganger. Da er X binomisk fordelt. Vi ønsker å estimere sannsynligheten: p = P(A). Vårt beste anslag på denne er den relative frekvensen siden p er andelen av A i populasjon. Estimatoren er forventningsrett, med varians som minker når tallet på forsøk (n) øker. For å halvere usikkerheten, må utvalget firedobles. har størst usikkerhet ved p=0,5. p=0 gir ingen usikkerhet Ingen man kan velge ut. p=1 gir ingen usikkerhet Alle like. Likt utvalg uansett. ~ 15 ~

16 Estimatoren sin standardfeil(se): Ofte er standardavviket til estimatoren ukjent. er ukjent når er ukjent. er ukjent når er ukjent. Men standardavviket kan igjen estimeres ved henholdsvis: Disse kan regnes ut på bakgrunn av innsamlede data. Det er altså estimert usikkerhet til estimatet. Konfidensintervall(KI) for en parameter (Parameter er en ukjent størrelse som beskriver populasjonen) Et konfidensintervall for en parameter er et intervall på tallinja på formen [a, b], der a og b er tall som blir beregnet på grunnlag av observerte data(og dermed er også a og b tilfeldige, de vil variere hvis du gjentar forsøket.) Intervallet har en egenskap som blir kalt konfidensnivå, (1 - P(a parameter b) = 1 - Hvis er 0,05 vil 1 - være 0,95. Skal man si noe om en ukjent forventning, så er: P(a b) = 0,95 (a, b) er det vi kaller et 95 % KI for EGENSKAPER TIL ET KONFIDENSINTERVALL Konfidensintervallets grenser er tilfeldige (avhenger av de data du samler inn), mens den ukjente parameteren er konstant, og ligger fast på tallinja. Et konfidensintervall vil enten inneholde den ukjente parameteren eller ikke gjøre det. Vi vet ikke om et bestemt konfidensintervall inneholder den ukjente parameteren. Hvis vi gjentar samme datainnsamling mange ganger, antar vi at 95 % av konfidensintervallene ville inneholde den ukjente parameteren (gjelder 95 % konfidensintervall). KONFIDENSINTERVALL FOR EN FORVENTNING, DER VI HAR KJENT STANDARDAVVIK Anta at vi har et tilfeldig utvalg (X1, X2,, Xn) fra en normalfordelt populasjon med forventning og standardavvik (der blir ansett som kjent, mens er ukjent). ~ 16 ~

17 Et 100(1 ) % konfidensintervall for er gitt ved: [ ] Der er verdien standard normalfordeling, slik at arealet mellom og er lik (1 - ) VERDIER AV OG 100(1 a) 90% 95% 99% 99.9% Kan ellers bruke tabell over standard normalfordeling til å finne andre verdier. BREDDE(LENGDE) TIL KONFIDENSINTERVALL Intervallet øker dersom konfidensgraden (1,), øker og blir smalere dersom konfidensgraden, (1,) blir mindre. Intervallet blir smalere dersom en øker antall observasjoner. Konfidensintervallet blir smalere dersom vi kan redusere standardavviket Dersom vi setter en øvre grense på lengden til intervallet til L, blir utvalgsstørrelsen (nødvendig antall målinger): ( ) KONFIDENSINTERVALL FOR p Anta at vi observerer en binomisk variabel X med n forsøk, men der p er ukjent. Husk normaltilnærming for binomisk variabel. Hvis X er tilnærmet normalfordelt, er også tilnærmet normalfordelt, der Da er et tilnærmet 100(1- ) % konfidensintervall for p gitt ved [ ] Der er verdien standard normalfordeling, slik at arealet mellom og er lik (1 - ) ~ 17 ~

18 BESTEMMELSE AV n LENGDE AV INTERVALL Konfidensintervallets lengde L er gitt ved Dersom vi setter en øvre grense L, blir utvalgsstørrelsen(nødvendig antall målinger) ( ) Hvis vi ikke har noen idé om verdien av p, kan vi utnytte at uansett: ( ) Hypotesetesting Ønsker å teste om en ukjent parameter har bestemte verdier eller ligger i et bestemt område. Sett opp nullhypotese og alternativ hypotese. Test: En regel som avgjør om nullhypotesen skal forkastes eller ikke. Ikke forkast nullhypotesen før du er rimelig sikker på at denne er feil. FRAMGANGSMÅTE 1. Finn en passende sannsynlighetsmodell og formuler null hypotesen og den alternative hypotesen. 2. Finn en testobservator (noe du kjenner sannsynlighetsfordelingen til under null hypotesen.) 3. Velg hvor stor sannsynlighet for feilkonklusjon du kan akseptere. 4. Vedta forkastingsområdet sin kritiske grenseverdi. 5. Vi samler inn data, sammenligner observert verdi på testobservatoren med grenseverdien og konkluderer. 6. Eventuelt beregn hvor sannsynlig det observerte er, dersom nullhypotesen er sann TRE GENERELLE HYPOTESER OM EN FORVENTNING H 0: H 1: > H 0: H 1: < H 0: = H 1: Tosidig test en kjent verdi, f. eks 79 kg H 1 er arbeidshypotesen vi vil teste, dvs. den påstanden som krever bevis. Blir kalt den alternative hypotesen. H 0, nullhypotesen, er den motsatte påstanden. Vi anser Nullhypotesen er sann inntil det motsette er bevist. ~ 18 ~

19 ANTA DU SKAL TESTE: H 0: og H 1: > For en eller annen kjent verdi av Ta utgangspunkt i størrelsen: Naturlig å forkaste H 0 dersom er stor. Dersom er stor vil Z være stor. Z er standard normalfordelt dersom H 0 er sann, der (79 kg i ekempel) er forventning under H 0. Ideen er å si at nullhypotesen må være feil dersom Z er stor. Problemet er å bestemme hvor stor Z må være for at vi skal forkaste H 0 og påstå H 1. FORKASTNINGSOMRÅDET Når er stor? Dersom H 0 er sann, er Z standard normalfordelt og vi kan finne P(Z > z), der z er utregnet verdi. Med andre ord kan vi finne sannsynligheten for det som har inntruffet (eller noe enda mer ekstremt) dersom H 0 er sann. Eller vi kan finne en konstant som har sannsynlighet a for at Z er større enn denne. Da finner vi forkastningsområdet TRE GENERELLE HYPOTESER H 0: H 1: > Forkast H 0 hvis Z er stor ( k 1). H 0: H 1: < Forkast H 0 hvis Z er liten ( k 2). H 0: = H 1: Forkast H 0 hvis Z er liten ( k 3) eller stor ( k 4). ~ 19 ~

20 TYPER FEIL VED HYPOTESETESTING Naturen/sannheten H 0 rett H 0 feil Din påstand H 0 rett OK Type II-feil H 0 feil Type I-feil OK Type I-feil: Forkaster H 0, selv om den er rett. Type II-feil: Forkaster ikke H 0, selv om den er feil. Type I-feil mer alvorlig enn Type II-feil. Hvis man er for redd for å gjøre Type I-feil, gjør man nesten alltid Type II-feil. Statistisk signifikans I hypotesetesting er det vanlig å stille krav til en test. = P(forkaste H 0 dersom H 0 er sann). Det er det samme som = P(type 1 feil). blir kalt signifikansnivået til testen. Det er denne feilen vi vil ha kontroll på. Det er vanlig å velge signifikansnivået = 0.05, men mange andre nivå er mulig å velge. Hvis = 0.05 er k 1.64 SIGNIFIKANS OG FORKASTNINGSOMRÅDE Dersom du tester: H 0: H 1: > med signifikansnivå. Finn en k slik at P(Z k) =, Forkast H 0 dersom Z k, eventuelt. Alle må kunne finne k, og dermed teste sitt forkastningsområde. Testen sitt signifikansnivå er, det samme som maksimalt sannsynlighet for type I-feil. P-VERDI GENERELT Sannsynligheten for at testobservatoren har den utregnede verdien eller en mer ekstrem, dersom en antar at H 0 er sann, blir kalt for p-verdien. p-verdien forteller oss hvor stor grunn vi har til å tvile på H 0. Dersom p-verdien er liten, blir H 0 forkasta og vi påstår at H 1 er den mest riktige konklusjonen. Grensa for p -verdien blir gjerne sett ved 0.05 eller ~ 20 ~

21 SAMMENHENG MELLOM BRUK AV p-verdi OG SIGNIFIKANSTESTING P -verdi: Sannsynligheten for å få et resultat som er minst like ekstremt som det observerte resultatet hvis H 0 er rett. Signifikansnivå : Den største Sannsynligheten for å feilaktig forkaste H 0 som vi er villige til å akseptere. Dersom p-verdien for en testobservator er lik eller mindre enn signifikansnivå, sier at data gir grunnlag for å forkaste nullhypotesen med statistisk signifikans. Altså: Bestem signifikansnivå, og forkast H 0 dersom p-verdien er mindre enn. MER OM p-verdi OG SIGNIFIKANSNIVÅ Dersom H 0 er sann, er Z standard normalfordelt og vi kan finne Enten en konstant k, som er slik at P(Z > k) = Eller vi kan gå rett på det observerte P(Z > observert ) Med andre ord kan vi finne sannsynligheten for det som har inntreffet (eller noe enda mer ekstremt) dersom H 0 er sann. Det første kalles testing på signifikansnivå, det andre p-verdi Tosidige tester (Alternativet er ulikt fra ensidige tester) H 0: = H 1: TOSIDIGE TESTER p-verdi Dersom H 0 er sann, er Z standard normalfordelt. At er stor eller liten, er det samme som at er stor. Merk at p-verdien blir dobbelt så stor som for en ensidig test, Z er lik. TOSIDIGE TESTER SVIGNIFIKANSNIVÅ Finn en k slik at P( Z > k) =. Da må k = F.eks = 0.05, da må = = 0.05 /2 = 0,025 = 1,96 Ved ensidig test er det nok at = ~ 21 ~

22 Nivå ( ) Ved tosidige tester, finn halve nivået slik at du har. Eks: nivå 0.1 (10%) tosidig test, da = SAMMENHENG MELLOM TOSIDIGE TESTER OG KONFIDENSINTERVALL H 0: = H 1: Tosidig test: Test denne på nivå, da vil alle verdier av som faller utenfor et (1 )100 % KI bli forkastet. Et konfidensintervall kan betraktes som en samling tosidige tester som ikke kan forkastes p = 0, % KI - intervall dekker 80 % KI - intervall dekker ikke. Test av p i binomisk fordeling Anta X er binomisk fordelt (n, p) For eksempel ønsker vi å teste H 0: p p 0 H 1: p > p 0. der p 0 er en kjent verdi Hvis n er liten, kan du regne ut testens p-verdi direkte. Dersom du observerer at X = k, finn P(X k) dersom H 0 er sann. Husk at p-verdien er sannsynligheten for det observerte eller noe som er enda mer ekstremt. TEST AV BINOMISK SANNSYNLIGHET NÅR n ER STOR Vi har tidligere sett at når n er stor nok, så kan du tilnærme med normalfordeling. ~ 22 ~

23 Under H 0: p = p 0, vil Oppsummering hypotesetest av p Ved signifikansnivå. Anta du skal teste H0: p = p0. Alternativ hypotese o Dersom H 1: p > p 0, forkast H 0 dersom Z > o Dersom H 1: p < p 0, forkast H 0 dersom Z < - o Dersom H 1: p p 0, forkast H 0 dersom Z > der: ~ 23 ~

24 SAMMENLIGNING AV GRUPPER Parvis sammenligning Et par er en organisering av forsøket som gjør at gruppene blir sammenlignet under relativt homogene betingelser. Målet er å fjerne (eller redusere) uønsket variasjon som ikke er av interesse for forsøke, men som vil forkludre resultatet. Observasjoner innen par vil da være avhengige, mens det er uavhengighet mellom par. Avhengigheten innen par gjør at man får tilnærmet like betingelser for testene. EKSEMPLER PÅ PAR: - Høyre og venstre fot kan teste hver sin joggesko - To griser fra samme kull kan teste hvert sitt fôr. - To arealer ved siden av hverandre kan ha hver sin sort korn. - Før og etter resultater hos en enkeltperson kan si noe om treningsmetode. METODEN: Metoden går ut på å sammenligne differansen innad i parene, noe som gjør at man ikke får støy i forhold til at noen par i utgangspunktet er flinkere, bedre etc. Vi har følgende par av X og Y, samt differansen. Par X Y Differanse 1 X 1 Y 1 D 1 = X 1 - Y 1 2 X 2 Y 2 D 2 = X 2 - Y n X n Y n D n = X n Y n D i = X i Y i i = 1, 2,..., n E(X i) = µ 1 og E(Y i) = µ 2 E(D i) = µ 1 - µ 2 = µ d Var(D i) = σ d 2 D i~n(µ d, σ d) µ d - Gjennomsnittlig forskjell i par µ d = 0 betyr at det ikke er forskjell µ d > 0 betyr at µ 1 er større enn µ 2 HYPOTESETEST AV µ d ved signifikansnivå α ~ 24 ~

25 Alternative hypoteser: - Dersom µ 1 > µ 2, forkast H 0 dersom T > t α - Dersom µ 1 < µ 2, forkast H 0 dersom T < -t α - Dersom µ 1 µ 2, forkast H 0 dersom T > t α/2 der: som er t-fordelt med n-1 frihetsgrader under H 0, der n er antall par. Når man tester under H 0 forsvinner den ukjente variabler: og vi står igjen med kjente ( ) Man slår opp verdier i tabell eller lar dataen regne. k p-verdi KONFIDENSINTERVALL FOR FORVENTET DIFFERANSE VED PARVISE DATA Et 100(1 α) % konfidensintervall for µ d er gitt ved 0,95 -k 0 k Verdien 0 har her stor fokus, siden 0 betyr at det ikke er noen differanse. Hvis konfidensintervallet inneholder 0 gjør det at man ikke kan forkaste H 0. To uavhengige utvalg Man har ikke en type data som gjør det naturlig å konstruere par. Ethvert forsøk på å skape par vil være unaturlig og ikke fungere til å teste parvis. I uavhengige utvalg kan man ha stor variasjon innad, noe som gjør at forskjell mellom A og B kan drukne. Man sammenligner forventningene i to grupper, som for parvis sammenligning, men her er det også uavhengighet innen gruppene i tilegg til mellom gruppene. Vi har full randomisering. POPULASJON Gruppe Variabel Snitt Standardavvik 1 X µ 1 σ 1 2 Y µ 2 σ 2 ~ 25 ~

26 UTVALG/DATA Gruppe Observasjoner Snitt Standardavvik 1 n 1 S 1 2 n 2 S 2 Vi ønsker å undersøke differansen µ 1 - µ 2, men vi ser ikke på differansen mellom enkeltobservasjoner. ESTIMERING AV µ 1 - µ 2 OG σ Felles (interpolert) varians(s pooled) blir da estimert med: Hvis n 1 = n 2 = n: OBS: At σ 1 = σ 2, dvs. samme standardavvik i begge grupper, er en modellantagelse. Den kan enten grunngis ved fagkunnskap, eller ved å se etter om S 1 og S 2 er relativt like. De vil derimot ikke bli helt like selv om standardavviket er likt, siden S 1 og S 2 er basert på observasjoner. En (veldig) grov tommelfingerregel er at hvis med moderat antall observasjoner, kan man anta at σ 1 = σ 2 FORDELINGSEGENSKAPER er t-fordelt med (n 1 + n 2-2) frihetsgrader ~ 26 ~

27 Kan brukes til å teste hypotesene som er det samme som ET 100 %(1 - α) KONFIDENSINTERVALL FOR DIFFERANSEN der er en tabellverdi med (n 1 + n 2-2) frihetsgrader. Hvis intervallet dekker 0 kan man ikke si at det er en forskjell. Variansanalyse Varians inne i gruppe er uforklart og kan omtales som støy. Vi har ikke data som kan forklare det. Variasjon mellom gruppene forklares ved hjelp av faktoren/gruppen de sorteres etter. Variansanalysen er en generalisering av to-utvalgs T-testen og benyttes for å kunne sammenligne gjennomsnitt i mange grupper samtidig. Analysen kalles ofte ANOVA Analysis of variance Hovedpoenget med variansanalysen er å sammenligne variasjonen innad i gruppene med variasjonen mellom gruppene. Enveis variansanalyse Vi har k grupper vi vil sammenligne med hensyn på en eller annen respons. La Y ij være observasjon nr. j fra gruppe i. der i = 1, 2,.., k og j = 1, 2, 3,..., n Antall observasjoner: N = n 1, n 2, n 3,..., n k Totalt gjennomsnitt: Totalt standardavvik: S T Gjennomsnitt i gruppe i: Standardavvik i gruppe i: S i ~ 27 ~

28 OPPSPLITTING AV DATA Observasjon = signal(det jeg forstår) + støy(det jeg ikke forstår) ( ) Vi kan trekke fra totalgjennomsnittet på hver side: ( ) Avvik fra totalt snitt = gruppas avvik fra totalt snitt + tilfeldig avvik i hver gruppe KVADRATSUMMER Kvadrer begge sider av likhetstegnet. Summer deretter begge sider av likningen for alle verdier av i og j. Da får du følgende tre kvadratsummer: ( ) SS G er da et uttrykk for variasjon mellom grupper SS E er et uttrykk for variasjon innen grupper SS T = SS G + SS E Dvs. Total variasjon = forklart variasjon + uforklart variasjon Hvis SS G er stor i forhold til SS E er det naturlig å anta forskjell mellom grupper. MODELL FOR ENVEIS VARIANSANALYSE Anta at vi har k grupper med n i observasjoner i gruppe i. Anta at disse er et tilfeldig utvalg fra en normalfordeling med forventning µ i, i = 1, 2,, k og standardavvik σ (merk at standardavviket antas likt i alle grupper). Dvs: eller ESTIMERING AV PARAMETRE Modellen i enveis variansanalyse inneholder k + 1 parametre. Dvs. alle k gruppene og standardavviket. ~ 28 ~

29 Forventning i hver gruppe blir estimert ved utvalgsgjennomsnittet Felles standardavvik blir estimert ved: Varians er, også kjent som MS E som nevnt ovenfor. Dette er vårt beste estimat på den ukjente variansen σ 2. Standardfeilen til er: Altså: ANDEL FORKLART VARIASJON: Andelen variasjon som er forklart av modellen(gruppene) VARIANSANALYSETABELL SS df MS F P Variasjonskilde Kvadratsum Frihetsgrader Varians F-verdi p-verdi Mellom gr. SSG k 1 Innad i gr. SSE N k Total SST N 1 HYPOTESETESTING ~ 29 ~

30 Under H 0 vil alt være helt likt. H 1 sier ikke noe om hvor forskjellen ligger, bare at minst to av gruppeforventningene er ulike. FORKASTE H 0 - Hvis vi observerer SST er det naturlig å forkaste H 0 hvis SS G er stor. - Det er det samme som at SS E må være liten, siden summen er fast. - Derfor er det også naturlig å forkaste H 0 hvis SSG/SSE er stor - Blir naturlig å forkaste H 0 dersom er stor: NÅR F ER STOR Under H 0 er F Fisher-fordelt (f-fordelt) med (k 1) og (N k) frihetsgrader. Lat som om H 0 er sann. Da har F en kjent fordeling, og vi kan regne ut sannsynligheten for å få en stå stor F som den vi fikk. Hvis det er veldig usannsynlig, forkaster vi H 0. Verdier for F finner man ved å bruke tabellen som ligger vedlagt. (k-1) settes som v 1. (N-k) settes som v 2. α er sannsynligheten for å få verdien Fα. α er p-verdien. Kontraster og enveis variansanalyse Hvis vi forkaster H 0, vet vi allikevel ikke hvor forskjellen mellom gruppene ligger. Kontraster til forventningene sier noe om dette. Kontraster er lineærkombinasjoner av forventninger som uttrykker det vi er interessert i. Den ser på forskjellen mellom gruppene. En forskjell mellom forventningene i de k gruppene kan måles på forskjellige måter, for eksempel ved: ~ 30 ~

31 ( ) ( ) Det er viktig at summen av parametrene blir 0, dvs. at alle parametrene teller like mye så man finner forskjellen mellom dem. Slike lineære funksjoner kalles kontraster, i parametrene 1, 2, 3,, k. De er viktige og mye brukt i variansanalysen. Generelt er en slik kontrast en lineær funksjon på formen: der er konstanter og oppfyller betingelsen at er tallene man ganger µ med for å balansere den lineære funksjonen. Det er naturlig å estimere forventningene i hver gruppe med tilsvarende gjennomsnittene i observasjonen, dvs: En fornuftig estimator for kontrasten θ er dermed: er forventningsrett, mens var( ) kan estimeres forventningsrett ved: ( ) ( ) T kan brukes til å teste hypoteser, f.eks. ~ 31 ~

32 Analyse av kategoriske krysstabeller (toveistabeller) En krysstabell (kontigenstabell) er en tabell som oppsummerer resultatet fra et forsøk der en registrerer to kategoriske variable. Individene blir kvalifisert etter disse to variablene. I tabellen teller vi opp hvor mange som kommer i snittet av to kategorier. En variabel kalles rad-variabel og den andre kalles kolonne-variabel. En har r kategorier for rad-variabelen og k kategorier for kolonne-variabelen. I eksempelet er status kolonne-variabel og røykevaner er rad-variabelen. OBS: Fordelingen er binomisk. BETINGET FORDELINGSRESULTAT DATASTRUKTUR ~ 32 ~

33 R i totalt antall enheter med radkjennetegn A i K j totalt antall enheter med kolonnekjennetegn B j HYPOTESER I TOVEISTABELLER H 0: Det er ingen sammenheng mellom kolonne- og radvariable, de er uavhengige. H 1: Det er sammenheng mellom kolonne- og radvariable, de er avhengige. - Vi har n (uavhengige og tilfeldig valgte) observasjoner fra en populasjon og noterer hvilken kategori hver av disse kommer i for to kategoriske variable. - Variabel 1 (radvariabelen) har kategori A 1, A 2,, A r. - Variabel 2 (kolonnevariabelen) har kategori B 1, B 2,, B k. - Tell deretter opp hvor mange som har kommet i snittet (A i, B j) for alle par i og j. Kall dette antallet X ij. Denne er binomisk fordelt med n og sannsynlighet p ij = P (A i B j). Hvis begivenhetene A i og B j er uavhengige, vil ( ) ( ) Vi får dermed: ( ) ( ) ( ) ( ) UAVHENGIGHET MELLOM TO VARIABLE Vi kan estimere slik: ( ) Dersom det er uavhengighet mellom kolonnevariabelen og radvariabelen, dvs. hvis H 0 er sann, vil forventet antall ( ( )) observasjoner i celle (i, j) bli ( ) ( ) ( ) ( ) EKSEMPEL OBSERVERTE OG FORVENTEDE VERDIER ~ 33 ~

34 FORKASTE H 0 Vi forkaster H 0 dersom det er store avvik mellom de observerte verdiene x ij og de forventa (under H 0) verdiene E ij. Da er følgende stor: ( ) FORDELING UNDER NULLHYPOTESEN Vi har sannsynlighetsfordelinga til Q under H 0. Dermed kan vi finne en konstant, k, som er slik at dersom H 0 er sann, er det sannsynlighet α for at Q skal bli større enn denne. Dvs. P(det inntrufne) dersom H 0 er sann. Hvis H 0 er sann, følger Q (tilnærmet) det vi kaller en kjikvadratfordeling med (r-1) (k-1) frihetsgrader, der r er antall rader og k er antall kolonner. Kjikvadratfordeling skrives og fordelingen finner man i en tabell. 2 α ~ 34 ~

35 ANALYSE AV SAMMENHENGER Generelt Noen ganger er det forskjell på betydningen av to variable, X og Y: RESPONSVARIABELEN (Y) er selve målet for den undersøkelsen vi foretar. Den blir ofte kalt den avhengige variabelen. FORKLARINGSVARIABELEN (X) forklarer eller gir årsaken til noe av variasjonen i responsvariabelen. Den blir ofte kalt den uavhengige variabelen. Vanligvis oppfatter vi den ene variabelen Y som en funksjon av den andre, X. Det fremgår vanligvis av teksten hva som er hva. EKSEMPLER VEKT OG HØYDE Respons er vekt, forklaringsvariabel er høyde Man kan da se på hvordan høyde påvirker vekt, og se hvordan vekten øker når man blir høyere. Det blir mindre fornuftig å se på hvorda vekt bestemmer høyde. Her er begge kontinuerlige. VEKT OG KJØNN Respons er vekt, forklaringsvariabel er kjønn. Her kan man se på hvor stor vektforskjell det er mellom kjønn. Forklaringsvariabelen er her kategorisk( jente og ikke jente ) SJUKDOM OG KJØNN Respons er sjuk/ikke sjuk, forklaringsvariabelen er kjønn Her er begge kategoriske. Første møte med data Hvis man skal studere sammenhenger mellom to numeriske variable tegner man et spredningsplott(scatterplot). Et spredningsplott viser sammenhengen mellom to variable som er målt på de samme objektene. Verdiene til de to variablene finner man på x-aksen og y-aksen, og hvert objekt opptrer som et punkt i plottet. Plasseringen er da bestemt med verdier fra begge variablene. Målet er å finne matematiske modeller for å beskrive sammenhengen mellom to variable. Det kan f.eks. være en lineær linje eller en 2. gradskurve. Vurdere et spredningsplott Når man har et spredningsplott ser man etter mønstre eller avvik fra slike mønstre. Det man ofte bruker for å beskrive det er: - Retning - Form - Styrke ~ 35 ~

36 Tallfeste spredning Det holder ikke å bare vite senter og spredning for å studere sammenheng mellom variable. Dette ser man av eksempelet under hvor man har samme gjennomsnitt og standardavvik for både Y1 og Y2. Descriptive Statistics: X; Y1; Y2 Variable N Mean StDev X Y Y Korrelasjon Tallfesting av sammenheng mellom to variable. Korrelasjon måler styrke og retning av den lineære sammenhengen. Korrelasjonskoeffisien blir vanligvis kalt r, og er gitt ved: Vi har n observasjonspar (x 1, y 1), (x 2, y 2),..., (x n, y n) S xy er en estimator for kovariansen Cov(x, y) og defineres s x og s y er standardavvik. Får man oppgitt s xx og s yy tar man kvadratroten. OBS: Dette pleier man å la dataen regne ut. ~ 36 ~

37 KORRELASJONSKOEFFISIENTEN(r): - Skiller ikke mellom variablene. - Krever at begge variable er kvantitative(numeriske) - Blir ikke forandret dersom vi forandrer skala - Dersom r > 0 indikerer det at det er en positiv sammenheng mellom variable - Dersom r < 0 indikerer det en negativ sammenheng mellom variable. - Dersom r = 0 er det ingen lineær sammenheng mellom variable. - r vil alltid være et tall mellom -1 og +1 - r måler styrken av den lineære sammenhengen mellom to kvantitative variable - r beskriver ikke sammenhengen mellom to variable der denne har form som en ikke-lineær kurve. ULIKE FORMER FOR SAMMENHENG MELLOM TO VARIABLE SVAKHETER - Sier ikke noe om årsak/virkning. - En linje som følger en 2. gradsfunksjon kan f.eks. få r = 0, se illustrasjon - Data som følger en rett linje kan får en lavere r hvis man har fått inn feildata som gjør at en enkelt observasjon skiller seg ut. - Har mange svakheter, så man må se dottplottet i tilegg. ~ 37 ~

38 Lineær regresjon En regresjonslinje er en rett linje som beskriver hvordan responsvariabel(y) forandrer seg når forklaringsvariabelen (x) forandrer seg α er der linja skjærer y-aksen og verdien man får når x = 0. Er ikke alltid man kan tolke denne på en fornuftig måte, men gir mening i noen tilfeller. β er stigningstallet til linja. Det er den verdien Y øker med når x øker med 1. MODELL FOR LINEÆR REGRESJON Anta at du har n uavhengige observasjoner av (Y, x). For hver av disse antar vi: e i-ene er enkeltmålingenes avvik fra linjen. Hvis man ikke tar med dette leddet antar man at alle med samme x-verdi får samme y-verdi, altså ingen spredning. Y kan deles inn i en forklart del og en uforklart del. Feilleddet er en tilfeldig størrelse som forstyrrer den lineære sammenhengen. Modellen medfører: Y i-ene er uavhengige Y i er normalfordelt som skal bli forstått Y x PARAMETRE I REGRESJONSMODELLEN Modellen har 3 ukjente parametre som må tolkes konkret for datamaterialet man jobber med: α, β og σ ESTIMERING AV PARAMETRE: MINSTE KVADRATERS REGRESJONSLINJE Vanligvis er parametre ukjente og må dermed estimeres. Minste kvadraters metode for å estimere regresjonslinja går ut på å tilpasse den linja som passer best mulig til data etter følgende kriterium: - Bestem estimatene for α og β (og dermed linja) slik at kvadratsummen av alle vertikale avvik mellom de observerte datapunktene og linja blir minst mulig. ~ 38 ~

39 Minste kvadraters linje er Legg merke til at stigningstallet er proporsjonalt med korrelasjonen Legg merke til at linja går gjennom punktet FORKLART OG UFORKLART DEL Vi har modellen Vi kan dele opp den observerte Y i: - Forklart del: - Uforklart del: - er ukjent. Derimot kan den anslås ved det vi kaller residual: ( ) KVADRATSUMMER(SS sum of squares) Vi har ( ) eventuelt Da kan vi også skrive: ( ) ( ) ( ) ( ) ( ) ( ) ( ) ~ 39 ~

40 ESTIMERING AV σ: ( ) ANDEL VARIASJON FORKLART AV MODELLEN(r 2 ) r 2 er lik korrelasjonen opphøyd i annen. Hvis r = 0,9 vil man derfor kunne forklare 81 % av variasjonen ved en lineær sammenheng. Stor σ gir liten r 2, og stor r 2 gir liten σ. KVALITET PÅ ESTIMATENE Estimatene er normalfordelte og forventningsrette, men og ikke uavhengige. ( ) Variansen til regresjonskoeffisienten: ( ) Variansen blir mindre hvis man får en større n. Det gir mindre variasjon.. Standardfeilen til ( ) ( ) ( ) FORDELINGSRESULTAT FOR Vi har resultat: Da er - er forventningsrett estimat for - ( ( )) ( ) SAMMENHENG MELLOM X OG Y - HYPOTESER Man vurderer om det er en sammenheng eller tilfeldigheter som gjør at den estimerte regresjonslinjens stigningstall er forskjellig fra null. ~ 40 ~

41 Hvis β = 0 betyr det ingen sammenheng mellom de to variablene x og Y, siden x- leddet forsvinner. FORKASTE H 0 VED SIGNIFIKANSNIVÅ α: TESTING AV β ( ) Hvis man tester ( ) mot et eller annet alternaltiv, vil Dermed har man bare kjente verdier og kan regne ut T. Se tabellverdi. KONFIDENSINTERVALL FOR β Et 100(1-α)% konfidensintervall for β er gitt ved: ( ) Det er interessant om intervallet dekker 0, siden dette sier noe om det er sammenheng mellom x og Y. kan forkastes hvis 0 ikke befinner seg inne i intervallet, siden det er innholdet i intervallet man tror på. ˆ FORVENTET RESPONS NÅR VI KJENNER X ESTIMERING AV E(Y X 0) Et naturlig estimat for dette er Standardfeilen for estimatet er gitt ved ( ) ( ) ~ 41 ~

42 KONFIDENSINTERVALL FOR FORVENTET RESPONS Et 100(1 α)% konfidensintervall for E(Y x 0) er gitt ved ( ) ( ) Prediksjon innen lineær regresjon Anslå verdien av en enkelt observasjon. Vi har sett på forventet respons(i betydning gjennomsnitt for hele populasjonen) for en gitt verdi av x. Nå skal vi se på en enkelt observasjon. En av hovedmålsettingene ved regresjonsanalyse er å utføre prediksjon, dvs. beregne verdier av ukjent Y på grunnlag av den kjente x. Eks. Hvor mye man anslår at en person veier når vi kjenner høyden. Vi kan regne ut et intervall som med en viss sikkerhet inneholder den ukjente responsen, et prediksjonsintervall. FORSKJELL PÅ ESTIMERING OG PREDIKSJON Merk at i den ene situasjonen skal vi estimere en forventning E(Y x 0), populasjonsgjennomsnittet for Y for alle med samme x, altså hvor linja går i det punktet. I den andre situasjonen skal vi prøve å anslå verdien på en tilfeldig variabel, Y, når vi kjenner x. Vi bruker i begge situasjonene. Hver enkelt observasjon er mer usikker enn gjennomsnittet, siden det i snitt vil jevne seg ut. En enkelt observasjon kan derimot ha store avvik, både til den ene og den andre siden. I tilegg til usikkerheten knyttet til hvor linja skal gå, må vi ta hensyn til usikkerheten som skylder feilleddet e. Derfor er prediksjonsintervallet(for observasjonene) bredere enn konfidensintervallet(for den ukjente linja) PREDIKSJONSINTERVALL Et 100(1 α)% prediksjonsintervall er gitt ved ( ) Forskjellen fra konfidensintervallet er at man legger til 1 under rottegnet. ~ 42 ~

43 BREDDEN TIL INTERVALLENE Konfidensintervall: n Bredden 0 hos KI for E(Y x 0) Prediksjonsintervall: n Bredden Hvis s = 0 rett linje Prediksjonsintervallene blir ofte veldig brede, med stor usikkerhet. Det er mange usikre elementer. Modellkritikk av lineær regresjon - Følger ikke alltid en rett linje (residual) Residualene summerer seg alltid til 0. Dermed er snittet lik 0. - Er ikke nødvendigvis konstant varians Forutsetning for residualene hos modellen o Uavhengige o o Konstanten er uavhengig av x o Dottplottet skal heller ikke vise mønster Støy har ingen struktur! ~ 43 ~

44 GENERELT Konfidensintervall Bredden varierer med n: Flere frihetsgrader gir en annen t. Flere data gir et smalere intervall ENSIDIG OG TOSIDIG TEST I statistikkprogrammer får man oppgitt p-verdien til tosidig test. Hvis man halvverer verdien kan man få ensidig test. Hvis man har p-verdien til en ensidig test, kan man doble verdien for å finne for tosidig test. p-verdi p-verdi er sannsynligheten for det observerte eller noe enda mer ekstremt hvis H 0 er sann. Dvs. sannsynligheten for å observere det man observerer, som kan ligge ganske langt unna hypotesen, hvis H 0 er sann. Hvis p-verdien er veldig liten, kan man forkaste H 0. Hvor liten bestemmes av hvor stor sikkerhet man godtar og om det er en ensidig eller tosidig test. Det er vanlig å forkaste H 0 hvis p-verdien er mindre enn 0,050. α-verdien sier hvor stor usikkerhet man har, f.eks. 0,050, som er 5 % usikkerhet. Merk: tester man tosidig, må man bruke α/2, siden man får en usikkerhet i hver ende av skalaen. α = 0,050 i en ensidig test gir 95 % sikkerhet. For å få samme sikkerheten i en tosidig test må man ha α = 0,025, siden den usikkerheten i hver ende etterlater et sikkert intervall på 95 %. SAMMENHENG MELLOM α-verdi OG P-VERDI p-verdien er det minste valget av α-verdien som vil lede til forkastning av H 0 på grunn av de observerte data. VERDIER PÅ GRAFEN I de ulike modellene regner man ofte ut en verdi, f.eks. T, og sammenligner så mot tabellverdien for metoden. Tabellverdien settes som k og hvis T-verdien befinner seg utenfor, altså er større i forhold til illustrasjonen, forkastes H 0. Arealet α er da sikkerheten man tester på, og man ser om sannsynligheten er større eller mindre. Hvis man regner ut på data, kan derimot den finne den eksakte p-verdien til resultatet. Setter man resultatet som k er dermed arealet α lik p-verdien og den eksakte sannsynligheten for det observerte. Ulike navn for estimert standardavvik ~ 44 ~

45 Forkastningsområde ved ulike tester Her er et eksempel fra lineær regresjon, men forkastningsområdene er det samme i andre tester også. Hypotesene vil bare skrives annerledes: Skrivemåter ved utregning MODELLBRUK Når man regner ut er det viktig å ta med hvilke modell man bruker, og forklare de ulike verdiene og parametrene. EKSEMPEL PÅ FØRING AV MODELL Y i = + x i + e i der e i -ene er uavhengige og N(0, ). Y i er avling nr. i, og x i er såtid nr i. i = 1, 2, Estimater (fra utskrift) ˆ ˆ 2,82 ˆ 21.8 Dersom vi sår 1, april estimerer vi gjennomsnittsavling til 554,5 kg Foreventet tap i avling pr sådag utsatt estimeres til 2,82 kg. Spredning (standardavvik) for avling med samme såtid estimeres til 21,8 kg. GJENNOMFØRING AV ULIKE TESTER Når man bruker ulike tester, f.eks. T-test, bør man få med hvilke nivå man tester på, antall frihetsgrader etc. En grei måte å skrive dette på er: EKSEMPEL PÅ FØRING AV T-TEST T = y y 1 2 = S p n n = 2,75 > t 0.05,27 = ~ 45 ~

46 PROGRAMMET R Ord og uttrykk I LINEÆRREGRESJON: KJIKVADRATFORDELING ~ 46 ~

47 TABELLER Kumulativ binomisk sannsynlighet KUMULATIV SANNSYNLIGHET P(X k) finnes i tabellen P(X k) = 1 - P(X k-1) ~ 47 ~

48 Kumulativ poissonfordeling ~ 48 ~

49 Kumulativ standardnormalfordeling ~ 49 ~

50 Standardnormalfordelingens kvantiltabell ~ 50 ~

51 t-fordelingens kvantiltabell TABELL TIL NÅR σ ER UKJENT 5 frihetsgrader, =0,05 og ukjent σ gir t = 2,015 5 frihetsgrader, =0,05 og kjent σ gir t = 1,645 ~ 51 ~

52 Kjikvadratfordelingens kvantiltabell ~ 52 ~

53 Tabell for Fisher F-fordeling ~ 53 ~

ST0202 Statistikk for samfunnsvitere Kapittel 9: Inferens om én populasjon

ST0202 Statistikk for samfunnsvitere Kapittel 9: Inferens om én populasjon ST0202 Statistikk for samfunnsvitere Kapittel 9: Inferens om én populasjon Bo Lindqvist Institutt for matematiske fag 2 Kap. 9: Inferens om én populasjon Statistisk inferens har som mål å tolke/analysere

Detaljer

MAT4010 PROSJEKTOPPGAVE: Statistikk i S2. Olai Sveine Johannessen, Vegar Klem Hafnor & Torstein Mellem

MAT4010 PROSJEKTOPPGAVE: Statistikk i S2. Olai Sveine Johannessen, Vegar Klem Hafnor & Torstein Mellem MAT400 PROSJEKTOPPGAVE: Statistikk i S2 Olai Sveine Johannessen, Vegar Klem Hafnor & Torstein Mellem 20. mai 205 Innhold. Stokastisk Variabel.. Stokastiske variable som funksjoner 3 2. Forventningsverdi

Detaljer

Statistikk og dataanalyse

Statistikk og dataanalyse Njål Foldnes, Steffen Grønneberg og Gudmund Horn Hermansen Statistikk og dataanalyse En moderne innføring Kapitteloversikt del 1 INTRODUKSJON TIL STATISTIKK Kapittel 1 Populasjon og utvalg 19 Kapittel

Detaljer

Kort overblikk over kurset sålangt

Kort overblikk over kurset sålangt Kort overblikk over kurset sålangt Kapittel 1: Deskriptiv statististikk for en variabel Kapittel 2: Deskriptiv statistikk for samvariasjon mellom to variable (regresjon) Kapittel 3: Metoder for å innhente

Detaljer

Kap. 10: Inferens om to populasjoner. Eksempel. ST0202 Statistikk for samfunnsvitere

Kap. 10: Inferens om to populasjoner. Eksempel. ST0202 Statistikk for samfunnsvitere Kap. 10: Inferens om to populasjoner Situasjon: Vi ønsker å sammenligne to populasjoner med populasjonsgjennomsnitt henholdsvis μ 1 og μ. Vi trekker da ett utvalg fra hver populasjon. ST00 Statistikk for

Detaljer

Kapittel 3: Studieopplegg

Kapittel 3: Studieopplegg Oversikt over pensum Kapittel 1: Empirisk fordeling for en variabel o Begrepet fordeling o Mål for senter (gj.snitt, median) + persentiler/kvartiler o Mål for spredning (Standardavvik s, IQR) o Outliere

Detaljer

Statistikk, FO242N, AMMT, HiST 2. årskurs, 30. mai 2007 side 1 ( av 8) LØSNINGSFORSLAG HØGSKOLEN I SØR-TRØNDELAG

Statistikk, FO242N, AMMT, HiST 2. årskurs, 30. mai 2007 side 1 ( av 8) LØSNINGSFORSLAG HØGSKOLEN I SØR-TRØNDELAG Statistikk, FO242N, AMMT, HiST 2. årskurs, 30. mai 2007 side 1 ( av 8) LØSNINGSFORSLAG HØGSKOLEN I SØR-TRØNDELAG AVDELING FOR MAT- OG MEDISINSK TEKNOLOGI Matteknologisk utdanning Kandidatnr: Eksamensdato:

Detaljer

Løsningsforslag Til Statlab 5

Løsningsforslag Til Statlab 5 Løsningsforslag Til Statlab 5 Jimmy Paul September 6, 007 Oppgave 8.1 Vi skal se på ukentlige forbruk av søtsaker blant barn i et visst område. En pilotstudie gir at standardavviket til det ukentige forbruket

Detaljer

Løsningsforslag ECON 2130 Obligatorisk semesteroppgave 2017 vår

Løsningsforslag ECON 2130 Obligatorisk semesteroppgave 2017 vår Løsningsforslag ECON 130 Obligatorisk semesteroppgave 017 vår Andreas Myhre Oppgave 1 1. (i) Siden X og Z er uavhengige, vil den simultane fordelingen mellom X og Z kunne skrives som: f(x, z) = P(X = x

Detaljer

Oppgave 1. T = 9 Hypotesetest for å teste om kolesterolnivået har endret seg etter dietten: T observert = 2.16 0

Oppgave 1. T = 9 Hypotesetest for å teste om kolesterolnivået har endret seg etter dietten: T observert = 2.16 0 Løsningsforslag til eksamen i MOT310 STATISTISKE METODER 1 VARIGHET: 4 TIMER DATO: 08. mai 2008 TILLATTE HJELPEMIDLER: Kalkulator: HP30S, Casio FX82 eller TI-30 Tabeller og formler i statistikk (Tapir

Detaljer

ST0202 Statistikk for samfunnsvitere Kapittel 10: Inferens om to populasjoner

ST0202 Statistikk for samfunnsvitere Kapittel 10: Inferens om to populasjoner ST0202 Statistikk for samfunnsvitere Kapittel 10: Inferens om to populasjoner Bo Lindqvist Institutt for matematiske fag 2 Kapittel 10: Inferens om to populasjoner Situasjon: Vi ønsker å sammenligne to

Detaljer

A. i) Sett opp en frekvenstabell over de fire mulige kombinasjonene av kjønn og røykestatus. Dvs. fyll inn. Ikke - røyker Sum Jente Gutt Sum 25

A. i) Sett opp en frekvenstabell over de fire mulige kombinasjonene av kjønn og røykestatus. Dvs. fyll inn. Ikke - røyker Sum Jente Gutt Sum 25 1 ECON21: ESAEN 215v SENSORVEILEDNING. Det anbefales at de 9 deloppgavene merket med A, B, teller likt uansett variasjon i vanskelighetsgrad. Svarene er gitt i > Grensen til bestått bør ligge på ca

Detaljer

Løsningsforslag til obligatorisk innlevering 3.

Løsningsforslag til obligatorisk innlevering 3. svar3.nb 1 Løsningsforslag til obligatorisk innlevering 3. Oppgave 1 * Vi skal sammenlikne to sensoere A og B. Begge har rettet den samme oppgaven. Hvis populasjonen er eksamensoppgavene, har vi altså

Detaljer

Oppgave 1. og t α/2,n 1 = 2.262, så er et 95% konfidensintervall for µ D (se kap 9.9 i læreboka): = ( 0.12, 3.32).

Oppgave 1. og t α/2,n 1 = 2.262, så er et 95% konfidensintervall for µ D (se kap 9.9 i læreboka): = ( 0.12, 3.32). Løsningsforslag til eksamen i MOT310 STATISTISKE METODER 1 VARIGHET: 4 TIMER DATO: 16. november 2009 TILLATTE HJELPEMIDLER: Kalkulator: HP30S, Casio FX82 eller TI-30 Tabeller og formler i statistikk (Tapir

Detaljer

Innhold. Innledning. Del I

Innhold. Innledning. Del I Innhold Del I Innledning 1 Hva er statistikk?...17 1.1 Bokas innhold 18 1.1.1 Noen eksempler 18 1.1.2 Historie 21 1.1.3 Bokas oppbygning 22 1.2 Noen viktige begreper 23 1.2.1 Populasjon og utvalg 23 1.2.2

Detaljer

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2. Løsningsforslag til eksamen i MOT310 STATISTISKE METODER 1 VARIGHET: 4 TIMER DATO: 17 november 2008 TILLATTE HJELPEMIDLER: Kalkulator: HP30S, Casio FX82 eller TI-30 Tabeller og formler i statistikk Tapir

Detaljer

Inferens i regresjon

Inferens i regresjon Strategi som er fulgt hittil: Inferens i regresjon Deskriptiv analyse og dataanalyse først. Analyse av en variabel før studie av samvariasjon. Emne for dette kapittel er inferens når det er en respons

Detaljer

Formelsamling V-2014 MAT110. Statistikk 1. Per Kristian Rekdal

Formelsamling V-2014 MAT110. Statistikk 1. Per Kristian Rekdal Formelsamling V-2014 MAT110 Statistikk 1 Per Kristian Rekdal 2 Forord Dette er formelsamlingen i emnet MAT110 Statistikk 1 ved høgskolen i Molde. Formlene i denne formelsamlingen er stort sett de formlene

Detaljer

TMA4245 Statistikk Eksamen desember 2016

TMA4245 Statistikk Eksamen desember 2016 Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag TMA4245 Statistikk Eksamen desember 2016 Oppgave 1 En bedrift produserer elektriske komponenter. Komponentene kan ha to typer

Detaljer

2. Hva er en sampelfordeling? Nevn tre eksempler på sampelfordelinger.

2. Hva er en sampelfordeling? Nevn tre eksempler på sampelfordelinger. H12 - Semesteroppgave i statistikk - sensurveiledning Del 1 - teori 1. Gjør rede for resonnementet bak ANOVA. Enveis ANOVA tester om det er forskjeller mellom gjennomsnittene i tre eller flere populasjoner.

Detaljer

Kapittel 2: Hendelser

Kapittel 2: Hendelser Kapittel 2: Hendelser FENOMEN Eksperiment Utfall Utfallsrom Eksperiment. Utfall. Eksperiment Utfall Hendelse Sannsynlighet: egenskaper, gunstige vs. mulige, relativ frekvens Sannsynlighet for mer enn en

Detaljer

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere ST0202 Statistikk for samfunnsvitere Bo Lindqvist Institutt for matematiske fag 2 Kap. 10: Inferens om to populasjoner Situasjon: Vi ønsker å sammenligne to populasjoner med populasjonsgjennomsnitt henholdsvis

Detaljer

OPPGAVESETTET BESTÅR AV 3 OPPGAVER PÅ 6 SIDER MERKNADER: Alle deloppgaver vektlegges likt.

OPPGAVESETTET BESTÅR AV 3 OPPGAVER PÅ 6 SIDER MERKNADER: Alle deloppgaver vektlegges likt. EKSAMEN I: MOT310 STATISTISKE METODER 1 VARIGHET: 4 TIMER DATO: 08. mai 2008 TILLATTE HJELPEMIDLER: Kalkulator: HP30S, Casio FX82 eller TI-30 Tabeller og formler i statistikk (Tapir forlag) OPPGAVESETTET

Detaljer

HØGSKOLEN I STAVANGER

HØGSKOLEN I STAVANGER EKSAMEN I: MOT310 STATISTISKE METODER VARIGHET: 4 TIMER DATO: 27. FEBRUAR 2004 TILLATTE HJELPEMIDLER: KALKULATOR, TABELLER OG FORMLER I STATISTIKK (TAPIR FORLAG) OPPGAVESETTET BESTÅR AV 3 OPPGAVER PÅ 5

Detaljer

Oppgaven består av 9 delspørsmål som anbefales å veie like mye. Kommentarer og tallsvar er skrevet inn mellom << >>. Oppgave 1

Oppgaven består av 9 delspørsmål som anbefales å veie like mye. Kommentarer og tallsvar er skrevet inn mellom << >>. Oppgave 1 ECON 0 EKSMEN 007 VÅR SENSORVEILEDNING Oppgaven består av 9 delspørsmål som anbefales å veie like mye. Kommentarer og tallsvar er skrevet inn mellom >. Oppgave. La begivenhetene BC,, være slik at og

Detaljer

ST0202 Statistikk for samfunnsvitere Kapittel 6: Normalfordelingen

ST0202 Statistikk for samfunnsvitere Kapittel 6: Normalfordelingen ST0202 Statistikk for samfunnsvitere Kapittel 6: Normalfordelingen Bo Lindqvist Institutt for matematiske fag 2 Kap. 6: Normalfordelingen Normalfordelingen regnes som den viktigste statistiske fordelingen!

Detaljer

10.1 Enkel lineær regresjon Multippel regresjon

10.1 Enkel lineær regresjon Multippel regresjon Inferens for regresjon 10.1 Enkel lineær regresjon 11.1-11.2 Multippel regresjon 2012 W.H. Freeman and Company Denne uken: Enkel lineær regresjon Litt repetisjon fra kapittel 2 Statistisk modell for enkel

Detaljer

Analyse av kontinuerlige data. Intro til hypotesetesting. 21. april 2005. Seksjon for medisinsk statistikk, UIO. Tron Anders Moger

Analyse av kontinuerlige data. Intro til hypotesetesting. 21. april 2005. Seksjon for medisinsk statistikk, UIO. Tron Anders Moger Intro til hypotesetesting Analyse av kontinuerlige data 21. april 2005 Tron Anders Moger Seksjon for medisinsk statistikk, UIO 1 Repetisjon fra i går: Normalfordelingen Variasjon i målinger kan ofte beskrives

Detaljer

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010 Oppsummering

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010 Oppsummering ÅMA110 Sannsynlighetsregning med statistikk, våren 2010 Oppsummering Bjørn H. Auestad Institutt for matematikk og naturvitenskap Universitetet i Stavanger 21. april Bjørn H. Auestad Oppsummering våren

Detaljer

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere ST0202 Statistikk for samfunnsvitere Bo Lindqvist Institutt for matematiske fag 2 Statistisk inferens (kap. 8) Statistisk inferens er å tolke/analysere resultater fra utvalget for å finne ut mest mulig

Detaljer

HØGSKOLEN I STAVANGER

HØGSKOLEN I STAVANGER EKSAMEN I: MOT310 STATISTISKE METODER 1 VARIGHET: 4 TIMER DATO: 25. NOVEMBER 2003 TILLATTE HJELPEMIDLER: KALKULATOR, TABELLER OG FORMLER I STATISTIKK (TAPIR FORLAG) OPPGAVESETTET BESTÅR AV 3 OPPGAVER PÅ

Detaljer

6.2 Signifikanstester

6.2 Signifikanstester 6.2 Signifikanstester Konfidensintervaller er nyttige når vi ønsker å estimere en populasjonsparameter Signifikanstester er nyttige dersom vi ønsker å teste en hypotese om en parameter i en populasjon

Detaljer

EKSAMEN I FAG TMA4255 ANVENDT STATISTIKK

EKSAMEN I FAG TMA4255 ANVENDT STATISTIKK Norges teknisk naturvitenskapelige universitet Institutt for matematiske fag Side 1 av 5 Faglig kontakt under eksamen: Bo Lindqvist Tlf. 975 89 418 BOKMÅL EKSAMEN I FAG TMA4255 ANVENDT STATISTIKK Onsdag

Detaljer

Høgskoleni Øs fold EKSAMEN. Om noe er uklart eller mangelfullt i oppgaven inngår det som en del av oppgaven å ta de nødvendige forutsetninger.

Høgskoleni Øs fold EKSAMEN. Om noe er uklart eller mangelfullt i oppgaven inngår det som en del av oppgaven å ta de nødvendige forutsetninger. Høgskoleni Øs fold EKSAMEN Emnekode: Emne: SFB10711 Metodekurs 1: Grunnleggende matematikk og statistikk Deleksameni statistikk Dato: 3. januar 2014 Eksamenstid: kl. 0900 til kl. 1300 Hjelpemidler: Faglærer:

Detaljer

betyr begivenheten at det blir trukket en rød kule i første trekning og en hvit i andre, mens B1 B2

betyr begivenheten at det blir trukket en rød kule i første trekning og en hvit i andre, mens B1 B2 ECON30: EKSAMEN 06v SENSORVEILEDNING. Det anbefales at de 9 deloppgavene merket med A, B, teller likt uansett variasjon i vanskelighetsgrad. Svarene er gitt i

Detaljer

Høgskoleni østfold EKSAMEN

Høgskoleni østfold EKSAMEN et) Høgskoleni østfold EKSAMEN Emnekode:Emne: SFB10711Metode 1 Statistikkdel Dato: 5. feb. 2016Eksamenstid: kl. 1400 Hjelpemidler: Kalkulator Utlevert formelsamling til kl. 1800 Faglærer: Nils Ingar Arvidsen

Detaljer

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere 2 Statistisk inferens (kap. 8) Statistisk inferens er å tolke/analysere resultater fra utvalget for å finne ut mest mulig om populasjonen. Konkret: Å analysere en utvalgsobservator for å trekke slutninger

Detaljer

Supplement til power-point presentasjonen i medisinsk statistikk, forelesning 7 januar 2013. Skrevet av Stian Lydersen 16 januar 2013

Supplement til power-point presentasjonen i medisinsk statistikk, forelesning 7 januar 2013. Skrevet av Stian Lydersen 16 januar 2013 1 Supplement til power-point presentasjonen i medisinsk statistikk, forelesning 7 januar 013. Skrevet av Stian Lydersen 16 januar 013 Vi antar at vårt utvalg er et tilfeldig og representativt utvalg for

Detaljer

Dekkes av pensumsidene i kap. lesingsnotatene. Hypotesetesting er en systematisk fremgangsmåte

Dekkes av pensumsidene i kap. lesingsnotatene. Hypotesetesting er en systematisk fremgangsmåte Hypotesetesting. 10 og fore- Dekkes av pensumsidene i kap. lesingsnotatene. Hypotesetesting er en systematisk fremgangsmåte for å undersøke hypoteser (påstander) knyttet til parametre i sannsynlighetsfordelinger.

Detaljer

+ S2 Y ) 2. = 6.737 6 (avrundet nedover til nærmeste heltall) n Y 1

+ S2 Y ) 2. = 6.737 6 (avrundet nedover til nærmeste heltall) n Y 1 Løsningsforslag for: MOT10 STATISTISKE METODER 1 VARIGHET: 4 TIMER DATO: 6. november 007 TILLATTE HJELPEMIDLER: Kalkulator: HP0S, Casio FX8 eller TI-0 Tabeller og formler i statistikk (Tapir forlag) MERKNADER:

Detaljer

TMA4240 Statistikk Høst 2016

TMA4240 Statistikk Høst 2016 TMA4240 Statistikk Høst 2016 Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag Anbefalt øving 11 Oppgavene i denne øvingen dreier seg om hypotesetesting og sentrale begreper

Detaljer

Andre sett med obligatoriske oppgaver i STK1110 høsten 2010

Andre sett med obligatoriske oppgaver i STK1110 høsten 2010 Andre sett med obligatoriske oppgaver i STK1110 høsten 2010 Dette er det andre settet med obligatoriske oppgaver i STK1110 høsten 2010. Oppgavesettet består av fire oppgaver. Det er valgfritt om du vil

Detaljer

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere 2 Statistisk inferens (kap. 8) Statistisk inferens er å tolke/analysere resultater fra utvalget for å finne ut mest mulig om populasjonen. Konkret: Analysere en observator for å finne ut noe om korresponderende

Detaljer

1 Section 7-2: Estimere populasjonsandelen. 2 Section 7-4: Estimere µ når σ er ukjent

1 Section 7-2: Estimere populasjonsandelen. 2 Section 7-4: Estimere µ når σ er ukjent 1 Section 7-2: Estimere populasjonsandelen 2 Section 7-4: Estimere µ når σ er ukjent Kapittel 7 Nå begynner vi med statistisk inferens! Bruke stikkprøven til å 1 Estimere verdien til en parameter i populasjonen.

Detaljer

i x i

i x i TMA4245 Statistikk Vår 2016 Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag Anbefalte oppgaver 11, blokk II Oppgavene i denne øvingen dreier seg om hypotesetesting og sentrale

Detaljer

Utvalgsfordelinger. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer.

Utvalgsfordelinger. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer. Utvalgsfordelinger Vi har sett at utvalgsfordelinger til en statistikk (observator) er fordelingen av verdiene statistikken tar ved mange gjenttatte utvalg av samme størrelse fra samme populasjon. Utvalg

Detaljer

Eksamen i : STA-1002 Statistikk og. Eksamensdato : 26. september 2011. Sted : Administrasjonsbygget. Tillatte hjelpemidler : - Godkjent kalkulator

Eksamen i : STA-1002 Statistikk og. Eksamensdato : 26. september 2011. Sted : Administrasjonsbygget. Tillatte hjelpemidler : - Godkjent kalkulator Side 1 av 11 sider EKSAMENSOPPGAVE I STA-1002 Eksamen i : STA-1002 Statistikk og sannsynlighet 2 Eksamensdato : 26. september 2011. Tid : 09-13. Sted : Administrasjonsbygget. Tillatte hjelpemidler : -

Detaljer

QED 5 10. Matematikk for grunnskolelærerutdanningen. Bind 2. Fasit kapittel 4 Statistikk og kvantitativ metode

QED 5 10. Matematikk for grunnskolelærerutdanningen. Bind 2. Fasit kapittel 4 Statistikk og kvantitativ metode QED 5 10 Matematikk for grunnskolelærerutdanningen Bind 2 Fasit kapittel 4 Statistikk og kvantitativ metode Kapittel 4 Oppgave 1. La x være antall øyne på terningen. a) Vi får følgende sannsynlighetsfordeling

Detaljer

Oppgave 1: Feil på mobiltelefoner

Oppgave 1: Feil på mobiltelefoner Oppgave 1: Feil på mobiltelefoner a) Sannsynlighetene i oppgaven blir P (F 1 F 2 ) P (F 1 ) + P (F 2 ) P (F 1 F 2 ) P (F 1 ) + 1 P (F2 C ) P (F 1 F 2 ) 0.080 + 0.075 0.006 0.149 P (F 1 F 2 ) P (F 1 F 2

Detaljer

TMA4240 Statistikk Høst 2015

TMA4240 Statistikk Høst 2015 TMA4240 Statistikk Høst 2015 Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag Øving nummer 11, blokk II I denne øvingen skal vi fokusere på hypotesetesting. Vi ønsker å gi dere

Detaljer

FORMELSAMLING STATISTIKK, HiG

FORMELSAMLING STATISTIKK, HiG Høgskolen i Gjøvik Avdeling for ingeniørfag Versjon fra mai 2007 FORMELSAMLING STATISTIKK, HiG Hans Petter Hornæs hans.hornaes@hig.no ISSN:??????? Innledning. Denne formelsamlingen er skrevet for bruk

Detaljer

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT Utsatt eksamen i: ECON2130 - Statistikk 1 Eksamensdag: 19.06.2014 Tid for eksamen: kl. 09:00 12:00 Oppgavesettet er på 4 sider UNIVERSITETET I OSLO ØKONOMISK INSTITUTT Tillatte hjelpemidler: Alle trykte

Detaljer

Oppfriskning av blokk 1 i TMA4240

Oppfriskning av blokk 1 i TMA4240 Oppfriskning av blokk 1 i TMA4240 Geir-Arne Fuglstad November 21, 2016 2 Hva har vi gjort i dette kurset? Vi har studert to sterkt relaterte grener av matematikk Sannsynlighetsteori: matematisk teori for

Detaljer

EKSAMEN I TMA4245 Statistikk

EKSAMEN I TMA4245 Statistikk Norges teknisk naturvitenskapelige universitet Institutt for matematiske fag Side 1 av 5 Faglig kontakt under eksamen: Turid Follestad (98 06 68 80/73 59 35 37) Hugo Hammer (45 21 01 84/73 59 77 74) Eirik

Detaljer

Sammenlikninger av gjennomsnitt. SOS1120 Kvantitativ metode. Kan besvare to spørsmål: Sammenlikning av to gjennomsnitt

Sammenlikninger av gjennomsnitt. SOS1120 Kvantitativ metode. Kan besvare to spørsmål: Sammenlikning av to gjennomsnitt SOS1120 Kvantitativ metode Forelesningsnotater 10. forelesning høsten 2005 Per Arne Tufte Sammenlikninger av gjennomsnitt Sammenlikner gjennomsnittet på avhengig variabel for ulike grupper av enheter Kan

Detaljer

1 8-1: Oversikt. 2 8-2: Grunnleggende hypotesetesting. 3 Section 8-3: Å teste påstander om andeler. 4 Section 8-5: Teste en påstand om gjennomsnittet

1 8-1: Oversikt. 2 8-2: Grunnleggende hypotesetesting. 3 Section 8-3: Å teste påstander om andeler. 4 Section 8-5: Teste en påstand om gjennomsnittet 1 8-1: Oversikt 2 8-2: Grunnleggende hypotesetesting 3 Section 8-3: Å teste påstander om andeler 4 Section 8-5: Teste en påstand om gjennomsnittet Definisjoner Hypotese En hypotese er en påstand om noe

Detaljer

Mer om hypotesetesting

Mer om hypotesetesting Mer om hypotesetesting I underkapittel 36 i læreboka gir vi en kort innføring i tankegangen ved hypotesetesting Vi gir her en grundigere framstilling av temaet Problemstilling Vi forklarer problemstillingen

Detaljer

Statistikk 1. Nico Keilman. ECON 2130 Vår 2014

Statistikk 1. Nico Keilman. ECON 2130 Vår 2014 Statistikk 1 Nico Keilman ECON 2130 Vår 2014 Pensum Kap 1-7.3.6 fra Løvås «Statistikk for universiteter og høgskoler» 3. utgave 2013 (eventuelt 2. utgave) Se overspringelsesliste på emnesiden Supplerende

Detaljer

Page 1 EN DAG PÅ HELSESTASJONEN. Lises klassevenninnner. Formelen: Du har en hypotese om vanlig høyde

Page 1 EN DAG PÅ HELSESTASJONEN. Lises klassevenninnner. Formelen: Du har en hypotese om vanlig høyde 1 E DAG PÅ HELSESTASJOE Lises klassevenninnner Lise er veldig liten Hva gjør at du sier at hun er liten? Du har en hypotese om vanlig høyde Du har en hypotese om vanlig høyde Du sammenligner Lises høyde

Detaljer

TMA4240 Statistikk Høst 2007

TMA4240 Statistikk Høst 2007 TMA4240 Statistikk Høst 2007 Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag Øving nummer b4 Løsningsskisse Oppgave 1 Eksamen juni 1999, oppgave 3 av 3 a) µ populasjonsgjennomsnitt,

Detaljer

BIO2150 Biostatistikk og studiedesign. Ordliste

BIO2150 Biostatistikk og studiedesign. Ordliste BIO2150 Biostatistikk og studiedesign Ordliste Forord Denne ordlisten inneholder forklaringer på statistiske og andre matematiske ord og uttrykk som brukes i forelesningene i BIO2150 ved Biologisk institutt,

Detaljer

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 3

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 3 ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 3 Bjørn H. Auestad Institutt for matematikk og naturvitenskap Universitetet i Stavanger 20. mars Bjørn H. Auestad Kp. 6: Hypotesetesting

Detaljer

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere ST0202 Statistikk for samfunnsvitere Bo Lindqvist Institutt for matematiske fag 2 Kap. 13: Lineær korrelasjons- og regresjonsanalyse Kap. 13.1-13.3: Lineær korrelasjonsanalyse. Disse avsnitt er ikke pensum,

Detaljer

Krysstabellanalyse (forts.) SOS1120 Kvantitativ metode. 4. Statistisk generalisering. Forelesningsnotater 9. forelesning høsten 2005.

Krysstabellanalyse (forts.) SOS1120 Kvantitativ metode. 4. Statistisk generalisering. Forelesningsnotater 9. forelesning høsten 2005. SOS112 Kvantitativ metode Krysstabellanalyse (forts.) Forelesningsnotater 9. forelesning høsten 25 4. Statistisk generalisering Per Arne Tufte Eksempel: Hypoteser Eksempel: observerte frekvenser (O) Hvordan

Detaljer

UNIVERSITETET I OSLO Matematisk Institutt

UNIVERSITETET I OSLO Matematisk Institutt UNIVERSITETET I OSLO Matematisk Institutt Midtveiseksamen i: STK 1000: Innføring i anvendt statistikk Tid for eksamen: Onsdag 9. oktober 2013, 11:00 13:00 Hjelpemidler: Lærebok, ordliste for STK1000, godkjent

Detaljer

Eksamensoppgave i TMA4240 Statistikk

Eksamensoppgave i TMA4240 Statistikk Institutt for matematiske fag Eksamensoppgave i TMA4240 Statistikk Faglig kontakt under eksamen: Mette Langaas a, Ingelin Steinsland b, Geir-Arne Fuglstad c Tlf: a 988 47 649, b 926 63 096, c 452 70 806

Detaljer

Notasjon og Tabell 8. ST0202 Statistikk for samfunnsvitere

Notasjon og Tabell 8. ST0202 Statistikk for samfunnsvitere 2 Inferens om varians og standardavvik for ett normalfordelt utvalg (9.4) Inferens om variansen til en normalfordelt populasjon bruker kjikvadrat-fordelingen ( chi-square distribution ) (der kji er den

Detaljer

Oppgave 1. Det oppgis at dersom y ij er observasjon nummer j fra laboratorium i så er SSA = (y ij ȳ i ) 2 = 3.6080.

Oppgave 1. Det oppgis at dersom y ij er observasjon nummer j fra laboratorium i så er SSA = (y ij ȳ i ) 2 = 3.6080. EKSAMEN I: MOT310 STATISTISKE METODER 1 VARIGHET: 4 TIMER DATO: 28. FEBRUAR 2005 TILLATTE HJELPEMIDLER: KALKULATOR, TABELLER OG FORMLER I STATISTIKK (TAPIR FORLAG) OPPGAVESETTET BESTÅR AV 4 OPPGAVER PÅ

Detaljer

TALLSVAR. Det anbefales at de 9 deloppgavene merket med A, B, teller likt uansett variasjon i vanskelighetsgrad. Svarene er gitt i << >>.

TALLSVAR. Det anbefales at de 9 deloppgavene merket med A, B, teller likt uansett variasjon i vanskelighetsgrad. Svarene er gitt i << >>. 1 ECON130: EKSAMEN 014 VÅR - UTSATT PRØVE TALLSVAR. Det anbefales at de 9 deloppgavene merket med A, B, teller likt uansett variason i vanskelighetsgrad. Svarene er gitt i >. Oppgave 1 Fra en eldre

Detaljer

MOT310 Statistiske metoder 1, høsten 2010 Løsninger til regneøving nr. 11 (s. 1) der

MOT310 Statistiske metoder 1, høsten 2010 Løsninger til regneøving nr. 11 (s. 1) der MOT310 Statistiske metoder 1, høsten 2010 Løsninger til regneøving nr. 11 (s. 1) Oppgave 13.1 Modell: Y ij = µ i + ε ij, der ε ij uavh. N(0, σ 2 ) Boka opererer her med spesialtilfellet der man har like

Detaljer

> 6 7 ) = 1 Φ( 1) = 1 0.1587 = 0.8413 P (X < 7 X < 8) P (X < 8) < 7 6 1 ) < 8 6 1 ) = Φ(2) = 0.8413

> 6 7 ) = 1 Φ( 1) = 1 0.1587 = 0.8413 P (X < 7 X < 8) P (X < 8) < 7 6 1 ) < 8 6 1 ) = Φ(2) = 0.8413 Norges teknisk naturvitenskapelige universitet Institutt for matematiske fag Side av 7 Oppgave Sykkelruter a) P (Y > 6) P (Y > 6) P ( Y 7 > 6 7 ) Φ( ) 0.587 0.843 b) Hypoteser: H 0 : µ µ 2 H : µ < µ 2

Detaljer

Sentralverdi av dataverdi i et utvalg Vi tenker oss et utvalg med datapar. I vårt eksempel har vi 5 datapar.

Sentralverdi av dataverdi i et utvalg Vi tenker oss et utvalg med datapar. I vårt eksempel har vi 5 datapar. Statistisk behandling av kalibreringsresultatene Del 4. v/ Rune Øverland, Trainor Elsikkerhet AS Denne artikkelserien handler om statistisk behandling av kalibreringsresultatene. Dennne artikkelen tar

Detaljer

Hypotesetesting (kp. 6) ÅMA110 Sannsynlighetsregning med statistikk, våren Tre deler av faget/kurset: 1. Beskrivende statistikk

Hypotesetesting (kp. 6) ÅMA110 Sannsynlighetsregning med statistikk, våren Tre deler av faget/kurset: 1. Beskrivende statistikk ÅMA Sannsynlighetsregning med statistikk, våren 2 Kp. 6 Hypotesetesting Hypotesetesting (kp. 6) Tre deler av faget/kurset:. Beskrivende statistikk 2. Sannsynlighetsteori, sannsynlighetsregning 3. Statistisk

Detaljer

TMA4240 Statistikk 2014

TMA4240 Statistikk 2014 TMA4240 Statistikk 2014 Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag Øving nummer 12, blokk II Oppgave 1 På ein av vegane inn til Trondheim er UP interessert i å måle effekten

Detaljer

QED 1 7. Matematikk for grunnskolelærerutdanningen. Bind 2. Fasit kapittel 4 Statistikk og kvantitativ metode

QED 1 7. Matematikk for grunnskolelærerutdanningen. Bind 2. Fasit kapittel 4 Statistikk og kvantitativ metode QED 1 7 Matematikk for grunnskolelærerutdanningen Bind 2 Fasit kapittel 4 Statistikk og kvantitativ metode Kapittel 4 Oppgave 1 La være antall øyne på terningen. a) Vi får følgende sannsynlighetsfordeling

Detaljer

I enkel lineær regresjon beskrev linja. μ y = β 0 + β 1 x

I enkel lineær regresjon beskrev linja. μ y = β 0 + β 1 x Multiple regresjon Her utvider vi perspektivet for enkel lineær regresjon til også å omfatte flere forklaringsvariable.det er fortsatt en responsvariabel. Måten dette gjøre på er nokså naturlig. Prediktoren

Detaljer

Om eksamen. Never, never, never give up!

Om eksamen. Never, never, never give up! Plan vidare Onsdag Gjere ferdig kap 11 + repetisjon Fredag Rekning av eksamensoppgåver Eksamen Mai 2014, oppgåve 2 (inkl normal fordeling, lin.reg. og deskriptiv statistikk) Eksamen August 2012, oppgåve

Detaljer

TMA4240 Statistikk Høst 2008

TMA4240 Statistikk Høst 2008 TMA4240 Statistikk Høst 2008 Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag Øving nummer 7 Oppgave 1 Tippekonkurranse Denne oppgaven er ment som en kjapp test på hva du har

Detaljer

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans Denne uken: kap. 6.1-6.2-6.3: Introduksjon til statistisk inferens - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans VG 25/9 2011 Statistisk inferens Mål: Trekke konklusjoner

Detaljer

TMA4240 Statistikk H2010

TMA4240 Statistikk H2010 TMA4240 Statistikk H2010 Statistisk inferens: 8.1: Tilfeldig utvalg 9.1-9.3: Estimering Mette Langaas Foreleses uke 40, 2010 2 Utfordring Ved en bedrift produseres en elektrisk komponent. Komponenten må

Detaljer

Testobservator for kjikvadrattester

Testobservator for kjikvadrattester ST0202 Statistikk for samfunnsvitere Bo Lindqvist Institutt for matematiske fag 2 Kap. 11: Anvendelser av kjikvadratfordelingen: Kjikvadrattester Situasjon: Et tilfeldig utvalg av n individer er trukket

Detaljer

a ) Forventningen estimeres med gjennomsnittet: x = 1 12 (x 1 + + x 12 ) = 1 (755 + 708 + + 748) = 8813/12 = 734.4

a ) Forventningen estimeres med gjennomsnittet: x = 1 12 (x 1 + + x 12 ) = 1 (755 + 708 + + 748) = 8813/12 = 734.4 ÅMA110 Sannsylighetsregning og statistikk Løsningsforslag til eksamen høst 011, s. 1 (Det tas forbehold om feil i løsningsforslaget. Oppgave 1 Vi betrakter dataene x 1,..., x 1 somutfall av n = 1 u.i.f.

Detaljer

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO Deleksamen i: UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet STK1000 Innføring i anvendt statistikk. Eksamensdag: Onsdag 13. oktober 2010. Tid for eksamen: 15:00 17:00. Oppgavesettet

Detaljer

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere ST0202 Statistikk for samfunnsvitere Bo Lindqvist Institutt for matematiske fag 2 Fra første forelesning: Populasjon Den mengden av individer/objekter som vi ønsker å analysere. Utvalg En delmengde av

Detaljer

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i: STK1110 Løsningsforslag: Statistiske metoder og dataanalys Eksamensdag: Fredag 9. desember 2011 Tid for eksamen: 14.30 18.30

Detaljer

Oppgaven består av 10 delspørsmål som anbefales å veie like mye, Kommentarer og tallsvar er skrevet inn mellom <<, >>, Oppgave 1

Oppgaven består av 10 delspørsmål som anbefales å veie like mye, Kommentarer og tallsvar er skrevet inn mellom <<, >>, Oppgave 1 ECON 130 EKSAMEN 005 VÅR SENSORVEILEDNING Oppgaven består av 10 delspørsmål som anbefales å veie like mye, Kommentarer og tallsvar er skrevet inn mellom , Oppgave 1 I denne oppgaven kan du anta at

Detaljer

HØGSKOLEN I STAVANGER

HØGSKOLEN I STAVANGER EKSAMEN I: MOT0 STATISTISKE METODER VARIGHET: TIMER DATO:. NOVEMBER 00 TILLATTE HJELPEMIDLER: KALKULATOR, TABELLER OG FORMLER I STATISTIKK (TAPIR FORLAG) OPPGAVESETTET BESTÅR AV OPPGAVER PÅ 7 SIDER HØGSKOLEN

Detaljer

Verdens statistikk-dag. Signifikanstester. Eksempel studentlån. http://unstats.un.org/unsd/wsd/

Verdens statistikk-dag. Signifikanstester. Eksempel studentlån. http://unstats.un.org/unsd/wsd/ Verdens statistikk-dag http://unstats.un.org/unsd/wsd/ Signifikanstester Ønsker å teste hypotese om populasjon Bruker data til å teste hypotese Typisk prosedyre Beregn sannsynlighet for utfall av observator

Detaljer

Eksamensoppgave i TMA4245 Statistikk

Eksamensoppgave i TMA4245 Statistikk Institutt for matematiske fag Eksamensoppgave i TMA4245 Statistikk Faglig kontakt under eksamen: Håkon Tjelmeland Tlf: 48 22 18 96 Eksamensdato:??. august 2014 Eksamenstid (fra til): 09:00 13:00 Hjelpemiddelkode/Tillatte

Detaljer

Datamatrisen: observasjoner, variabler og verdier. Variablers målenivå: Nominal Ordinal Intervall Forholdstall (ratio)

Datamatrisen: observasjoner, variabler og verdier. Variablers målenivå: Nominal Ordinal Intervall Forholdstall (ratio) Datamatrisen: observasjoner, variabler og verdier. Variablers målenivå: Nominal Ordinal Intervall Forholdstall (ratio) Beskrive fordelinger (sentraltendens, variasjon og form): Observasjon y i Sentraltendens

Detaljer

Introduksjon til inferens

Introduksjon til inferens Introduksjon til inferens Hittil: Populasjon der verdien til et individ/enhet beskrives med en fordeling. Her inngår vanligvis ukjente parametre, μ, p,... Enkelt tilfeldig utvalg (SRS), observator p =

Detaljer

1 Section 4-1: Introduksjon til sannsynlighet. 2 Section 4-2: Enkel sannsynlighetsregning. 3 Section 5-1: Introduksjon til sannsynlighetsfordelinger

1 Section 4-1: Introduksjon til sannsynlighet. 2 Section 4-2: Enkel sannsynlighetsregning. 3 Section 5-1: Introduksjon til sannsynlighetsfordelinger 1 Section 4-1: Introduksjon til sannsynlighet 2 Section 4-2: Enkel sannsynlighetsregning 3 Section 5-1: Introduksjon til sannsynlighetsfordelinger 4 Section 5-2: Tilfeldige variable 5 Section 5-3: Binomisk

Detaljer

Løsningsforslag til andre sett med obligatoriske oppgaver i STK1110 høsten 2010

Løsningsforslag til andre sett med obligatoriske oppgaver i STK1110 høsten 2010 Løsningsforslag til andre sett med obligatoriske oppgaver i STK1110 høsten 2010 Oppgave 1 a Forventet antall dødsulykker i år i er E(X i λ i. Dermed er θ i λ i E(X i forventet antall dødsulykker per 100

Detaljer

EKSAMEN. TILLATTE HJELPEMIDLER: Kalkulator. Hornæs: Formelsamling statistikk HiG. John Haugan: Formler og tabeller.

EKSAMEN. TILLATTE HJELPEMIDLER: Kalkulator. Hornæs: Formelsamling statistikk HiG. John Haugan: Formler og tabeller. KANDIDATNUMMER: EKSAMEN FAGNAVN: FAGNUMMER: Statistikk. BtG207 EKSAMENSDATO: 11. juni 2007. KLASSE: HIS 05 08. TID: kl. 8.00 13.00. FAGLÆRER: Hans Petter Hornæs ANTALL SIDER UTLEVERT: 5 (innkl. forside)

Detaljer

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere ST0202 Statistikk for samfunnsvitere Bo Lindqvist Institutt for matematiske fag 2 Kap. 9: Inferens om én populasjon I Kapittel 8 brukte vi observatoren z = x µ σ/ n for å trekke konklusjoner om µ. Dette

Detaljer

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i: STK1120 Statistiske metoder og dataanalyse 2. Eksamensdag: Tirsdag 2. juni 2009. Tid for eksamen: 14.30 17.30. Oppgavesettet

Detaljer

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i STK1000 Innføring i anvendt statistikk. Eksamensdag: Torsdag 9. oktober 2008. Tid for eksamen: 15:00 17:00. Oppgavesettet er på

Detaljer

STK Oppsummering

STK Oppsummering STK1100 - Oppsummering Geir Storvik 6. Mai 2014 STK1100 Tre temaer Deskriptiv/beskrivende statistikk Sannsynlighetsteori Statistisk inferens Sannsynlighetsregning Hva Matematisk verktøy for å studere tilfeldigheter

Detaljer

Statistikk 1 kapittel 5

Statistikk 1 kapittel 5 Statistikk 1 kapittel 5 Nico Keilman ECON 2130 Vår 2017 Kapittel 5 Sannsynlighetsmodeller I kap. 4 så vi et eksempel med en s.v. X som hadde en uniform sannsynlighetsfordeling: alle verdier av x har like

Detaljer

Inferens i fordelinger

Inferens i fordelinger Inferens i fordelinger Modifiserer antagelsen om at standardavviket i populasjonen σ er kjent Mer kompleks systematisk del ( her forventningen i populasjonen). Skal se på en situasjon der populasjonsfordelingen

Detaljer