Sannsynlighetsregning og Statistikk.



Like dokumenter
Statistikk 1. Nico Keilman. ECON 2130 Vår 2014

Statistikk. Forkurs 2018

Statistikk. Forkurs 2017

Statistisk beskrivelse av enkeltvariabler. SOS1120 Kvantitativ metode. Disposisjon. Datamatrisen. Forelesningsnotater 6. forelesning høsten 2005

ting å gjøre å prøve å oppsummere informasjonen i Hva som er hensiktsmessig måter å beskrive dataene på en hensiktsmessig måte.

Tema. Beskrivelse. Husk!

Øving 1 TMA Grunnleggende dataanalyse i Matlab

Øving 1 TMA Grunnleggende dataanalyse i Matlab

ØVINGER 2017 Løsninger til oppgaver. Øving 1

1 Sec 3-2: Hvordan beskrive senteret i dataene. 2 Sec 3-3: Hvordan beskrive spredningen i dataene

2P, Statistikk Quiz. Test, 2 Statistikk

Innhold. Innledning. Del I

ST0202 Statistikk for samfunnsvitere. Bo Lindqvist Institutt for matematiske fag

Lærebok Robert Johnson og Patricia Kuby: Elementary Statistics, 10. utgave. Pensumoversikt. Forelesninger og øvinger

Innhold. Innledning. Del I

Deskriptiv statistikk., Introduksjon til dataanalyse

ST0202 Statistikk for samfunnsvitere Kapittel 6: Normalfordelingen

Deskriptiv statistikk., Introduksjon til dataanalyse

Introduksjon til statistikk og dataanalyse. Arild Brandrud Næss TMA4240 Statistikk NTNU, høsten 2013

ST0202 Statistikk for samfunnsvitere. Bo Lindqvist Institutt for matematiske fag

MATEMATIKK (MAT1005) Sentralmål / Spredningsmål

Loven om total sannsynlighet. Bayes formel. Testing for sykdom. ST0202 Statistikk for samfunnsvitere

Kapittel 1 ser på. Statistikk i hverdagen

UNIVERSITETET I OSLO

ECON Statistikk 1 Forelesning 2: Innledning

2P kapittel 3 Statistikk Utvalgte løsninger oppgavesamlingen

Forkurs i kvantitative metoder ILP 2019

Lær å bruke GeoGebra 4.0

1 Grafisk framstilling av datamateriale

Forelesning 7 Statistiske beskrivelser av enkeltvariabler. Mål for sentraltendens

Dataanalyse. Hva er en dataanalyse og hvordan gå frem for å gjennomføre en dataanalyse av det innsamlede datagrunnlaget fra en feltundersøkelse?

2P kapittel 3 Statistikk Løsninger til innlæringsoppgavene

STK1100 våren Kontinuerlige stokastiske variabler Forventning og varians Momentgenererende funksjoner

ST0202 Statistikk for samfunnsvitere

MAT4010 PROSJEKTOPPGAVE: Statistikk i S2. Olai Sveine Johannessen, Vegar Klem Hafnor & Torstein Mellem

Når du har arbeidet deg gjennom dette kapittelet, er målet at du skal kunne

Lærebok Robert Johnson og Patricia Kuby: Elementary Statistics, 10. utgave. Pensumoversikt. Oversikt. ST0202 Statistikk for samfunnsvitere

ST0103 Brukerkurs i statistikk Høst 2014

Dataens tidsalder. Hvorfor data? Data, data, data. STK1000 Innføring i anvendt statistikk. Tirsdag 24. august 2010

Et lite notat om og rundt normalfordelingen.

Kapittel 4.4: Forventning og varians til stokastiske variable

Høgskolen i Sør-Trøndelag Avdeling Trondheim Økonomisk Høgskole EKSAMENSOPPGAVE

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010

Sentralmål og spredningsmål

Kapittel 1: Data og fordelinger

TMA4240 Statistikk H2010

Utfordring. TMA4240 Statistikk H2010. Mette Langaas. Foreleses uke 40, 2010

Basisoppgaver til 2P kap. 3 Statistikk

Et lite notat om og rundt normalfordelingen. Anta at vi har kontinuerlige data. Hva er likt og ulikt for histogrammer og fordelingskurver?

Statistikk Løsninger. Innhold. Statistikk Vg2P

Sentralmål og spredningsmål

Innledning kapittel 4

Øving 7: Statistikk for trafikkingeniører

Et lite notat om og rundt normalfordelingen.

Kapittel 1: Introduksjon til statistikk og dataanalyse Foreleses tirsdag 9. januar 2007.

STK1100 våren Generell introduksjon. Omhandler delvis stoffet i avsnitt 1.1 i læreboka (resten av kapittel 1 blir gjennomgått ved behov)

Utvalgsfordelinger. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer.

MATEMATIKK (MAT1005) Sentralmål / Spredningsmål

Utvalgsfordelinger; utvalg, populasjon, grafiske metoder, X, S 2, t-fordeling, χ 2 -fordeling

Page 1 EN DAG PÅ HELSESTASJONEN. Lises klassevenninnner. Formelen: Du har en hypotese om vanlig høyde

Nasjonale prøver i lesing, regning og engelsk på 5. trinn 2015

Innledning kapittel 4

ST0202 Statistikk for samfunnsvitere

Tema: Deskriptiv statistikk for kontinuerlige data. Av Kathrine Frey Frøslie,

Høgskolen i Gjøviks notatserie, 2001 nr 5

INNHOLD. Matematikk for ungdomstrinnet

Kapittel 3: Studieopplegg

Beskrivende statistikk.

STK1000 Uke 36, Studentene forventes å lese Ch 1.4 ( ) i læreboka (MMC). Tetthetskurver. Eksempel: Drivstofforbruk hos 32 biler

ST0202 Statistikk for samfunnsvitere

Analyseoversikt, Uke 35

1 Section 4-1: Introduksjon til sannsynlighet. 2 Section 4-2: Enkel sannsynlighetsregning. 3 Section 5-1: Introduksjon til sannsynlighetsfordelinger

Statistikk er begripelig

Statistikk Oppgaver. Innhold. Statistikk Vg2P

Løsningsforslag ECON 2130 Obligatorisk semesteroppgave 2017 vår

ÅMA110 Sannsynlighetsregning med statistikk, våren 2011

MASTER I IDRETTSVITENSKAP 2014/2016. Utsatt individuell skriftlig eksamen. STA 400- Statistikk. Mandag 24. august 2015 kl

ÅMA110 Sannsynlighetsregning med statistikk, våren ÅMA110 Sannsynlighetsregning med statistikk, våren 2010

Statistikk 2P, Prøve 2 løsning

Kapittel 8: Tilfeldige utvalg, databeskrivelse og fordeling til observatorar, Kapittel 9: Estimering

Introduksjon til statistikk og dataanalyse

Oppgaver til Studentveiledning I MET 3431 Statistikk

Statistikk 2. Tabellen nedenfor viser oljeproduksjonen i et OPEC-land i perioden 1990 til Produksjonen er i 1000 tonn.

Sannsynlighetsbegrepet

LØSNING: Oppgavesett nr. 1

Terningkast. Utfallsrommet S for et terningskast med en vanlig spillterning med 6 sider er veldefinert 1, 2, 3, 4, 5, 6

Løsningskisse for oppgaver til undervisningsfri uke 8 ( februar 2012)

Eksamen våren 2016 Løsninger

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

- Et stokastisk forsøk er et forsøk underlagt tilfeldige variasjoner, for eks. kast med en terning, trekking av et lottotall o.l.

Forelening 1, kapittel 4 Stokastiske variable

Eksamen i. MAT110 Statistikk 1

ECON240 Vår 2018 Oppgaveseminar 1 (uke 6)

STK1000 Innføring i anvendt statistikk

Kapittel 1: Introduksjon til statistikk og dataanalyse

Eksempel på data: Karakterer i «Stat class» Introduksjon

Sted Gj.snitt Median St.avvik Varians Trondheim Værnes Oppdal

Løsningsforslag Til Statlab 5

Statistikk. Mål. for opplæringen er at eleven skal kunne. planlegge, gjennomføre og vurdere statistiske undersøkelser

Velkommen til TMA4240. Velkommen til TMA / 18

Transkript:

Sannsynlighetsregning og Statistikk. Leksjon Velkommen til dette kurset i sannsynlighetsregning og statistikk! Vi vil som lærebok benytte Gunnar G. Løvås:Statistikk for universiteter og høyskoler. I den første leksjonen skal vi ta for oss endel begreper vi bruker i statistikk. Begrepene vil i vår tekst bli understreket og du kan finne dem igjen i det registeret vi har laget. Du vil også kunne lese mer om de forskjellige begreper i kapittel i Løvås bok. Det å foreta en statistisk analyse vil si at en ut fra et tallmateriale (et utvalg) skal trekke generelle konklusjoner i en populasjon. Hvor god en statistisk analyse vil være avhenger av om utvalget er representativt for hele populasjonen om hvor stor variasjonen mellom enhetene er. Variasjon kan deles i 3 typer: Populasjonsvariasjon. Prosessvariasjon. Målevariasjon.

Det er viktig å ha klart for seg forskjellen mellom et utvalg og en populasjon. En populasjon består av alle de enheter som er av interesse for oss i en analyse. En populasjon vil ofte bestå av uendelig mange enheter. Et utvalg består av de enheter vi har i et forsøk dvs. det tallmateriale vi skal analysere.. Enhetene i utvalget og populasjonen kan beskrives ved følgende typer variable:. Kategoriske variable (f.eks.kjønn) 2. Diskrete variable ( f.eks. antall øyne på en terning) 3. Kontinuerlige variable. (f.eks. levetiden for en lyspære). Vi har en tilfeldig variabel hvis utvalget er et tilfeldig utvalg fra populasjonen. Vi snakker om to typer modeller. Deterministisk modell beskriver fenomen som er forutsigbare. Stokastisk modell beskriver fenomen som innvolverer tilfeldigheter, dvs. de er uforutsigbare. Når vi skal foreta en statistisk analyse tar vi utgangspunkt i en stokastisk modell. Vi skal nå se på hvordan vi kan beskrive et tallmateriale (et utvalg). Dette finner du mer utfyllende beskrevet i læreboka. 2

Beskrivelse av utvalg. (Deskriptiv Statistikk) Vi skal ved hjelp av et eksempel vise hvordan en kan fremstille et tallmateriale på en oversiktlig måte med en frekvenstabell. Fremgangsmåten er den samme om de variable er kategoriske, diskrete eller kontinuerlige. I boka står fremgangsmåtene for alle tre kategorier beskrevet. Vi nøyer oss med å illustrerer fremgangsmåten med et eksempel hvor vi har en diskret variabel. Eks.: For å undersøke forekomsten av kobolt (Co) I Oppland fylke ble 50 jordprøver valgt ut fra et stort område og Co-innholdet for hver prøve (angitt i mg. pr. kg. jord) ble bestemt. Resultatet ble: 7 54 8 40 24 4 3 6 2 43 6 28 20 34 84 23 34 22 3 23 7 58 35 45 49 43 200 83 73 3 42 72 30 52 32 8 56 35 66 6 6 6 87 90 2 26 40 2 3 5 Vi får her et klarere bilde av fordelingen av dataene hvis vi lager en frekvenstabell. Vi deler da tallområde inn i 5-5 intervaller.vi gjør et subjektivt valg av intervallene, men alle intervallene bør være like store og det må være klart hva som er øvre og nedre grense for hvert intervall.. Vi finner minste og største verdi i tallmaterialet ( 6,200) 2. Deler observasjonene i et 0 intervaller. 3. Teller opp antall observasjoner i hvert intervall. 4. Beregner relative frekvenser. Vi får da flg. frekvenstabell: 3

Frekvenstabell Intervall Antall Rel.frekvens Kumulativ rel.frekvens 20 2-40 4-60 6-80 8-00 0-20 2-40 4-60 6-80 8-200 4 5 7 3 3 3 2 0 2 0.28 0.30 0.4 0.06 0.06 0.02 0.06 0.04 0.00 0.04 0.28 0.58 0.72 0.78 0.84 0.86 0.92 0.96 0.96.00 En foretrekker ofte å visualisere tabellen ved hjelp av et histogram. En danner da rektangler over de enkelte delintervaller og tilpasser høyden slik at arealet tilsvarer den relative frekvens. Her er et histogram for vårt eksempel (laget på Minitab) En kan også lage kakediagram eller søylediagram. Du kan se eksempler på dette i kapittel 2 i læreboka. Skal en sammenligne histogram fra forskjellige undersøkelser tegner en ofte histogrammene i samme diagram. 4

Sentralmål Det vanligste mål for størrelsen av et tallmateriale er gjennomsnittet. Et slikt mål angir sentrum i tallmaterialet x = x + x2 +... x n = n n n i= x i Denne størrelsen er regnet ut på de fleste lommekalkulatorer når du har plugget inn dataene dine. I vårt materiale er x = 52.90 Svakheten med gjennomsnittet som sentralmål er at en eller noen få svært avvikende observasjoner kan trekke gjennomsnittet opp eller ned slik at gjennomsnittet ikke lenger ligger sentralt i fordelingen. Da vil medianen x ~ være et godt alternativ. x~ defineres som den midterste observasjon hvis antall observasjoner er et ulike tall. x~ defineres som gjennomsnittet av de to midterste tall hvis antall observasjoner er et like tall. I vårt materiale er x ~ = 33 En mindre brukt størrelse er Modus som er den verdien som forekommer flest ganger. I vårt materiale er modus = 7 5

Vi kan også snakke om 25-prosentilen og 75-prosentilen eller nedre og øvre kvartil. Det er de verdier som er slik at 25% av observasjonene henholdsvis 75% av observasjonene er mindre enn kvartilene. I vårt materiale er nedre kvartil = 8.00 og øvre kvartil = 72.25. Et boksplot er en grafisk fremstilling av minste og største observasjon, i tallmateriale sammen med medianen og de to kvartiler. Her følger et boksplot av vårt eksempel. 200 C 00 0 Punktene som er merket med stjerne er verdier som ligger mer enn 2 s fra medianen. 6

Spredningsmål Når en skal måle spredningen i et tallmateriale er det ingen opplagt måte å gjøre dette på. Vi kan bruke variasjonsbredden som defineres som den største observasjon minus den minste observasjon I vårt eksempel er variasjonsbredden 200 6 = 94 Ulempen med variasjonsbredden er at den avhenger meget av utvalgets størrelse, derfor bruker en gjerne andre mål. Vi kan ikke bruke den gjennomsnittlige avstand fra gjennomsnittet som spredningsmål, fordi denne alltid blir 0. D = /n ((x x) +( x 2 - x)+. +(x n - x)) = 0 Vi må bruke et avstandsmål der vi unngår at positive og negative avstander opphever hverandre. Vi ser derfor på kvadrat-avstandene mellom observasjonene og gjennomsnittet. Da vil 2 observasjoner som ligger like langt fra gjennomsnittet, selv om de ligger på hver sin side ikke oppheve hverandre, men få samme kvadratavstand og dermed bidra like mye til gjennomsnittlig kvadratavstand. Den gjennomsnittlige kvadratavstand, også kalt empirisk varians, defineres som s 2 n = (x i x) 2 n i= Den vil gi oss et bilde av hvor stor spredningen for observasjonene er. Hvis du lurer på hvorfor vi ikke dividerer med n istedenfor n- skal vi komme tilbake til det senere. 7

Da dette målet er kvadratet av avstandene, benyttes gjerne standardavviket når en skal oppgi spredningen i et materiale. Standardavviket defineres som kvadratroten av variansen. 2 Standardavvik: s = n ( x x ) n i= Denne verdien kan dere finne utregnet på de fleste lommekalkulatorer. I vårt eksempel finner vi s = 48.35 Enkelte ganger vil en også se at det brukes variasjonskoeffisienten. Variasjonskoeffisient s tan dardavvik = = 0.9 00% = 9% gjennomsnitt Grupperte data Hvis vi ikke kjenner de nøyaktige observasjoner, men bare har frekvenstabell eller histogrammet for dataene, lar vi alle observasjoner i i et intervall anta samme verdi, nemlig midtpunktet i intervallet. Da blir gjennomsnittet x = /n m i f i hvor m i er midtpunktet i intervall nr.i og f i er antall observasjoner i i te intervall. I vårt materiale ville da x = 52.50. 8