Kapittel 1: Introduksjon til statistikk og dataanalyse

Like dokumenter
Kapittel 1: Introduksjon til statistikk og dataanalyse Foreleses tirsdag 9. januar 2007.

Kapittel 1: Introduksjon til statistikk og dataanalyse Foreleses tirsdag 22. august 2006.

Kapittel 1: Introduksjon til statistikk og dataanalyse

Kapittel 1 ser på. Statistikk i hverdagen

ST0202 Statistikk for samfunnsvitere [1]

ST0202 Statistikk for samfunnsvitere Introduksjon til ST0202 høsten 2012 Kapittel 1: Statistikk

TMA4240 Statistikk H2010

ST0202 Statistikk for samfunnsvitere

Kapittel 8: Tilfeldige utvalg, databeskrivelse og fordeling til observatorar, Kapittel 9: Estimering

TMA4240 Statistikk H2010

Sannsynlighetsregning og Statistikk.

Deskriptiv statistikk., Introduksjon til dataanalyse

Deskriptiv statistikk., Introduksjon til dataanalyse

Statistisk beskrivelse av enkeltvariabler. SOS1120 Kvantitativ metode. Disposisjon. Datamatrisen. Forelesningsnotater 6. forelesning høsten 2005

Introduksjon til statistikk og dataanalyse. Arild Brandrud Næss TMA4240 Statistikk NTNU, høsten 2013

Statistikk 1. Nico Keilman. ECON 2130 Vår 2014

ST0103 Brukerkurs i statistikk Høst 2014

Utvalgsfordelinger; utvalg, populasjon, grafiske metoder, X, S 2, t-fordeling, χ 2 -fordeling

ST0202 Statistikk for samfunnsvitere. Bo Lindqvist Institutt for matematiske fag

Lærebok Robert Johnson og Patricia Kuby: Elementary Statistics, 10. utgave. Pensumoversikt. Forelesninger og øvinger

SPED4010/eksamen i statistikk: Fredag 30.september 2011 kl

Øving 1 TMA Grunnleggende dataanalyse i Matlab

ØVINGER 2017 Løsninger til oppgaver. Øving 1

TMA4240 Statistikk H2010

Utfordring. TMA4240 Statistikk H2010. Mette Langaas. Foreleses uke 40, 2010

Kapittel 1: Data og fordelinger

Kapittel 3: Studieopplegg

ST0202 Statistikk for samfunnsvitere. Bo Lindqvist Institutt for matematiske fag

Et lite notat om og rundt normalfordelingen.

Statistikk. Forkurs 2018

Et lite notat om og rundt normalfordelingen. Anta at vi har kontinuerlige data. Hva er likt og ulikt for histogrammer og fordelingskurver?

Forkurs i kvantitative metoder ILP 2019

Oppfriskning av blokk 1 i TMA4240

STK1000 Uke 36, Studentene forventes å lese Ch 1.4 ( ) i læreboka (MMC). Tetthetskurver. Eksempel: Drivstofforbruk hos 32 biler

2P kapittel 3 Statistikk Utvalgte løsninger oppgavesamlingen

ECON Statistikk 1 Forelesning 2: Innledning

Et lite notat om og rundt normalfordelingen.

Statistikk. Forkurs 2017

TMA4240 Statistikk H2010

3.1 Stokastisk variabel (repetisjon)

Øving 1 TMA Grunnleggende dataanalyse i Matlab

Lærebok Robert Johnson og Patricia Kuby: Elementary Statistics, 10. utgave. Pensumoversikt. Oversikt. ST0202 Statistikk for samfunnsvitere

Loven om total sannsynlighet. Bayes formel. Testing for sykdom. ST0202 Statistikk for samfunnsvitere

Dataens tidsalder. Hvorfor data? Data, data, data. STK1000 Innføring i anvendt statistikk. Tirsdag 24. august 2010

Kapittel 3: Stokastiske variable og sannsynlighetsfordelinger

ÅMA110 Sannsylighetsregning og statistikk Løsningsforslag til eksamen høst 2010, s. 1. Oppgave 1. Histogram over frekvenser.

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere Kapittel 6: Normalfordelingen

2.3: Kombinatorikk 2.4: Sannsynlighet, og Monte Carlo simulering. Foreleses onsdag 25. august 2010

TMA4240 Statistikk H2010

ting å gjøre å prøve å oppsummere informasjonen i Hva som er hensiktsmessig måter å beskrive dataene på en hensiktsmessig måte.

ÅMA110 Sannsynlighetsregning med statistikk, våren

3.4: Simultanfordelinger (siste rest) 4.1,4.2,4.3: Multivariat del (ferdig med kapittel 3 og 4 etter denne forelesningen)

(Det tas forbehold om feil i løsningsforslaget.) Oppgave 1

HØGSKOLEN I STAVANGER

UNIVERSITETET I OSLO

Statistikk er begripelig

Forelesning 7 Statistiske beskrivelser av enkeltvariabler. Mål for sentraltendens

Forelening 1, kapittel 4 Stokastiske variable

Eksamen MAT1005 Matematikk 2P-Y Va ren 2014

Datainnsamling og dataanalyse

Høgskolen i Sør-Trøndelag Avdeling Trondheim Økonomisk Høgskole EKSAMENSOPPGAVE

Oppgaver til Studentveiledning 3 MET 3431 Statistikk

Norges teknisk-naturvitenskapelige universitet Fakultet for samfunnsvitenskap og teknologiledelse Pedagogisk institutt

Introduksjon til statistikk og dataanalyse

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

2P eksamen våren 2018

Sum to terninger forts. Eksempel: kast med to terninger. Sum to terninger forts. Kapittel 3. TMA4240 H2006: Eirik Mo

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010

Supplement til power-point presentasjonen i medisinsk statistikk, forelesning 7 januar Skrevet av Stian Lydersen 16 januar 2013

Oppgaven består av 10 delspørsmål som anbefales å veie like mye, Kommentarer og tallsvar er skrevet inn mellom <<, >>, Oppgave 1

1 Section 4-1: Introduksjon til sannsynlighet. 2 Section 4-2: Enkel sannsynlighetsregning. 3 Section 5-1: Introduksjon til sannsynlighetsfordelinger

TMA4245 Statistikk: MTBYGG, MTING

STK1100 våren Introduksjon til sannsynlighetsbegrepet. Deterministiske fenomener. Stokastiske forsøk. Litt historikk

Diskrete sannsynlighetsfordelinger som histogram. Varians. Histogram og kumulativ sannsynlighet. Binomial-fordelingen

2P kapittel 3 Statistikk Løsninger til innlæringsoppgavene

TMA4240 Statistikk H2010

ÅMA110 Sannsynlighetsregning med statistikk (5sp), våren 2012 BMF100 Sannsynlighetsregning og statistikk 1 (10sp), våren 2012

Statistikk Løsninger. Innhold. Statistikk Vg2P

Eksempel: kast med to terninger

Fordelinger, mer om sentralmål og variasjonsmål. Tron Anders Moger

Binomisk sannsynlighetsfunksjon

Velkommen til TMA4240. Velkommen til TMA / 18

Eksamen MAT1005 Matematikk 2P-Y Va ren 2014

UNIVERSITETET I OSLO

Kap. 8: Utvalsfordelingar og databeskrivelse

Terningkast. Utfallsrommet S for et terningskast med en vanlig spillterning med 6 sider er veldefinert 1, 2, 3, 4, 5, 6

Kapittel 2: Sannsynlighet

1 Grafisk framstilling av datamateriale

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

TMA4240 Statistikk H2010 Kapittel 5: Diskrete sannsynlighetsfordelinger : Uniform, binomisk, hypergeometrisk fordeling

TMA4245 Statistikk Høst 2016

Forslag til endringar

(b) På slutten av dagen legger sekretæren inn all innsamlet informasjon i en ny JMP datafil. Hvor mange rader og søyler(kolonner) har datafila?

STK1100 våren Introduksjon til sannsynlighetsbegrepet. Deterministiske fenomener. Stokastiske forsøk. Litt historikk

Statistikk for språk- og musikkvitere 1

Øving 7: Statistikk for trafikkingeniører

ST0202 Statistikk for samfunnsvitere

Statistikk Oppgaver. Innhold. Statistikk Vg2P

Transkript:

Kapittel 1: Introduksjon til statistikk og dataanalyse TMA4245 Statistikk (MTEL, MTIØT og MTTK) Turid.Follestad@math.ntnu.no, teikning frå http://www.wkozak.com/digitaldrawings.htm p.1/20 Vi skal sjå på Datainnsamling. Datatyper: diskrete og kontinuerlige. Grafiske metoder og tabellar. Mål for sentraltendens/lokasjon. Mål for variabilitet. TMA4245: Kapittel 1 p.2/20

Eksempel: Hoppdømming http://www.forskning.no/artikler/2006/februar/1140626552.15 TMA4245: Kapittel 1 p.3/20 Eksempel: Meiningsmålingar TMA4245: Kapittel 1 p.4/20

Eksempel: Web-baserte undersøkingar TMA4245: Kapittel 1 p.5/20 Statistikk i kvardagen Ved vurdering av funn som blir rapporterte i pressa, tenk på følgjande: har observatøren påverka målingane? er utvalget stort nok? er utvalget representativt for den gruppa konklusjonar blir trekte for? har målingane pågått lenge nok? blir konklusjonar trekte for langt? TMA4245: Kapittel 1 p.6/20

Eks: Spørsmålet i undersøkinga Alternative formuleringar: Er du einig i at kvalfangst, drapet på det største, utryddingstrua pattedyret i verda, må bli forbode snarast mulig? Er du einig i at kvalfangst må bli tillaten i avgrensa omfang, for å sikre bærekraftig ressursforvaltning og kystbefolkninga sitt livsgrunnlag? TMA4245: Kapittel 1 p.7/20 Eks: TV-debatt og representativ undersøking TV2-programmet Holmgang er eit debattprogram som gjennomfører undersøkingar basert på telefonavstemming blant TV-sjåarane. Det blir stilt eit spørsmål med to svaralternativ, og sjåarane blir inviterte til å ringe inn si meining. Representative undersøkingar blir utført av mange seriøse firma, m.a. Opinion A/S. Spørsmål: Bør Norge stenge grensene for flyktningar? Ja Nei Holmgang 89.4% 10.6 % Opinion A/S 17% 83 % Eksempel tatt fra Dimkos et al. (2004), Norsk Regnesentral p.8/20

Datainnsamling Populasjon: Mengda vi ønskjer å studere. Det er ofte vanskelig eller umulig å studere alle medlemmer av ein populasjon. Utvalg: Ei delmengde av ein populasjon, som vi så velger å studere. Viktig at dette utvalget er trekt tilfeldig frå populasjonen. Representativt utvalg: Er utvalget representativt (og stort nok), kan vi trekke konklusjonar for heile populasjonen. TMA4245: Kapittel 1 p.9/20 Representativt utvalg TMA4245: Kapittel 1 p.10/20

Diskrete og kontinuerlige data Diskrete data: resultat av forsøk med tellbart antal mulige utfall. Eks: karakter, kjønn, skonummer Kontinuerlige data: resultat av forsøk med uendelig antal mulige utfall. Målingar (mengde, volum, andel) ofte kontinuerlige. Sannynsteori ulik for diskrete og kontinuerlige data. TMA4245: Kapittel 1 p.11/20 Grafisk framstilling: valg av aksar Histogram frå Nettavisen. TMA4245: Kapittel 1 p.12/20

Relativ frekvens Karakter til eksamen i Statistikk Intervall Karakter Frekvens Relativ frekvens 86-100 A 47 0.13 76-85 B 55 0.15 66-75 C 65 0.18 56-65 D 73 0.20 36-55 E 84 0.23 0-35 F 36 0.10 0-100 A-F 360 1.00 TMA4245: Kapittel 1 p.13/20 Relativ frekvens: karakter E Relative frekvens histogram Density 0.00 0.05 0.10 0.15 0.20 F D C B A 0 1 2 3 4 5 Karakter i Statistikk TMA4245: Kapittel 1 p.14/20

Mål for sentraltendens (beliggenhet) Gjennomsnitt (mean): x = 1 n n i=1 x i Median n odde x = x ((n+1)/2) n like x = 1 2 (x (n/2) + x (n/2+1) ) Lokasjon E Density 0.00 0.05 0.10 0.15 0.20 F D C B A 0 1 2 3 4 5 Karakter i Statistikk TMA4245: Kapittel 1 p.15/20 Gjennomsnittet Figur frå G. Løvås: Statistikk p.16/20

Gjennomsnittet Figur frå G. Løvås: Statistikk p.17/20 Eksempel: Median vs gjennomsnitt Bor du i Stavanger, og har postnummer 4009 eller 4044? I så fall tilhører du til de rikeste strøkene i byen. Vi har sortert samtlige skattytere i Stavanger på postnummer, og plukket ut to kriterier for å måle rikdom: Medianinntekt og antall millionærer per 1000 skattytere. Dermed har vi ett mål på formue og ett på inntekt. Til slutt i saken har vi redegjort for hvorfor nettopp disse målene er valgt. Målekriteriene: Vi har valgt å unngå gjennomsnittstall for inntekt og formue fordi gjennomsnitt er et upresist mål når det finnes ekstreme utslag i tallmaterialet. Kilde: Stavanger Aftenblad, 16. oktober 2003 TMA4245: Kapittel 1 p.18/20

Median vs gjennomsnitt: Eksempel Ni personer tjener 200.000 kroner hver, mens den siste tjener 10 millioner kroner. Hva er den mest representative inntekten i utvalget? De fleste vil si 200.000 kroner fordi ni av ti tjener så mye. Men dersom man regner gjennomsnittsinntekten for de ti, blir denne nesten 1,2 millioner kroner fordi den ene rike drar snittet så kraftig opp. Medianinntekten, som forteller hva den midterste i utvalget tjener når alle er sortert fra rikest til fattigst, blir derimot 200.000 kroner. Skattelistene er kanskje det beste eksempelet på utvalg hvor det finnes ekstreme utslag. Noen få skattytere tjener svært mye i forhold til «røkla», eller har en skyhøy formue. Dette fører til urealistisk høye gjennomsnittstall for noen tilfeldig utvalgte postnummer. Kilde: Stavanger Aftenblad, 16.10.2003 TMA4245: Kapittel 1 p.19/20 Mål for variabilitet Empirisk varians (DEF 1.1): s 2 = 1 n n 1 i=1 (x i x) 2 Gjennomsnittlig kvadratavvik frå gjennomsnittet. Empirisk standardavvik (DEF 1.1): s = s 2 Same måleeining som originalobservasjonane. Inter-kvartil rekkevidde(iqr): Q3-Q1 Q1=verdien som 25% av data er mindre enn Q3=verdien som 25% av data er større enn TMA4245: Kapittel 1 p.20/20