Kapittel 1: Introduksjon til statistikk og dataanalyse oreleses tirsdag 22. august 2006. irik Mo Institutt for matematiske fag, NTNU
5 Vi skal se på atainnsamling. atatyper: diskrete og kontinuerlige. Grafiske metoder og tabeller. Mål for beliggenhet (lokasjon). Mål for variabilitet. 6 Statistikk i hverdagen aglig rapporteres interessante funn i pressen. Tenk på: har observatøren påvirket målingene? er utvalget stort nok? er utvalget representativt for den gruppen konklusjoner trekkes? har målingene pågått lenge nok? trekkes konklusjoner for langt?
7 Spørsmålet r du enig i at hvalfangst, drapet på verdens største, utryddingstruede pattedyr, må forbys snarest mulig? r du enig i at hvalfangst må tillates i begrenset omfang, for å sikre bærekraftig ressursforvaltning og kystbefolkningens livsgrunnlag? 8 TV-debatt og representativ undersøkelse TV2-programmet Holmgang er et debattprogram som utfører undersøkelser basert på telefonavstemming blant TV-seere. et blir stilt et spørsmål med to svaralternativ, og seere inviteres til å ringe inn sin mening. Representative undersøkelser utføres av mange seriøse firma, bla. Opinion A/S. ksempel tatt fra imkos et al. (2004), Norsk Regnesentral
9 TV-debatt og representativ undersøkelse Spørsmål: ør Norge stenge grensene for flyktninger? Ja Nei Holmgang 89.4 % 10.6 % Opinion A/S 17 % 83 % 10 Representativt utvalg
11 iskrete og kontinuerlige data iskrete data: endelig (tellbart) antall mulige utfall. ks: karakter, kjønn, skonummer Kontinuerlige data: uendelig antall mulige utfall. Målinger (mengde, volum, andel) ofte kontinuerlig. Sannynlighetsteori ulik for diskrete og kontinuerlige data spesielt kapittel 3, 5, 6. 12 Vise frem data: valg av akser Histogram fra Nettavisen.
13 Relativ frekvens Karakter til eksamen i TMA4240 Statistikk H2004 Intervall Midtpunkt rekvens Relativ frekvens 86-100 A 47 0.13 76-85 55 0.15 66-75 65 0.18 56-65 73 0.20 36-55 84 0.23 0-35 36 0.10 0-100 A- 360 1.00 14 Relativ frekvens: karakter (høst 2004) Relative frekvens histogram ensity 0.00 0.05 0.10 0.15 0.20 A 0 1 2 3 4 5 Karakter i TMA4240 H2004
15 Relativ frekvens: høyde (vår 2005) 16 Mål for beliggenhet Gjennomsnitt (mean): x = 1 n n i=1 x i Median n odde x = x (n+1)/2 n like x = 1 2 (x n/2 + x n/2+1 ) Lokasjon Lokasjon ensity 0.00 0.05 0.10 0.15 0.20 A ensity 0.00 0.05 0.10 0.15 0.20 0.25 0.30 A 0 1 2 3 4 5 Karakter i TMA4240 H2004 0 1 2 3 4 5 Karakter i TMA4245 V2005
17 Gjennomsnittet igur fra G. Løvås: Statistikk 18 Gjennomsnittet igur fra G. Løvås: Statistikk
19 Median vs gjennomsnitt or du i Stavanger, og har postnummer 4009 eller 4044? I så fall tilhører du de rikeste strøkene i byen. Vi har sortert samtlige skatteytere i Stavanger på postnummer, og plukket ut to kriterier for å måle rikdom: Medianinntekt og antall millionærer per 1000 skattytere. ermed har vi ett mål på formue og ett på inntekt. Til slutt i saken har vi redegjort for hvorfor nettopp disse målene er valgt. Målekriteriene: Vi har valgt å unngå gjennomsnittstall for inntekt og formue fordi gjennomsnitt er et upresist mål når det finnes ekstreme utslag i tallmaterialet. Kilde: Stavanger Aftenblad, 16. oktober 2003 20 Median vs gjennomsnitt: ksempel Ni personer tjener 200.000 kroner hver, mens den siste tjener 10 millioner kroner. Hva er den mest representative inntekten i utvalget? e fleste vil si 200.000 kroner fordi ni av ti tjener så mye. Men dersom man regner gjennomsnittsinntekten for de ti, blir denne nesten 1,2 millioner kroner fordi den ene rike drar snittet så kraftig opp. Medianinntekten, som forteller hva den midterste i utvalget tjener når alle er sortert fra rikest til fattigst, blir derimot 200.000 kroner. Skattelistene er kanskje det beste eksempelet på utvalg hvor det finnes ekstreme utslag. Noen få skattytere tjener svært mye i forhold til «røkla», eller har en skyhøy formue. ette fører til urealistisk høye gjennomsnittstall for noen tilfeldig utvalgte postnummer. Kilde: Stavanger Aftenblad, 16.10.2003
21 Mål for variabilitet mpirisk varians ( 1.1): s 2 = 1 n n 1 i=1 (x i x) 2 Gjennomsnittlig kvadratavvik til gjennomsnittet. mpirisk standardavvik ( 1.1): s = (s 2 ) Samme måleenhet som originalobservasjonene. Inter-kvartil rekkevidde(iqr): Q3-Q1 Q1=verdien som 25% av data er mindre enn Q3=verdien som 25% av data er større enn 22 Sammenhenger: midtsemesterpoeng og sluttkarakterer TMA4240 H2005
23 Sammenhenger: midtsemesterpoeng og sluttkarakterer TMA4245 V2005 for MTYGG hovedeksamen 0 10 20 30 40 50 60 70 A A 24 0 5 10 15 TMA4240 Statistikk midtsemester eskrivende Sannsynlighetsteori Statistisk inferens statistikk Kapittel 1 Kapittel 2-7 Kapittel 8-11 Presentere og Matematisk regning stimere, teste, beskrive data i tall, med sannsynlighet predikere, basert på tabeller og figurer. og fordelinger. data under usikkerhet.