3 Kapittel 1 ser på atainnsamling. atatyper: diskrete og kontinuerlige. Grafiske metoder og tabeller. Mål for beliggenhet (lokasjon). Mål for variabilitet. Kapittel 1: Introduksjon til statistikk og dataanalyse oreleses tirsdag 9. januar 2007. irik Mo Institutt for matematiske fag, NTNU 4 Statistikk i hverdagen aglig rapporteres interessante funn i pressen. Tenk på: har observatøren påvirket målingene? er utvalget stort nok? er utvalget representativt for den gruppen konklusjoner trekkes? har målingene pågått lenge nok? trekkes konklusjoner for langt?
5 Spørsmålet 7 TV-debatt og representativ undersøkelse r du enig i at hvalfangst, drapet på verdens største, utryddingstruede pattedyr, må forbys snarest mulig? r du enig i at hvalfangst må tillates i begrenset omfang, for å sikre bærekraftig ressursforvaltning og kystbefolkningens livsgrunnlag? Spørsmål: ør Norge stenge grensene for flyktninger? Ja Nei Holmgang 89.4 % 10.6 % Opinion /S 17 % 83 % 6 TV-debatt og representativ undersøkelse 8 Representativt utvalg TV2-programmet Holmgang er et debattprogram som utfører undersøkelser basert på telefonavstemming blant TV-seere. et blir stilt et spørsmål med to svaralternativ, og seere inviteres til å ringe inn sin mening. Representative undersøkelser utføres av mange seriøse firma, bla. Opinion /S. ksempel tatt fra imkos et al. (2004), Norsk Regnesentral
9 11 iskrete og kontinuerlige data Relativ frekvens Karakter til eksamen i TM4240 Statistikk H2004 iskrete data: endelig (tellbart) antall mulige utfall. ks: karakter, kjønn, skonummer Kontinuerlige data: uendelig antall mulige utfall. Målinger (mengde, volum, andel) er ofte kontinuerlig. Sannynlighetsteori ulik for diskrete og kontinuerlige data spesielt kapittel 3, 5, 6. Intervall Midtpunkt rekvens Relativ frekvens 86-100 47 0.13 76-85 55 0.15 66-75 65 0.18 56-65 73 0.20 36-55 84 0.23 0-35 36 0.10 0-100 - 360 1.00 10 12 Vise frem data: valg av akser Relativ frekvens: karakter (høst 2004) Relative frekvens histogram Histogrammer fra Nettavisen, 2002 og 2006. 0.00 0.05 0.10 0.15 0.20 Karakter i TM4240 H2004
13 Relativ frekvens: høyde (vår 2005) 15 Gjennomsnittet igur fra G. Løvås: Statistikk 14 16 Mål for beliggenhet Gjennomsnittet Gjennomsnitt (mean): x = 1 n n i=1 x i Median n odde x = x (n+1)/2 n like x = 1 2 (x n/2 + x n/2+1 ) Lokasjon Lokasjon 0.00 0.05 0.10 0.15 0.20 0.00 0.05 0.10 0.15 0.20 0.25 0.30 igur fra G. Løvås: Statistikk Karakter i TM4240 H2004 Karakter i TM4245 V2005
17 Median vs gjennomsnitt or du i Stavanger, og har postnummer 4009 eller 4044? I så fall tilhører du de rikeste strøkene i byen. Vi har sortert samtlige skatteytere i Stavanger på postnummer, og plukket ut to kriterier for å måle rikdom: Medianinntekt og antall millionærer per 1000 skattytere. ermed har vi ett mål på formue og ett på inntekt. Til slutt i saken har vi redegjort for hvorfor nettopp disse målene er valgt. Målekriteriene: Vi har valgt å unngå gjennomsnittstall for inntekt og formue fordi gjennomsnitt er et upresist mål når det finnes ekstreme utslag i tallmaterialet. Kilde: Stavanger ftenblad, 16. oktober 2003 19 Mål for variabilitet mpirisk varians ( 1.1): s 2 = 1 n n 1 i=1 (x i x) 2 Gjennomsnittlig kvadratavvik til gjennomsnittet. mpirisk standardavvik ( 1.1): s = s 2 Samme måleenhet som originalobservasjonene. Inter-kvartil rekkevidde(iqr): Q3-Q1 Q1=verdien som 25% av data er mindre enn Q3=verdien som 25% av data er større enn 18 Median vs gjennomsnitt: ksempel Ni personer tjener 200.000 kroner hver, mens den siste tjener 10 millioner kroner. Hva er den mest representative inntekten i utvalget? e fleste vil si 200.000 kroner fordi ni av ti tjener så mye. Men dersom man regner gjennomsnittsinntekten for de ti, blir denne nesten 1,2 millioner kroner fordi den ene rike drar snittet så kraftig opp. Medianinntekten, som forteller hva den midterste i utvalget tjener når alle er sortert fra rikest til fattigst, blir derimot 200.000 kroner. Skattelistene er kanskje det beste eksempelet på utvalg hvor det finnes ekstreme utslag. Noen få skattytere tjener svært mye i forhold til «røkla», eller har en skyhøy formue. ette fører til urealistisk høye gjennomsnittstall for noen tilfeldig utvalgte postnummer. Kilde: Stavanger ftenblad, 16.10.2003