Kapittel 1: Introduksjon til statistikk og dataanalyse TMA4245 Statistikk (MTEL, MTIØT og MTTK) Turid.Follestad@math.ntnu.no, teikning frå http://www.wkozak.com/digitaldrawings.htm p.1/20 Vi skal sjå på Datainnsamling. Datatyper: diskrete og kontinuerlige. Grafiske metoder og tabellar. Mål for sentraltendens/lokasjon. Mål for variabilitet. TMA4245: Kapittel 1 p.2/20
Eksempel: Hoppdømming http://www.forskning.no/artikler/2006/februar/1140626552.15 TMA4245: Kapittel 1 p.3/20 Eksempel: Meiningsmålingar TMA4245: Kapittel 1 p.4/20
Eksempel: Web-baserte undersøkingar TMA4245: Kapittel 1 p.5/20 Statistikk i kvardagen Ved vurdering av funn som blir rapporterte i pressa, tenk på følgjande: har observatøren påverka målingane? er utvalget stort nok? er utvalget representativt for den gruppa konklusjonar blir trekte for? har målingane pågått lenge nok? blir konklusjonar trekte for langt? TMA4245: Kapittel 1 p.6/20
Eks: Spørsmålet i undersøkinga Alternative formuleringar: Er du einig i at kvalfangst, drapet på det største, utryddingstrua pattedyret i verda, må bli forbode snarast mulig? Er du einig i at kvalfangst må bli tillaten i avgrensa omfang, for å sikre bærekraftig ressursforvaltning og kystbefolkninga sitt livsgrunnlag? TMA4245: Kapittel 1 p.7/20 Eks: TV-debatt og representativ undersøking TV2-programmet Holmgang er eit debattprogram som gjennomfører undersøkingar basert på telefonavstemming blant TV-sjåarane. Det blir stilt eit spørsmål med to svaralternativ, og sjåarane blir inviterte til å ringe inn si meining. Representative undersøkingar blir utført av mange seriøse firma, m.a. Opinion A/S. Spørsmål: Bør Norge stenge grensene for flyktningar? Ja Nei Holmgang 89.4% 10.6 % Opinion A/S 17% 83 % Eksempel tatt fra Dimkos et al. (2004), Norsk Regnesentral p.8/20
Datainnsamling Populasjon: Mengda vi ønskjer å studere. Det er ofte vanskelig eller umulig å studere alle medlemmer av ein populasjon. Utvalg: Ei delmengde av ein populasjon, som vi så velger å studere. Viktig at dette utvalget er trekt tilfeldig frå populasjonen. Representativt utvalg: Er utvalget representativt (og stort nok), kan vi trekke konklusjonar for heile populasjonen. TMA4245: Kapittel 1 p.9/20 Representativt utvalg TMA4245: Kapittel 1 p.10/20
Diskrete og kontinuerlige data Diskrete data: resultat av forsøk med tellbart antal mulige utfall. Eks: karakter, kjønn, skonummer Kontinuerlige data: resultat av forsøk med uendelig antal mulige utfall. Målingar (mengde, volum, andel) ofte kontinuerlige. Sannynsteori ulik for diskrete og kontinuerlige data. TMA4245: Kapittel 1 p.11/20 Grafisk framstilling: valg av aksar Histogram frå Nettavisen. TMA4245: Kapittel 1 p.12/20
Relativ frekvens Karakter til eksamen i Statistikk Intervall Karakter Frekvens Relativ frekvens 86-100 A 47 0.13 76-85 B 55 0.15 66-75 C 65 0.18 56-65 D 73 0.20 36-55 E 84 0.23 0-35 F 36 0.10 0-100 A-F 360 1.00 TMA4245: Kapittel 1 p.13/20 Relativ frekvens: karakter E Relative frekvens histogram Density 0.00 0.05 0.10 0.15 0.20 F D C B A 0 1 2 3 4 5 Karakter i Statistikk TMA4245: Kapittel 1 p.14/20
Mål for sentraltendens (beliggenhet) Gjennomsnitt (mean): x = 1 n n i=1 x i Median n odde x = x ((n+1)/2) n like x = 1 2 (x (n/2) + x (n/2+1) ) Lokasjon E Density 0.00 0.05 0.10 0.15 0.20 F D C B A 0 1 2 3 4 5 Karakter i Statistikk TMA4245: Kapittel 1 p.15/20 Gjennomsnittet Figur frå G. Løvås: Statistikk p.16/20
Gjennomsnittet Figur frå G. Løvås: Statistikk p.17/20 Eksempel: Median vs gjennomsnitt Bor du i Stavanger, og har postnummer 4009 eller 4044? I så fall tilhører du til de rikeste strøkene i byen. Vi har sortert samtlige skattytere i Stavanger på postnummer, og plukket ut to kriterier for å måle rikdom: Medianinntekt og antall millionærer per 1000 skattytere. Dermed har vi ett mål på formue og ett på inntekt. Til slutt i saken har vi redegjort for hvorfor nettopp disse målene er valgt. Målekriteriene: Vi har valgt å unngå gjennomsnittstall for inntekt og formue fordi gjennomsnitt er et upresist mål når det finnes ekstreme utslag i tallmaterialet. Kilde: Stavanger Aftenblad, 16. oktober 2003 TMA4245: Kapittel 1 p.18/20
Median vs gjennomsnitt: Eksempel Ni personer tjener 200.000 kroner hver, mens den siste tjener 10 millioner kroner. Hva er den mest representative inntekten i utvalget? De fleste vil si 200.000 kroner fordi ni av ti tjener så mye. Men dersom man regner gjennomsnittsinntekten for de ti, blir denne nesten 1,2 millioner kroner fordi den ene rike drar snittet så kraftig opp. Medianinntekten, som forteller hva den midterste i utvalget tjener når alle er sortert fra rikest til fattigst, blir derimot 200.000 kroner. Skattelistene er kanskje det beste eksempelet på utvalg hvor det finnes ekstreme utslag. Noen få skattytere tjener svært mye i forhold til «røkla», eller har en skyhøy formue. Dette fører til urealistisk høye gjennomsnittstall for noen tilfeldig utvalgte postnummer. Kilde: Stavanger Aftenblad, 16.10.2003 TMA4245: Kapittel 1 p.19/20 Mål for variabilitet Empirisk varians (DEF 1.1): s 2 = 1 n n 1 i=1 (x i x) 2 Gjennomsnittlig kvadratavvik frå gjennomsnittet. Empirisk standardavvik (DEF 1.1): s = s 2 Same måleeining som originalobservasjonane. Inter-kvartil rekkevidde(iqr): Q3-Q1 Q1=verdien som 25% av data er mindre enn Q3=verdien som 25% av data er større enn TMA4245: Kapittel 1 p.20/20