Kapittel 1: Beskrivende statistikk

Kapittel : Bekrivede tatitikk Defiijoer: Populajo og utvalg Populajo: Alle mulige obervajoer vi ka gjøre (x,x,,x N ). Utvalg: Delmegde av populajoe (x,x,,x der <N). Tilfeldig utvalg: Delmegde der elemetee er tilfeldig valgt fra populajoe. Ekempel: Høyde voke ordme Populajo: Høyde til alle voke ordme Utvalg: Høyde til oe voke ordme Tilfeldig utvalg: Høyde til oe tilfeldig valgte voke ordme.

Derom vi har data fra et tilfeldig utvalg vil dette gi o yttig iformajo om hele populajoe. Et utvalg om ikke er tilfeldig (for ekempel målig av høyde ku til de over meter) er ikke like yttig. Et tilfeldig utvalg er repreetativt (ka bruke til å i oe om hele populajoe).

Ekempel: Holmgag I TV debattprogram Holmgag tille et pørmål til eere med to varalterativer. Spørmålet er kyttet til temaet om debattere, og eere ka gi i tilbakemeldig ved å rige et betemt telefoummer. Som e oppfølger til pørreuderøkeler gjort blat eere i to like program våre 005 utførte Nork Repo e repreetativ uderøkele av de amme pørmålee. Reultatee ble: Er parkerigvakter for grådige? Ja Nei Holmgag 96% 4% Nork Repo (repreetative tall) 34% 66% Er du for kjøkvoterig? Ja Nei Holmgag 9% 9% Nork Repo (repreetative tall) 47% 53% Die reultatee ka forklare ved at det ikke er et tilfeldig utvalg av befolkige om er på Holmgag, og det er ikke et tilfeldig utvalg av de om er på programmet om riger i. Uderøkele i Holmgag er med adre ord ikke baert på et repreetativt utvalg og ka dermed ikke bruke til oe tig!

Media og gjeomitt De met brukte målee på beliggehet (på tallija) til et dataett er media og gjeomitt. Ata geerelt at vi har amlet i et dataett betåede av måliger om vi på ymbolk form beteger x,x,,x. Som et ekempel kal vi e på e ituajo der vi har målt høyde til 6 peroer og fått dataettet: x.73, x.85, x 3.6, x 4.0, x 5.7 og x 6.88. Defiijo: Gjeomitt: Ekempel: Høydedataee x x xi ( x + x + L+ i 6 6 i x i.80 x )

Defiijo: Media: Obervajoe i midte. Sorter dataee i tigede rekkefølge. Mediae er obervajoe i midte, eller gjeomittet av de to obervajoee i midte derom vi har et partall atall obervajoer. Ekempel: Høydedataee Sortert:.6,.7,.73,.85,.88,.0 Media: ~ x (.73+.85).79 Ekempel: Hva blir mediae til dataee 3.3, 7., 7.0, 35.6, 9.3?

Fra Stavager Afteblad: Publiert 6. oktober 003 0:44 Bor du i Stavager, og har potummer 4009 eller 4044? I å fall tilhører du til de rikete trøkee i bye. Erled Frafjord tekt Morte Salthe kildeøk Kjell Arvid Berge grafikk Vi har ortert amtlige kattytere i Stavager på potummer, og plukket ut to kriterier for å måle rikdom: Mediaitekt og atall millioærer per 000 katteytere. Dermed har vi ett mål på formue og ett på itekt. Til lutt i ake har vi redegjort for hvorfor ettopp die målee er valgt. Målekriteriee: Vi har valgt å ugå gjeomitttall for itekt og formue fordi gjeomitt er et upreit mål år det fie ektreme utlag i tallmaterialet. Et teoretik ekempel: Ni peroer tjeer 00.000 kroer hver, me de ite tjeer 0 millioer kroer. Hva er de met repreetative itekte i utvalget? De flete vil i 00.000 kroer fordi i av ti tjeer å mye. Me derom ma reger gjeomittitekte for de ti, blir dee ete, millioer kroer fordi de ee rike drar ittet å kraftig opp. Mediaitekte, om forteller hva de midterte i utvalget tjeer år alle er ortert fra riket til fattigt, blir derimot 00.000 kroer. Skattelitee er kakje det bete ekempelet på utvalg hvor det fie ektreme utlag. Noe få kattytere tjeer vært mye i forhold til «røkla», eller har e kyhøy formue. Dette fører til urealitik høye gjeomitttall for oe tilfeldig utvalgte potummer. Hvorfor bruker vi ikke mediatall ogå på formue? Fordi mer e 50 proet av befolkige ikke har formue, og det betyr at hvert potummer tort ett kommer ut med et mediatall på ull. Derfor må vi fie et aet mål. Vi meer at atall millioærer per 000 kattyter er det bete kriteriet for å ammelige formue mellom to eller flere utvalg.

Utvalgvaria og utvalgtadardavvik Ata at vi har målt høyde til 5 adre peroer e de vi betraktet tidligere og fått data x.74, x.76, x 3.79, x 4.84 og x 5.87. For die dataee blir: 5 x xi (.74 +.76 +.79 +.84 +.87).80 5 i 5 ~ x x.79 Dv amme gjeomitt og media om forrige dataett - me vi er at det er mye tørre predig i det førte dataettet: Dataett : Dataett: 3 De met brukte målee på predig (variajo) i tallee i et dataett er utvalgvaria og utvalgtadardavvik.

Dv, mit predig i dataett! Defiijo: Utvalgvaria: i ( x ) i x Utvalgtadardavvik: Ekempel: Høydedataee Dataett : [(.73.80) 6 + (.85.80) + (.6.80) + (.0.80) + (.7.80) + (.88.80) ] 0.00 0.00 0.4 Dataett : 0.003 og 0.003 0.054

Utvalgvaria og utvalgtadardavvik kalle ogå ofte empirik varia og empirik tadardavvik. NB! Boka bruker i kap. bare beevelee varia og tadardavvik for utvalgvaria og utvalgtadardavvik. Dette er uheldig da det lett fører til ammebladig med de teoretike ( ae ) variae og tadardavviket om er begrep vi kommer til eere (i kap. 5). E ae litt uheldig og uødvedig tig i boka er at de bruker de alterative og midre brukte defiijoe på utvalgvaria: i ( x ) i x Om vi bruker formele der vi deler på eller de der vi deler på - har i de flete tilfeller lite praktik betydig (ku viktig år er lite), me variate der vi deler på - er litt bedre og met brukt.

Tolkig av utvalgvaria/-tadardavvik: E grov tommelfigerregel ier at ofte (me ikke alltid) vil omtret: Ca 68% av dataee ligge i itervallet Ca 95% av dataee ligge i itervallet Nete alle dataee ligge i itervallet [ x, x + ] [ x, x + ] [ x 3, x + 3] Dee regele er OK år hitogram over dataee er oelude ymmetrik. Adre bekrivede mål om bruke er blat aet mode (de obervajoe om opptrer oftet) og kvartiler (puktee om deler dataee i i mite fjerdepart, midte og tørte fjerdepart) e boka for mer om dette.

Hitogram Ved ulike grafike metoder ka ma lage gode viuelle fremtilliger av data. E av de met brukte metodee for å fremtille umerike data er ved å plotte hitogram. Ekempel: Ometig (i mill. kroer) i 0 må bedrifter er.,.6, 3.,.,.8, 0.9,.3,.9,.6,.7,.,.4, 0.5,.,.5, 4.6 og.4. Et hitogram over die dataee ka for ekempel e ut om dette: Høyde på hver øyle agir atall obervajoer i itervallet.

Samvariajo utvalgkovaria og korrelajo Ekempel: Målig av x atall år med utdaig og y itekt (i 000 kr) for 8 peroer: i 3 4 5 6 7 8 x i 5 4 7 0 8 6 y i 390 60 90 40 70 370 0 440 Er det ammeheg mellom x og y? Scatterplott gir fi grafik illutrajo: Ka vi gi et mål på ammehege?

Defiijo: Utvalgkovaria: xy ( x i x )( y i y ) i Ekemplet: x 4.5 xy 8 og 8 i ( x i y 306.5 4.5)( y i 306.5) 9. Forteget på utvalgkovariae agir om vi har e poitiv eller e egativ ammeheg, me ut over det ka de være vakelig å tolke. Et bedre mål er korrelajoe.

Defiijo: Korrelajo: r x xy y Der xy er utvalgkovariae, x er utvalgtadardavviket til x- måligee og y er utvalgtadardavviket til y-måligee. Tolkig: Korrelajo grad av lieær ammeheg Det ka vie at: r Ekemplet: x y r 8 8 8 i 8 i 7.643 ( x i ( y i 9. 4.5) 306.5) 66.8 0.64 7.643 66.8

Oppummerig Populajo: Alle mulige obervajoer vi ka gjøre (x,x,,x N ). Utvalg: Delmegde av populajoe (x,x,,x der <N). Tilfeldig utvalg: Delmegde der elemetee er tilfeldig valgt fra populajoe. Gjeomitt: x xi ( x + x + L+ x) i Mediae: Obervajoe i midte Utvalgvaria: i ( ) x i x Utvalgtadardavvik: Korrelajo: x y xy r r