SOS110 Kvantitativ metode Forelesningsnotater 6 forelesning høsten 005 Statistisk beskrivelse av enkeltvariabler (Univariat analyse) Per Arne Tufte Disposisjon Datamatrisen Variabler Datamatrisen Frekvensfordelinger Grafisk framstilling Kategoriske variabler Kontinuerlige variabler Sentraltendens Spredning Posisjonsmål Normalfordelingen Enheter Verdi Oversikt over enhetenes verdier på samtlige variabler i undersøkelsen 1
Oversikt over hvor mange enheter som har ulike verdier på en variabel Frekvensfordeling 0,00 1,00,00 3,00 4,00 5,00 6,00 7,00 8,00 9,00 3,00 4,00 Frequency Percent Percent Percent 1,5,5,5 17 9, 9,3 9,9 36 19,5 19,8 9,7 4 13,0 13, 4,9 30 16, 16,5 59,3 16 8,6 8,8 68,1 8 4,3 4,4 7,5 9 4,9 4,9 77,5 8 4,3 4,4 81,9 5,7,7 84,6 4,, 86,8 5,7,7 89,6 1,6 91, 1,6 9,9 1,1 1,1 94,0 1,1 1,1 95,1 1,6 96,7 1,5,5 97,3 1,1 1,1 98,4 1,5,5 98,9 1,1 1,1 100,0 18 98,4 100,0 Frekvensfordeling gruppert variabel 18 0 år 1 år 3 5 år 6 30 år 31 år eller mer sgruppe Frequency Percent Percent Percent 18 9,7 9,9 9,9 60 3,4 33,0 4,9 54 9, 9,7 7,5 31 16,8 17,0 89,6 19 10,3 10,4 100,0 18 98,4 100,0 Kakediagram Grafisk presentasjon Kategoriske variabler (nominal og ordinalnivå) Kontinuerlige variabler (intervall og forholdstallsnivå) sgruppe 18 0 år 1 år 3 5 år 6 30 år 31 år eller mer Percent Frequency Percent Percent 18 9,7 9,9 9,9 60 3,4 33,0 4,9 54 9, 9,7 7,5 31 16,8 17,0 89,6 19 10,3 10,4 100,0 18 98,4 100,0
Stolpediagram Histogram Sentraltendens Hvilken verdi er mest sentral eller representativ for en fordeling? Gjennomsnitt Tyngdepunktet i en fordeling Median Midterste verdi i en ordnet fordeling Modus Hyppigst forekommende verdi i en fordeling Gjennomsnitt Summerer enhetenes verdier på variabelen og deler på antall enheter Tyngdepunktet i en fordeling Intervall eller forholdstallsnivå (ordinalvariabler med fem verdier eller mer) Følsomt for ekstremverdier Yi Y = n 4471 = = 4,6 18 År Frekvens Frekvens * År 18 1 18 0 17 340 1 36 756 4 58 3 30 690 4 16 384 5 8 00 6 9 34 7 8 16 8 5 140 9 4 116 30 5 150 31 3 93 3 3 96 33 66 34 68 37 3 111 40 1 40 4 84 43 1 43 49 98 18 4471 3
1 Ranger dataene for variabel Y Median Midterste verdi i en rangert fordeling Halvparten av enhetene har denne verdien eller lavere Intervall eller forholdstallsnivå (men brukes også på ordinalvariabler) Lite følsom for ekstremverdier Finn posisjonen for midterste verdi (n + 1) / = (18+1)/ = 91,5 3 Start med laveste verdi, finn medianposisjonen og les av verdi 0,00 1,00,00 3,00 4,00 5,00 6,00 7,00 8,00 9,00 3,00 4,00 Median alder Frequency Percent Percent Percent 1,5,5,5 17 9, 9,3 9,9 36 19,5 19,8 9,7 4 13,0 13, 4,9 30 16, 16,5 59,3 16 8,6 8,8 68,1 8 4,3 4,4 7,5 9 4,9 4,9 77,5 8 4,3 4,4 81,9 5,7,7 84,6 4,, 86,8 5,7,7 89,6 1,6 91, 1,6 9,9 1,1 1,1 94,0 1,1 1,1 95,1 1,6 96,7 1,5,5 97,3 1,1 1,1 98,4 1,5,5 98,9 1,1 1,1 100,0 18 98,4 100,0 Hyppigst forekommende verdi i en fordeling Stiller ingen krav til målenivå Svært lite følsom for ekstremverdier Modus 0,00 1,00,00 3,00 4,00 5,00 6,00 7,00 8,00 9,00 3,00 4,00 Frequency Percent Percent Percent 1,5,5,5 17 9, 9,3 9,9 36 19,5 19,8 9,7 4 13,0 13, 4,9 30 16, 16,5 59,3 16 8,6 8,8 68,1 8 4,3 4,4 7,5 9 4,9 4,9 77,5 8 4,3 4,4 81,9 5,7,7 84,6 4,, 86,8 5,7,7 89,6 1,6 91, 1,6 9,9 1,1 1,1 94,0 1,1 1,1 95,1 1,6 96,7 1,5,5 97,3 1,1 1,1 98,4 1,5,5 98,9 1,1 1,1 100,0 18 98,4 100,0 Modus Median Sammenlikning av mål på sentraltendens Gjennomsnitt Målenivå nominal ordinal int/forht Utnytte informasjon Robust overfor ekstremverdier 4
Mål på spredning Hvor stor variasjon det er i de observerte verdiene på variabelen? Variasjonsbredde Differansen mellom høyeste og laveste verdi i fordelingen (49 år 18 år = 31 år) Varians Gjennomsnittlig kvadrerte avvik fra gjennomsnittet for variabelen Standardavvik Variasjon rundt gjennomsnittet for variabelen Varians Summen av kvadrerte avvik fra gjennomsnittet Deler på: n hvis populasjonsdata n 1 hvis utvalgsdata (Yi Y) = n (Yi Y) s = n 1 Jo større tall jo større spredning Ingen enkel intuitiv fortolkning Kvadratroten av variansen s = s Standardavvik Målt i variabelens opprinnelige måleenhet (kr, år etc) Jo større tall jo større spredning Ingen enkel intuitiv fortolkning Mål på hvor stor variasjonen er rundt gjennomsnittet NB! Ikke et gjennomsnittsavvik Obs Y Y (Y Y) (Y Y) 1 18 4,6 6,6 43,1 0 4,6 4,6 0,8 3 0 4,6 4,6 0,8 4 0 4,6 4,6 0,8 5 0 4,6 4,6 0,8 6 0 4,6 4,6 0,8 7 0 4,6 4,6 0,8 171 33 4,6 8,4 71,1 17 34 4,6 9,4 89,0 173 34 4,6 9,4 89,0 174 37 4,6 1,4 154,6 175 37 4,6 1,4 154,6 176 37 4,6 1,4 154,6 177 40 4,6 15,4 38, 178 4 4,6 17,4 303,9 179 4 4,6 17,4 303,9 180 43 4,6 18,4 339,8 181 49 4,6 4,4 597,0 18 49 4,6 4,4 597,0 0 4 898,7 Varians: s ( Y Y ) = n 1 Standardavvik: s = s Beregning av standardavvik = 4898,7 = = 7,1 18 1 7,1 = 5, 5
Posisjonsmål En observasjons relative plassering i en fordeling Kvartiler Deler en ordnet fordeling inn i fire deler med like mange enheter Prosentiler Z skårer Hvor mange standardavvik fra gjennomsnittet en verdi befinner seg Kvartiler 0,00 1,00,00 3,00 4,00 5,00 6,00 7,00 8,00 9,00 3,00 4,00 Percent,5 9,9 9,7 4,9 59,3 68,1 7,5 77,5 81,9 84,6 86,8 89,6 91, 9,9 94,0 95,1 96,7 97,3 98,4 98,9 100,0 K 1 =1 K = median = 3 K 3 = 6 Z skårer Hvor mange standardavvik befinner en verdi seg fra gjennomsnittet Yi Y Z = 30 4,6 Z = = 1, 04 s 5, Positiv z verdi: enhetens verdi ligger over gjennomsnittet Negativ z verdi: enhetens verdi ligger under gjennomsnittet Normalfordelingen Er ikke mer normal enn andre fordelinger Mange observerbare fordelinger er tilnærmet normale Dersom en trekker uendelig mange utvalg fra den samme populasjonen, vil fordelingen over gjennomsnittene fra alle utvalgene være normalfordelt 6
To normalfordelinger med lik sentraltendens, men med ulik spredning Standardisert normalfordeling Antall standardavvik fra gjennomsnittet Enhet og mangfold s 306 Enhet og mangfold s 313 Illustrasjon av intervaller i normalfordelingstabellen normalfordelt? Gjennomsnitt: 4,6 Median: 3 Modus: 1 Positivt skjevfordelt: Gjsnitt > Median Høye verdier trekker gjennomsnittet opp Negativt skjevfordelt: Gjsnitt < Median Lave verdier trekker gjennomsnittet ned Enhet og mangfold s 314 7