Statistisk beskrivelse av enkeltvariabler. SOS1120 Kvantitativ metode. Disposisjon. Datamatrisen. Forelesningsnotater 6. forelesning høsten 2005



Like dokumenter
Forelesning 7 Statistiske beskrivelser av enkeltvariabler. Mål for sentraltendens

Sannsynlighetsregning og Statistikk.

ST0202 Statistikk for samfunnsvitere. Bo Lindqvist Institutt for matematiske fag

Lærebok Robert Johnson og Patricia Kuby: Elementary Statistics, 10. utgave. Pensumoversikt. Forelesninger og øvinger

Statistikk 1. Nico Keilman. ECON 2130 Vår 2014

ST0202 Statistikk for samfunnsvitere

ECON Statistikk 1 Forelesning 2: Innledning

ST0202 Statistikk for samfunnsvitere. Bo Lindqvist Institutt for matematiske fag

Statistikk. Forkurs 2017

Forelesning 7 Statistiske beskrivelser av enkeltvariabler. Mål for sentraltendens

Statistikk. Forkurs 2018

Krysstabellanalyse (forts.) SOS1120 Kvantitativ metode. 4. Statistisk generalisering. Forelesningsnotater 9. forelesning høsten 2005.

Lærebok Robert Johnson og Patricia Kuby: Elementary Statistics, 10. utgave. Pensumoversikt. Oversikt. ST0202 Statistikk for samfunnsvitere

Forkurs i kvantitative metoder ILP 2019

ST0202 Statistikk for samfunnsvitere

Et lite notat om og rundt normalfordelingen.

STK1000 Uke 36, Studentene forventes å lese Ch 1.4 ( ) i læreboka (MMC). Tetthetskurver. Eksempel: Drivstofforbruk hos 32 biler

Et lite notat om og rundt normalfordelingen.

Et lite notat om og rundt normalfordelingen. Anta at vi har kontinuerlige data. Hva er likt og ulikt for histogrammer og fordelingskurver?

84 % er fornøyde med det tilbudet de får

Loven om total sannsynlighet. Bayes formel. Testing for sykdom. ST0202 Statistikk for samfunnsvitere

2P kapittel 3 Statistikk Løsninger til innlæringsoppgavene

ØVINGER 2017 Løsninger til oppgaver. Øving 1

MATEMATIKK (MAT1005) Sentralmål / Spredningsmål

Introduksjon til statistikk og dataanalyse

9. Metode statistikk og analyse

Statistikk er begripelig

Sammenlikninger av gjennomsnitt. SOS1120 Kvantitativ metode. Kan besvare to spørsmål: Sammenlikning av to gjennomsnitt

ST0202 Statistikk for samfunnsvitere

SOS1120 Kvantitativ metode. Regresjonsanalyse. Lineær sammenheng II. Lineær sammenheng I. Forelesningsnotater 11. forelesning høsten 2005

Sentralmål og spredningsmål

Statistikk og dataanalyse

Fordelinger, mer om sentralmål og variasjonsmål. Tron Anders Moger

ST0202 Statistikk for samfunnsvitere [1]

Bruk data fra tabellen over (utvalget) og opplysninger som blir gitt i oppgavene og svar på følgende spørsmål:

ST0202 Statistikk for samfunnsvitere Kapittel 6: Normalfordelingen

Dataanalyse. Hva er en dataanalyse og hvordan gå frem for å gjennomføre en dataanalyse av det innsamlede datagrunnlaget fra en feltundersøkelse?

Til bruk i metodeundervisningen ved Høyskolen i Oslo

Øving 1 TMA Grunnleggende dataanalyse i Matlab

Øving 1 TMA Grunnleggende dataanalyse i Matlab

Krysstabellanalyse. SOS1120 Kvantitativ metode. Disposisjon. 1. Beskrivelse av analyseteknikk. Forelesningsnotater 7. forelesning høsten 2005

Når du har arbeidet deg gjennom dette kapittelet, er målet at du skal kunne

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010

Sted Gj.snitt Median St.avvik Varians Trondheim Værnes Oppdal

Deskriptiv statistikk., Introduksjon til dataanalyse

Kap. 8: Utvalsfordelingar og databeskrivelse

Page 1 EN DAG PÅ HELSESTASJONEN. Lises klassevenninnner. Formelen: Du har en hypotese om vanlig høyde

Deskriptiv statistikk., Introduksjon til dataanalyse

MATEMATIKK (MAT1005) Sentralmål / Spredningsmål

ting å gjøre å prøve å oppsummere informasjonen i Hva som er hensiktsmessig måter å beskrive dataene på en hensiktsmessig måte.

Introduksjon til statistikk og dataanalyse. Arild Brandrud Næss TMA4240 Statistikk NTNU, høsten 2013

Eksempel på data: Karakterer i «Stat class» Introduksjon

ÅMA110 Sannsynlighetsregning med statistikk, våren 2011

Kan vi stole på resultater fra «liten N»?

LØSNING: Oppgavesett nr. 1

Løsningsforslag Til Statlab 5

Kapittel 1: Data og fordelinger

Datamatrisen: observasjoner, variabler og verdier. Variablers målenivå: Nominal Ordinal Intervall Forholdstall (ratio)

Analyseoversikt, Uke 35

Sentralmål og spredningsmål

Kapittel 3: Studieopplegg

Formelsamling i medisinsk statistikk

Dataens tidsalder. Hvorfor data? Data, data, data. STK1000 Innføring i anvendt statistikk. Tirsdag 24. august 2010

Forelesning 5: Kontinuerlige fordelinger, normalfordelingen. Jo Thori Lind

Gruppe 1 Gruppe 2 Gruppe a) Finn aritmetisk gjennomsnitt, median, modus og standardavvik for gruppe 2.

Forelesning 10 Statistiske mål for bivariat tabellanalyse. Korrelasjonsmål etter målenivå. Cramers V

Oppgaver til Studentveiledning 4 MET 3431 Statistikk

Sentralverdi av dataverdi i et utvalg Vi tenker oss et utvalg med datapar. I vårt eksempel har vi 5 datapar.

Løsningsforslag til obligatorisk innlevering 3.

ST0202 Statistikk for samfunnsvitere

1 Sec 3-2: Hvordan beskrive senteret i dataene. 2 Sec 3-3: Hvordan beskrive spredningen i dataene

Tabell 1: Beskrivende statistikker for dataene

Løsningskisse for oppgaver til undervisningsfri uke 8 ( februar 2012)

Utvalgsfordelinger; utvalg, populasjon, grafiske metoder, X, S 2, t-fordeling, χ 2 -fordeling

Øving 7: Statistikk for trafikkingeniører

Forslag til endringar

ÅMA110 Sannsynlighetsregning med statistikk, våren

ECON240 Statistikk og økonometri. Arild Aakvik, professor Institutt for økonomi

2P kapittel 3 Statistikk Utvalgte løsninger oppgavesamlingen

Analyse av kontinuerlige data. Intro til hypotesetesting. 21. april Seksjon for medisinsk statistikk, UIO. Tron Anders Moger

Eksamensoppgave i ST3001

Forelesning 6: Punktestimering, usikkerhet i estimering. Jo Thori Lind

2P, Statistikk Quiz. Test, 2 Statistikk

Seksjon 1.3 Tetthetskurver og normalfordelingen

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007

Kapittel 4.4: Forventning og varians til stokastiske variable

MASTER I IDRETTSVITENSKAP 2014/2016. Individuell skriftlig eksamen. STA 400- Statistikk. Fredag 13. mars 2015 kl

Statistikk for språk- og musikkvitere 1

Repeterbarhetskrav vs antall Trails

Løsning på Dårlige egg med bruk av Tabell 2 i Appendix B

Mål på beliggenhet (2.6) Beregning av kvartilene Q 1, Q 2, Q 3. 5-tallssammendrag. ST0202 Statistikk for samfunnsvitere

ÅMA110 Sannsylighetsregning og statistikk Løsningsforslag til eksamen høst 2010, s. 1. Oppgave 1. Histogram over frekvenser.

Diskrete sannsynlighetsfordelinger som histogram. Varians. Histogram og kumulativ sannsynlighet. Forventning (gjennomsnitt) (X=antall mynt i tre kast)

Studier, region og tilfredshet

ST0202 Statistikk for samfunnsvitere

Forelesning 9 Statistiske mål for bivariat tabellanalyse

Seksjon 1.3 Tetthetskurver og normalfordelingen

Definisjoner av begreper Eks.: interesse for politikk

Kort overblikk over kurset sålangt

SPED4010/eksamen i statistikk: Fredag 30.september 2011 kl

Transkript:

SOS110 Kvantitativ metode Forelesningsnotater 6 forelesning høsten 005 Statistisk beskrivelse av enkeltvariabler (Univariat analyse) Per Arne Tufte Disposisjon Datamatrisen Variabler Datamatrisen Frekvensfordelinger Grafisk framstilling Kategoriske variabler Kontinuerlige variabler Sentraltendens Spredning Posisjonsmål Normalfordelingen Enheter Verdi Oversikt over enhetenes verdier på samtlige variabler i undersøkelsen 1

Oversikt over hvor mange enheter som har ulike verdier på en variabel Frekvensfordeling 0,00 1,00,00 3,00 4,00 5,00 6,00 7,00 8,00 9,00 3,00 4,00 Frequency Percent Percent Percent 1,5,5,5 17 9, 9,3 9,9 36 19,5 19,8 9,7 4 13,0 13, 4,9 30 16, 16,5 59,3 16 8,6 8,8 68,1 8 4,3 4,4 7,5 9 4,9 4,9 77,5 8 4,3 4,4 81,9 5,7,7 84,6 4,, 86,8 5,7,7 89,6 1,6 91, 1,6 9,9 1,1 1,1 94,0 1,1 1,1 95,1 1,6 96,7 1,5,5 97,3 1,1 1,1 98,4 1,5,5 98,9 1,1 1,1 100,0 18 98,4 100,0 Frekvensfordeling gruppert variabel 18 0 år 1 år 3 5 år 6 30 år 31 år eller mer sgruppe Frequency Percent Percent Percent 18 9,7 9,9 9,9 60 3,4 33,0 4,9 54 9, 9,7 7,5 31 16,8 17,0 89,6 19 10,3 10,4 100,0 18 98,4 100,0 Kakediagram Grafisk presentasjon Kategoriske variabler (nominal og ordinalnivå) Kontinuerlige variabler (intervall og forholdstallsnivå) sgruppe 18 0 år 1 år 3 5 år 6 30 år 31 år eller mer Percent Frequency Percent Percent 18 9,7 9,9 9,9 60 3,4 33,0 4,9 54 9, 9,7 7,5 31 16,8 17,0 89,6 19 10,3 10,4 100,0 18 98,4 100,0

Stolpediagram Histogram Sentraltendens Hvilken verdi er mest sentral eller representativ for en fordeling? Gjennomsnitt Tyngdepunktet i en fordeling Median Midterste verdi i en ordnet fordeling Modus Hyppigst forekommende verdi i en fordeling Gjennomsnitt Summerer enhetenes verdier på variabelen og deler på antall enheter Tyngdepunktet i en fordeling Intervall eller forholdstallsnivå (ordinalvariabler med fem verdier eller mer) Følsomt for ekstremverdier Yi Y = n 4471 = = 4,6 18 År Frekvens Frekvens * År 18 1 18 0 17 340 1 36 756 4 58 3 30 690 4 16 384 5 8 00 6 9 34 7 8 16 8 5 140 9 4 116 30 5 150 31 3 93 3 3 96 33 66 34 68 37 3 111 40 1 40 4 84 43 1 43 49 98 18 4471 3

1 Ranger dataene for variabel Y Median Midterste verdi i en rangert fordeling Halvparten av enhetene har denne verdien eller lavere Intervall eller forholdstallsnivå (men brukes også på ordinalvariabler) Lite følsom for ekstremverdier Finn posisjonen for midterste verdi (n + 1) / = (18+1)/ = 91,5 3 Start med laveste verdi, finn medianposisjonen og les av verdi 0,00 1,00,00 3,00 4,00 5,00 6,00 7,00 8,00 9,00 3,00 4,00 Median alder Frequency Percent Percent Percent 1,5,5,5 17 9, 9,3 9,9 36 19,5 19,8 9,7 4 13,0 13, 4,9 30 16, 16,5 59,3 16 8,6 8,8 68,1 8 4,3 4,4 7,5 9 4,9 4,9 77,5 8 4,3 4,4 81,9 5,7,7 84,6 4,, 86,8 5,7,7 89,6 1,6 91, 1,6 9,9 1,1 1,1 94,0 1,1 1,1 95,1 1,6 96,7 1,5,5 97,3 1,1 1,1 98,4 1,5,5 98,9 1,1 1,1 100,0 18 98,4 100,0 Hyppigst forekommende verdi i en fordeling Stiller ingen krav til målenivå Svært lite følsom for ekstremverdier Modus 0,00 1,00,00 3,00 4,00 5,00 6,00 7,00 8,00 9,00 3,00 4,00 Frequency Percent Percent Percent 1,5,5,5 17 9, 9,3 9,9 36 19,5 19,8 9,7 4 13,0 13, 4,9 30 16, 16,5 59,3 16 8,6 8,8 68,1 8 4,3 4,4 7,5 9 4,9 4,9 77,5 8 4,3 4,4 81,9 5,7,7 84,6 4,, 86,8 5,7,7 89,6 1,6 91, 1,6 9,9 1,1 1,1 94,0 1,1 1,1 95,1 1,6 96,7 1,5,5 97,3 1,1 1,1 98,4 1,5,5 98,9 1,1 1,1 100,0 18 98,4 100,0 Modus Median Sammenlikning av mål på sentraltendens Gjennomsnitt Målenivå nominal ordinal int/forht Utnytte informasjon Robust overfor ekstremverdier 4

Mål på spredning Hvor stor variasjon det er i de observerte verdiene på variabelen? Variasjonsbredde Differansen mellom høyeste og laveste verdi i fordelingen (49 år 18 år = 31 år) Varians Gjennomsnittlig kvadrerte avvik fra gjennomsnittet for variabelen Standardavvik Variasjon rundt gjennomsnittet for variabelen Varians Summen av kvadrerte avvik fra gjennomsnittet Deler på: n hvis populasjonsdata n 1 hvis utvalgsdata (Yi Y) = n (Yi Y) s = n 1 Jo større tall jo større spredning Ingen enkel intuitiv fortolkning Kvadratroten av variansen s = s Standardavvik Målt i variabelens opprinnelige måleenhet (kr, år etc) Jo større tall jo større spredning Ingen enkel intuitiv fortolkning Mål på hvor stor variasjonen er rundt gjennomsnittet NB! Ikke et gjennomsnittsavvik Obs Y Y (Y Y) (Y Y) 1 18 4,6 6,6 43,1 0 4,6 4,6 0,8 3 0 4,6 4,6 0,8 4 0 4,6 4,6 0,8 5 0 4,6 4,6 0,8 6 0 4,6 4,6 0,8 7 0 4,6 4,6 0,8 171 33 4,6 8,4 71,1 17 34 4,6 9,4 89,0 173 34 4,6 9,4 89,0 174 37 4,6 1,4 154,6 175 37 4,6 1,4 154,6 176 37 4,6 1,4 154,6 177 40 4,6 15,4 38, 178 4 4,6 17,4 303,9 179 4 4,6 17,4 303,9 180 43 4,6 18,4 339,8 181 49 4,6 4,4 597,0 18 49 4,6 4,4 597,0 0 4 898,7 Varians: s ( Y Y ) = n 1 Standardavvik: s = s Beregning av standardavvik = 4898,7 = = 7,1 18 1 7,1 = 5, 5

Posisjonsmål En observasjons relative plassering i en fordeling Kvartiler Deler en ordnet fordeling inn i fire deler med like mange enheter Prosentiler Z skårer Hvor mange standardavvik fra gjennomsnittet en verdi befinner seg Kvartiler 0,00 1,00,00 3,00 4,00 5,00 6,00 7,00 8,00 9,00 3,00 4,00 Percent,5 9,9 9,7 4,9 59,3 68,1 7,5 77,5 81,9 84,6 86,8 89,6 91, 9,9 94,0 95,1 96,7 97,3 98,4 98,9 100,0 K 1 =1 K = median = 3 K 3 = 6 Z skårer Hvor mange standardavvik befinner en verdi seg fra gjennomsnittet Yi Y Z = 30 4,6 Z = = 1, 04 s 5, Positiv z verdi: enhetens verdi ligger over gjennomsnittet Negativ z verdi: enhetens verdi ligger under gjennomsnittet Normalfordelingen Er ikke mer normal enn andre fordelinger Mange observerbare fordelinger er tilnærmet normale Dersom en trekker uendelig mange utvalg fra den samme populasjonen, vil fordelingen over gjennomsnittene fra alle utvalgene være normalfordelt 6

To normalfordelinger med lik sentraltendens, men med ulik spredning Standardisert normalfordeling Antall standardavvik fra gjennomsnittet Enhet og mangfold s 306 Enhet og mangfold s 313 Illustrasjon av intervaller i normalfordelingstabellen normalfordelt? Gjennomsnitt: 4,6 Median: 3 Modus: 1 Positivt skjevfordelt: Gjsnitt > Median Høye verdier trekker gjennomsnittet opp Negativt skjevfordelt: Gjsnitt < Median Lave verdier trekker gjennomsnittet ned Enhet og mangfold s 314 7