1 Sec 3-2: Hvordan beskrive senteret i dataene 2 Sec 3-3: Hvordan beskrive spredningen i dataene
Todeling av statistikk Deskriptiv statistikk Oppsummering og beskrivelse av den stikkprøven du har. Statistisk inferens Handler om hvordan vi bruker stikkprøven til å si noe om hele populasjonen.
Mål for senter i dataene Gjennomsnitt Median Modus
Notasjon Example Σ står for å addere opp x er variabelen som representerer dataverdiene. Ofte brukes en indeks i for å angi dataverdi nummer i: x i x er gjennomsnittet. n Stikkprøvens størrelse N Populasjonens størrelse Notasjon gjør det enklere å oppgi formler. For eksempel så er gjennomsnittet definert ved formelen x = xi n
Notasjon brukes i formler Example I en statistikk bok ser du formelen (xi x) 2 n 1 som skal regnes ut for en stikkprøve med tre tall: 3, 7, 4. Du regner ut at gjennomsnittet er x = 2 og setter n = 3 og får:
Notasjon brukes i formler Example I en statistikk bok ser du formelen (xi x) 2 n 1 som skal regnes ut for en stikkprøve med tre tall: 3, 7, 4. Du regner ut at gjennomsnittet er x = 2 og setter n = 3 og får: (xi x) 2 = (x 1 x) 2 + (x 2 x) 2 + (x 3 x) 2 n 1 n 1 = (3 2)2 + (7 2) 2 + ( 4 2) 2 3 1 1 2 + 5 2 + ( 6) 2 1 + 25 + 36 = = 31 2 2
Notasjon for gjennomsnitt Gjennomsnitt i stikkprøven Vi skriver x for gjennomsnittet i stikkprøven: x = x n Gjennomsnitt i populasjonen Vi skriver µ for gjennomsnittet i populasjonen: µ = Merk at µ er som oftest ukjent. x N Hvor mange desimaler? Når man oppgir gjennomsnittet, så bruk 1 mer desimal enn det er i dataene.
Median Medianen Medianen er den midterste verdien i dataene når vi har sortert dem. Symbolet for medianen er x Medianen blir ikke så påvirket av uteliggere som gjennomsnittet Example Alder på ledere i en bedrift: 35 32 55 48 41 47
Median Medianen Medianen er den midterste verdien i dataene når vi har sortert dem. Symbolet for medianen er x Medianen blir ikke så påvirket av uteliggere som gjennomsnittet Example Alder på ledere i en bedrift: 35 32 55 48 41 47 Sortert: 32, 35, 41, 47, 48, 55 De to midterste verdiene er 41 og 47 Median x = (41 + 47)/2 = 44 år
Medianen er robust mot ekstreme observasjoner Uteligger: En ekstrem verdi, dvs. et tall som ligger langt ifra hopen av tall i stikkprøven. Påvirker gjennomsnittet mer enn medianen. Example Årsinntekt (i 1000 kr) i en bygd med 10 voksne 567 320 432 410 340 276 389 220 693 360 Gjennomsnitt x = 400.7 om median x = (360 + 389)/2 = 374.5. En ekstremt rik person flytter hjem til bygda. Han har årsinntekt på 3500 (3.5 millioner). Gjennomsnittet 400.7 682.5. Stor forandring Median 374.5 389. Liten forandring Her gir medianen en bedre pekepinn enn gjennomsnittet på hva en typisk inntekt er
Modus Modus Er den verdien som opptrer oftest. Brukes helst på kvalitative data. Examples Det partiet som fikk mest stemmer... To stikkprøver og deres moduser. A. 5.40 1.10 0.42 0.73 0.48 1.10 Modus =1.1 B. 27 27 27 55 55 55 88 88 99 Bimodal. 27 og 55
Gjennomsnitt fra en frekvenstabell Beregne x fra en frekvenstabell I hver klasse, anta at alle verdiene har midtverdien. x = f xmidten f her er f frekvensen/antallet i hver klasse.
Oppsummering
Skjev eller symmetrisk? Symmetrisk fordeling av data Dersom venstre halvdel av histogrammet er omtrent et speilbilde av høyre halvdel. Eksempel: normalfordelte data. Skjev fordeling av data Dersom ikke symmetrisk og en side av dataene er lenger enn den andre. Reisetid i minutter er skjevt fordelt mot høyre.
Symmetrisk eller skjev fordeling?
Hvor mye varierer dataene? Variasjon Variasjon er grunntemaet i statistikk Seksjon 3-3 i boka er dermed en av de aller viktigste Legg stor vekt på tolkning av standardavviket
Et enkelt forslag... Variasjonsbredde Example Variasjonsbredde= Maksverdi - Minimumsverdi Stikkprøve med tre tall: 3, 7, 4. Her er variasjonsbredden x max x min = 7 ( 4) = 11. Primitivt Variasjonsbredde er et veldig enkelt mål for variasjon i dataene. For enkelt.
Standardavviket Standardavvik Det desidert mest brukte målet for variasjon i dataene er standardavviket Engelsk: standard deviation, std.dev Symbolet er s Formelen Standardavviket måler hvor mye verdiene ligger ifra gjennomsnittet: (x x) 2 s = n 1
Utregning av s for hånd Example Stikkprøve med tre tall: 3, 7, 4. (3 2) s = 2 + (7 2) 2 + ( 4 2) 2 3 1 1 + 25 + 36 = 3 1 = 31 = 5.6 Selv om JMP eller Excel regner ut s, så skal dere kunne gjøre dette for hånd for enkle eksempler.
Shortcut formelen for s Example s = n x 2 ( x) 2 n(n 1) Stikkprøve med tre tall: 3, 7, 4. x 2 = 3 2 + 7 2 + ( 4) 2 = 9 + 49 + 16 = 74 x = 3 + 7 + ( 4) = 6 n x s = 2 ( x) 2 n(n 1) 3 74 6 = 2 186 = 3(3 1) 6 = 31 = 5.6
Egenskaper til standardavviket s måler typisk avstand ifra gjennomsnittet s er som regel positiv s kan øke veldig mye dersom en uteligger tas med s er målt i samme enheter som verdiene i stikkprøven
Standardavviket i populasjonen I populasjonen s er en observator Standardavviket i populasjonen har det greske symbolet σ σ er en parameter som har formelen σ = (x µ) 2 N
Varians Variansen er s 2 Eng: Variance Example Stikkprøve med tre tall: 3, 7, 4 har variansen 5.6 2 = 31.0.
Tommelfingerregel for s En omtrentlig regel Hvis du deler variasjonsbredden på 4, så har du et anslag på s. Examples 1 Stikkprøve med tre tall: 3, 7, 4 har variasjonsbredde 11. Så da kan vi anslå standardavviket til å være 11/4 = 2.75. Men det bommer endel på det faktiske standardavviket s = 5.6 2 I en stikkprøve av 56 studenter varierte antall ukentlige studietimer fra 40 til 0 timer. Med tommelfingerregelen anslår vi s til å være 40/4 = 10 timer. Det faktiske standardavviket er s = 8.1 timer.
Øvingsoppgave Example Alderen på lederne i en bedrift er: 35 32 55 48 41 47. Beregn standardavviket.
Øvingsoppgave Example Alderen på lederne i en bedrift er: 35 32 55 48 41 47. Beregn standardavviket.
Tolkning av s Hvordan tolke s? Hvis du kjenner standardavviket s så kan du anslå typiske maksimums- og minimumsverdier: En typisk minimumsverdi er 2 standardavvik under gjennomsnittet En typisk maksimumsverdi er 2 standardavvik over gjennomsnittet Denne regelen er brukbar så lenge dataene er tilnærmet normalfordelt.
Empirisk regel for s 68% Er dataene tilnærmet normalfordelt så vil ca 68% av dataene ligge 1 standardavvik ifra gjennomsnittet.
68% - 95 % - 99.7 % For normalfordelte data vil 95% av verdiene ligge innenfor 2 standardavvik.