Sannsynlighetsregning og Statistikk. Leksjon Velkommen til dette kurset i sannsynlighetsregning og statistikk! Vi vil som lærebok benytte Gunnar G. Løvås:Statistikk for universiteter og høyskoler. I den første leksjonen skal vi ta for oss endel begreper vi bruker i statistikk. Begrepene vil i vår tekst bli understreket og du kan finne dem igjen i det registeret vi har laget. Du vil også kunne lese mer om de forskjellige begreper i kapittel i Løvås bok. Det å foreta en statistisk analyse vil si at en ut fra et tallmateriale (et utvalg) skal trekke generelle konklusjoner i en populasjon. Hvor god en statistisk analyse vil være avhenger av om utvalget er representativt for hele populasjonen om hvor stor variasjonen mellom enhetene er. Variasjon kan deles i 3 typer: Populasjonsvariasjon. Prosessvariasjon. Målevariasjon.
Det er viktig å ha klart for seg forskjellen mellom et utvalg og en populasjon. En populasjon består av alle de enheter som er av interesse for oss i en analyse. En populasjon vil ofte bestå av uendelig mange enheter. Et utvalg består av de enheter vi har i et forsøk dvs. det tallmateriale vi skal analysere.. Enhetene i utvalget og populasjonen kan beskrives ved følgende typer variable:. Kategoriske variable (f.eks.kjønn) 2. Diskrete variable ( f.eks. antall øyne på en terning) 3. Kontinuerlige variable. (f.eks. levetiden for en lyspære). Vi har en tilfeldig variabel hvis utvalget er et tilfeldig utvalg fra populasjonen. Vi snakker om to typer modeller. Deterministisk modell beskriver fenomen som er forutsigbare. Stokastisk modell beskriver fenomen som innvolverer tilfeldigheter, dvs. de er uforutsigbare. Når vi skal foreta en statistisk analyse tar vi utgangspunkt i en stokastisk modell. Vi skal nå se på hvordan vi kan beskrive et tallmateriale (et utvalg). Dette finner du mer utfyllende beskrevet i læreboka. 2
Beskrivelse av utvalg. (Deskriptiv Statistikk) Vi skal ved hjelp av et eksempel vise hvordan en kan fremstille et tallmateriale på en oversiktlig måte med en frekvenstabell. Fremgangsmåten er den samme om de variable er kategoriske, diskrete eller kontinuerlige. I boka står fremgangsmåtene for alle tre kategorier beskrevet. Vi nøyer oss med å illustrerer fremgangsmåten med et eksempel hvor vi har en diskret variabel. Eks.: For å undersøke forekomsten av kobolt (Co) I Oppland fylke ble 50 jordprøver valgt ut fra et stort område og Co-innholdet for hver prøve (angitt i mg. pr. kg. jord) ble bestemt. Resultatet ble: 7 54 8 40 24 4 3 6 2 43 6 28 20 34 84 23 34 22 3 23 7 58 35 45 49 43 200 83 73 3 42 72 30 52 32 8 56 35 66 6 6 6 87 90 2 26 40 2 3 5 Vi får her et klarere bilde av fordelingen av dataene hvis vi lager en frekvenstabell. Vi deler da tallområde inn i 5-5 intervaller.vi gjør et subjektivt valg av intervallene, men alle intervallene bør være like store og det må være klart hva som er øvre og nedre grense for hvert intervall.. Vi finner minste og største verdi i tallmaterialet ( 6,200) 2. Deler observasjonene i et 0 intervaller. 3. Teller opp antall observasjoner i hvert intervall. 4. Beregner relative frekvenser. Vi får da flg. frekvenstabell: 3
Frekvenstabell Intervall Antall Rel.frekvens Kumulativ rel.frekvens 20 2-40 4-60 6-80 8-00 0-20 2-40 4-60 6-80 8-200 4 5 7 3 3 3 2 0 2 0.28 0.30 0.4 0.06 0.06 0.02 0.06 0.04 0.00 0.04 0.28 0.58 0.72 0.78 0.84 0.86 0.92 0.96 0.96.00 En foretrekker ofte å visualisere tabellen ved hjelp av et histogram. En danner da rektangler over de enkelte delintervaller og tilpasser høyden slik at arealet tilsvarer den relative frekvens. Her er et histogram for vårt eksempel (laget på Minitab) En kan også lage kakediagram eller søylediagram. Du kan se eksempler på dette i kapittel 2 i læreboka. Skal en sammenligne histogram fra forskjellige undersøkelser tegner en ofte histogrammene i samme diagram. 4
Sentralmål Det vanligste mål for størrelsen av et tallmateriale er gjennomsnittet. Et slikt mål angir sentrum i tallmaterialet x = x + x2 +... x n = n n n i= x i Denne størrelsen er regnet ut på de fleste lommekalkulatorer når du har plugget inn dataene dine. I vårt materiale er x = 52.90 Svakheten med gjennomsnittet som sentralmål er at en eller noen få svært avvikende observasjoner kan trekke gjennomsnittet opp eller ned slik at gjennomsnittet ikke lenger ligger sentralt i fordelingen. Da vil medianen x ~ være et godt alternativ. x~ defineres som den midterste observasjon hvis antall observasjoner er et ulike tall. x~ defineres som gjennomsnittet av de to midterste tall hvis antall observasjoner er et like tall. I vårt materiale er x ~ = 33 En mindre brukt størrelse er Modus som er den verdien som forekommer flest ganger. I vårt materiale er modus = 7 5
Vi kan også snakke om 25-prosentilen og 75-prosentilen eller nedre og øvre kvartil. Det er de verdier som er slik at 25% av observasjonene henholdsvis 75% av observasjonene er mindre enn kvartilene. I vårt materiale er nedre kvartil = 8.00 og øvre kvartil = 72.25. Et boksplot er en grafisk fremstilling av minste og største observasjon, i tallmateriale sammen med medianen og de to kvartiler. Her følger et boksplot av vårt eksempel. 200 C 00 0 Punktene som er merket med stjerne er verdier som ligger mer enn 2 s fra medianen. 6
Spredningsmål Når en skal måle spredningen i et tallmateriale er det ingen opplagt måte å gjøre dette på. Vi kan bruke variasjonsbredden som defineres som den største observasjon minus den minste observasjon I vårt eksempel er variasjonsbredden 200 6 = 94 Ulempen med variasjonsbredden er at den avhenger meget av utvalgets størrelse, derfor bruker en gjerne andre mål. Vi kan ikke bruke den gjennomsnittlige avstand fra gjennomsnittet som spredningsmål, fordi denne alltid blir 0. D = /n ((x x) +( x 2 - x)+. +(x n - x)) = 0 Vi må bruke et avstandsmål der vi unngår at positive og negative avstander opphever hverandre. Vi ser derfor på kvadrat-avstandene mellom observasjonene og gjennomsnittet. Da vil 2 observasjoner som ligger like langt fra gjennomsnittet, selv om de ligger på hver sin side ikke oppheve hverandre, men få samme kvadratavstand og dermed bidra like mye til gjennomsnittlig kvadratavstand. Den gjennomsnittlige kvadratavstand, også kalt empirisk varians, defineres som s 2 n = (x i x) 2 n i= Den vil gi oss et bilde av hvor stor spredningen for observasjonene er. Hvis du lurer på hvorfor vi ikke dividerer med n istedenfor n- skal vi komme tilbake til det senere. 7
Da dette målet er kvadratet av avstandene, benyttes gjerne standardavviket når en skal oppgi spredningen i et materiale. Standardavviket defineres som kvadratroten av variansen. 2 Standardavvik: s = n ( x x ) n i= Denne verdien kan dere finne utregnet på de fleste lommekalkulatorer. I vårt eksempel finner vi s = 48.35 Enkelte ganger vil en også se at det brukes variasjonskoeffisienten. Variasjonskoeffisient s tan dardavvik = = 0.9 00% = 9% gjennomsnitt Grupperte data Hvis vi ikke kjenner de nøyaktige observasjoner, men bare har frekvenstabell eller histogrammet for dataene, lar vi alle observasjoner i i et intervall anta samme verdi, nemlig midtpunktet i intervallet. Da blir gjennomsnittet x = /n m i f i hvor m i er midtpunktet i intervall nr.i og f i er antall observasjoner i i te intervall. I vårt materiale ville da x = 52.50. 8