1 Grafisk framstilling av datamateriale



Like dokumenter
ting å gjøre å prøve å oppsummere informasjonen i Hva som er hensiktsmessig måter å beskrive dataene på en hensiktsmessig måte.

Statistikk. Forkurs 2018

Statistikk. Forkurs 2017

Beskrivende statistikk.

INNHOLD. Matematikk for ungdomstrinnet

Sannsynlighetsregning og Statistikk.

2P, Statistikk Quiz. Test, 2 Statistikk

Når du har arbeidet deg gjennom dette kapittelet, er målet at du skal kunne

Statistikk Løsninger. Innhold. Statistikk Vg2P

Et lite notat om og rundt normalfordelingen.

MATEMATIKK (MAT1005) Sentralmål / Spredningsmål

Manual til Excel. For ungdomstrinnet ELEKTRONISK UNDERVISNINGSFORLAG AS

Deskriptiv statistikk., Introduksjon til dataanalyse

Et lite notat om og rundt normalfordelingen. Anta at vi har kontinuerlige data. Hva er likt og ulikt for histogrammer og fordelingskurver?

Deskriptiv statistikk., Introduksjon til dataanalyse

MATEMATIKK (MAT1005) Sentralmål / Spredningsmål

Statistikk Oppgaver. Innhold. Statistikk Vg2P

Øgrim Bakken Pettersen Skrindo Dypbukt Mustaparta Thorstensen Thorstensen. Digitalt verktøy for Sigma 2P. Microsoft Excel

Statistikk 1. Nico Keilman. ECON 2130 Vår 2014

Forelening 1, kapittel 4 Stokastiske variable

STK1000 Uke 36, Studentene forventes å lese Ch 1.4 ( ) i læreboka (MMC). Tetthetskurver. Eksempel: Drivstofforbruk hos 32 biler

Øving 1 TMA Grunnleggende dataanalyse i Matlab

ØVINGER 2017 Løsninger til oppgaver. Øving 1

Et lite notat om og rundt normalfordelingen.

Sentralmål og spredningsmål

Bruk SUMMER-funksjonen i formelen i G9. Oppgave 14. H. Aschehoug & Co Side 1

Eksempel på data: Karakterer i «Stat class» Introduksjon

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010

Sentralmål og spredningsmål

Øgrim Bakken Pettersen Skrindo Dypbukt Mustaparta Thorstensen Thorstensen. Digitalt verktøy for Sigma 2P. Microsoft Excel

Kapittel 1: Data og fordelinger

ST0103 Brukerkurs i statistikk Høst 2014

2P kapittel 3 Statistikk Utvalgte løsninger oppgavesamlingen

Statistikk. Mål. for opplæringen er at eleven skal kunne. planlegge, gjennomføre og vurdere statistiske undersøkelser

Stolpediagragram og histogram med regneark

Øving 1 TMA Grunnleggende dataanalyse i Matlab

Sentralmål og spredningsmål

UNIVERSITETET I OSLO

Manual til Excel. For mellomtrinnet. Inger Nygjelten Bakke ELEKTRONISK UNDERVISNINGSFORLAG AS

Dataens tidsalder. Hvorfor data? Data, data, data. STK1000 Innføring i anvendt statistikk. Tirsdag 24. august 2010

Konfidensintervall for µ med ukjent σ (t intervall)

Eksamen våren 2016 Løsninger

Eksamen MAT1005 Matematikk 2P-Y Høsten 2014

Statistikk Vi på vindusrekka

ECON2130 Kommentarer til oblig

Undersøkelse om utdanning

Tema: Deskriptiv statistikk for kontinuerlige data. Av Kathrine Frey Frøslie,

MAT4010 PROSJEKTOPPGAVE: Statistikk i S2. Olai Sveine Johannessen, Vegar Klem Hafnor & Torstein Mellem

Introduksjon til statistikk og dataanalyse. Arild Brandrud Næss TMA4240 Statistikk NTNU, høsten 2013

Basisoppgaver til 2P kap. 3 Statistikk

Løsningsforslag ECON 2130 Obligatorisk semesteroppgave 2017 vår

EKSAMEN KANDIDATNUMMER: EKSAMENSDATO: 26. mai SENSURFRIST: 16. juni KLASSE: HIS TID: kl

Kapittel 5. Statistikk

Rapport fra karakterpanel for matematikk om bruk av det nye karaktersystemet

Tallinjen FRA A TIL Å

Eksamen MAT1005 Matematikk 2P-Y Va ren 2014

Statistisk behandling av kalibreringsresultatene Del 1. v/ Rune Øverland, Trainor Elsikkerhet AS

Lærebok Robert Johnson og Patricia Kuby: Elementary Statistics, 10. utgave. Pensumoversikt. Forelesninger og øvinger

ST0202 Statistikk for samfunnsvitere. Bo Lindqvist Institutt for matematiske fag

Statistikk 2. Tabellen nedenfor viser oljeproduksjonen i et OPEC-land i perioden 1990 til Produksjonen er i 1000 tonn.

Sandefjordskolen BREIDABLIKK UNGDOMSSKOLE ÅRSPLAN FOR FORESATTE MATTE 10.TRINN SKOLEÅR Side 1 av 8

Kontinuerlige stokastiske variable.

Lokal læreplan 9 trinn matematikk

Sandefjordskolen BREIDABLIKK UNGDOMSSKOLE ÅRSPLAN FOR FORESATTE MATEMATIKK 8.TRINN SKOLEÅR

Sandefjordskolen BREIDABLIKK UNGDOMSSKOLE ÅRSPLAN FOR FORESATTE MATTE 10.TRINN SKOLEÅR Side 1 av 9

Fagplan i matematikk for 9. trinn 2014/15. Faglærer: Terje Tønnessen

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007

42 elever sykler til skolen hver dag, mens 30 tar bussen. 26 går og 10 blir kjørt med bil. Da kan vi lage et diagram som gir en oversikt.

Seksjon 1.3 Tetthetskurver og normalfordelingen

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

De hele tall har addisjon, multiplikasjon, subtraksjon og lineær ordning, men ikke divisjon.

Løsningsforslag til obligatorisk oppgave i ECON 2130

DEL 1 Uten hjelpemidler

Høgskolen i Gjøviks notatserie, 2001 nr 5

MASTER I IDRETTSVITENSKAP 2014/2016. Utsatt individuell skriftlig eksamen. STA 400- Statistikk. Mandag 24. august 2015 kl

EKSAMEN. TILLATTE HJELPEMIDLER: Kalkulator. Hornæs: Formelsamling statistikk HiG. John Haugan: Formler og tabeller.

Simulering på regneark

Innhold. Innledning. Del I

i x i

Dataøvelse 3 Histogram og normalplott

Snøtetthet. Institutt for matematiske fag, NTNU 15. august Notat for TMA4240/TMA4245 Statistikk

Oppgaven består av 10 delspørsmål som anbefales å veie like mye, Kommentarer og tallsvar er skrevet inn mellom <<, >>, Oppgave 1

Statistisk beskrivelse av enkeltvariabler. SOS1120 Kvantitativ metode. Disposisjon. Datamatrisen. Forelesningsnotater 6. forelesning høsten 2005

ST0202 Statistikk for samfunnsvitere. Bo Lindqvist Institutt for matematiske fag

Sandefjordskolen BREIDABLIKK UNGDOMSSKOLE ÅRSPLAN FOR FORESATTE MATEMATIKK 8.TRINN SKOLEÅRET Side 1 av 8

UNIVERSITETET I OSLO

1 Sec 3-2: Hvordan beskrive senteret i dataene. 2 Sec 3-3: Hvordan beskrive spredningen i dataene

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

2P-Y eksamen våren 2018 løsningsforslag

Løsningskisse for oppgaver til undervisningsfri uke 8 ( februar 2012)

Eksamen MAT1005 Matematikk 2P-Y Va ren 2015

UNIVERSITETET I OSLO Matematisk Institutt

Kapittel 3: Stokastiske variable og sannsynlighetsfordelinger

FAGPLANER Breidablikk ungdomsskole FAG: Matematikk 8. trinn

Supplement til power-point presentasjonen i medisinsk statistikk, forelesning 7 januar Skrevet av Stian Lydersen 16 januar 2013

Oppgaver i statistikk

Terningkast. Utfallsrommet S for et terningskast med en vanlig spillterning med 6 sider er veldefinert 1, 2, 3, 4, 5, 6

DEL 1 Uten hjelpemidler

Eksamen MAT1015 Matematikk 2P. Nynorsk/Bokmål

Transkript:

1 Grafisk framstilling av datamateriale Dette notatet er laget med tanke på åfå til en rask gjennomgang av denne delen av pensum. Determentforå ha nedskrevet det som forholdsvis rakt blir sagt i forelesning, og kan også brukes som et (kortere, men dårligere) alternativ til å lese gjennom kapitlene 1 2.3 i læreboka Løvås: Statistikk. I beskrivende statistikk er hensikten å presentere data. Med data mener vi (ihvertfall i dette faget) serier med tall som er samlet inn i forskjellige sammenhenger. En enkelt verdi i et slikt sett kalles et datapunkt, eller en observasjon. I utgangspunktet kan det være andre typer observasjoner enn tall. For eksempel kan svaralternativer som Lite, middels og mye i et spørsmål i en spørreundersøkelse legges inn som tallene 1, 2 og 3 (og kankje 0 for ubesvart) når vi skal oppsummere disse, for eksempel i et dataprogram som Excel. En slik oversettelse til tall kalles koding, ogviskali fortsettelsen tenke oss at dataene er kodet slik at vi kan snakke om data som innsamlet tallmateriale. En ubehandlet liste av data kalles rådata. Ofte er hensikten å systematisere og forenkle rådataene slik at tallmaterialet blir mer oversiktlig. En mulighet er å gruppere mulige verdier, i et begrenset antall intervaller, og angi antall observasjoner i hver gruppe i en liste som kalles en frekvensliste. I mange sammenhenger forenkles hele tallmaterialet til noen få tall som angir vesentlige egenskaper ved dette. Slike tall kalles beskrivende statistiske mål. Mest brukt er tallparet gjennomsnitt og standardavvik. Dette notatet har noen henvisninger til dette, men hensikten er å behandle beskrivende statistiske mål grundigere etter at vi er ferdige med den grafiske framstillingen. Grafisk framstilling. I presentasjoner brukes ofte grafisk framstilling av tallmateriale. Hovedhensikten med dette notatet er åsepånoenmåter å gjøre dette på. Dette vil vel være kjent for alle, både fra tidligere skolegang og media. Det vil derfor ikke vektlegges stort her. Framstillinga av dette er her gjort med tanke på den sammenhengen dette har med sannsynlighetsmodeller og statistisk analyse vi kommer til senere i kurset. Derfor vektlegges for eksempel forskjellen på histogram og stolpediagram noe, selv om disse ofte går om hverandre i hverdagsstatistikk. Arealtolkningen av histogrammer, og standarisering på relative frekvenser eller totalt areal 1 er også vesentlig for sammenhengen med sannsylighetsregninga. 1.1 Kontinuerlig og diskrete data Vi kommer til å møte på to hovedtyper data, og ikke minst i forbindelse med de stokastiske variablene senere i kurset er det viktig å skille mellom disse. Kontinuerlige data er i prinsippet reelle tall (desimaltall). Da er i teorien alle reell tall (i et område) mulige verdier av observasjoner. Det er hensiktsmessig ogsåå behandle tall som bare kan være heltall som kontinuerlige hvis det er mange forskjellige tall blant observasjonene. Gjentatte målinger av en kontinuerlig størrelse (f.eks. avstand, strømstyrke, bruddstyrke...) er et typisk eksempel på dette. På grunn av måleunøyaktighet vil verdiene variere selv om det er samme størrelse som måles flere ganger. Diskrete data brukes når bare et fåtall verdier er mulige (eller er sannsynlige). Dataene vil ofte, men ikke alltid, bestå av heltall. Disse står da gjerne for antallet av et eller annet. Eksempel på dette kan for eksempel være antall branner i en kommune per måned. Vi får da et datapunkt for hver måned, og når dette er registrert over tid får vi en liste med heltall. Disse vil vanligvis være relativt små, selv om det i prinsippet ikke er noen grense for hvor store de kan være. 1

2 Datasett- kontinuerlige data Som eksempel på et litt større datasett er her karakterfordelingen ved sensur av statistikkfaget ved en høgskole i Norge (før finjusteringer). Både fordi det er så mange forskjellige verdier som inngår, og fordi tallene er desimaltall er det naturlig åtenkepå dataene som reelle tall (i motsetning til heltall), og da kaller vi dataene kontinuerlige (i motsetning til diskrete). Karakterskalane går fra 1.0 (best) til 6.0 (dårligst). Svakeste ståkarakter er 4.0. 2.1 Rådata- tilfeldig rekkefølge I den rekkefølgen dataene tilfeldigvis foreligger (sortert på kandidatnr.) har vi rådataene. Vi skal ofte betegne disse etter mønsteret {x 1,x 2,x 3,..., x n }. 4.1 2.2 3.6 2.2 2.1 5.7 3.8 2.5 6.0 5.2 5.5 5.3 2.0 3.7 3.5 1.9 1.1 5.3 3.7 1.0 2.5 2.9 1.7 4.1 2.3 3.7 4.5 2.4 4.2 3.6 5.3 3.5 2.9 5.5 3.2 2.9 2.5 5.2 1.3 4.0 2.6 2.6 4.3 1.8 6.0 1.1 5.5 6.0 1.8 5.5 2.8 3.3 1.6 5.0 3.9 5.2 2.5 5.5 1.6 3.1 2.4 1.5 2.6 1.9 3.7 2.4 2.7 4.4 3.6 5.7 2.7 3.1 5.2 2.0 4.7 1.7 4.7 2.9 2.7 2.2 3.1 4.4 1.2 2.0 2.9 4.4 2.9 2.2 5.3 1.6 3.5 3.2 4.1 4.5 4.3 2.6 2.3 1.8 4.5 3.0 4.8 5.3 3.5 2.4 4.0 3.2 4.3 4.4 3.3 2.6 3.5 5.5 4.1 4.5 3.3 2.5 4.0 2.0 4.6 2.5 3.6 5.4 3.9 2.4 4.4 1.4 2.6 4.0 1.8 5.1 5.8 1.7 1.9 3.5 5.5 3.4 2.8 4.7 1.8 5.9 2.5 2.5 3.8 2.3 3.5 3.1 2.9 2.5 4.9 1.5 4.4 3.4 2.0 4.3 3.3 3.8 4.2 3.0 5.8 2.1 3.3 5.7 3.9 3.2 2.7 5.5 4.1 2.5 4.1 2.8 4.2 2.7 2.1 2.9 1.5 4.5 3.6 3.2 2.5 4.5 3.6 3.2 2.5 4.5 2.5 4.5 2.5 3.1 6.0 3.7 1.6 5.4 4.5 5.1 3.5 1.7 3.0 1.8 3.6 4.6 4.9 4.4 3.5 2.4 4.5 3.9 2.2 Ordnet datasett Sortert etter (stigende) rekkefølge kaller vi datasettet ordnet. Vi skal ofte betegne disse etter mønsteret { x [1],x [2],x [3],..., x [n] }. 1.0 1.1 1.1 1.2 1.3 1.4 1.5 1.5 1.5 1.6 1.6 1.6 1.6 1.7 1.7 1.7 1.7 1.8 1.8 1.8 1.8 1.8 1.8 1.9 1.9 1.9 2.0 2.0 2.0 2.0 2.0 2.1 2.1 2.1 2.2 2.2 2.2 2.2 2.3 2.3 2.3 2.4 2.4 2.4 2.4 2.4 2.4 2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.6 2.6 2.6 2.6 2.6 2.6 2.7 2.7 2.7 2.7 2.7 2.8 2.8 2.8 2.9 2.9 2.9 2.9 2.9 2.9 2.9 2.9 3.0 3.0 3.0 3.1 3.1 3.1 3.1 3.1 3.2 3.2 3.2 3.2 3.2 3.2 3.3 3.3 3.3 3.3 3.3 3.4 3.4 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.6 3.6 3.6 3.6 3.6 3.6 3.6 3.7 3.7 3.7 3.7 3.7 3.8 3.8 3.8 3.9 3.9 3.9 3.9 4.0 4.0 4.0 4.0 4.1 4.1 4.1 4.1 4.1 4.1 4.2 4.2 4.2 4.3 4.3 4.3 4.3 4.4 4.4 4.4 4.4 4.4 4.4 4.4 4.5 4.5 4.5 4.5 4.5 4.5 4.5 4.5 4.5 4.5 4.6 4.6 4.7 4.7 4.7 4.8 4.9 4.9 5.0 5.1 5.1 5.2 5.2 5.2 5.2 5.3 5.3 5.3 5.3 5.3 5.4 5.4 5.5 5.5 5.5 5.5 5.5 5.5 5.5 5.5 5.7 5.7 5.7 5.8 5.8 5.9 6.0 6.0 6.0 6.0 2

2.3 Oppsummering ved beskrivende statistiske mål En (grov) forenkling av datasettet er å beskrive det med bare noen få tall. Antall observajoner betegner vi som oftest med n. Vi bruker dessuten gjerne gjennomsnittet x (også kallt middelverdi eller empirisk forventningsverdi), som viser hvor tyngdepunktet i datasettet ligger. I tillegg brukes gjerne empirisk standardavvik s som et mål på hvor stor spredningen på dataene er. For de foreliggende dataene er dette regnet ut elektronisk (med Maple) til: Antall observasjoner n = 206 Gjennomsnitt x = 3.46 Standardavvik s = 1.26 Oppsummering ved gruppering av dataene En annen måte å gjøre datasettet mer oversiktlig er ved å dele opp mulige verdier i passende intervaller, og telle opp antall observasjoner i hvert intervall. Antall observasjoner i et intervall kalles da frekvens,mensandelen, som er frekvensen dividert med antallet totalt (eventuelt gjort om til prosent) kalles relativ frekvens. Istedenfor å angi antall innen hvert intervall, kan vi angi antall totalt mindre enn øvre grense i intervallet. Da kalles verdiene kummulative. Her har jeg delt inn intervallet i bredde på 1, og talt opp ved hjelp av Maple. Siden karakteren 4.0 er (dårligste) ståkarakter er det naturlig å ha denne sammen med de noe bedre karakteren (dvs. lavere verdier). Ved konsekvent å dele det inn slik at heltallene går til gruppen nedenfor vil karakteren 1.0 bli stående i en egen bås. Dette er lite hensiktsmessig, så jeg har valgt å gjøre det laveste intervallet noe bredere: Frekvenstabell Kummulativ frekvens Intervall Frekvens Relativ frekvens Frekvens Relativ frekvens [1.0 2.0] 31 31/206 = 0.15 = 15% 31 31/206 = 0.15 = 15% 2.0 3.0] 55 55/206 = 0.27 = 27% 86 86/206 = 0.42 = 42% 3.0 4.0] 50 50/206 = 0.24 = 24% 136 136/206 = 0.66 = 66% 4..0 5.0] 39 39/206 = 0.19 = 19% 175 175/206 = 0.85 = 85% 5.0 6.0] 31 31/206 = 0.15 = 15% 206 206/206 = 1.00 = 100% 3

2.4 Histogram Grafisk framstilling ved Histogram. Søylene tilsvarer da frekvensen (eller den relative frekvensen) i hvert intervall. Egentlig er det arealet og ikke høyden som skal tilsvare frekvensen (viktig hvis breddene er forskjellig, men i første eksempel her tar jeg ikke hensyn til at første område egentlig er litt bredere). Som en ekstra del, som ikke er standard i histogrammer, har jeg nedenfor førsteaksen markert hvor gjennomsnittsverdien ligger, og standardavviket som en pil med lengde s ut i hver retning fra denne. Det anbefales at dere gjør det til en vane å ta med dette i løpet av dette kurset, for å oppøve en intuisjon om hva disse størrelsene sier om beliggenhet og spredning av tallmaterialet. Histogram, fordeling av n = 206 karakterer i Statistikk. relativ frekvens 0.25 frekvens 50 0.20 40 0.15 30 0.10 20 0.05 10 1.0 2.0 3.0 4.0 5.0 6.0 x s x x + s Karakter 4

2.5 Histogram med ujevne kolonnebredder I 2003 ble karaktersystemet lagt om til bokstavkarakterer. Vi skal nå lage et histogram for hvordan karakterfordelingen ville vært med det nye systemet, med en omregning som framgår av følgende frekvenstabell: Bokstavkar. Tallkar. Frekvens Rel. frekv. Rel. søylehøyde Søylehøyde i cm A 1.0 1.7 17 0.083 0.107 4.25 B 1.8 2.4 30 0.146 0.208 8.50 C 2.5 2.9 36 0.175 0.350 14.50 D 3.0 3.4 21 0.102 0.203 8.50 E 3.5 4.0 32 0.155 0.259 10.75 F 4.1 6.0 70 0.340 0.170 7.00 Når vi lager histogrammer er det arealene som skal være proporsjonal med antall observasjoner i hvert av intervallene. Vi vil ofte standarisere slik at det totale arealet er 1. Relativ frekvens per karakterenhet 0.30 0.25 0.20 0.15 0.10 0.05 A B C D E F 1.0 2.0 3.0 4.0 5.0 6.0 x s x x + s 5 Tallkarakter

2.6 Utregning av høyder på blokkene Det viktigste er ideen med konstruksjonen av histogrammer, der arealet av blokkene er proporsjonal med frekvensen, og det totale arealet er 1. Dette er fordi dette knytter histogrammer til sannsynlighetsfunksjoner vi kommer til senere. Legg spesielt merke til at med denne skaleringen blir de to histogrammene direkte sammenliknbare. Om vi hadde et annet tilsvarende datasett ville også dette histogrammet direkte kunne sammenliknes med dette, selv om antallet n skulle være et helt annet enn 206. For fullstendighetens skyld tar jeg med hvordan jeg har regnet ut høyden på søylene. Siden arealet av hver av blokkene være det samme som den relative frekvensen, blir høyden på blokkene den relative frekvensen dividert med intervallbredden. Da blir skalaen på andreaksen relativ frekvens per enhet langs førsteaksen. For karakteren A er det naturlig å si at bredden er 0.8 (enten fordi den består av 8 forskjellige verdier, eller ved å tenke seg at den egentlig strekker seg fra 0.95 til 1.75). Høyden (y koordinaten) til denne søylen er derfor 17 Høyde for A: 206 1 0.8 =0.103 På tilsvarende måte er høyden for de andre karakterene regnet ut og tatt med i nestsiste kolonne i frekvenstabellen på forrige side. Når dette faktisk skal tegnes må vi vite hvor langt opp vi skal tegne dette. Skalaen i første histogram (der breddene er 1, så det ikke er noen omregning) er valgt slik at 1 centimeter tilsvarer 5 observasjoner. For å få tilsvarende skala i andre histogram vil det altså være 1/5 = 0.2 centimeter for hver observasjon i intervall med bredde 1. Med bredde (f.eks.) 0.8 vil dermed høyden være 0.2/0.8 =0.25 centimeter per observasjon. Siden det er 17 observasjoner i denne gruppen blir dermed høyden på blokken 17 0.25 = 4.25 centimeter. Tilsvarende tall for alle karakterene er tatt med i siste kolonne i frekvenstabellen. 6

3 Sektordiagrammer Sektordiagrammer, også kallt kakediagrammer (engelsk: pie charts) brukesendelnår man ønsker å illustrere hvor stor andel av det hele hver kategori utgjør. Et sektordiagram for karakterene, der karakterer dårligere en 4.0 er slått sammen til kategorien stryk kan da se slik ut: Sektordiagram for karakterfordeling 2 3 27% 1 2 15% 3 4 24% Stryk 34% En innvending mot bruk av sektordiagrammer er at det er vanskelig for mennesker åse størrelsen på vinkler. Det vil for eksempel være vanskelig å se hvilken sektor av to nokså jamnstore som er størst. Sektordiagrammer brukes lite i den statistiske analysen vi skal drive med i mesteparten av dette kurset, og vi kommer nok ikke til å se mer til dem. 7

4 Datasett- diskrete data Når dataene består av et begrenset antall heltall, eller et begrenset antall verdier som f.eks {0, 1/5, 2/5, 3/5, 4/5, 1}, kaller vi dem diskrete. Ofte representerer disse dataene et antall. Hvis vi for eksempel skal telle opp antall kron i et kast med 5 mynter er mulige verdier {0, 1, 2, 3, 4, 5}. Ingen andre verdier kan oppnås, det er for eksempel umulig å få 3.14 kron i et kast med 5 mynter. Eksempel Som eksempel kan vi ta de faktiske resultatene av å kaste 5 mynter og telle opp antall kron, og gjenta dette 50 ganger slik at vi får n = 50 observasjoner. Resultatet er oppsummert i følgende frekvenstabell: Antall kron Frekvens Rel. frekv. Kum. frekv. Rel. kum. frekv. 0 1 0.02 1 0.02 1 7 0.14 8 0.16 2 16 0.32 24 0.48 3 12 0.24 36 0.72 4 11 0.22 47 0.94 5 3 0.06 50 1.00 Beskrivende statistiske mål For disse observasjonene er: Antall: n = 50, Gjennomsnitt: x = 2.68, standardavvik: s = 1.20. 4.1 Stolpediagram Siden for eksempel en observasjon av 3 (kron) betyr nøyaktig 3, og ikke for eksempel 3.14 eller et tall mellom 2.5 og 3.5, vil vi ved en grafisk framstilling plassere antall kron akkurat på heltallene. Det vil si at vi istedenfor blokker som i histogrammet velger smale stolper. Denne typen diagram kalles stolpediagram. Langs andreaksen kan vi enten angi frekvens eller relativ frekvens (eller begge). Her velger jeg relativ frekvens: Relativ frekvens 0.30 0.25 0.20 0.15 0.10 0.05 0 1 2 3 4 5 x s x x + s 8 Antall kron

5 To variable- spredningsplott Til slutt skal plott av par av observasjoner nevnes. Datapar betegnes ofte generelt {(x 1,y 1 ), (x 2,y 2 ),..., (x n,y n )}. For eksempel {(5, 85), (4, 103),..., (7, 48)}. Et (konstruert) eksempel kan for eksempel være ålax være alder og y prisen (i antall 1000kr) for n = 11 bruktbiler av en bestemt type. Dataene kan også giespå følgende tabellform: Alder x 5 4 6 5 5 5 6 6 2 7 7 Pris y 85 103 70 82 89 98 66 95 151 70 48 Parene kan illustreres som punkter i planet i et spredningsplott: Pris (1000kr) 140 120 100 80 60 40 20 1 2 3 4 5 6 7 8 Alder Et spredningsplott utstyres ofte med en linje som viser gjennomsnittstendensen. Denne kalles regresjonslinjen.i kapittel 7.3 i Løvås kommer vi tilbake til hvordan denne regnes ut. Pris (1000kr) 140 120 100 80 60 40 20 1 2 3 4 5 6 7 8 y = 178 17.3x Alder 9

6 Eksempel, diagram med flere datasett Til slutt et eksempel fra egen erfaring: Ved Norsk matematikkråds test ved oppstart høsten 2003 var resulatene for ingeniørstudentene ved HiG og i ingeniørklassen HIS1 ved Jørstadmoen nokså like. For å kunne sammenlikne resultatene selv om det var dobbelt så mange studenter ved HiG bør andel (og ikke antall) være skala langs andreaksen. Dette kan tolkes som at bakgrunnskunnskapen ved studiestart for de to gruppene var like. Disse to studentgruppene hadde same lærer (undertegnede), omtrent samme pensum og samme eksamen i de tilsvarende fagene Matematikk 10 og Matematiske metoder 1. Likevel ble eksamensresultatene klart forskjellige: Konklusjonen på dette var at undervisningen fungerte mye bedre på Jørstadmoen. Rammebetingelsene for de to gruppene er nokså forskjellig (studentene på Jørstadmoen er ansatte i forsvaret og har f.eks. møteplikt). Konsekvensen var likevel at vi prøvde å finne ut hva som fungerte bedre der, og om noe av dette kunne tilpasses undervisningen ved HiG. Blant annet var et større innslag av klasseromsundervisning et tiltak som krever ekstra ressurser, men som vi fikk klarsignal til på bakgrunn av rapporten der disse diagrammene finnes. Og strykprosenten ved HiG har vært klart lavere etter 2003. Rapporten kan finnes under diverse på hjemmesiden til Matematikk 10. Desember 2003/ Januar 2007, Hans Petter Hornæs. 10