Introduksjon til statistikk og dataanalyse

Like dokumenter
Introduksjon til statistikk og dataanalyse. Arild Brandrud Næss TMA4240 Statistikk NTNU, høsten 2013

Statistisk beskrivelse av enkeltvariabler. SOS1120 Kvantitativ metode. Disposisjon. Datamatrisen. Forelesningsnotater 6. forelesning høsten 2005

Forslag til endringar

UNIVERSITETET I OSLO

Kap. 8: Utvalsfordelingar og databeskrivelse

Repeterbarhetskrav vs antall Trails

1 Sec 3-2: Hvordan beskrive senteret i dataene. 2 Sec 3-3: Hvordan beskrive spredningen i dataene

Deskriptiv statistikk., Introduksjon til dataanalyse

Deskriptiv statistikk., Introduksjon til dataanalyse

ECON Statistikk 1 Forelesning 2: Innledning

Sted Gj.snitt Median St.avvik Varians Trondheim Værnes Oppdal

UNIVERSITETET I OSLO

Tabell 1: Beskrivende statistikker for dataene

Kapittel 1: Data og fordelinger

Dataens tidsalder. Hvorfor data? Data, data, data. STK1000 Innføring i anvendt statistikk. Tirsdag 24. august 2010

TMA4240/TMA4245 Statistikk: Oppsummering kontinuerlige sannsynlighetsfordelinger

Øving 1 TMA Grunnleggende dataanalyse i Matlab

STK1000 Innføring i anvendt statistikk

Statistikk for språk- og musikkvitere 1

Statistikk 1. Nico Keilman. ECON 2130 Vår 2014

ST0202 Statistikk for samfunnsvitere Kapittel 6: Normalfordelingen

Introduksjon. Viktige begreper for å beskrive data: Enheter som er objektene i datasettet. «label» som av og til brukes for å skille enhetene

Forkurs i kvantitative metoder ILP 2019

Utvalgsfordelinger; utvalg, populasjon, grafiske metoder, X, S 2, t-fordeling, χ 2 -fordeling

(Det tas forbehold om feil i løsningsforslaget.) Oppgave 1

Øving 1 TMA Grunnleggende dataanalyse i Matlab

Sannsynlighetsregning og Statistikk.

HØGSKOLEN I STAVANGER

Et lite notat om og rundt normalfordelingen.

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

ST0202 Statistikk for samfunnsvitere. Bo Lindqvist Institutt for matematiske fag

Lærebok Robert Johnson og Patricia Kuby: Elementary Statistics, 10. utgave. Pensumoversikt. Forelesninger og øvinger

MASTER I IDRETTSVITENSKAP 2014/2016. Utsatt individuell skriftlig eksamen. STA 400- Statistikk. Mandag 24. august 2015 kl

Et lite notat om og rundt normalfordelingen. Anta at vi har kontinuerlige data. Hva er likt og ulikt for histogrammer og fordelingskurver?

Medisinsk statistikk Del I høsten 2008:

Seksjon 1.3 Tetthetskurver og normalfordelingen

Et lite notat om og rundt normalfordelingen.

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

TMA4240 Statistikk H2017 [15]

Statistikk. Forkurs 2017

Sentralmål og spredningsmål

Kapittel 8: Tilfeldige utvalg, databeskrivelse og fordeling til observatorar, Kapittel 9: Estimering

Statistikk. Forkurs 2018

TMA4240 Statistikk Høst 2016

TMA4240 Statistikk Høst 2012

STK1000 Uke 36, Studentene forventes å lese Ch 1.4 ( ) i læreboka (MMC). Tetthetskurver. Eksempel: Drivstofforbruk hos 32 biler

ST0202 Statistikk for samfunnsvitere. Bo Lindqvist Institutt for matematiske fag

MASTER I IDRETTSVITENSKAP 2014/2016. Individuell skriftlig eksamen. STA 400- Statistikk. Fredag 13. mars 2015 kl

TMA4240 Statistikk Høst 2012

Eksempel på data: Karakterer i «Stat class» Introduksjon

ST0202 Statistikk for samfunnsvitere Kapittel 9: Inferens om én populasjon

ting å gjøre å prøve å oppsummere informasjonen i Hva som er hensiktsmessig måter å beskrive dataene på en hensiktsmessig måte.

Togforsinkelsen (Eksamen Des2003.1a) I denne oppgaven kan du bruke uten å vise det at

Tema: Deskriptiv statistikk for kontinuerlige data. Av Kathrine Frey Frøslie,

UNIVERSITETET I OSLO Matematisk Institutt

Løsningsforslag til obligatorisk innlevering 3.

TMA4240 Statistikk Høst 2009

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

BEGYNNERKURS I SPSS. Anne Schad Bergsaker 24. november 2017

UNIVERSITETET I OSLO

Statistikk og dataanalyse

Despriptiv statistikk

HØGSKOLEN I STAVANGER

Kontinuerlige sannsynlighetsfordelinger.

Formelsamling V-2014 MAT110. Statistikk 1. Per Kristian Rekdal

Repeterbarhetskrav vs antall Trails

Forelesning 6: Punktestimering, usikkerhet i estimering. Jo Thori Lind

TMA4245 Statistikk Eksamen desember 2016

MAT4010 PROSJEKTOPPGAVE: Statistikk i S2. Olai Sveine Johannessen, Vegar Klem Hafnor & Torstein Mellem

Utvalgsfordelinger (Kapittel 5)

BEGYNNERKURS I SPSS. Anne Schad Bergsaker 3. mai 2018

Dataanalyse. Hva er en dataanalyse og hvordan gå frem for å gjennomføre en dataanalyse av det innsamlede datagrunnlaget fra en feltundersøkelse?

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

2P kapittel 3 Statistikk Løsninger til innlæringsoppgavene

Seksjon 1.3 Tetthetskurver og normalfordelingen

Medisinsk statistikk Del I høsten 2009:

Kapittel 4.4: Forventning og varians til stokastiske variable

Dekkes av pensumsidene i kap. lesingsnotatene. Hypotesetesting er en systematisk fremgangsmåte

ST0202 Statistikk for samfunnsvitere

Loven om total sannsynlighet. Bayes formel. Testing for sykdom. ST0202 Statistikk for samfunnsvitere

Kapittel 3: Studieopplegg

Analyse av kontinuerlige data. Intro til hypotesetesting. 21. april Seksjon for medisinsk statistikk, UIO. Tron Anders Moger

ÅMA110 Sannsynlighetsregning med statistikk, våren 2011

Analyseoversikt, Uke 35

Forelesning 7 Statistiske beskrivelser av enkeltvariabler. Mål for sentraltendens

Forelesning 23 og 24 Wilcoxon test, Bivariate Normal fordeling

Statistikk, FO242N, AMMT, HiST 2. årskurs, 30. mai 2007 side 1 ( av 8) LØSNINGSFORSLAG HØGSKOLEN I SØR-TRØNDELAG

Løsning eksamen desember 2017

Forelesning 5: Kontinuerlige fordelinger, normalfordelingen. Jo Thori Lind

Oppfriskning av blokk 1 i TMA4240

Snøtetthet. Institutt for matematiske fag, NTNU 15. august Notat for TMA4240/TMA4245 Statistikk

LØSNING: Oppgavesett nr. 1

Transkript:

Introduksjon til statistikk og dataanalyse

Hollywood-filmer fra 2011 135 filmer Samla budsjett: $ 7 166 500 000 Samla billettsalg: $ 20 199 000 000 2

Datasettet vårt Filmene er delt i 8 sjangere: Action Animation Comedy Drama Fantasy Horror Romance Thriller Har data for 13 variabler, blant annet: Kritikerscore Publikumsscore Budsjett Billettsalg Inntjeningsfaktor 3

Statistics = Observatorer En observator er et tall som er regnet ut fra et datasett Statistikk handler mye om å beregne og tolke observatorer På engelsk heter en observator: a statistic faget statistikk: statistics 4

Observator nr. 1: Gjennomsnitt Den mest brukte, og best kjente, observatoren er gjennomsnittet. Angir senteret som observasjonene (tallene) er spredt rundt Med 10 observasjoner: 1 x x x... x 10 1 2 10 5

Gjennomsnitt, Hollywood-filmer Gjennomsnitt Sjanger Antall Budsjett (millioner $) Billettsalg (millioner $) Action 32 89,63 249,05 Animation 12 114,92 286,58 Comedy 27 38,50 107,53 Drama 21 25,33 44,63 Fantasy 2 62,60 664,72 Horror 17 25,79 73,23 Romance 11 38,40 135,95 Thriller 13 30,79 86,91 Alle 135 53,48 150,74 6

Observator nr. 2: Median Median = den midterste observasjonen En annen måte å angi senteret til observasjonene kan være mer beskrivende enn gjennomsnittet F.eks. en arbeidsplass med 10 ansatte Alder: 20 21 21 22 22 22 23 23 66 67 Gjennomsnitt: 31 Median: 22 7

Uteliggere Datapunkter som skiller seg tydelig fra resten av datasettet kaller vi uteliggere (outliers). Gjennomsnittet kan bli sterkt påvirket av uteliggere, mens medianen ikke blir det. F.eks. en arbeidsplass med 10 ansatte Alder: 20 21 21 22 22 22 23 23 66 67 Gjennomsnitt: 31 Median: 22 8

Gjennomsnitt vs. median Gjennomsnitt Sjanger Antall Budsjett (millioner $) Billettsalg (millioner $) Action 32 89,63 249,05 Animation 12 114,92 286,58 Comedy 27 38,50 107,53 Drama 21 25,33 44,63 Fantasy 2 62,60 664,72 Horror 17 25,79 73,23 Romance 11 38,40 135,95 Thriller 13 30,79 86,91 Alle 135 53,48 150,74 9

antall antall Gjennomsnitt vs. median Billettsalg (millioner $) Sjanger Antall Median Gjennomsnitt Action 32 132,15 249,05 Animation 12 219,56 286,58 10 Billettsalg, Action 3 Billettsalg, Animation 9 8 7 6 2 5 4 3 1 2 1 0 0 200 400 600 800 1000 1200 millioner $ 0 0 200 400 600 800 1000 1200 millioner $ 10

Observator nr. 3: Empirisk varians Den empiriske variansen er et mål på hvor mye spredning det er rundt gjennomsnittet i et datasett 11

Varians, Hollywood-filmer Empirisk varians Sjanger Antall Budsjett Billettsalg Action 32 3 787 78 560 Animation 12 2 613 49 473 Comedy 27 542 14 541 Drama 21 166 2492 Fantasy 2 7 788 880 190 Horror 17 278 5 400 Romance 11 1 104 31 800 Thriller 13 325 3 475 Alle 135 2 418 46 233 12

antall Én uteligger kan gi høy varians 6 Billettsalg, Romance 5 4 3 2 1 Antall 11 Gjennomsnitt 136 Median 60 Empirisk varians 31 800 0 0 100 200 300 400 500 600 700 millioner $ 13

Kvartiler 1. kvartil = medianen til nederste halvpart av datapunktene 2. kvartil = medianen til alle datapunktene 3. kvartil = medianen til øverste halvpart av datapunktene 1 2 3 4 5 6 7 8 9 10 11 14

Kvartiler På samme måte som median er et alternativ til snitt for å se på senteret til et datasett, gir kvartilene en alternativ måte å se på spredninga Kvartilbredden (interquartile range, IQR): Avstanden mellom øverste og nederste kvartil 1 2 3 4 5 6 7 8 9 10 11 15

Boksplott 16

Levetiden til pattedyr 17

Levetiden til pattedyr 18

Vanlig situasjon: Vi har noen data og lurer på om de passer med en sannsynlighetsfordeling. >> mean(weights) ans = 127.0775 >> var(weights) ans = 136.1753 19

antall Hvor godt passer fordelinga? 3500 Vekt av 25000 amerikanske barn (0 18 år) 3000 2500 2000 >> mean(weights) ans = 127.0775 1500 1000 500 >> var(weights) ans = 136.1753 0 80 100 120 140 160 180 vekt (pund) 20

Normalfordelinga Sannsynlighetsfordelinger er en sentral del av statistisk modellering. Og den desidert mest brukte sannsynlighetsfordelinga er normalfordelinga også kalt gausskurven 21

Normalfordelinga Normalfordelinga har to parametere: forventningsverdi (μ) og varians (σ 2 ) kvadratroten av variansen gir standardavviket (σ) 22

Normalfordelinga og standardavvik 68% av dataene vil ligge innenfor μ ± σ 95% av dataene vil ligge innenfor μ ± 2σ 99,7% av dataene vil ligge innenfor μ ± 3σ 23

Andre sannsynlighetsfordelinger Noen vanlige former: 24

Gjennomsnitt vs. median Symmetrisk fordeling => gjennomsnitt median Venstreskjev fordeling => gjennomsnitt < median Høyreskjev fordeling => gjennomsnitt > median 25

Eksponensialfordelinga En vanlig venstreskjev fordeling Kan brukes til å modellere f.eks. tid mellom mål i en håndballkamp tid mellom 911-oppringninger avstand mellom mutasjoner i en DNA-tråd 26

Q-Q-plott Vi kan undersøke om et datasett er normalfordelt ved hjelp av et kvantil-kvantilplott også kalt quantile-quantile plot eller Q-Q-plott Hvis datapunktene følger sannsynlighetsfordelinga, vil de ligge på ei rett linje 27

Kvantiler i datasettet 180 Q Q plott for vekt av amerikanske barn 160 140 120 100 80 60 5 0 5 Kvantiler i standard normalfordeling 28

Kvantiler i datasettet 250 Q Q plott for budsjett av Hollywood filmer 200 150 100 50 0 50 100 3 2 1 0 1 2 3 Kvantiler i standard normalfordeling 29