Introduksjon til statistikk og dataanalyse. Arild Brandrud Næss TMA4240 Statistikk NTNU, høsten 2013

Like dokumenter
Introduksjon til statistikk og dataanalyse

UNIVERSITETET I OSLO

Øving 1 TMA Grunnleggende dataanalyse i Matlab

Et lite notat om og rundt normalfordelingen.

Et lite notat om og rundt normalfordelingen. Anta at vi har kontinuerlige data. Hva er likt og ulikt for histogrammer og fordelingskurver?

Øving 1 TMA Grunnleggende dataanalyse i Matlab

Et lite notat om og rundt normalfordelingen.

TMA4240 Statistikk H2017 [15]

Forkurs i kvantitative metoder ILP 2019

Utvalgsfordelinger; utvalg, populasjon, grafiske metoder, X, S 2, t-fordeling, χ 2 -fordeling

TMA4245 Statistikk Eksamen desember 2016

Kap. 8: Utvalsfordelingar og databeskrivelse

ting å gjøre å prøve å oppsummere informasjonen i Hva som er hensiktsmessig måter å beskrive dataene på en hensiktsmessig måte.

STK1000 Uke 36, Studentene forventes å lese Ch 1.4 ( ) i læreboka (MMC). Tetthetskurver. Eksempel: Drivstofforbruk hos 32 biler

Snøtetthet. Institutt for matematiske fag, NTNU 15. august Notat for TMA4240/TMA4245 Statistikk

Sannsynlighetsregning og Statistikk.

Kapittel 8: Tilfeldige utvalg, databeskrivelse og fordeling til observatorar, Kapittel 9: Estimering

Forslag til endringar

Deskriptiv statistikk., Introduksjon til dataanalyse

Deskriptiv statistikk., Introduksjon til dataanalyse

UNIVERSITETET I OSLO

Statistikk for språk- og musikkvitere 1

ST0202 Statistikk for samfunnsvitere. Bo Lindqvist Institutt for matematiske fag

Forelesning 5: Kontinuerlige fordelinger, normalfordelingen. Jo Thori Lind

Lærebok Robert Johnson og Patricia Kuby: Elementary Statistics, 10. utgave. Pensumoversikt. Forelesninger og øvinger

ECON240 Vår 2018 Oppgaveseminar 1 (uke 6)

Statistikk og dataanalyse

Seksjon 1.3 Tetthetskurver og normalfordelingen

Utvalgsfordelinger (Kapittel 5)

Tabell 1: Beskrivende statistikker for dataene

(Det tas forbehold om feil i løsningsforslaget.) Oppgave 1

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Eksamensoppgave i TMA4240 Statistikk

Kapittel 4.4: Forventning og varians til stokastiske variable

Løsningsforslag ECON 2130 Obligatorisk semesteroppgave 2017 vår

i x i

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

ECON240 Høst 2017 Oppgaveseminar 1 (uke 35)

Kapittel 1: Data og fordelinger

Statistikk 1. Nico Keilman. ECON 2130 Vår 2014

STK1100 våren Kontinuerlige stokastiske variabler Forventning og varians Momentgenererende funksjoner

ST0202 Statistikk for samfunnsvitere

Sted Gj.snitt Median St.avvik Varians Trondheim Værnes Oppdal

Fra første forelesning:

ECON Statistikk 1 Forelesning 2: Innledning

Statistisk beskrivelse av enkeltvariabler. SOS1120 Kvantitativ metode. Disposisjon. Datamatrisen. Forelesningsnotater 6. forelesning høsten 2005

Kapittel 3: Studieopplegg

Forelesning 6: Punktestimering, usikkerhet i estimering. Jo Thori Lind

Forelening 1, kapittel 4 Stokastiske variable

Statistikk. Forkurs 2017

TMA4240 Statistikk Høst 2016

ST1101/ST6101 Sannsynlighetsregning og statistikk Vår 2019

Statistikk. Forkurs 2018

Diskrete sannsynlighetsfordelinger som histogram. Varians. Histogram og kumulativ sannsynlighet. Forventning (gjennomsnitt) (X=antall mynt i tre kast)

Tema: Deskriptiv statistikk for kontinuerlige data. Av Kathrine Frey Frøslie,

Forelesning 7 Statistiske beskrivelser av enkeltvariabler. Mål for sentraltendens

Diskrete sannsynlighetsfordelinger som histogram. Varians. Histogram og kumulativ sannsynlighet. Binomial-fordelingen

Kort overblikk over kurset sålangt

Dataens tidsalder. Hvorfor data? Data, data, data. STK1000 Innføring i anvendt statistikk. Tirsdag 24. august 2010

ST0202 Statistikk for samfunnsvitere. Bo Lindqvist Institutt for matematiske fag

ÅMA110 Sannsynlighetsregning med statistikk, våren Kp. 3 Diskrete tilfeldige variable. Diskrete tilfeldige variable, varians (kp. 3.

Seksjon 1.3 Tetthetskurver og normalfordelingen

UNIVERSITETET I OSLO

Weibullfordelingen. Kjetil L. Nielsen. Innhold. 1 Teori. 1.1 Tetthetsfunksjon og fordelingsfunksjon

ÅMA110 Sannsylighetsregning og statistikk Løsningsforslag til eksamen høst 2010, s. 1. Oppgave 1. Histogram over frekvenser.

ST0202 Statistikk for samfunnsvitere

TMA4240 Statistikk H2010

Utfordring. TMA4240 Statistikk H2010. Mette Langaas. Foreleses uke 40, 2010

TMA4240 Statistikk Høst 2008

Oppfriskning av blokk 1 i TMA4240

Kap. 6.1: Fordelingen til en observator og stok. simulering

Kapittel 1: Introduksjon til statistikk og dataanalyse Foreleses tirsdag 9. januar 2007.

1 Sec 3-2: Hvordan beskrive senteret i dataene. 2 Sec 3-3: Hvordan beskrive spredningen i dataene

TMA4245 Statistikk Eksamen desember 2016

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Medisinsk statistikk Del I høsten 2009:

ST0202 Statistikk for samfunnsvitere

UNIVERSITETET I OSLO Matematisk Institutt

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Inferens i regresjon

TMA4240 Statistikk Høst 2012

Beskrivende statistikk.

TMA4240 Statistikk H2010

TMA4240 Statistikk Høst 2016

Foreleses onsdag 8. september 2010

Utvalgsfordelinger (Kapittel 5)

Statistisk inferens: 9.14: Sannsynlighetsmaksimeringsestimatoren 8.5: Fordeling til gjennomsnittet 9.4: Konfidensintervall for µ (σ kjent)

Estimatorar. Torstein Fjeldstad Institutt for matematiske fag, NTNU

1 Section 6-2: Standard normalfordelingen. 2 Section 6-3: Anvendelser av normalfordelingen. 3 Section 6-4: Observator fordeling

ST0103 Brukerkurs i statistikk Høst 2014

statistikk, våren 2011

Test, 3 Sannsynlighet og statistikk

1 Section 4-1: Introduksjon til sannsynlighet. 2 Section 4-2: Enkel sannsynlighetsregning. 3 Section 5-1: Introduksjon til sannsynlighetsfordelinger

Eksempel på data: Karakterer i «Stat class» Introduksjon

Forelesning 23 og 24 Wilcoxon test, Bivariate Normal fordeling

ST0202 Statistikk for samfunnsvitere Kapittel 6: Normalfordelingen

ÅMA110 Sannsynlighetsregning med statistikk, våren ÅMA110 Sannsynlighetsregning med statistikk, våren 2010

Mål på beliggenhet (2.6) Beregning av kvartilene Q 1, Q 2, Q 3. 5-tallssammendrag. ST0202 Statistikk for samfunnsvitere

Binomisk sannsynlighetsfunksjon

Transkript:

Introduksjon til statistikk og dataanalyse Arild Brandrud Næss TMA4240 Statistikk NTNU, høsten 2013

Introduksjon til statistikk og dataanalyse

Hollywood-filmer fra 2011 135 filmer Samla budsjett: $ 7 166 500 000 Samla billettsalg: $ 20 199 000 000 3 3

Datasettet vårt Filmene er delt i 8 sjangere: Action Animation Comedy Drama Fantasy Horror Romance Thriller Har data for 13 variabler, blant annet: Kritikerscore Publikumsscore Budsjett Billettsalg Inntjeningsfaktor 4

Statistics = Observatorer En observator er et tall som er regnet ut fra et datasett Statistikk handler mye om å beregne og tolke observatorer På engelsk heter en observator: a statistic faget statistikk: statistics 5

Observator nr. 1: Gjennomsnitt Den mest brukte, og best kjente, observatoren er gjennomsnittet. Angir senteret som observasjonene (tallene) er spredt rundt 6

Gjennomsnitt, Hollywood-filmer Gjennomsnitt Sjanger Antall Budsjett (millioner $) Billettsalg (millioner $) Action 32 89,63 249,05 Animation 12 114,92 286,58 Comedy 27 38,50 107,53 Drama 21 25,33 44,63 Fantasy 2 62,60 664,72 Horror 17 25,79 73,23 Romance 11 38,40 135,95 Thriller 13 30,79 86,91 Alle 135 53,48 150,74 7

Observator nr. 2: Median Median = den midterste observasjonen En annen måte å angi senteret som observasjonene er spredt rundt kan være mer beskrivende enn gjennomsnittet F.eks. en arbeidsplass med 10 ansatte Alder: 20 21 21 22 22 22 23 23 66 67 Gjennomsnitt: 31 Median: 22 8

Utliggere Datapunkter som skiller seg tydelig fra resten av datasettet kaller vi utliggere (outliers). Gjennomsnittet kan bli sterkt påvirket av utliggere, mens medianen ikke blir det. F.eks. en arbeidsplass med 10 ansatte Alder: 20 21 21 22 22 22 23 23 66 67 Gjennomsnitt: 31 Median: 22 9

Gjennomsnitt vs. median Gjennomsnitt Sjanger Antall Budsjett (millioner $) Billettsalg (millioner $) Action 32 89,63 249,05 Animation 12 114,92 286,58 Comedy 27 38,50 107,53 Drama 21 25,33 44,63 Fantasy 2 62,60 664,72 Horror 17 25,79 73,23 Romance 11 38,40 135,95 Thriller 13 30,79 86,91 Alle 135 53,48 150,74 10

Gjennomsnitt vs. median Billettsalg (millioner $) Sjanger Antall Median Gjennomsnitt Action 32 132,15 249,05 Animation 12 219,56 286,58 11

Observator nr. 3: Empirisk varians Den empiriske variansen er et mål på hvor mye spredning det er rundt gjennomsnittet i et datasett 12

Varians, Hollywood-filmer Empirisk varians Sjanger Antall Budsjett Billettsalg Action 32 3 787 78 560 Animation 12 2 613 49 473 Comedy 27 542 14 541 Drama 21 166 2492 Fantasy 2 7 788 880 190 Horror 17 278 5 400 Romance 11 1 104 31 800 Thriller 13 325 3 475 Alle 135 2 418 46 233 13

Én utligger kan gi høy varians Antall 11 Gjennomsnitt 136 Median 60 Empirisk varians 31 800 14

Budsjett, Drama vs. Horror Budsjett (millioner $) Sjanger Antall Gjennomsnitt Median Empirisk varians Drama 21 25 25 166 Horror 17 26 25 277 15

Kvartiler 1. kvartil = den minste verdien som én fjerdedel av dataene er mindre enn eller lik 2. kvartil = den minste verdien som to fjerdedeler av dataene er mindre enn eller lik 3. kvartil = den minste verdien som tre fjerdedeler av dataene er mindre enn eller lik = median 1 2 3 4 5 6 7 8 9 10 11 12 16

Kvartiler På samme måte som median er et alternativ til snitt for å se på senteret til et datasett, gir kvartilene en alternativ måte å se på spredninga Kvartilbredden (interquartile range, IQR): Avstanden mellom øverste og nederste kvartil 1 2 3 4 5 6 7 8 9 10 11 12 17

Boksplott 18

Levetiden til pattedyr 19

Levetiden til pattedyr 20

Hva er en utligger? I prinsippet: Et datapunkt som skiller seg tydelig fra resten av datasettet. I praksis: Tallet 1,5 er vanlig å bruke, men kan variere 21

22

Vanlig situasjon: Vi har noen data og lurer på om de passer med en sannsynlighetsfordeling. >> mean(weights) ans = 127.0775 >> var(weights) ans = 136.1753 23

Hvor godt passer fordelinga? >> mean(weights) ans = 127.0775 >> var(weights) ans = 136.1753 24

Normalfordelinga Sannsynlighetsfordelinger er en sentral del av statistisk modellering. Og den desidert mest brukte sannsynlighetsfordelinga er normalfordelinga også kalt gausskurven 25

Normalfordelinga Normalfordelinga har to parametere: forventningsverdi (μ) og varians (σ 2 ) kvadratroten av variansen gir standardavviket (σ) 26

Normalfordelinga og standardavvik 68% av dataene vil ligge innenfor μ ± σ 95% av dataene vil ligge innenfor μ ± 2σ 99,7% av dataene vil ligge innenfor μ ± 3σ 27

Andre sannsynlighetsfordelinger Noen vanlige former: 28

Gjennomsnitt vs. median Symmetrisk fordeling => gjennomsnitt median Venstreskjev fordeling => gjennomsnitt < median Høyreskjev fordeling => gjennomsnitt > median 29

Eksponensialfordelinga En vanlig venstreskjev fordeling Kan brukes til å modellere f.eks. tid mellom mål i en håndballkamp tid mellom 911-oppringninger avstand mellom mutasjoner i en DNA-tråd 30

Q-Q-plott Vi kan undersøke om et datasett er normalfordelt ved hjelp av et kvantil-kvantilplott også kalt quantile-quantile plot eller Q-Q-plott Hvis datapunktene følger sannsynlighetsfordelinga, vil de ligge på ei rett linje 31

32

33

Avhengighet og uavhengighet Uavhengighet kommer til å bli viktig i dette kurset For et datasett: Hvis ett sett av målinger (f.eks. høyden til en person) ikke forteller oss noen ting som et annet sett av målinger (f.eks. IQ-en til personen), så er de to variablene vi har målt uavhengige. Ellers er de avhengige 34

Hvordan undersøke avhengighet? Vi kan lage et spredningsplott (scatter plot) Vi kan også regne ut en såkalt determinasjonskoeffisient, R 2 men denne sier bare noe om lineær avhengighet 35

Hollywood-filmer R 2 = 0,77 36

Lineær regresjon Når vi tror har en høy lineær avhengighet kan vi prøve å tilpasse en lineær regresjonsmodell Vi finner da den rette linja som ligger nærmest så mange datapunkter som mulig vi minimerer summen av de kvadrerte avstandene Determinasjonskoeffisienten R 2 er et mål på hvor mye av variasjonen i dataene denne linja forklarer 37

Er sammenhenger signifikante? Stiger regresjonslinja! Eller er det tilfeldig variasjon? Får jagerflygere flere jenter enn andre menn. Utfra datasett av 65 jagerflygere: P(gutt) = 0.37 Blant 900 kommersielle flygere: P(gutt) = 0.52 Er det slik? Eller kun tilfeldig variasjon? 38

Kontinuerlige vs. diskrete data Så langt har vi sett på kontinuerlige data på den reelle tallinja i prinsippet uendelig mange mulige verdier Vi har også diskrete data som regel heltall et tellbart antall mulige verdier Satt på spissen: desimaltall vs. heltall målinger vs. telling 39

Kontinuerlige vs. diskrete data Kontinuerlige data temperatur i Trondheim en sprinter sin tid på 100-meteren avstand mellom jorda og månen Diskrete data antall seksere på 100 terningkast antall stjerner i universet antall solgte billetter 40

Terninger og sannsynlighet Terningkast er et klassisk eksempel på diskrete data Sannsynlighetsregning Hva er sannsynligheten for å slå minst én sekser på fem kast? Hva er sannsynligheten for at man får det samme myntkastet fem ganger på rad i løpet av 300 kast? Ikke så lett å regne ut... Kan simulere på datamaskin. 41

10000 simuleringer av 300 myntkast. Fordeling til lengste streak av mynt! Tilfeldighet gir lengre streaks enn man skulle tro! 42