Introduksjon til statistikk og dataanalyse. Arild Brandrud Næss TMA4240 Statistikk NTNU, høsten 2013

Introduksjon til statistikk og dataanalyse Arild Brandrud Næss TMA4240 Statistikk NTNU, høsten 2013

Introduksjon til statistikk og dataanalyse

Hollywood-filmer fra 2011 135 filmer Samla budsjett: $ 7 166 500 000 Samla billettsalg: $ 20 199 000 000 3 3

Datasettet vårt Filmene er delt i 8 sjangere: Action Animation Comedy Drama Fantasy Horror Romance Thriller Har data for 13 variabler, blant annet: Kritikerscore Publikumsscore Budsjett Billettsalg Inntjeningsfaktor 4

Statistics = Observatorer En observator er et tall som er regnet ut fra et datasett Statistikk handler mye om å beregne og tolke observatorer På engelsk heter en observator: a statistic faget statistikk: statistics 5

Observator nr. 1: Gjennomsnitt Den mest brukte, og best kjente, observatoren er gjennomsnittet. Angir senteret som observasjonene (tallene) er spredt rundt 6

Gjennomsnitt, Hollywood-filmer Gjennomsnitt Sjanger Antall Budsjett (millioner $) Billettsalg (millioner $) Action 32 89,63 249,05 Animation 12 114,92 286,58 Comedy 27 38,50 107,53 Drama 21 25,33 44,63 Fantasy 2 62,60 664,72 Horror 17 25,79 73,23 Romance 11 38,40 135,95 Thriller 13 30,79 86,91 Alle 135 53,48 150,74 7

Observator nr. 2: Median Median = den midterste observasjonen En annen måte å angi senteret som observasjonene er spredt rundt kan være mer beskrivende enn gjennomsnittet F.eks. en arbeidsplass med 10 ansatte Alder: 20 21 21 22 22 22 23 23 66 67 Gjennomsnitt: 31 Median: 22 8

Utliggere Datapunkter som skiller seg tydelig fra resten av datasettet kaller vi utliggere (outliers). Gjennomsnittet kan bli sterkt påvirket av utliggere, mens medianen ikke blir det. F.eks. en arbeidsplass med 10 ansatte Alder: 20 21 21 22 22 22 23 23 66 67 Gjennomsnitt: 31 Median: 22 9

Gjennomsnitt vs. median Gjennomsnitt Sjanger Antall Budsjett (millioner $) Billettsalg (millioner $) Action 32 89,63 249,05 Animation 12 114,92 286,58 Comedy 27 38,50 107,53 Drama 21 25,33 44,63 Fantasy 2 62,60 664,72 Horror 17 25,79 73,23 Romance 11 38,40 135,95 Thriller 13 30,79 86,91 Alle 135 53,48 150,74 10

Gjennomsnitt vs. median Billettsalg (millioner $) Sjanger Antall Median Gjennomsnitt Action 32 132,15 249,05 Animation 12 219,56 286,58 11

Observator nr. 3: Empirisk varians Den empiriske variansen er et mål på hvor mye spredning det er rundt gjennomsnittet i et datasett 12

Varians, Hollywood-filmer Empirisk varians Sjanger Antall Budsjett Billettsalg Action 32 3 787 78 560 Animation 12 2 613 49 473 Comedy 27 542 14 541 Drama 21 166 2492 Fantasy 2 7 788 880 190 Horror 17 278 5 400 Romance 11 1 104 31 800 Thriller 13 325 3 475 Alle 135 2 418 46 233 13

Én utligger kan gi høy varians Antall 11 Gjennomsnitt 136 Median 60 Empirisk varians 31 800 14

Budsjett, Drama vs. Horror Budsjett (millioner $) Sjanger Antall Gjennomsnitt Median Empirisk varians Drama 21 25 25 166 Horror 17 26 25 277 15

Kvartiler 1. kvartil = den minste verdien som én fjerdedel av dataene er mindre enn eller lik 2. kvartil = den minste verdien som to fjerdedeler av dataene er mindre enn eller lik 3. kvartil = den minste verdien som tre fjerdedeler av dataene er mindre enn eller lik = median 1 2 3 4 5 6 7 8 9 10 11 12 16

Kvartiler På samme måte som median er et alternativ til snitt for å se på senteret til et datasett, gir kvartilene en alternativ måte å se på spredninga Kvartilbredden (interquartile range, IQR): Avstanden mellom øverste og nederste kvartil 1 2 3 4 5 6 7 8 9 10 11 12 17

Boksplott 18

Levetiden til pattedyr 19

Levetiden til pattedyr 20

Hva er en utligger? I prinsippet: Et datapunkt som skiller seg tydelig fra resten av datasettet. I praksis: Tallet 1,5 er vanlig å bruke, men kan variere 21

Vanlig situasjon: Vi har noen data og lurer på om de passer med en sannsynlighetsfordeling. >> mean(weights) ans = 127.0775 >> var(weights) ans = 136.1753 23

Hvor godt passer fordelinga? >> mean(weights) ans = 127.0775 >> var(weights) ans = 136.1753 24

Normalfordelinga Sannsynlighetsfordelinger er en sentral del av statistisk modellering. Og den desidert mest brukte sannsynlighetsfordelinga er normalfordelinga også kalt gausskurven 25

Normalfordelinga Normalfordelinga har to parametere: forventningsverdi (μ) og varians (σ 2 ) kvadratroten av variansen gir standardavviket (σ) 26

Normalfordelinga og standardavvik 68% av dataene vil ligge innenfor μ ± σ 95% av dataene vil ligge innenfor μ ± 2σ 99,7% av dataene vil ligge innenfor μ ± 3σ 27

Andre sannsynlighetsfordelinger Noen vanlige former: 28

Gjennomsnitt vs. median Symmetrisk fordeling => gjennomsnitt median Venstreskjev fordeling => gjennomsnitt < median Høyreskjev fordeling => gjennomsnitt > median 29

Eksponensialfordelinga En vanlig venstreskjev fordeling Kan brukes til å modellere f.eks. tid mellom mål i en håndballkamp tid mellom 911-oppringninger avstand mellom mutasjoner i en DNA-tråd 30

Q-Q-plott Vi kan undersøke om et datasett er normalfordelt ved hjelp av et kvantil-kvantilplott også kalt quantile-quantile plot eller Q-Q-plott Hvis datapunktene følger sannsynlighetsfordelinga, vil de ligge på ei rett linje 31

Avhengighet og uavhengighet Uavhengighet kommer til å bli viktig i dette kurset For et datasett: Hvis ett sett av målinger (f.eks. høyden til en person) ikke forteller oss noen ting som et annet sett av målinger (f.eks. IQ-en til personen), så er de to variablene vi har målt uavhengige. Ellers er de avhengige 34

Hvordan undersøke avhengighet? Vi kan lage et spredningsplott (scatter plot) Vi kan også regne ut en såkalt determinasjonskoeffisient, R 2 men denne sier bare noe om lineær avhengighet 35

Hollywood-filmer R 2 = 0,77 36

Lineær regresjon Når vi tror har en høy lineær avhengighet kan vi prøve å tilpasse en lineær regresjonsmodell Vi finner da den rette linja som ligger nærmest så mange datapunkter som mulig vi minimerer summen av de kvadrerte avstandene Determinasjonskoeffisienten R 2 er et mål på hvor mye av variasjonen i dataene denne linja forklarer 37

Er sammenhenger signifikante? Stiger regresjonslinja! Eller er det tilfeldig variasjon? Får jagerflygere flere jenter enn andre menn. Utfra datasett av 65 jagerflygere: P(gutt) = 0.37 Blant 900 kommersielle flygere: P(gutt) = 0.52 Er det slik? Eller kun tilfeldig variasjon? 38

Kontinuerlige vs. diskrete data Så langt har vi sett på kontinuerlige data på den reelle tallinja i prinsippet uendelig mange mulige verdier Vi har også diskrete data som regel heltall et tellbart antall mulige verdier Satt på spissen: desimaltall vs. heltall målinger vs. telling 39

Kontinuerlige vs. diskrete data Kontinuerlige data temperatur i Trondheim en sprinter sin tid på 100-meteren avstand mellom jorda og månen Diskrete data antall seksere på 100 terningkast antall stjerner i universet antall solgte billetter 40

Terninger og sannsynlighet Terningkast er et klassisk eksempel på diskrete data Sannsynlighetsregning Hva er sannsynligheten for å slå minst én sekser på fem kast? Hva er sannsynligheten for at man får det samme myntkastet fem ganger på rad i løpet av 300 kast? Ikke så lett å regne ut... Kan simulere på datamaskin. 41

10000 simuleringer av 300 myntkast. Fordeling til lengste streak av mynt! Tilfeldighet gir lengre streaks enn man skulle tro! 42