Introduksjon til statistikk og dataanalyse
Hollywood-filmer fra 2011 135 filmer Samla budsjett: $ 7 166 500 000 Samla billettsalg: $ 20 199 000 000 2
Datasettet vårt Filmene er delt i 8 sjangere: Action Animation Comedy Drama Fantasy Horror Romance Thriller Har data for 13 variabler, blant annet: Kritikerscore Publikumsscore Budsjett Billettsalg Inntjeningsfaktor 3
Statistics = Observatorer En observator er et tall som er regnet ut fra et datasett Statistikk handler mye om å beregne og tolke observatorer På engelsk heter en observator: a statistic faget statistikk: statistics 4
Observator nr. 1: Gjennomsnitt Den mest brukte, og best kjente, observatoren er gjennomsnittet. Angir senteret som observasjonene (tallene) er spredt rundt Med 10 observasjoner: 1 x x x... x 10 1 2 10 5
Gjennomsnitt, Hollywood-filmer Gjennomsnitt Sjanger Antall Budsjett (millioner $) Billettsalg (millioner $) Action 32 89,63 249,05 Animation 12 114,92 286,58 Comedy 27 38,50 107,53 Drama 21 25,33 44,63 Fantasy 2 62,60 664,72 Horror 17 25,79 73,23 Romance 11 38,40 135,95 Thriller 13 30,79 86,91 Alle 135 53,48 150,74 6
Observator nr. 2: Median Median = den midterste observasjonen En annen måte å angi senteret til observasjonene kan være mer beskrivende enn gjennomsnittet F.eks. en arbeidsplass med 10 ansatte Alder: 20 21 21 22 22 22 23 23 66 67 Gjennomsnitt: 31 Median: 22 7
Uteliggere Datapunkter som skiller seg tydelig fra resten av datasettet kaller vi uteliggere (outliers). Gjennomsnittet kan bli sterkt påvirket av uteliggere, mens medianen ikke blir det. F.eks. en arbeidsplass med 10 ansatte Alder: 20 21 21 22 22 22 23 23 66 67 Gjennomsnitt: 31 Median: 22 8
Gjennomsnitt vs. median Gjennomsnitt Sjanger Antall Budsjett (millioner $) Billettsalg (millioner $) Action 32 89,63 249,05 Animation 12 114,92 286,58 Comedy 27 38,50 107,53 Drama 21 25,33 44,63 Fantasy 2 62,60 664,72 Horror 17 25,79 73,23 Romance 11 38,40 135,95 Thriller 13 30,79 86,91 Alle 135 53,48 150,74 9
antall antall Gjennomsnitt vs. median Billettsalg (millioner $) Sjanger Antall Median Gjennomsnitt Action 32 132,15 249,05 Animation 12 219,56 286,58 10 Billettsalg, Action 3 Billettsalg, Animation 9 8 7 6 2 5 4 3 1 2 1 0 0 200 400 600 800 1000 1200 millioner $ 0 0 200 400 600 800 1000 1200 millioner $ 10
Observator nr. 3: Empirisk varians Den empiriske variansen er et mål på hvor mye spredning det er rundt gjennomsnittet i et datasett 11
Varians, Hollywood-filmer Empirisk varians Sjanger Antall Budsjett Billettsalg Action 32 3 787 78 560 Animation 12 2 613 49 473 Comedy 27 542 14 541 Drama 21 166 2492 Fantasy 2 7 788 880 190 Horror 17 278 5 400 Romance 11 1 104 31 800 Thriller 13 325 3 475 Alle 135 2 418 46 233 12
antall Én uteligger kan gi høy varians 6 Billettsalg, Romance 5 4 3 2 1 Antall 11 Gjennomsnitt 136 Median 60 Empirisk varians 31 800 0 0 100 200 300 400 500 600 700 millioner $ 13
Kvartiler 1. kvartil = medianen til nederste halvpart av datapunktene 2. kvartil = medianen til alle datapunktene 3. kvartil = medianen til øverste halvpart av datapunktene 1 2 3 4 5 6 7 8 9 10 11 14
Kvartiler På samme måte som median er et alternativ til snitt for å se på senteret til et datasett, gir kvartilene en alternativ måte å se på spredninga Kvartilbredden (interquartile range, IQR): Avstanden mellom øverste og nederste kvartil 1 2 3 4 5 6 7 8 9 10 11 15
Boksplott 16
Levetiden til pattedyr 17
Levetiden til pattedyr 18
Vanlig situasjon: Vi har noen data og lurer på om de passer med en sannsynlighetsfordeling. >> mean(weights) ans = 127.0775 >> var(weights) ans = 136.1753 19
antall Hvor godt passer fordelinga? 3500 Vekt av 25000 amerikanske barn (0 18 år) 3000 2500 2000 >> mean(weights) ans = 127.0775 1500 1000 500 >> var(weights) ans = 136.1753 0 80 100 120 140 160 180 vekt (pund) 20
Normalfordelinga Sannsynlighetsfordelinger er en sentral del av statistisk modellering. Og den desidert mest brukte sannsynlighetsfordelinga er normalfordelinga også kalt gausskurven 21
Normalfordelinga Normalfordelinga har to parametere: forventningsverdi (μ) og varians (σ 2 ) kvadratroten av variansen gir standardavviket (σ) 22
Normalfordelinga og standardavvik 68% av dataene vil ligge innenfor μ ± σ 95% av dataene vil ligge innenfor μ ± 2σ 99,7% av dataene vil ligge innenfor μ ± 3σ 23
Andre sannsynlighetsfordelinger Noen vanlige former: 24
Gjennomsnitt vs. median Symmetrisk fordeling => gjennomsnitt median Venstreskjev fordeling => gjennomsnitt < median Høyreskjev fordeling => gjennomsnitt > median 25
Eksponensialfordelinga En vanlig venstreskjev fordeling Kan brukes til å modellere f.eks. tid mellom mål i en håndballkamp tid mellom 911-oppringninger avstand mellom mutasjoner i en DNA-tråd 26
Q-Q-plott Vi kan undersøke om et datasett er normalfordelt ved hjelp av et kvantil-kvantilplott også kalt quantile-quantile plot eller Q-Q-plott Hvis datapunktene følger sannsynlighetsfordelinga, vil de ligge på ei rett linje 27
Kvantiler i datasettet 180 Q Q plott for vekt av amerikanske barn 160 140 120 100 80 60 5 0 5 Kvantiler i standard normalfordeling 28
Kvantiler i datasettet 250 Q Q plott for budsjett av Hollywood filmer 200 150 100 50 0 50 100 3 2 1 0 1 2 3 Kvantiler i standard normalfordeling 29