STK1100 våren 2017 Generell introduksjon Omhandler delvis stoffet i avsnitt 1.1 i læreboka (resten av kapittel 1 blir gjennomgått ved behov) Ørnulf Borgan Matematisk institutt Universitetet i Oslo 1
«Overalt» samles det inn data Internett (Google, Facebook, mm) Mengden av data bare øker og øker «Big Data» 2
Data må behandles og fortolkes for å gi nyttig informasjon og grunnlag for beslutninger. Da må vi ta hensyn til at data oftest er påvirket av måleusikkerhet, individuelle variasjoner, og andre faktorer av tilfeldig natur. Vi må ta hensyn til disse tilfeldige variasjonene når dataene skal behandles og fortolkes. Vi beskriver da dataene med en statistisk modell som tar hensyn til de tilfeldige variasjonene og bruker en statistisk metode for å få informasjon ut av dataene. Sannsynlighetsregningen danner grunnlaget for statistiske modeller og metoder. Vi vil se kort på noen eksempler.
Av et utvalg på 792 som ville ha stemt hvis det var valg, ville 270 ha stemt Arbeiderpartiet (Ap). Hva er Ap's oppslutningen i populasjonen av alle stemmeberettigede? 4
Vi får en (noe forenklet) statistisk modell for meningsmålingen ved å se på den som et binomisk forsøk (jf. Matematikk R1): Hver av de n = 792 personene i utvalget vil enten ha stemt Ap, eller så ville de ikke det Sannsynligheten for at en person ville ha stemt Ap er p = «andelen i populasjonen som ville ha stemt Ap» Personene i utvalget ville ha stemt Ap eller ikke uavhengig av hverandre 270 Et estimat på Ap's oppslutning er pˆ = = 0.341 792 Ved å bruke kunnskap om den tilfeldige variasjonen i et binomisk forsøk, kan vi regne ut at en feilmargin for dette estimatet er ± 3.3prosentpoeng 5
Histogrammet viser vektøkning under graviditet for et utvalg på 68 kvinner. Gjennomsnittlig vektøkning: x = 13.5 kg Hva kan vi ut fra disse dataene si om gjennomsnittlig vektøkning under graviditet for alle gravide (i den populasjonen utvalget kommer fra)? Må da ha en statistisk modell som beskriver variasjonen i vektøkning blant gravide kvinner. En mulig modell er at vektøkningen er normalfordelt. Ved å bruke denne modellen, kan en finne en at gjennomsnittlig vektøkning blant alle gravide er 13.5 ± 1.4kg
Et forsikringsselskap registrerer skader (f. eks. på biler) og størrelsen på skadene for alle som er forsikret i selskapet. På grunnlag av data for tidligere år, må de bestemme hvor mye hver kunde skal betale for forsikringen neste år. Da bruker de en statistisk modell som beskriver sannsynligheten for at en kunde får en skade og hvor stor sannsynligheten er for skader av ulik størrelse. 7
I forskning, forvaltning og næringsliv samles det inn stadig større datamengder. «Big Data» gir nye utfordringer både innen statistikk og informatikk. I tillegg til mer tradisjonelle statistiske metoder (som tar utgangspunkt i en sannsynlighetsmodell), er det også nødvendig å videreutvikle metoder innen maskinlæring (som tar utgangspunkt i en algoritme). Data science er en fellesbetegnelse på informatiske og statistiske metoder for «Big Data» 8
Det nye kurset STK2100 tar for seg en del sentrale metoder i data science (kan tas i fjerde semester). STK1100 er et mer basalt kurs som legger hovedvekten på grunnleggende sannsynlighetsregning og statistisk modellering. Men vi vil også se litt på hvordan sannsynlighetsregningen danner grunnlaget for statistiske metoder: Populasjon Utvalg 9
Hovedtrekk av pensum i STK1100 (fra læreboka til Devore og Berk): Kapittel 1: Beskrivende statistikk (tas ved behov) Kapittel 2: Grunnleggende sannsynlighetsregning (mye repetisjon fra Matematikk R1) Kapitlene 3-6: Diskrete og kontinuerlige stokastiske variabler. Sannsynlighetsfordelinger, forventning, varians, store talls lov, sentralgrensesetningen, m.m. Kapitlene 7 og 8: Litt om statistiske metoder (estimering og konfidensintervall) 10