Eksplosjon av data! Innledning til STK1100. Stokastiske forsøk STK1100. Statistisk analyse. Deterministiske fenomener. Data samles inn overalt

Like dokumenter
STK1100 våren Introduksjon til sannsynlighetsbegrepet. Deterministiske fenomener. Stokastiske forsøk. Litt historikk

Innledning kapittel 4

STK1100 våren Introduksjon til sannsynlighetsbegrepet. Deterministiske fenomener. Stokastiske forsøk. Litt historikk

STK1100 våren Introduksjon til sannsynlighetsbegrepet. Svarer til avsnittene 2.1 og 2.2 i læreboka

Innledning kapittel 4

Deterministiske fenomener MAT0100V Sannsynlighetsregning og kombinatorikk

Sannsynlighetsbegrepet

Sannsynlighetsregning og Statistikk

Sannsynlighet og statistikk

Betinget sannsynlighet. MAT0100V Sannsynlighetsregning og kombinatorikk. Vi trenger en definisjon av betinget sannsynlighet!

MULTIPLE CHOICE ST0103 BRUKERKURS I STATISTIKK September 2016

Betinget sannsynlighet. MAT0100V Sannsynlighetsregning og kombinatorikk. Vi trenger en definisjon av betinget sannsynlighet!

STK1100 våren Kontinuerlige stokastiske variabler Forventning og varians Momentgenererende funksjoner

STK1100 våren Generell introduksjon. Omhandler delvis stoffet i avsnitt 1.1 i læreboka (resten av kapittel 1 blir gjennomgått ved behov)

Betinget sannsynlighet. MAT0100V Sannsynlighetsregning og kombinatorikk. Vi trenger en definisjon av betinget sannsynlighet!

Sannsynlighetsregning

Sannsynlighetsregning og Statistikk.

ÅMA110 Sannsynlighetsregning med statistikk, våren 2011

Blokk1: Sannsynsteori

Betinget sannsynlighet

STK1100 våren Betinget sannsynlighet og uavhengighet. Svarer til avsnittene 2.4 og 2.5 i læreboka

Oppfriskning av blokk 1 i TMA4240

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010

ÅMA110 Sannsynlighetsregning med statistikk, våren 2008

Sannsynlighetsregning og kombinatorikk

Sannsynlighetsregning og kombinatorikk MAT0100V våren 2015

ÅMA110 Sannsynlighetsregning med statistikk, våren Grunnbegrep. Grunnbegrep, sannsynligheten for et utfall

Betinget sannsynlighet, total sannsynlighet og Bayes setning Kap. 4.5 STK1000 H11

Terningkast. Utfallsrommet S for et terningskast med en vanlig spillterning med 6 sider er veldefinert 1, 2, 3, 4, 5, 6

Introduction to the Practice of Statistics

ÅMA110 Sannsynlighetsregning med statistikk, våren 2011

Betinget sannsynlighet, total sannsynlighet og Bayes setning Kapittel 4.5

6 Sannsynlighetsregning

ST1101/ST6101 Sannsynlighetsregning og statistikk Vår 2019

Introduksjon til statistikk og dataanalyse. Arild Brandrud Næss TMA4240 Statistikk NTNU, høsten 2013

UNIVERSITETET I OSLO Matematisk Institutt

TMA4240 Statistikk H2010

ST0103 Brukerkurs i statistikk Høst 2014

MAT0100V Sannsynlighetsregning og kombinatorikk

Slide 1. Slide 2 Statistisk inferens. Slide 3. Introduction to the Practice of Statistics Fifth Edition

STK1100 våren Normalfordelingen. Normalfordelingen er den viktigste av alle sannsynlighetsfordelinger

STK Oppsummering

Tilfeldige variabler. MAT0100V Sannsynlighetsregning og kombinatorikk

Sannsynligheten for en hendelse (4.2) Empirisk sannsynlighet. ST0202 Statistikk for samfunnsvitere

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007

Quiz, 4 Kombinatorikk og sannsynlighet

1 Section 4-1: Introduksjon til sannsynlighet. 2 Section 4-2: Enkel sannsynlighetsregning. 3 Section 5-1: Introduksjon til sannsynlighetsfordelinger

Tilfeldige variabler. MAT0100V Sannsynlighetsregning og kombinatorikk

Forelesning 5, kapittel 3. : 3.5: Uavhengige hendelser.

Beskrivende statistikk.

Deskriptiv statistikk., Introduksjon til dataanalyse

Deskriptiv statistikk., Introduksjon til dataanalyse

Statistikk 1 kapittel 3

Test, 3 Sannsynlighet og statistikk

SANNSYNLIGHETSREGNING

Kapittel 3: Stokastiske variable og sannsynlighetsfordelinger

Tilfeldige variabler. MAT0100V Sannsynlighetsregning og kombinatorikk

Forelening 1, kapittel 4 Stokastiske variable

4: Sannsynlighetsregning

Betinget sannsynlighet, total sannsynlighet og Bayes setning

ECON Statistikk 1 Forelesning 3: Sannsynlighet. Jo Thori Lind

Forelesning 3, kapittel 3. : 3.2: Sannsynlighetsregning. Kolmogoroffs aksiomer og bruk av disse.

MATEMATIKK 1 (for trinn) Emnebeskrivelser for studieåret 2014/2015

ÅMA110 Sannsynlighetsregning med statistikk (5sp), våren 2012 BMF100 Sannsynlighetsregning og statistikk 1 (10sp), våren 2012

Fagdag ) Du skal fylle ut en tippekupong. På hvor mange måter kan dette gjøres?

Kapittel 2: Sannsynlighet

Loven om total sannsynlighet. Bayes formel. Testing for sykdom. ST0202 Statistikk for samfunnsvitere

Bred profil på statistikk?

Tema 1: Hendelser, sannsynlighet, kombinatorikk Kapittel ST1101 (Gunnar Taraldsen) :19

Kapittel 3: Studieopplegg

STK1100 våren Forventningsverdi. Forventning, varians og standardavvik

Statistikk og dataanalyse

Kompetansemål Hva er sannsynlighet?... 2

Litt om forventet nytte og risikoaversjon. Eksempler på økonomisk anvendelse av forventning og varians.

KAPITTEL 7 Integrasjon

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

ST0202 Statistikk for samfunnsvitere

Velkommen til TMA4240. Velkommen til TMA / 18

Sannsynlighetsregning

STK1100 våren 2017 Kombinatorikk

UNIVERSITETET I OSLO

ST1101/ST6101 Sannsynlighetsregning og statistikk Vår 2019

Sum to terninger forts. Eksempel: kast med to terninger. Sum to terninger forts. Kapittel 3. TMA4240 H2006: Eirik Mo

INNHOLD. Matematikk for ungdomstrinnet

TMA4240 Statistikk H2010

TMA4240 Statistikk Høst 2008

Oppgaver. Innhold. Sannsynlighet Vg1P

Sannsynlighet i uniforme modeller. Addisjon av sannsynligheter

ØVINGER 2017 Løsninger til oppgaver. 3.1 Myntkast For et enkelt myntkast har vi to mulige utfall, M og K. Utfallsrommet blir

Kapittel 4.3: Tilfeldige/stokastiske variable

KAPITTEL 7 Integrasjon

STK1100 våren Kombinatorikk = = Uniform sannsynlighetsmodell. Et stokastisk forsøk har N utfall. Det er de mulige utfallene for forsøket.

Statistikk 1 kapittel 3

Eksempel: kast med to terninger

Kapittel 2: Sannsynlighet

2P kapittel 3 Statistikk Utvalgte løsninger oppgavesamlingen

2.3: Kombinatorikk 2.4: Sannsynlighet, og Monte Carlo simulering. Foreleses onsdag 25. august 2010

TMA4240 Statistikk H2010

Transkript:

Eksplosjon av data! Innledning til STK1100 Januar 2014 Ørnulf Borgan/Geir Storvik Matematisk institutt Universitetet i Oslo Data samles inn overalt Medisinske undersøkelser Aksjekurser Metrologi-miljø Forurensning Web (Goggle/Twitter/Facebook) Astronomi Usikkerhet i data Hvordan trekke ut relevant informasjon 1 2 Deterministiske fenomener Almanakk for Norge viser: når det er fullmåne når det er soloppgang og solnedgang Det er mulig siden astronomene kan gi en matematisk beskrivelse av himmellegemenes bevegelser De kan også regne ut når vi vil få solformørkelse Fullmåne, soloppgang/nedgang og solformørkelse kan forutsies. De er determinstiske fenomener Fra Store Norske Leksikon 3 Stokastiske forsøk Vi vet ikke hva resultatet vil bli: når vi kaster en terning i neste ukes lottotrekning på et nyfødt barns kjønn om aksjekurs i morgen Eksempler på stokastiske forsøk/fenomer Kjennetegn: kan ikke forutsi resultatet. Sannsynlighetsregning er matematikken for stokastiske forsøk 4 Statistisk analyse STK1100 Eksempel: Vektøkni ng for gravide kvinner Histogram Forventet økning? Gjennoms nitt=29.78 Usikkerhet? Prediksjonsinter vall : (7.81,51.74) Statistisk analyse Se på data: Visualisering/oppsummerende mål/deskreptiv statistikk (STK1100) Statistisk inferens ta hensyn til usikkerhet Krever bruk av Sannsynlighetsregning (STK1100) Statistiske metoder (STK1110) 5 Lærebok: Dev ore & Berk: Modern Mathematical Statistics with applications, second edition, Springer 2012 Også tilgjengelig som e-bok Kurshjemmeside http://www.uio.no/studier/emner/matnat/math/stk1100/v 14/index.html Beskjeder Ukeoppgaver /oblig atoriske oppgaver Kurset Teori: begreper, matematiske resultater Praksis: Oppgaver egni ng, bruk av datamaski n 6 1

Beskrivende statistikk Kapittel 1/eget notat Stort sett repetisjon fra videregående Visualisering Oppsummerende mål Kort beskrivelse/selvstudium Visualisering Hvilepuls 35 kvinnelige studenter: 96 62 78 82 100 68 96 78 88 62 80 84 61 64 94 60 72 58 88 66 84 62 66 80 78 68 72 82 76 87 90 78 68 86 76 Histogram Stamme-løvplott Dot-plott 7 8 Beskrivende statistikk «Representativ verdi» Gjennomsnitt: x = 1 n Pulsdata: 76.7 n i=1 x i Empirisk median: Midterste observasjon Pulsdata: 78 9 Variasjon Beskrivende statistikk Empirisk standardavvik: s= Pulsdata: 11.6 Kvartildifferanse: Q 3 Q 1 der 1 n 1 (x i x) 2 n i= 1 Q 1 er den verdi som er slik at 25% av observasjonene er nedenfor Q 1 Q 3 er den verdi som er slik at 25% av observasjonene er ovenfor Q 3 Pulsdata: 86-66=20 10 Sannsynlighetsregning Litt historikk Kapittel 2-5 Kapittel 2 mye repetisjon fra videregående Rask gjennomgang, enkle eksempler Menneskene har hatt terninger i tusenvis av år: Astragalus: lagd av en liten knokkel fra foten til en sau eller hund Sekssidet terning lagd for eksempel av bein, stein eller bronse (www.historicgames.com) (www.gambletribune.org) 11 12 2

Terningkast og loddtrekning ble brukt for å komme fram til riktig avgjørelse på et vanskelig problem. Avgjørelsen ble da overlatt til høyere makter Apg. 1, 23-26: To menn ble kalt fram, Josef Barsabbas med tilnavnet Justus, og Mattias. Så bad de: «Herre, du som kjenner alles hjerter, vis oss hvem av disse to du har utvalgt til å ha den tjeneste og det apostelembete som Judas forlot for å gå til sitt sted.» De kastet lodd mellom dem, og loddet falt på Mattias. Fra nå av ble han regnet som apostel sammen med de elleve. Blaise Pascal (1623-1662) Pierre de Fermat (1601-1665) Det historiske gjennombruddet for sannsynlighetsregningen kom først i 1654 i en brevveksling mellom Pascal og Fermat om noen problemer knyttet til spill 13 (Bilder fra www.york.ac.uk/depts/maths/histstat) 14 Etter hvert rettet interessen seg også mot andre områder enn spill. Blant annet ble livsforsikring vanligere blant de velstående på 1700-tallet. Og da måtte en kunne beregne overlevelsessannsynligheter med utgangspunkt i empiriske data (www.york.ac.uk/depts/maths/histstat) 15 Eksempler på bruk av stokastiske modeller og sannsynlighetsregning : Forsikring og finans Medisin og genetikk Signal- og bildebehandling Forvaltning av dyrepopulasjoner Web-applikasjoner (google search, amazon.com etc) STK1100: Grunnleggende sannsynlighetsregning Stokastisk modellering Litt statistikk STK1110: Innføring i statistiske begreper og metoder 16 Utfall og utfallsrom Eksempel 2: Kast en terning til første gang du får en sekser. Generelt er resultatet av et stokastisk forsøk ikke gitt på forhånd. Men vi kan angi de mulige resultatene, eller utfallene for forsøket Utfallsrom: S {1, 2, 3, 4, } Mengden av alle utfall kaller vi utfallsrommet S Eksempel 1: Når vi kaster en terning vet vi ikke hvor mange øyne vi vil få. Men vi vet at antall øyne vil bli 1, 2, 3, 4, 5 eller 6 Utfallsrommet er S {1, 2, 3, 4, 5, 6} 17 Eksempel 3: Registrer vekten til en nyfødt jente. Kan ikke her liste opp alle mulige fødselsvekter. Utfallsrommet er et intervall på tallinja, for eksempel S (0, 6 ) 18 3

I eksempel 1 (utfall av terningkast) er utfallsrommet endelig, mens det er tellbart uendelig i eksempel 2 (antall kast til 6 er) En fellesbetegnelse for disse to situasjonene er at utfallsrommet er diskret I eksempel 3 (vekt nyfødt jente) er utfallsrommet kontinuerlig Begivenheter Vi vil ofte være interessert i et resultat av et forsøk som svarer til flere utfall Et resultat av et forsøk som svarer til ett eller flere utfall kaller vi en begivenhet (hendelse) Eksempel 1 (forts): Ved terningkast kan vi være interessert i om vi får minst fem øyne Begivenheten A = "minst fem øyne" kan vi skrive A = {5, 6} 19 20 Union og snitt Eksempel 2 (forts): Kast terning til første sekser A = "høyst tre kast" = {1, 2, 3} B = "minst fem kast" = {5, 6, 7, } Eksempel 3 (forts): Registrer vekten til en nyfødt jente. A = "veier mellom 3 kg og 4 kg" = (3, 4) La A og B være to begivenheter ved et forsøk Ut fra disse kan vi lage to nye begivenheter: A B A B omfatter alle utfall som er med i A eller i B eller i begge ("A union B") omfatter alle utfall som er med i både A og B ("A snitt B") 21 Hvis det ikke fins noen utfall som er med i både A og B er begivenhetene disjunkte 22 La A være en begivenhet ved et forsøk Det at A ikke inntreffer er en begivenhet vi kaller "ikke A" og skriver A A og Komplementære begivenheter A er komplementære begivenheter A A Det klassiske sannsynlighetsbegrepet De første arbeidene om sannsynlighet var om problemer i spill, og sannsynlighetsbegrepet de brukte var tilpasset dette Et enkelt eksempel illustrerer tankegangen Vi kaster en terning Hva er sannsynligheten for at vi får minst fem øyne? Merk at A og A er disjunkte 23 24 4

Alle sidene på terningen har samme sannsynlighet for å vende opp når terningen kastes Sannsynligheten er lik 1 for at en eller annen side vil vende opp Derfor er sannsynligheten 1/6 for hver av de seks utfallene 1, 2, 3, 4, 5 og 6 Begivenheten "minst fem øyne" består av de to utfallene 5 og 6 Sannsynligheten for minst fem øyne er derfor 2/6 = 1/3 25 Generell formulering av argumentet: Et stokastisk forsøk har N utfall Det er de mulige utfallene for forsøket Vi antar at de N utfallene er like sannsynlige Da har hvert utfall sannsynlighet 1/N En begivenhet A består av n utfall Det er de gunstige utfallene for begivenheten A Sannsynligheten for begivenheten A er n P( A) N a n ta ll g u n stig e u tfa ll a n ta ll m u lig e u tfa ll 26 Sannsynlighet og relativ frekvens Hva betyr det at sannsynligheten er 1/6 for sekser i et terningkast? Vi kan ikke forutsi resultatet av ett kast, men vi ser et mønster når terningen kastes mange ganger Kaster først en terning 10 ganger: Relativ frekvens av seksere er 1/10 = 0.10 27 Kaster så en terning om og om igjen. Etter k kast er den relative frekvensen av seksere: a n ta ll sek sere i k k a st r (6 ) k k Merk at den relative frekvensen nærmer seg 1/6=0.167 når k blir stor 28 År Årsgj.sn Hva er sannsynligheten for at et nyfødt barn er en jente? Levendefødte I alt Gutter Jenter 1951-55 62478 32182 30296 0,485 1956-60 63021 32374 30647 0,486 1961-65 63989 32992 30997 0,484 1966-70 66697 34368 32329 0,485 1971-75 61393 31487 29906 0,487 1976-80 51744 26619 25125 0,486 1981-85 50660 26030 24629 0,486 1986-90 56862 29154 27708 0,487 1991-95 60196 30993 29202 0,485 1996-00 59522 30598 29043 0,488 1996 60927 31490 29437 0,483 1997 59801 30724 29077 0,486 1998 58352 29870 28482 0,488 1999 59298 30468 29421 0,496 2000 59234 30436 28798 0,486 2001 56696 29041 27655 0,488 2002 55434 28325 27109 0,489 (Modifisert fra www.ssb.no/aarbok/) Den relative frekvensen av jentefødsler varierer lite fra år til år og fra femårsperiode til femårsperiode I perioden 1951-2000 ble det født 2983800 barn i Norge. Av disse var 1449400 jenter Relativ frekvens av jenter i hele perioden er 48.6% 29 Den relative frekvensen av seksere er omtrent 1/6 når vi kaster en terning mange ganger Den relative frekvensen av jenter blant alle nyfødte er omtrent 48.6% hvert år Det er to eksempler på et fenomen som observeres gang på gang et fenomen som er en forutsetning for å forstå hva sannsynlighet er: Vi er interessert i en begivenhet A i et stokastisk forsøk. Forsøket gjentas under like betingelser. Da vil den relative frekvensen av A nærme seg en grenseverdi når forsøket gjentas mange ganger. Denne grenseverdien er sannsynligheten P(A) Sannsynlighet er relativ frekvens i det lange løp 30 5

Merk at det er en forutsetning at forsøket gjentas under like betingelser Et eksempel hvor dette ikke er tilfelle er trillingfødsler: År Årsgj.sn Levendefødte Flerfødsler I alt Gutter Jenter I alt Tvilling Trilling 1951-55 62478 32182 30296 796 787 9 1956-60 63021 32374 30647 738 731 7 1961-65 63989 32992 30997 708 700 8 1966-70 66697 34368 32329 670 663 7 1971-75 61393 31487 29906 572 568 4 1976-80 51744 26619 25125 498 494 4 1981-85 50660 26030 24629 503 495 8 1986-90 56862 29154 27708 653 634 19 1991-95 60196 30993 29202 845 821 24 1996-00 59522 30598 29043 981 957 24 1996 60927 31490 29437 913 886 27 1997 59801 30724 29077 960 931 29 1998 58352 29870 28482 928 903 25 1999 59298 30468 29421 1053 1031 22 2000 59234 30436 28798 1052 1033 16 2001 56696 29041 27655 1035 1016 19 2002 55434 28325 27109 1059 1044 15 Andelen trillingfødsler økte fra midten av 1980 årene på grunn av kunstig befruktning 31 Sannsynlighet forstått som relativ frekvens i det lange løp kalles enkelte ganger frekventistisk sannsynlighet Merk at denne forståelsen av sannsynlighet forutsetter at forsøket kan gjentas flere ganger Noen ganger brukes sannsynlighetsbegrepet i situasjoner hvor forsøket ikke kan gjentas. "Det er 70% sannsynlig at Stabæk vil slå Rosenborg neste søndag" Sannsynlighet som uttrykker en personlig vurdering kalles subjektiv sannsynlighet 32 Aksiomer for sannsynlighet Resultater av aksiomene Konsistens krever aksiomer (basis egenskaper): 1. For enhver begivenhet A er P(A) 0 2. P(S)=1 3. Hvis A 1,A 2,A 3, er en uendelig samling av disjunkte begivenheter, så er P(A 1 A 2 A 3 ) = i=1 P(A i ) 33 1. P = 0 2. Hvis A 1,A 2, A 3,, A k er en endelig samling av disjunkte begivenheter, så er k P(A 1 A 2 A 3 A n ) = i= 1 P(A i ) 3. P A = 1 P A Bevis 1. La A i =, i=1,2,,, disjunkte og A i = Fra 3. aksiom er da P = P som kun er mulig hvis P = 0 2. Følger av å definere A k+ i =, i=1,2,, 3. Må ha P A + P A = P S = 1 som gir resultatet 34 Seriesystem med 5 komponenter Komponenter virker uavhengige, hver med sannsynlighet 0.9 Alle må virke for at system virker A er begivenheten at systemet feiler. Hva er P(A)? P A = P VVVVV = 0.9 5 = 0.59 P A = 1 P A = 1 0.59 = 0.41 1. P A 1 Flere resultater 2. P A B = P A + P B P A B Bevis 1. 1 = P A + P A P A 2. A B = A B A P A B = P A + P B A og B = B A B A P B = P B A + P(B A ) gir P A B = P A + P B P(B A) 35 36 6