TMA4240 Statistikk H2010

Like dokumenter
TMA4240 Statistikk H2010

Kapittel 1 ser på. Statistikk i hverdagen

Kapittel 1: Introduksjon til statistikk og dataanalyse

TMA4245 Statistikk, 2007, for MTDES, MTMART, MTPROD, MTIØT. Introduksjon til kurset. Gjennomgås tirsdag 9. januar 2007.

Oppfriskning av blokk 1 i TMA4240

TMA 4255 Forsøksplanlegging og anvendte statistiske metoder

ST0202 Statistikk for samfunnsvitere Introduksjon til ST0202 høsten 2012 Kapittel 1: Statistikk

Kapittel 2: Sannsynlighet

TMA4245 Statistikk: MTBYGG, MTING

Utfallsrom og hendelser. Disjunkte hendelser. Kapittel 2: Sannsynlighet. Eirik Mo Institutt for matematiske fag, NTNU

ÅMA110 Sannsynlighetsregning med statistikk, våren 2011

STATISTIKK FRA A TIL Å

MAT1030 Diskret matematikk. Kompleksitetsteori. Forelesning 29: Kompleksitetsteori. Dag Normann KAPITTEL 13: Kompleksitetsteori. 7.

Hypotesetesting. Notat til STK1110. Ørnulf Borgan Matematisk institutt Universitetet i Oslo. September 2007

Sannsynlighetsregning og Statistikk.

ST0202 Statistikk for samfunnsvitere Kapittel 6: Normalfordelingen

3.1 Stokastisk variabel (repetisjon)

Statistikk 1. Nico Keilman. ECON 2130 Vår 2014

Tyngdekraft og luftmotstand

TMA4240 Statistikk H2010

Adgang til ny vurdering ved NTNU. Bakgrunnstall for vurdering av konsekvenser ved innføring av tregangersregel.

Repeterbarhetskrav vs antall Trails

MASTER I IDRETTSVITENSKAP 2014/2016. Individuell skriftlig eksamen. STA 400- Statistikk. Fredag 13. mars 2015 kl

Lærebok Robert Johnson og Patricia Kuby: Elementary Statistics, 10. utgave. Pensumoversikt. Forelesninger og øvinger

ST0202 Statistikk for samfunnsvitere. Bo Lindqvist Institutt for matematiske fag

ST0202 Statistikk for samfunnsvitere. Bo Lindqvist Institutt for matematiske fag

Kompetansemål etter 7. årstrinn.

Repeterbarhetskrav vs antall Trails

2.3: Kombinatorikk 2.4: Sannsynlighet, og Monte Carlo simulering. Foreleses onsdag 25. august 2010

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010

STK1000 Innføring i anvendt statistikk

Vurdering på barnetrinnet. Nå gjelder det

Emnerapport 2014 vår - Kjem130 og Farm130

Deskriptiv statistikk., Introduksjon til dataanalyse

LOGGBOK for. deltakere i praksis. Oppdag talentene dine

, Velkommen til TMA4240

S1 Eksamen våren 2009 Løsning

Datainnsamling, video av forelesning og referansegruppe

Value added-indikatoren: Et nyttig verktøy i kvalitetsvurdering av skolen?

Matematikk 2, 4MX25-10

Deskriptiv statistikk., Introduksjon til dataanalyse

Evaluering av IT-systemer

1 Section 4-1: Introduksjon til sannsynlighet. 2 Section 4-2: Enkel sannsynlighetsregning. 3 Section 5-1: Introduksjon til sannsynlighetsfordelinger

UNIVERSITETET I OSLO

TMA4240 Statistikk H2010

Kapittel 2: Sannsynlighet [ ]

Eksamensoppgave i TMA4240 Statistikk

MASTER I IDRETTSVITENSKAP 2014/2016. Utsatt individuell skriftlig eksamen. STA 400- Statistikk. Mandag 24. august 2015 kl

Forelesere VELKOMMEN TIL MAT-INF Forelesere MAT-INF /8-2005

Forelesning 9 mandag den 15. september

TMA4140 Diskret matematikk Høst 2011 Løsningsforslag Øving 7

Den grunnleggende ferdigheten å kunne regne. Introduksjon

Prosent. Det går likare no! Svein H. Torkildsen, NSMO

Vedlegg til rapport «Vurdering av eksamen i matematikk, Matematikksenteret 2015»

Loven om total sannsynlighet. Bayes formel. Testing for sykdom. ST0202 Statistikk for samfunnsvitere

a ) Forventningen estimeres med gjennomsnittet: x = 1 12 (x x 12 ) = 1 ( ) = 8813/12 = 734.4

Løsningsforslag til seminar 4 Undervisningsfri uke

Vekst av planteplankton - Skeletonema Costatum

Våren 2014 var Frank Aarebrot emneansvarlig. Det holdt 13 forelesninger og 10 seminarer. Samtlige forelesninger ble holdt av Frank Aarebrot.

Sannsynlighetsbegrepet

Nøkkelspørsmål til eller i etterkant av introduksjonsoppgaven:

RENDALEN KOMMUNE Fagertun skole. Årsplan i matematikk for 7. trinn 2015/16

TMA4240 Statistikk Høst 2009

Innhold. Innledning. Del I

Arbeidstid. Medlemsundersøkelse mai Oppdragsgiver: Utdanningsforbundet

Statistikk og dataanalyse

Hervé Colleuille seksjonssjef, Hydrologisk avdeling NVE

NTNU Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

Kapittel 3: Stokastiske variable og sannsynlighetsfordelinger

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007

PEDAGOGISK TILBAKEBLIKK

Matematikk og naturfag. To eksempler fra mellomtrinn/ungdomstrinn

Øving 1 TMA Grunnleggende dataanalyse i Matlab

TMA4240 Statistikk H2010 Kapittel 5: Diskrete sannsynlighetsfordelinger : Uniform, binomisk, hypergeometrisk fordeling

Kurskatalog. Bluegarden Kurssenter

DEL 1 Uten hjelpemidler

Eksamensordning! Bachelor"i"sosialt"arbeid"" Diakonhjemmet"Høgskole" "Fagplan"2011" Godkjent"av"instituttleder"Torhild"Bjerkreim"23.06.

TMA4100 Matematikk 1, høst 2013

UNIVERSITETET I OSLO

Uendelige rekker. Konvergens og konvergenskriterier

Høgskolen i Telemark. Institutt for økonomi og informatikk FORMELSAMLING Statistikk I. Til bruk ved eksamen. Per Chr. Hagen

UNIVERSITETET I OSLO

TDT4127 Programmering og Numerikk

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Transkript:

TMA4240 Statistikk H2010 Introduksjon til TMA4240 Kapittel 1: Introduksjon til statistikk og dataanalyse Kapittel 2.1-2.2: Utfallsrom og hendelser Mette Langaas Foreleses mandag 23. august 2010 Hva er statistikk? Hvorfor må jeg lære statistikk? Faginformasjon TMA4240 Statistikk. Vi starter på pensum!

The true purpose of theology is to ascertain the nature of God. It is by the art of statistics that the laws in the social sphere can be ascertained and codified, and thereby certain aspects of the nature of God revealed. Thus, the study of statistics is a religious service.

5 Florence Nightingale (1820-1910) The lady with the lamp Pioner i sykerpleieryrket; sykepleieryrket fikk den status og respekt som det fortjente. Reformator av metoder for å bedre hygienen ved sykehusene, spesielt militærsykehusene. 6 Florence Nightingale og statistikk Florence Nightingale innførte og brukte aktivt nye teknikker for statistisk analyse. Utviklet "polar-area diagram" for å dramatisk vise de unødvendige dødsfallene på grunn av uhygieniske forhold ved militærsykehusene under Krim-krigen. Viste at sosiale fenomen kunne objektivt måles og analyseres med statististiske teknikker. Var innovator innenfor innsamling, tabulering, fortolkning og grafisk fremstilling av beskrivende statistikk! En velrennomert pioner innen statistisk analyse.

Men, HVA er statistikk? 8 Fra lærerplanen i matematikk (grunnskolen) I kombinatorikk arbeider en med systematiske måter å finne tall på, og det er ofte nødvendig å kunne beregne sannsynligheter. I sannsynlighetsregning tallfester en hvor stor sjanse det er for at en hendelse skal skje. Statistikk omfatter å planlegge, samle inn, organisere, analysere og presentere data. I analysen av data hører det med å beskrive generelle trekk ved datamaterialet. Å vurdere og se kritisk på konklusjoner og fremstilling av data er sentralt i statistikk.

9 Pulsmåling Lege måler pulsen til en pasient og finner at den er 72 slag i minuttet. Er dette er sikker måling? Er pulsen en konstant størrelse? Gjentas måling av pulsen vil vi da få 72? 10 Pulsmåling Iboende i alle fenomener og prosesser finner vi variasjon og usikkerhet. Verden er ikke deterministisk. Pulsmålingen: Hvordan har målingen skjedd? Hvor lenge har legen talt? Har legen talt galt? Er pasienten nervøs ifb. besøket, og derfor har høyere puls enn vanlig? Har pasienten akkurat gått opp en trapp og dermed fått økt puls? Pulsen varierer over tid - og tallet 72 kan være et usikkert uttrykk for hvilken puls pasienten har til vanlig.

11 Variasjon og usikkerhet og beslutninger Statistikk er et verktøy som kan benyttes til å forstå og analysere variasjon og usikkerhet i data. "Years ago a statistician might have claimed that statistics deals with the processing of data. Today s statistician will be more likely to say that statistics is concerned with decision making in the face of uncertainty." Chernoff & Moses (1959). 12 TMA4240/TMA4245 Statistikk Beskrivende Sannsynlighetsteori Statistisk inferens statistikk Kapittel 1 Kapittel 2-7 Kapittel 8-11 Presentere og Matematisk regning Estimere, teste, beskrive data i tall, med sannsynlighet predikere, basert på tabeller og figurer. og fordelinger. data under usikkerhet.

13 Noen spørsmål som statistikere ved NTNU har jobbet med Hvilke gener er aktive i en kreftsvulst? Hva er det mest gunstige kostholdet for kroppen? Vi vet bare at antall dyrearter på jorda ligger et sted mellom 15 og 50 millioner. Hvordan kan vi vite det? Om det blir varslet 5mm regn, hvor sannsynlig er det at det kommer 10mm? Hvordan forklare kriminalitet og uro i Kambodsja? Hva fremmer læring hos matematikkstudenter? Kommer vi til å tjene nok penger til å rettferdigjøre borring av denne 1.000.000.000 kroner oljebrønnen? Hvordan lage modeller for aksjekurser? Hvordan kan en best stille inn prosessparametre for produksjon av papir? Hvorfor må DU lære statistikk?

15 TDT4120 Algoritmer og datastrukturer Hvordan regner man ut forventet kjøretid av sorteringsalgoritmen Quicksort? Når man skal sammenligne kjøretiden til ulike programmer, er det da aritmetisk middel av målinger av kjøretid, eller geometrisk middel man bør bruke? Hva er viktige faktorer for kjøretid (eller et annet kvalitetsmål) for et program? Hvordan kan man bestemme om et program er signifikant bedre enn et annet? 16 New York Times, August 2009

In God we trust; all others must bring data. W. Edwards Deming, US statistician.

19 Faginformasjon TMA4240 høsten 2010 MTDT, MTKOM, MTIØT, BFY, MLREAL WWW-side: http://wiki.math.ntnu.no/tma4240/2010h/start og velg riktig parallell Faglærer: Mette Langaas, rom 1236, 12.etg., sentralbygg II. Epost: Mette.Langaas@math.ntnu.no, tlf. 73 59 16 97. Øvingslærer: Erlend Aune, rom 1026, 10.etg, sentralbygg II. Epost: erlenda@math.ntnu.no, tlf. 73 593151 Referansegruppe: En representant (eller flere) fra hver av studieprogrammene danner en referansegruppe som evaluerer og diskuterer suksessen av forelesninger, øvinger etc. i faget (2 eller flere møter i semestret.) 20 Faginformasjon TMA4240 høsten 2010 Forelesninger: Mandag 8.15-10.00 i S8 og onsdag 08.15-10.00 i EL5 (men flyttet til S2 i uke 37=15.09 og 39=29.09). Lysark/Notatskjelett: Forelesningene er bygget på bruk av lysark og tavle. Lysark i pdf-format vil være tilgjengelig fra fagets WWW-side senest dagen før forelesningen. Tavleøvinger: Fredag 15.15-17.00 i R1 (sammen med den andre parallellen i faget). Øving i smågrupper: Se www-sidene under Øvinger.

21 Pensum og fremdrift Lærebok: "Probability and Statistics for Engineers and Scientists" (Walpole, Myers, Myers and Ye), 8. utg., Prentice Hall. (7th edition kan også brukes, se WWW-side for pensum.) Pensum : Walpole, Myers, Myers & Ye, 8. utg. Kap 1-5: Hele Kap 6: Hele unntatt (6.9, 6.10). Kap 7: Hele unntatt s 216-218. Kap 8: Hele unntatt 8.8 Kap 9: Hele unntatt (9.7, 9.13). Kap 10: 10.1-10.12, 10.13 (til s 368) Kap 11: 11.1-11.6, 11.12 (til s 436) Notatet: "Ordningsvariabler og ekstremvariabler". Øvingene er pensum. Fremdriftsplan: oppdateres kontinuerlig på WWW-sidene. 22 Øvingsopplegget Øvingene er obligatoriske. Oppgavene tas i hovedsak fra Læreboka (Walpole, Myers, Myers & Ye). Tidligere eksamensoppgaver. Formelsamling: "Tabeller og formler i statistikk" (Inst. for matematiske fag), 2. utgave, Tapir. Adgang til eksamen er betinget av at du har fått godkjent minst 4 av de første 6 øvingene og 4 av de siste 6 øvingene. Øvingsopplegget består av: Veiledning av stud.ass. i smågrupper. Oppstart uke 35/36. Innlevering (senest kl. 14 dagen etter veiledning) for retting og godkjenning, sentralblokk 2, lavblokk nord i anviste hyller.

23 Eksamen Avsluttende skriftelig eksamen, lørdag 18.desember 2010, 9.00-13.00. Teller 100% av karakteren i faget. Tillatte hjelpemidler: Gult A5 ark med egne håndskrevne notater (stemplet av Institutt for matematiske fag), Bestemt enkel kalkulator, dvs. CitizenSR-270X eller HP30C Tabeller og formler i statistikk (Tapir). K. Rottman: Matematisk formelsamling. Hvorfor gult ark? Organisering av kunnskap, sammendrag. Personlig formelsamling. Trygghet, forståelse fremfor pugg. God erfaring i andre fag. 24 Tilleggslitteratur Larry Gonick and Wolcott Smith: The Cartoon Guide to Statistics er en tegneserie-innføring i statistikk, som et morsomt supplement til læreboka. Finner du læreboka for overfladisk og ikke på ønsket detaljnivå, kan vi anbefale boka: Larsen & Marx: An Introduction to Mathematical Statistics and Its Applications. Finner du læreboka for vanskelig kan vi anbefaler: G. G. Løvås (2004), Statistikk for universiteter og høgskoler, Universitetsforlaget, 2.utgave. Alle bøkene under kan kjøpes på Tapir, eventuelt bestilles dersom de er utsolgt. Pensum er definert utifra Walpole, Myers, Myers & Ye.

25 Eksempler og data i faget Fra studieprogrammene: Samarbeid med studieansvarlig ved programmene. Studenter: kom med problemstilling og data fra fagene dere har/har hatt! Om dere: Spørreundersøkelse med peker fra fagets WWW-side. Svar så raskt som mulig! R: vi vil bruke statistikkpakken R til eksempler i forelesningene. Den er gratis og kan lastes ned fra http://cran.r-project.org/ - men det er bare hvis du har lyst (ikke påkrevd). Syntax ligner endel på matlab. Det er IKKE krav at du må kunne bruke R, Matlab, Excel eller annet til statistiske beregninger i dette faget, men det kan være at du lærer noe av det? 26 Kapittel 1: Introduksjon til statistikk og dataanalyse Datainnsamling. Datatyper: diskrete og kontinuerlige. Presentasjon av data (graf og tabell) Hvor er data sentrert? Hvor mye varierer data?

27 Statistikk i hverdagen Daglig rapporteres interessante funn i pressen. Tenk på: har observatøren påvirket målingene? er utvalget stort nok? er utvalget representativt for den gruppen konklusjoner trekkes? har målingene pågått lenge nok? trekkes konklusjoner for langt? 28 Spørsmålet Er du enig i at hvalfangst, drapet på verdens største, utryddingstruede pattedyr, må forbys snarest mulig? Er du enig i at hvalfangst må tillates i begrenset omfang, for å sikre bærekraftig ressursforvaltning og kystbefolkningens livsgrunnlag?

29 TV-debatt og representativ undersøkelse TV2-programmet Holmgang er et debattprogram som utfører undersøkelser basert på telefonavstemming blant TV-seere. Det blir stilt et spørsmål med to svaralternativ, og seere inviteres til å ringe inn sin mening. Representative undersøkelser utføres av mange seriøse firma, bla. Opinion A/S. Eksempel tatt fra Dimkos et al. (2004), Norsk Regnesentral 30 TV-debatt og representativ undersøkelse Spørsmål: Bør Norge stenge grensene for flyktninger? Ja Nei Holmgang 89.4% 10.6 % Opinion A/S 17% 83 %

31 Representativt utvalg? 32 Diskrete og kontinuerlige data Diskrete data: endelig (tellbart) antall mulige utfall. Eks: studieprogram, kjønn, karakter, skonummer. Kontinuerlige data: uendelig antall mulige utfall. Eks: mengde, volum, andel, blodtrykk, høyde. I sannsynlighetsteorien bruker vi ulike formeler avhengig av om vi jobber med diskret eller kontinuerlige data (summer vs. integral). Spesielt kapittel 3, 5 og 6.

33 Vise frem data: valg av akser Pris på handlekurv. Dyrest-billigst= 68 i 2002, mot 144 i 2006. Histogram fra Nettavisen. 34 TMA4240 H2009

35 Hvor er sentrum? DEF 1.1: Gjennomsnitt (mean): x = 1 n (x 1 + x 2 + x n ) = 1 n n i=1 x i 36 Hvor er sentrum? Median n odde: midterste observasjon, dvs. x = x (n+1)/2 n like: gjennomsnitt av de to midterste observasjonene, dvs. x = 1 2 (x n/2 + x n/2+1 )

37 Median vs gjennomsnitt Bor du i Stavanger, og har postnummer 4009 eller 4044? I så fall tilhører du til de rikeste strøkene i byen. Vi har sortert samtlige skattytere i Stavanger på postnummer, og plukket ut to kriterier for å måle rikdom: Medianinntekt og antall millionærer per 1000 skattytere. Dermed har vi ett mål på formue og ett på inntekt. Til slutt i saken har vi redegjort for hvorfor nettopp disse målene er valgt. Målekriteriene: Vi har valgt å unngå gjennomsnittstall for inntekt og formue fordi gjennomsnitt er et upresist mål når det finnes ekstreme utslag i tallmaterialet. Kilde: Stavanger Aftenblad, 16. oktober 2003 38 Median vs gjennomsnitt: Eksempel Ni personer tjener 200.000 kroner hver, mens den siste tjener 10 millioner kroner. Hva er den mest representative inntekten i utvalget? De fleste vil si 200.000 kroner fordi ni av ti tjener så mye. Men dersom man regner gjennomsnittsinntekten for de ti, blir denne nesten 1,2 millioner kroner fordi den ene rike drar snittet så kraftig opp. Medianinntekten, som forteller hva den midterste i utvalget tjener når alle er sortert fra rikest til fattigst, blir derimot 200.000 kroner. Skattelistene er kanskje det beste eksempelet på utvalg hvor det finnes ekstreme utslag. Noen få skattytere tjener svært mye i forhold til «røkla», eller har en skyhøy formue. Dette fører til urealistisk høye gjennomsnittstall for noen tilfeldig utvalgte postnummer. Kilde: Stavanger Aftenblad, 16.10.2003

39 Hvor mye varierer tallene? Rekkevidde av data: x (n) x (1), der x (i) sorterte data. DEF 1.2: Empirisk varians: s 2 = 1 n n 1 i=1 (x i x) 2 Gjennomsnittlig kvadratavvik til gjennomsnittet. Empirisk standardavvik s = (s 2 ) Samme måleenhet som originalobservasjonene. 40 TMA4240 H2009 Erstatt A med 1, B med 2,..., og E med 5. Gjennomsnitt: 27 1+40 2+158 3+93 4+81 5 3.4, dvs. C. 399 = 1358 399 = Median: av 399 observasjoner er nummer (399+1)/2=200 den midterste, og det er en av C-ene. Empirisk varians: 27 (1 3.4) 2 +40 (2 3.4) 2 +158 (3 3.4) 2 +93 (4 3.4) 2 +81 (5 3.4) 2 399 1 = 1.26 Empirisk standardavvik: 1.26 = 1.12.

41 Kapittel 2: Sannsynlighet 2.1, 2.2: Utfallsrom og hendelser [23.08.2010] 2.3, 2.4: Kombinatorikk og sannsynlighet [25.08.2010] 2.5, 2.6, 2.7: Regneregler, betinget sanns. [30.08.2010] 2.8: Bayes regel [30.08.2010]

43 Utfallsrom og hendelser DEF 2.1 Ufallsrom: mengden av alle mulige resultater (utfall) av et stokastisk forsøk. Notasjon S. DEF 2.2 Hendelse: delmengde av utfallsrommet. DEF 2.3 A =Komplementet til en hendelse A: (også brukt A, A c, A) alle utfall i S som ikke er i A. A = {e S / A}. DEF 2.4: (A B)=Snittet av to hendelser A og B: alle utfall som både er i A og i B. DEF 2.6: (A B)=Unionen av to hendelser A og B: alle utfall som er i A eller i B eller i begge. 44 Disjunkte hendelser (mutually exclusive) DEF 2.5: To hendelser A og B er disjunkte hvis snittet er tomt: A B=. Viktig egenskap når vi skal regne med sannsynligheter for hendelser (og ofte på eksamen skal man vise om to hendelser er disjunkte!)

45 Regneregler Kommutativ lov: A B = B A Assosiativ lov: (A B) C Distributiv lov: A (B C) = A (B C) = (A B) (A C) 46 De Morgans lov (A B) = A B (A B) = A B

47 Multihendelser La S være utfallsrom og A 1, A 2,..., A n S, n hendelser. Minst en hendelse: A 1 A 2 A n = n i=1 A i Alle hendelser: A 1 A 2 A n = n i=1 A i 48 Hva er de fargelagte områdene? 1... 2... 3... 4... 5... 6... 7... 8... 9...