TMA4240 Statistikk H2010 Introduksjon til TMA4240 Kapittel 1: Introduksjon til statistikk og dataanalyse Kapittel 2.1-2.2: Utfallsrom og hendelser Mette Langaas Foreleses mandag 23. august 2010 Hva er statistikk? Hvorfor må jeg lære statistikk? Faginformasjon TMA4240 Statistikk. Vi starter på pensum!
The true purpose of theology is to ascertain the nature of God. It is by the art of statistics that the laws in the social sphere can be ascertained and codified, and thereby certain aspects of the nature of God revealed. Thus, the study of statistics is a religious service.
5 Florence Nightingale (1820-1910) The lady with the lamp Pioner i sykerpleieryrket; sykepleieryrket fikk den status og respekt som det fortjente. Reformator av metoder for å bedre hygienen ved sykehusene, spesielt militærsykehusene. 6 Florence Nightingale og statistikk Florence Nightingale innførte og brukte aktivt nye teknikker for statistisk analyse. Utviklet "polar-area diagram" for å dramatisk vise de unødvendige dødsfallene på grunn av uhygieniske forhold ved militærsykehusene under Krim-krigen. Viste at sosiale fenomen kunne objektivt måles og analyseres med statististiske teknikker. Var innovator innenfor innsamling, tabulering, fortolkning og grafisk fremstilling av beskrivende statistikk! En velrennomert pioner innen statistisk analyse.
Men, HVA er statistikk? 8 Fra lærerplanen i matematikk (grunnskolen) I kombinatorikk arbeider en med systematiske måter å finne tall på, og det er ofte nødvendig å kunne beregne sannsynligheter. I sannsynlighetsregning tallfester en hvor stor sjanse det er for at en hendelse skal skje. Statistikk omfatter å planlegge, samle inn, organisere, analysere og presentere data. I analysen av data hører det med å beskrive generelle trekk ved datamaterialet. Å vurdere og se kritisk på konklusjoner og fremstilling av data er sentralt i statistikk.
9 Pulsmåling Lege måler pulsen til en pasient og finner at den er 72 slag i minuttet. Er dette er sikker måling? Er pulsen en konstant størrelse? Gjentas måling av pulsen vil vi da få 72? 10 Pulsmåling Iboende i alle fenomener og prosesser finner vi variasjon og usikkerhet. Verden er ikke deterministisk. Pulsmålingen: Hvordan har målingen skjedd? Hvor lenge har legen talt? Har legen talt galt? Er pasienten nervøs ifb. besøket, og derfor har høyere puls enn vanlig? Har pasienten akkurat gått opp en trapp og dermed fått økt puls? Pulsen varierer over tid - og tallet 72 kan være et usikkert uttrykk for hvilken puls pasienten har til vanlig.
11 Variasjon og usikkerhet og beslutninger Statistikk er et verktøy som kan benyttes til å forstå og analysere variasjon og usikkerhet i data. "Years ago a statistician might have claimed that statistics deals with the processing of data. Today s statistician will be more likely to say that statistics is concerned with decision making in the face of uncertainty." Chernoff & Moses (1959). 12 TMA4240/TMA4245 Statistikk Beskrivende Sannsynlighetsteori Statistisk inferens statistikk Kapittel 1 Kapittel 2-7 Kapittel 8-11 Presentere og Matematisk regning Estimere, teste, beskrive data i tall, med sannsynlighet predikere, basert på tabeller og figurer. og fordelinger. data under usikkerhet.
13 Noen spørsmål som statistikere ved NTNU har jobbet med Hvilke gener er aktive i en kreftsvulst? Hva er det mest gunstige kostholdet for kroppen? Vi vet bare at antall dyrearter på jorda ligger et sted mellom 15 og 50 millioner. Hvordan kan vi vite det? Om det blir varslet 5mm regn, hvor sannsynlig er det at det kommer 10mm? Hvordan forklare kriminalitet og uro i Kambodsja? Hva fremmer læring hos matematikkstudenter? Kommer vi til å tjene nok penger til å rettferdigjøre borring av denne 1.000.000.000 kroner oljebrønnen? Hvordan lage modeller for aksjekurser? Hvordan kan en best stille inn prosessparametre for produksjon av papir? Hvorfor må DU lære statistikk?
15 TDT4120 Algoritmer og datastrukturer Hvordan regner man ut forventet kjøretid av sorteringsalgoritmen Quicksort? Når man skal sammenligne kjøretiden til ulike programmer, er det da aritmetisk middel av målinger av kjøretid, eller geometrisk middel man bør bruke? Hva er viktige faktorer for kjøretid (eller et annet kvalitetsmål) for et program? Hvordan kan man bestemme om et program er signifikant bedre enn et annet? 16 New York Times, August 2009
In God we trust; all others must bring data. W. Edwards Deming, US statistician.
19 Faginformasjon TMA4240 høsten 2010 MTDT, MTKOM, MTIØT, BFY, MLREAL WWW-side: http://wiki.math.ntnu.no/tma4240/2010h/start og velg riktig parallell Faglærer: Mette Langaas, rom 1236, 12.etg., sentralbygg II. Epost: Mette.Langaas@math.ntnu.no, tlf. 73 59 16 97. Øvingslærer: Erlend Aune, rom 1026, 10.etg, sentralbygg II. Epost: erlenda@math.ntnu.no, tlf. 73 593151 Referansegruppe: En representant (eller flere) fra hver av studieprogrammene danner en referansegruppe som evaluerer og diskuterer suksessen av forelesninger, øvinger etc. i faget (2 eller flere møter i semestret.) 20 Faginformasjon TMA4240 høsten 2010 Forelesninger: Mandag 8.15-10.00 i S8 og onsdag 08.15-10.00 i EL5 (men flyttet til S2 i uke 37=15.09 og 39=29.09). Lysark/Notatskjelett: Forelesningene er bygget på bruk av lysark og tavle. Lysark i pdf-format vil være tilgjengelig fra fagets WWW-side senest dagen før forelesningen. Tavleøvinger: Fredag 15.15-17.00 i R1 (sammen med den andre parallellen i faget). Øving i smågrupper: Se www-sidene under Øvinger.
21 Pensum og fremdrift Lærebok: "Probability and Statistics for Engineers and Scientists" (Walpole, Myers, Myers and Ye), 8. utg., Prentice Hall. (7th edition kan også brukes, se WWW-side for pensum.) Pensum : Walpole, Myers, Myers & Ye, 8. utg. Kap 1-5: Hele Kap 6: Hele unntatt (6.9, 6.10). Kap 7: Hele unntatt s 216-218. Kap 8: Hele unntatt 8.8 Kap 9: Hele unntatt (9.7, 9.13). Kap 10: 10.1-10.12, 10.13 (til s 368) Kap 11: 11.1-11.6, 11.12 (til s 436) Notatet: "Ordningsvariabler og ekstremvariabler". Øvingene er pensum. Fremdriftsplan: oppdateres kontinuerlig på WWW-sidene. 22 Øvingsopplegget Øvingene er obligatoriske. Oppgavene tas i hovedsak fra Læreboka (Walpole, Myers, Myers & Ye). Tidligere eksamensoppgaver. Formelsamling: "Tabeller og formler i statistikk" (Inst. for matematiske fag), 2. utgave, Tapir. Adgang til eksamen er betinget av at du har fått godkjent minst 4 av de første 6 øvingene og 4 av de siste 6 øvingene. Øvingsopplegget består av: Veiledning av stud.ass. i smågrupper. Oppstart uke 35/36. Innlevering (senest kl. 14 dagen etter veiledning) for retting og godkjenning, sentralblokk 2, lavblokk nord i anviste hyller.
23 Eksamen Avsluttende skriftelig eksamen, lørdag 18.desember 2010, 9.00-13.00. Teller 100% av karakteren i faget. Tillatte hjelpemidler: Gult A5 ark med egne håndskrevne notater (stemplet av Institutt for matematiske fag), Bestemt enkel kalkulator, dvs. CitizenSR-270X eller HP30C Tabeller og formler i statistikk (Tapir). K. Rottman: Matematisk formelsamling. Hvorfor gult ark? Organisering av kunnskap, sammendrag. Personlig formelsamling. Trygghet, forståelse fremfor pugg. God erfaring i andre fag. 24 Tilleggslitteratur Larry Gonick and Wolcott Smith: The Cartoon Guide to Statistics er en tegneserie-innføring i statistikk, som et morsomt supplement til læreboka. Finner du læreboka for overfladisk og ikke på ønsket detaljnivå, kan vi anbefale boka: Larsen & Marx: An Introduction to Mathematical Statistics and Its Applications. Finner du læreboka for vanskelig kan vi anbefaler: G. G. Løvås (2004), Statistikk for universiteter og høgskoler, Universitetsforlaget, 2.utgave. Alle bøkene under kan kjøpes på Tapir, eventuelt bestilles dersom de er utsolgt. Pensum er definert utifra Walpole, Myers, Myers & Ye.
25 Eksempler og data i faget Fra studieprogrammene: Samarbeid med studieansvarlig ved programmene. Studenter: kom med problemstilling og data fra fagene dere har/har hatt! Om dere: Spørreundersøkelse med peker fra fagets WWW-side. Svar så raskt som mulig! R: vi vil bruke statistikkpakken R til eksempler i forelesningene. Den er gratis og kan lastes ned fra http://cran.r-project.org/ - men det er bare hvis du har lyst (ikke påkrevd). Syntax ligner endel på matlab. Det er IKKE krav at du må kunne bruke R, Matlab, Excel eller annet til statistiske beregninger i dette faget, men det kan være at du lærer noe av det? 26 Kapittel 1: Introduksjon til statistikk og dataanalyse Datainnsamling. Datatyper: diskrete og kontinuerlige. Presentasjon av data (graf og tabell) Hvor er data sentrert? Hvor mye varierer data?
27 Statistikk i hverdagen Daglig rapporteres interessante funn i pressen. Tenk på: har observatøren påvirket målingene? er utvalget stort nok? er utvalget representativt for den gruppen konklusjoner trekkes? har målingene pågått lenge nok? trekkes konklusjoner for langt? 28 Spørsmålet Er du enig i at hvalfangst, drapet på verdens største, utryddingstruede pattedyr, må forbys snarest mulig? Er du enig i at hvalfangst må tillates i begrenset omfang, for å sikre bærekraftig ressursforvaltning og kystbefolkningens livsgrunnlag?
29 TV-debatt og representativ undersøkelse TV2-programmet Holmgang er et debattprogram som utfører undersøkelser basert på telefonavstemming blant TV-seere. Det blir stilt et spørsmål med to svaralternativ, og seere inviteres til å ringe inn sin mening. Representative undersøkelser utføres av mange seriøse firma, bla. Opinion A/S. Eksempel tatt fra Dimkos et al. (2004), Norsk Regnesentral 30 TV-debatt og representativ undersøkelse Spørsmål: Bør Norge stenge grensene for flyktninger? Ja Nei Holmgang 89.4% 10.6 % Opinion A/S 17% 83 %
31 Representativt utvalg? 32 Diskrete og kontinuerlige data Diskrete data: endelig (tellbart) antall mulige utfall. Eks: studieprogram, kjønn, karakter, skonummer. Kontinuerlige data: uendelig antall mulige utfall. Eks: mengde, volum, andel, blodtrykk, høyde. I sannsynlighetsteorien bruker vi ulike formeler avhengig av om vi jobber med diskret eller kontinuerlige data (summer vs. integral). Spesielt kapittel 3, 5 og 6.
33 Vise frem data: valg av akser Pris på handlekurv. Dyrest-billigst= 68 i 2002, mot 144 i 2006. Histogram fra Nettavisen. 34 TMA4240 H2009
35 Hvor er sentrum? DEF 1.1: Gjennomsnitt (mean): x = 1 n (x 1 + x 2 + x n ) = 1 n n i=1 x i 36 Hvor er sentrum? Median n odde: midterste observasjon, dvs. x = x (n+1)/2 n like: gjennomsnitt av de to midterste observasjonene, dvs. x = 1 2 (x n/2 + x n/2+1 )
37 Median vs gjennomsnitt Bor du i Stavanger, og har postnummer 4009 eller 4044? I så fall tilhører du til de rikeste strøkene i byen. Vi har sortert samtlige skattytere i Stavanger på postnummer, og plukket ut to kriterier for å måle rikdom: Medianinntekt og antall millionærer per 1000 skattytere. Dermed har vi ett mål på formue og ett på inntekt. Til slutt i saken har vi redegjort for hvorfor nettopp disse målene er valgt. Målekriteriene: Vi har valgt å unngå gjennomsnittstall for inntekt og formue fordi gjennomsnitt er et upresist mål når det finnes ekstreme utslag i tallmaterialet. Kilde: Stavanger Aftenblad, 16. oktober 2003 38 Median vs gjennomsnitt: Eksempel Ni personer tjener 200.000 kroner hver, mens den siste tjener 10 millioner kroner. Hva er den mest representative inntekten i utvalget? De fleste vil si 200.000 kroner fordi ni av ti tjener så mye. Men dersom man regner gjennomsnittsinntekten for de ti, blir denne nesten 1,2 millioner kroner fordi den ene rike drar snittet så kraftig opp. Medianinntekten, som forteller hva den midterste i utvalget tjener når alle er sortert fra rikest til fattigst, blir derimot 200.000 kroner. Skattelistene er kanskje det beste eksempelet på utvalg hvor det finnes ekstreme utslag. Noen få skattytere tjener svært mye i forhold til «røkla», eller har en skyhøy formue. Dette fører til urealistisk høye gjennomsnittstall for noen tilfeldig utvalgte postnummer. Kilde: Stavanger Aftenblad, 16.10.2003
39 Hvor mye varierer tallene? Rekkevidde av data: x (n) x (1), der x (i) sorterte data. DEF 1.2: Empirisk varians: s 2 = 1 n n 1 i=1 (x i x) 2 Gjennomsnittlig kvadratavvik til gjennomsnittet. Empirisk standardavvik s = (s 2 ) Samme måleenhet som originalobservasjonene. 40 TMA4240 H2009 Erstatt A med 1, B med 2,..., og E med 5. Gjennomsnitt: 27 1+40 2+158 3+93 4+81 5 3.4, dvs. C. 399 = 1358 399 = Median: av 399 observasjoner er nummer (399+1)/2=200 den midterste, og det er en av C-ene. Empirisk varians: 27 (1 3.4) 2 +40 (2 3.4) 2 +158 (3 3.4) 2 +93 (4 3.4) 2 +81 (5 3.4) 2 399 1 = 1.26 Empirisk standardavvik: 1.26 = 1.12.
41 Kapittel 2: Sannsynlighet 2.1, 2.2: Utfallsrom og hendelser [23.08.2010] 2.3, 2.4: Kombinatorikk og sannsynlighet [25.08.2010] 2.5, 2.6, 2.7: Regneregler, betinget sanns. [30.08.2010] 2.8: Bayes regel [30.08.2010]
43 Utfallsrom og hendelser DEF 2.1 Ufallsrom: mengden av alle mulige resultater (utfall) av et stokastisk forsøk. Notasjon S. DEF 2.2 Hendelse: delmengde av utfallsrommet. DEF 2.3 A =Komplementet til en hendelse A: (også brukt A, A c, A) alle utfall i S som ikke er i A. A = {e S / A}. DEF 2.4: (A B)=Snittet av to hendelser A og B: alle utfall som både er i A og i B. DEF 2.6: (A B)=Unionen av to hendelser A og B: alle utfall som er i A eller i B eller i begge. 44 Disjunkte hendelser (mutually exclusive) DEF 2.5: To hendelser A og B er disjunkte hvis snittet er tomt: A B=. Viktig egenskap når vi skal regne med sannsynligheter for hendelser (og ofte på eksamen skal man vise om to hendelser er disjunkte!)
45 Regneregler Kommutativ lov: A B = B A Assosiativ lov: (A B) C Distributiv lov: A (B C) = A (B C) = (A B) (A C) 46 De Morgans lov (A B) = A B (A B) = A B
47 Multihendelser La S være utfallsrom og A 1, A 2,..., A n S, n hendelser. Minst en hendelse: A 1 A 2 A n = n i=1 A i Alle hendelser: A 1 A 2 A n = n i=1 A i 48 Hva er de fargelagte områdene? 1... 2... 3... 4... 5... 6... 7... 8... 9...