Høgskolen i Gjøviks notatserie, 2001 nr 5



Like dokumenter
UNIVERSITETET I OSLO

MAT4010 PROSJEKTOPPGAVE: Statistikk i S2. Olai Sveine Johannessen, Vegar Klem Hafnor & Torstein Mellem

Kontinuerlige sannsynlighetsfordelinger.

Sannsynlighetsregning og Statistikk.

1 Section 7-2: Estimere populasjonsandelen. 2 Section 7-4: Estimere µ når σ er ukjent

Statistikk og dataanalyse

STK1000 Uke 36, Studentene forventes å lese Ch 1.4 ( ) i læreboka (MMC). Tetthetskurver. Eksempel: Drivstofforbruk hos 32 biler

Et lite notat om og rundt normalfordelingen. Anta at vi har kontinuerlige data. Hva er likt og ulikt for histogrammer og fordelingskurver?

Kapittel 4.4: Forventning og varians til stokastiske variable

TMA4240/TMA4245 Statistikk: Oppsummering kontinuerlige sannsynlighetsfordelinger

TMA4245 Statistikk Eksamen desember 2016

ST0202 Statistikk for samfunnsvitere Kapittel 6: Normalfordelingen

Formelsamling V-2014 MAT110. Statistikk 1. Per Kristian Rekdal

6.2 Normalfordeling. Høyde kvinner og menn. 6.1 Kontinuerlig uniform fordeling. Kapittel 6

Et lite notat om og rundt normalfordelingen.

Et lite notat om og rundt normalfordelingen.

TMA4240 Statistikk Høst 2016

EKSAMEN I TMA4245 Statistikk

Løsningsforslag ECON 2130 Obligatorisk semesteroppgave 2017 vår

Terningkast. Utfallsrommet S for et terningskast med en vanlig spillterning med 6 sider er veldefinert 1, 2, 3, 4, 5, 6

Oppgave 1: Feil på mobiltelefoner

Tabell 1: Beskrivende statistikker for dataene

Sted Gj.snitt Median St.avvik Varians Trondheim Værnes Oppdal

Statistikk 1. Nico Keilman. ECON 2130 Vår 2014

UNIVERSITETET I OSLO

Eksamensoppgave i SØK Statistikk for økonomer

Eksamensoppgave i TMA4240 Statistikk

ÅMA110 Sannsylighetsregning og statistikk Løsningsforslag til eksamen høst 2010, s. 1. Oppgave 1. Histogram over frekvenser.

Casio. Et oppdatert Casio Manual som tar av seg litt av faget MA-155. En basis guide for bruk av Casio. Denne manualen er skrevet av «EFN»

Sentralverdi av dataverdi i et utvalg Vi tenker oss et utvalg med datapar. I vårt eksempel har vi 5 datapar.

ST0202 Statistikk for samfunnsvitere Kapittel 9: Inferens om én populasjon

Løsningsforslag Til Statlab 5

STK1100 våren Kontinuerlige stokastiske variabler Forventning og varians Momentgenererende funksjoner

Oppfriskning av blokk 1 i TMA4240

TMA4245 Statistikk. Innlevering 3. Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag

TMA4245 Statistikk Høst 2016

Kort overblikk over kurset sålangt

Introduksjon til statistikk og dataanalyse. Arild Brandrud Næss TMA4240 Statistikk NTNU, høsten 2013

Lær å bruke GeoGebra 4.0

Innhold. Innledning. Del I

Utvalgsfordelinger. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer.

Seksjon 1.3 Tetthetskurver og normalfordelingen

Econ 2130 Forelesning uke 10 (HG) Geometrisk og normal fordeling

STK Oppsummering

Kapittel 12 Statistikk og sannsynlighetsregning

MASTER I IDRETTSVITENSKAP 2014/2016. Individuell skriftlig eksamen. STA 400- Statistikk. Fredag 13. mars 2015 kl

Høgskolen i Telemark. Institutt for økonomi og informatikk FORMELSAMLING Statistikk I. Til bruk ved eksamen. Per Chr. Hagen

Medisinsk statistikk Del I høsten 2008:

Statistikk, FO242N, AMMT, HiST 2. årskurs, 30. mai 2007 side 1 ( av 8) LØSNINGSFORSLAG HØGSKOLEN I SØR-TRØNDELAG

Kapittel 8: Tilfeldige utvalg, databeskrivelse og fordeling til observatorar, Kapittel 9: Estimering

Løsning eksamen desember 2016

Pilkast og kjikvadrat fordelingen

Seksjon 1.3 Tetthetskurver og normalfordelingen

EKSAMEN. Flexibel ingeniørutdanning, 2kl. Bygg.

> 6 7 ) = 1 Φ( 1) = = P (X < 7 X < 8) P (X < 8) < ) < ) = Φ(2) =

Innhold. Innledning. Del I

Sannsynlighet og statistikk

EKSAMEN. EMNEANSVARLIG: Terje Bokalrud og Hans Petter Hornæs. TILLATTE HJELPEMIDLER: Kalkulator og alle trykte og skrevne hjelpemidler.

Utvalgsfordelinger; utvalg, populasjon, grafiske metoder, X, S 2, t-fordeling, χ 2 -fordeling

Repeterbarhetskrav vs antall Trails

Kontinuerlige sannsynlighetsfordelinger.

Eksamensoppgave i TMA4240 Statistikk

Forelesning 3. april, 2017

Medisinsk statistikk Del I høsten 2009:

DEL 1 GRUNNLEGGENDE STATISTIKK

a ) Forventningen estimeres med gjennomsnittet: x = 1 12 (x x 12 ) = 1 ( ) = 8813/12 = 734.4

Første sett med obligatoriske oppgaver i STK1110 høsten 2015

1 Section 4-1: Introduksjon til sannsynlighet. 2 Section 4-2: Enkel sannsynlighetsregning. 3 Section 5-1: Introduksjon til sannsynlighetsfordelinger

ECON2130 Kommentarer til oblig

Geogebra hjelp - S2. Funksjonsanalyse. Innhold. Kommando. Funksjonsanalyse 1. Undersøke om dataene er normalfordelt 1.

ST0202 Statistikk for samfunnsvitere

HØGSKOLEN I STAVANGER

FORMELSAMLING TIL STK1100 OG STK1110

Eksamensoppgave i TMA4245 Statistikk

Repeterbarhetskrav vs antall Trails

Ekstreme bølger. Geir Storvik Matematisk institutt, Universitetet i Oslo. 5. mars 2014

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Løsning eksamen desember 2017

Eksamensoppgave i Løsningsskisse TMA4240 Statistikk

ST0202 Statistikk for samfunnsvitere

Regler i statistikk STAT 100

TMA4240 Statistikk Høst 2007

EKSAMEN. TILLATTE HJELPEMIDLER: Kalkulator. Hornæs: Formelsamling statistikk HiG. John Haugan: Formler og tabeller.

Fra første forelesning:

Statistisk beskrivelse av enkeltvariabler. SOS1120 Kvantitativ metode. Disposisjon. Datamatrisen. Forelesningsnotater 6. forelesning høsten 2005

ST1101/ST6101 Sannsynlighetsregning og statistikk Vår 2019

Page 1 EN DAG PÅ HELSESTASJONEN. Lises klassevenninnner. Formelen: Du har en hypotese om vanlig høyde

Eksamen i : STA-1002 Statistikk og. Eksamensdato : 26. september Sted : Administrasjonsbygget. Tillatte hjelpemidler : - Godkjent kalkulator

Dekkes av pensumsidene i kap. lesingsnotatene. Hypotesetesting er en systematisk fremgangsmåte

Kapittel 4.3: Tilfeldige/stokastiske variable

Denne uken: Kapittel 4.3 og 4.4

EKSAMEN. TILLATTE HJELPEMIDLER: Kalkulator. Hornæs: Formelsamling statistikk HiG. John Haugan: Formler og tabeller.

Løsningsforslag til obligatorisk innlevering 3.

Kapittel 3: Stokastiske variable og sannsynlighetsfordelinger

ÅMA110 Sannsynlighetsregning med statistikk, våren

TMA4240 Statistikk Eksamen desember 2015

Forslag til endringar

Q-Q plott. Insitutt for matematiske fag, NTNU 15. august Notat for TMA4240/TMA4245 Statistikk. Kvantiler fra sannsynlighetsfordeling

ting å gjøre å prøve å oppsummere informasjonen i Hva som er hensiktsmessig måter å beskrive dataene på en hensiktsmessig måte.

HØGSKOLEN I STAVANGER

Transkript:

Høgskolen i Gjøviks notatserie, 2001 nr 5 5 Java-applet s for faget Statistikk Tor Slind Avdeling for Teknologi Gjøvik 2001 ISSN 1501-3162

Sammendrag Dette notatet beskriver 5 JAVA-applets som demonstrerer noen grunnleggende metoder som brukes i faget Statistikk. De 5 programmene er tilgjengelig for studentene via fagets Internetthjemmeside. 6 andre JAVA-program er beskrevet tidligere ( Slind, T., 2000). Den som bruker programmmene kan lese inn sine egne data og beregningsvalg. Deretter vises resultatene i et grafisk vindu og som tallverdier. For hver applet er det en web-side med en brukerveiledning og en kort forklaring av hva som blir beregnet. Metodene som demonstreres er: Simulering : Sannsynlighet som grenseverdi for relativ frekvens(terningkast) Histogram: Simulering av data fra kontinuerlige fordelinger Minste kvadraters tilpasning for forskjellige r-verdier Simulering av sentralgrenseprinsippet Beregninger: Kvantiler beregnet fra innlest sannsynlighet. Forskj. fordelinger. 2

Innholdsfortegnelse Sammendrag... 2 Innholdsfortegnelse... 3 1. Innledning... 4 2. Statistiske metoder... 4 2.1 Tilfeldig fordelte tall... 4 2.2 Sannsynlighet som grenseverdi for relativ frekvens... 4 2.3 Histogram: Simulering av data fra kontinuerlige fordelinger... 4 2.4 Minste kvadraters metode: Sammenheng mellom r-verdi og linjene a+bx... 5 2.5 Simulering av sentralgrenseprinsippet... 5 2.6 Beregning av kvantiler.... 5 3. Programbeskrivelser... 6 3.1 Sannsynlighet som grenseverdi for relativ frekvens... 6 3.2 Histogram: Simulering av data fra kontinuerlige fordelinger... 6 3.3 Minste kvadraters metode: Sammenheng mellom r-verdi og linjene a+bx... 7 3.4 Simulering av sentralgrenseprinsippet... 7 3.5 Beregning av kvantiler.... 7 4. Eksempler på bruk av programmene... 8 4.1 Sannsynlighet som grenseverdi for relativ frekvens... 8 4.2 Histogram: Simulering av data fra kontinuerlige fordelinger... 8 4.3 Minste kvadraters metode: Sammenheng mellom r-verdi og linjene a+bx... 9 4.4 Simulering av sentralgrenseprinsippet... 10 4.5 Beregning av kvantiler.... 10 5. Referanser... 11 3

1. Innledning Det er laget 5 interaktive JAVA-applets som kan vises og brukes ved hjelp av nettlesere som Netscape, Opera eller Explorer via en html-fil. Programmene kan også startes direkte fra DOS-vinduet med programmet appletviewer. De 6 programmene kan i vårsemestret brukes via hjemmesiden til faget Statistikk ved HIG : http://www.hig.no/at/realfag/statistikk/stat_ing 2. Statistiske metoder De fem JAVA-programmene som beskrives i dette notatet er basert på en del enkle statistiske begreper og metoder ( Daly & al, 1995 ). Hensikten med programmene er å visualisere de statistiske begrepene ved at brukeren kan velge/lese inn noen parametre og at resultatet presenteres både grafisk og numerisk. Det er skrevet noen enkle matematiske funksjoner som ikke finnes i et standard JAVA matematikk-bibliotek ( Sun Microsystems, 2000). 2.1 Tilfeldig fordelte tall I programmene som simulerer forskjellige forsøk brukes tilfeldig fordelte tall som skal følge en bestemt statistisk sannsynlighetsfordeling f(x). For å generere en slik rekke av tall brukes den kumulative fordelingen F(x) sammen med en tilfeldig-tall-generator som gir uniformt fordelte tall. Denne metoden er beskrevet tidligere (Slind, T., 2000). 2.2 Sannsynlighet som grenseverdi for relativ frekvens Sannsynlighetsverdier må ofte bestemmes fra resultatene fra en forsøkserie med et stort antall enkeltforsøk. Programmet Freq_simul simulerer resultatet av en forsøksserie med terningkast. Brukeren velger antall kast. Fra forsøksserien telles fortløpende opp antall 6 ere, og en beregner den relative frekvensen av 6 ere. Dette vises i det grafiske vinduet, og en kan se hvordan den relative frekvensen endrer seg i løpet av forsøksserien. Vinduet viser også den teoretiske sannsynligheten 1/6. 2.3 Histogram: Simulering av data fra kontinuerlige fordelinger Selv om en har forsøksdata fra en kjent sannsynlighetsfordeling kan det være vanskelig å gjenkjenne denne fordelingen fra et histogram. Ved denne simuleringen kan brukeren velge fordeling og antall dataserier. Ver dataserier inneholder 25 verdier. Verdiene for de 10 første seriene vises på tallinjen sammen med middelverdi x og standardavvik s. I tillegg vises fordelingens forventningsverdi µ og standardavvik σ. Ved å øke antallet kan en se at histogrammet etter hvert nærmer seg den teoretiske sannsynlighetstettheten. En kan også velge å få tegnet opp den kumulative fordelingen. Brukeren kan velge mellom følgende fordelinger: Uniform fordeling Eksponentialfordelingen Normalfordelingen Weibullfordelingen Rayleighfordelingen χ 2 -fordelingen Fisherfordelingen 4

2.4 Minste kvadraters metode: Sammenheng mellom r-verdi og linjene a+bx Minste kvadraters metode brukes for å tilpasse en rett linje y = a + bx til et sett av måledata (Slind, T., 2000). Selv om en regner ut r-verdien får en i første omgang ikke noe inntrykk av hvordan spredningen av y-verdiene er knyttet til spredningen av rette linjer a + bx rundt den ukjente, feilfrie linjen Y = α + βx. I programmet Lsq_sim simuleres 5 datasett hvert på 25 x/ypar. Brukeren kan velge mellom 3 forskjellige r-verdier som brukes til å bestemme spredningen rundt den rette linjen Y = 5.0 + 0.5x. De simulerte datasettene presenteres grafisk i et spredningsdiagram sammen med de tilhørende 5 rette linjene og den feilfrie linjen 5.0 + 0.5x. 2.5 Simulering av sentralgrenseprinsippet Sentralgrenseprinsippet fører til at en hvis en har middelverdien av mer enn 25 måleverdier fra den samme fordelingen så vil middelverdiene være tilnærmet normalfordelt. Med programmet Sentral kan brukeren velge å simulere et stort antall måleserier hver på 25 måleverdier. Resultatet av simuleringen vises som 2 histogram og som 2 tetthetsgrafer. Det ene histogrammet viser alle de simulerte verdiene ( alle fra den samme valgte fordelingen), det andre histogrammet viser middelverdiene til hver måleserie. Sammen med det andre histogrammet vises også normalfordelingen. Brukeren kan velge mellom følgende fordelinger: Uniform fordeling Eksponentialfordelingen Normalfordelingen 2.6 Beregning av kvantiler. Når en skal estimere parametre i Normalfordelingen ut fra måleverdier brukes ofte intervallestimater. Ut fra en valgt sannsynlighet for at intervallet skal inneholde den sanne parameterverdien må en bestemme kvantil-verdier enten fra Normalfordelingen eller Students t- fordeling. En tilsvarende utregning må en gjøre ved hypotese-testing. Programmet Kvantil lar brukeren velge en fordeling og en sannsynlighet p. En kan velge mellom å få 1 kvantilverdi z fra den inverse av fordelingsfunksjonen p = F(z), eller 2 kvantilverdier når p er plassert i sentrum av fordelingen med sanns. (1-p)/2 i hver ende. Dette vises også grafisk. Brukeren kan velge mellom følgende fordelinger: Normalfordelingen Students t-fordeling χ 2 -fordelingen Fisherfordelingen 5

3. Programbeskrivelser Dette kapitlet gir en kort beskrivelse av programstrukturen og de forskjellige klassene og metodene. 3.1 Sannsynlighet som grenseverdi for relativ frekvens Klasser: Freq_simul (Applet) Metoder init() definerer vinduets utseende aktiv()- beregner relativ frekvens for 6 ere, kast med 1 terning actionperformed() leser inn # terningkast paint()- tegner grafisk vindu 3.2 Histogram: Simulering av data fra kontinuerlige fordelinger Klasser: Metoder Kont_ford init() definerer vinduets utseende (Applet) itemstatechanged()- leser inn valgt fordeling actionperformed() leser inn # forsøksserier run() finner middelverdier, std.avvik og histogram, beregner punkter på tetthetskurven f(x) kaller metoden hist og klassene Pkum, Stat og Tilfeldig_3p hist() sorterer innleste verdier til et histogram paint()- tegner grafisk vindu Pkum Simpson ny_p() - beregner sannsynligheter for noen kontinuerlige fordelinger kaller klassene Simpson og Gamma ny_f() - regner ut tetthetsverdier f(x) for noen kont. fordelinger kaller klassen Gamma flate_num()- numerisk beregning av arealet under en gitt funksjon Gamma g() - beregner Γ-funksjonen for n = 1,2,3,.. og m = 1/2, 3/2, 5/2,.. Stat Tilfeldig_3p gj_snitt() - beregner empirisk middelverdi std_avvik() - beregner empirisk standardavvik kaller metoden gj_snitt norm_z() - normaliserer data til en standard normalfordeling kaller metodene gj_snitt og std_avvik konf_int() - regner ut 95 % konf.intervall for N(µ, σ) med ukjent σ f_pros()- sorterer n tilfeldig tall som klassefrekvenser kaller metodene F_to_f_bin, F_to_f_dice, F_to_f_exp, F_to_f_uni og F_to_f_wei F_to_f_bin()- inverterer en fordelingsverdi F til en kvantil x q for den binomiske fordelingen F_to_f_dice()- inverterer en fordelingsverdi F til en kvantil x q for sanns.fordelingen til sum øyne/2 terningkast F_to_f_exp()- inverterer en fordelingsverdi F til en kvantil x q 6

for eksponentialfordelingen F_to_f_uni()- inverterer en fordelingsverdi F til en kvantil x q for den uniforme fordelingen F_to_f_wei()- inverterer en fordelingsverdi F til en kvantil x q for Weibullfordelingen med 3 parametre bin() beregner binomialkoeffisienter 3.3 Minste kvadraters metode: Sammenheng mellom r-verdi og linjene a+bx Klasser: Metoder Lsq_sim init() definerer vinduets utseende (Applet) aktiv()- genererer tilfeldige verdier, 5 datasett a 25 verdier Finner ligningen for 5 rette linjer vha. minstekvadraters metode kaller klassen Stat_2D actionperformed() leser inn valgt r-verdi paint()- tegner grafisk vindu Stat_2D gj_snitt() - beregner empirisk middelverdi std_avvik() finner summen av kvadrerte avvik kaller metoden gj_snitt lin_reg() beregner koeffisienter knyttet til minstekvadraters lineær kurvetilpasning kaller metodene gj_snitt konf_int2d() - regner ut std.avvik i y-retning og t-kvantiler for et 95 % konf.intervall kaller metoden lin_reg 3.4 Simulering av sentralgrenseprinsippet Klasser: Metoder Sentral init() definerer vinduets utseende (Applet) itemstatechanged()- leser inn valgt fordeling actionperformed() leser inn # forsøk run()- beregner tilfeldige tall fra riktig fordeling beregner middelverdier som sorteres i et histogram finner punkter på tetthetskurven kaller metoden hist og klassene Pkum, Stat og Tilfeldig hist() - sorterer innleste verdier til et histogram paint()- tegner grafisk vindu 3.5 Beregning av kvantiler. Klasser: Metoder Kvantil init() definerer vinduets utseende (Applet) itemstatechanged()- leser inn valgt fordeling actionperformed() leser inn fordelingsparametre og sannsynlighet sjekk på tillatte tall-verdier 7

z-frakt()- beregner kvantilen fra innlest sanns.verdi skriver ut resultater og beregner verdier for grafisk vindu alfa-frakt()- beregner øvre/nedre kvantil fra innlest sanns.verdi skriver ut resultater og beregner verdier for grafisk vindu paint()- tegner grafisk vindu 4. Eksempler på bruk av programmene Dette kapitlet viser eksempler på bruk av programmene i form av et sett med inngangs-data til programmet og resultatet slik det vises i det grafiske vinduet. For brukeren følger det med en web-side med brukerveiledning og en kort forklaring av beregningene. 4.1 Sannsynlighet som grenseverdi for relativ frekvens Velger å simulere 6000 terningkast. Relativ frekvens for 6 ere er vist i figuren. Etter hvert som antall kast øker vil den relative frekvensen nærme seg den teoretiske verdien 1/6. 4.2 Histogram: Simulering av data fra kontinuerlige fordelinger Det grafiske vinduet viser et histogram gitt av simulerte data fra 10000 måleserier. En har valgt en Weibullfordeling med forventningsverdi µ = 5 og standardavvik σ = 5. Den teoretiske tetthetsfunksjonen er tegnet opp sammen med histogrammet. Brukeren har også mulighet til å se den kumulative fordelingen sammen med et kumulativt histogram. 8

4.3 Minste kvadraters metode: Sammenheng mellom r-verdi og linjene a+bx Det grafiske bildet viser 5 datasett besert på r = 0.7 for spredningen rundt linjen Y= 5+0.5x. 9

4.4 Simulering av sentralgrenseprinsippet Her har en valgt 5000 måleserier der dataene er simulert fra en eksponentialfordeling. Det blå histogrammet viser dataene sammen med den teoretiske fordelingen. Det røde histogrammet viser middelverdiene for hver måleserie sammen med gausskurven. 4.5 Beregning av kvantiler. Ved bergning av kvantil-verdier har en valgt p = 0.95 for χ 2 -fordelingen med 15 frihetsgrader. Dessuten er det valgt å finne øvre og nedre kvantil nå de 95 % ene er plassert sentralt, mens de resterende 5 % er fordelt med 2.5 % i øvre og 2.5 % nedre ende. 10

5. Referanser Daly & al, 1995: "Elements of Statistics", Addison-Wesley Pub. Co.,1995, ISBN 0-201- 42278-6 Slind, T., 2000: Noen Java-applet s for faget Statistikk, Høgskolen i Gjøviks notatserie, 2000 nr. 2, ISSN 1501-3162 Sun Microsystems, 2000: JAVA 2 Platform (http://java.sun.com/j2se/ ) 11