Weibullfordelingen. Kjetil L. Nielsen. Innhold. 1 Teori. 1.1 Tetthetsfunksjon og fordelingsfunksjon

Like dokumenter
TMA4240 Statistikk Høst 2016

Løsningsforslag til andre sett med obligatoriske oppgaver i STK1110 høsten 2010

TMA4240 Statistikk Høst 2009

TMA4245 Statistikk Eksamen desember 2016

Løsning eksamen desember 2016

TMA4240 Statistikk 2014

Introduksjon til statistikk og dataanalyse. Arild Brandrud Næss TMA4240 Statistikk NTNU, høsten 2013

Siden vi her har brukt første momentet i fordelingen (EX = EX 1 ) til å konstruere estimatoren kalles denne metoden for momentmetoden.

UNIVERSITETET I OSLO

Gammafordelingen og χ 2 -fordelingen

Eksamensoppgave i ST0103 Brukerkurs i statistikk

MOT310 Statistiske metoder 1, høsten 2011 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 1. n + (x 0 x) 1 2 ) = 1 γ

TMA4240 Statistikk H2010

L12-Dataanalyse. Introduksjon. Nelson Aalen plott. Page 76 of Introduksjon til dataanalyse. Levetider og sensurerte tider

TMA4240 Statistikk Høst 2016

Statistisk inferens: 9.14: Sannsynlighetsmaksimeringsestimatoren 8.5: Fordeling til gjennomsnittet 9.4: Konfidensintervall for µ (σ kjent)

år i alder x i tid y i i=1 (x i x) 2 = 60, 9

TMA4240 Statistikk H2010

Snøtetthet. Institutt for matematiske fag, NTNU 15. august Notat for TMA4240/TMA4245 Statistikk

n n i=1 x2 i n x2 n i=1 Y i og x = 1 n i=1 (x i x)y i = 5942 og n T = i=1 (x i x) 2 t n 2

Kapittel 8: Tilfeldige utvalg, databeskrivelse og fordeling til observatorar, Kapittel 9: Estimering

Høgskolen i Telemark. Institutt for økonomi og informatikk FORMELSAMLING Statistikk I. Til bruk ved eksamen. Per Chr. Hagen

Gruvedrift. Institutt for matematiske fag, NTNU. Notat for TMA4240/TMA4245 Statistikk

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 σ2

EKSAMEN I FAG TMA4275 LEVETIDSANALYSE Xxxdag xx. juni 2008 Tid: 09:0013:00

TMA4240 Statistikk Høst 2015

Kontinuerlige sannsynlighetsfordelinger.

ÅMA110 Sannsylighetsregning og statistikk Løsningsforslag til eksamen høst 2010, s. 1. Oppgave 1. Histogram over frekvenser.

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 3

TMA4240 Statistikk Eksamen desember 2015

Eksamensoppgave i TMA4240 Statistikk

Eksamensoppgave i TMA4275 Levetidsanalyse

UNIVERSITETET I OSLO

TMA4240 Statistikk H2010

Utfordring. TMA4240 Statistikk H2010. Mette Langaas. Foreleses uke 40, 2010

UNIVERSITETET I OSLO Matematisk Institutt

HØGSKOLEN I STAVANGER

EKSAMEN I TMA4245 STATISTIKK Tysdag 21. mai 2013 Tid: 09:00 13:00 (Korrigert )

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.

TMA4240 Statistikk Høst 2018

(Det tas forbehold om feil i løsningsforslaget.) Oppgave 1

Kapittel 2: Hendelser

TMA4240 Statistikk H2017 [15]

MOT 310 Statistiske metoder 1 Løsningsforslag til eksamen høst 2006, s. 1. Oppgave 1

TMA4240 Statistikk Høst 2009

Eksamensoppgave i ST0103 Brukerkurs i statistikk

TMA4245 Statistikk Eksamen desember 2016

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

TMA4240 Statistikk Høst 2015

Oppgave 1. . Vi baserer oss på at p 47 1 og p 2 er tilnærmet normalfordelte (brukbar tilnærming). Vi har tilnærmet at (n 1 = n 2 = 47)

Eksamensoppgave i TMA4267 Lineære statistiske modeller

Et lite notat om og rundt normalfordelingen.

Eksamensoppgave i Løsningsskisse TMA4240 Statistikk

Løsningsforslag Eksamen S2, våren 2017 Laget av Tommy O. Sist oppdatert: 25. mai 2017

Løsningsforslag ECON 2130 Obligatorisk semesteroppgave 2017 vår

EKSAMEN I FAG TMA4275 LEVETIDSANALYSE Lørdag 4. juni 2005 Tid: 09:00 13:00

UNIVERSITETET I OSLO

Medisinsk statistikk Del I høsten 2009:

Et lite notat om og rundt normalfordelingen.

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

for x 0 F X (x) = 0 ellers Figur 1: Parallellsystem med to komponenter Figur 2: Seriesystem med n komponenter

Et lite notat om og rundt normalfordelingen. Anta at vi har kontinuerlige data. Hva er likt og ulikt for histogrammer og fordelingskurver?

STK1000 Uke 36, Studentene forventes å lese Ch 1.4 ( ) i læreboka (MMC). Tetthetskurver. Eksempel: Drivstofforbruk hos 32 biler

Statistikk og dataanalyse

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 3

10.1 Enkel lineær regresjon Multippel regresjon

Kort overblikk over kurset sålangt

Forelesning 5: Kontinuerlige fordelinger, normalfordelingen. Jo Thori Lind

Ridge regresjon og lasso notat til STK2120

Utvalgsfordelinger (Kapittel 5)

Eksamensoppgåve i ST0103 Brukarkurs i statistikk

DEL 1 GRUNNLEGGENDE STATISTIKK

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

Løsningsforslag. n X. n X 1 i=1 (X i X) 2 og SY 2 = 1 ny S 2 X + S2 Y

Inferens i regresjon

Eksamensoppgave i TMA4275 Levetidsanalyse

i x i

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

Løsning eksamen desember 2017

TMA4240 Statistikk Høst 2008

TMA4240 Statistikk Høst 2012

Om eksamen. Never, never, never give up!

Kontinuerlige sannsynlighetsfordelinger.

Kandidatene 4507, 4542, 4545 og 4569 har meget gode besvarelser supert!

ST0202 Statistikk for samfunnsvitere

Om eksamen. Never, never, never give up!

STK1100 våren Kontinuerlige stokastiske variabler Forventning og varians Momentgenererende funksjoner

Fasit for tilleggsoppgaver

EKSAMEN Løsningsforslag

Q-Q plott. Insitutt for matematiske fag, NTNU 15. august Notat for TMA4240/TMA4245 Statistikk. Kvantiler fra sannsynlighetsfordeling

LØSNING: Eksamen 22. mai 2018

Løsningsforslag statistikkeksamen desember 2014

OPPGAVESETTET BESTÅR AV 3 OPPGAVER PÅ 6 SIDER MERKNADER: Alle deloppgaver vektlegges likt.

TMA4240 Statistikk Høst 2016

Oppgave 1. Vi må forutsette at dataene kommer fra uavhengige og normalfordelte tilfeldige variable,

EKSAMEN I FAG TMA4275 LEVETIDSANALYSE

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

TMA4240 Statistikk Eksamen desember 2015

Løsningsforslag Eksamen i Statistikk SIF5060 Aug 2002

Oppfriskning av blokk 1 i TMA4240

Transkript:

Weibullfordelingen Kjetil L. Nielsen Innhold Teori......................................... Tetthetsfunksjon og fordelingsfunksjon......................2 Parameterene i Weibullfordelingen....................... 3.3 Forventning og varians.............................. 4.4 Utvidet Weibullfordeling............................. 6.5 Weibull-plott................................... 7.5. Godhetsmål for lineær regresjon.................... 8 2 Oppgaver..................................... 9 3 Fasit........................................ Teori Weibullfordelingen er en kontinuerlig sannsynlighetsfordeling som er kanskje best kjent for sine bruksområder i industrien, blant annet for å beregne levetiden til industrielle komponenter [, 2]. Den brukes også, blant annet, innenfor væranalyse for å beregne vindhastigheter og bølgehøyde [3]. Weibullfordelingen har to paramtere: β, som også kalles formfaktoren, og η, som også kalles skaleringsfaktor. Eksponensialfordelingen er et spesialtilfelle av Weibullfordelingen med β = og η = /α. Dersom en stokastisk variabel T kan beskrives ved Weibullfordelingen, skriver vi T W(β, η).. Tetthetsfunksjon og fordelingsfunksjon Tetthetsfunksjonen for Weibullfordelingen er gitt ved Tetthetsfunksjon for Weibullfordelingen f(t) = β η β tβ e (t/η)β t, () For t < definerer vi f(t) =.

Teori 2 Vi finner fordelingsfunksjonen ved å integrere: F (t) = P (T t) = t f(u)du = t β η β uβ e (u/η)β du Ved å gjøre substitusjonen w = (u/η) β får vi dw = β η β u β du og t β η β uβ e (u/η)β du = e w dw = [ e w ] w = [ e (u/η)β] t w Setter vi inn grensene, ender vi opp med følgende fordelingsfunsjon: Fordelingsfunksjon for Weibullfordelingen F (t) = e (t/η)β t (2) Eksempel Anta at bølgehøyden, B, rundt en oljeplatform (målt i meter) kan beskrives ved en Weibullfordeling med parametere β =.5 og η = 2.5. Finn sannsynligheten for at en tilfeldig bølge vil ha en høyde på a) mer enn 2. m. b) mellom. og 3. m. Løsning: Vi har at B W(.5, 2.5). a) P (B > 2.) = P (B 2.) = F (2.) = ( e (2./2.5).5 ).4889 b) P (. < B < 3.) = P (B < 3.) P (B.) kont. = P (B 3.) P (B.) = F (3.) F (.) = e (3./2.5).5 ( e (./2.5).5 ).579

Teori 3.2 Parameterene i Weibullfordelingen Figur og 2 viser hvordan formparameteren, β, og skalaparameteren, η, påvirker tetthetsfunksjonen til Weibullfordelingen. Som navnet tilsier, har β en sterk påvirkning på selve karakteristikken til formen av kurven. For < β < vil kurven avta monotont mot null, samt ha en asymptote ved t =. For β > har vi f() = og kurven har en mer bjelleaktig form med et toppunkt. Når β = har vi i praksis eksponensiellfordelingen (se figur ). Kurven starter da i f() =. f(t).4.2.8.6.4.2 β =.5 β = 2 β = Weibullfordelinger med η =.5.5 2 2.5 t Fig. : Tetthetsfunksjonen til Weibullfordelingen for ulike verdier av β. 2 η =.5 Weibullfordelinger med β = 3 f(t).5.5 η = η =.5.5.5 2 2.5 t Fig. 2: Tetthetsfunksjonen til Weibullfordelingen for ulike verdier av η. Skaleringsfaktoren, η, påvirker kurven ved en utstrekking langs t-aksen. Ved større verdier for η, blir kurven bredere og lavere (se figur 2). I levetidsanalyse for komponenter, kalles η ofte den karakteristiske levetiden []. Dersom vi setter t = η, får vi F (η) = e (η/η)β = e.632 Med andre ord, etter en tid t = η har ca. 63% av komponentene sviktet.

Teori 4 Når man ser på kurven til tetthetsfunksjonen etterhvert som β øker i figur i tillegg til å se på hvordan kurven ser ut når β = 3 (figur 2), så ser det ut som at kurven blir mer og mer lik tetthetsfunksjonen til en normalfordeling. Fortsetter vi å øke verdien for β vil likheten med normalfordelingen etterhvert minke da kurven går fra å være høyretung, alstå at kurven har en lengre hale mot venstre, (se kurven β = 2 i figur ) til å bli venstretung (hale mot høyre). Når 2.6 < β < 3.7 vil kurven være tilnærmet symmetrisk og Weibullfordelingen er tilnærmet lik normalfordelingen [4]..3 Forventning og varians La T være en stokastisk variabel gitt ved T W(β, η). Vi finner forventingsverdien til T ved å ta utgangspunkt i definisjonen av forventingsverdi for en kontinuerlig variabel: µ = t f(t)dt = t β η β tβ e (t/η)β dt = Dersom vi gjør substitusjonen u = (t/η) β, får vi µ = η u /β e u du β η β tβ e (t/η)β dt Vi kan gjøre dette uttrykket mer kompakt ved å bruke gammafunksjonen som for z er definert ved Dersom vi setter z = + β, får vi Γ(z) = Forventingsverdi for Weibullmodell t (z ) e t dt µ = η Γ( + β ) (3) Dersom z er et heltall, vil gammafunksjonen ta formen Γ(z) = (z )! z =, 2, 3,... noe som gjør utregningene mye enklere. Dersom z ikke er et heltall, finner vi verdien av gammafunksjonen fra tabeller (se formelheftet). Vi finner også variansen til T utifra definisjonen: σ 2 = (t µ) 2 f(t)dt

Teori 5 Dersom vi bruker at Var(T ) = E(T 2 ) µ 2, får vi σ 2 = t 2 f(t)dt µ 2 = Vi gjør substitusjonen u = (t/η) β og får t 2 β η β tβ e (t/η)β dt (η Γ( + β ) 2 ) σ 2 = η 2 u 2/β e u du (η Γ( + β ) 2 ) [ = η 2 u 2/β e u dt Γ( + ] β )2 Dersom vi bruker gammafunksjonen med z = + 2 β, får vi Varians for Weibullmodell σ 2 = η 2 ( Γ( + 2 β ) Γ( + β )2 ) (4) Eksempel 2 Anta at vi har to stokastiske variable T W(, η) og T 2 exp(α). Siden T 2 følger eksponensialfordelingen, har vi E(T 2 ) = /α og Var(T 2 ) = /α 2. Ta utgangspunkt i E(T ) og Var(T ), og vis at E(T ) = E(T 2 ) og Var(T ) = Var(T 2 ). Løsning: Vi fant tidligere at µ = η Γ( + β ) σ 2 = η 2 ( Γ( + 2 β ) Γ( + β )2 ) Siden T W(β =, η), setter vi β = og får E(T ) = η Γ( + ) = η Γ(2) = η (2 )! = η Dersom vi setter η = /α, får vi at E(T ) = E(T 2 ).

Teori 6 Vi setter så β = for variansen og får Var(T ) = η 2 ( Γ( + 2 ) Γ( + )2 ) = η 2 ( Γ(3) Γ(2) 2) = η 2 ( (3 )! [(2 )!] 2) = η 2 (2 ) = η 2 Igjen, dersom vi setter η = /α, får vi at Var(T ) = Var(T 2 ). Dette er ikke et overraskende resultat siden vi innledningsvis poengterte at eksponensialfordelingen er et spesialtilfelle av Weibullfordelingen med η = /α..4 Utvidet Weibullfordeling Det finnes også en utvidet Weibullfordeling som inkluderer en tredje parameter γ. Vi skriver da T W(β, η, γ). Tetthetsfunksjonen for den utvidede Weibullfordelingen er: Tetthetsfunksjon for utvidet Weibullfordeling f(t) = β η β (t γ)β e ((t γ)/η)β t γ (5) Legg merke til at tetthetsfunksjonen nå starter på t = γ. Dersom vi velger γ = ender vi opp med den tradisjonelle Weibullfordelingen. Siden γ angir hvor fordelingen starter, kaller vi γ for lokasjonsparameteren..8 γ = γ = Weibullfordelinger med β = 2, η =.6 f(t).4.2.5.5 2 2.5 3 3.5 t Fig. 3: Tetthetsfunksjonen til Weibullfordelingen for ulike verdier av γ.

Teori 7.5 Weibull-plott Weibull-plott er en metode for å undersøke om et datasett følger en toparameters Weibullfordeling (γ = ). Vi kan også bruke metoden til å estimere parameterene β og η. Metoden går ut på å skrive om fordelingsfunksjonen F (t) slik at vi ender opp med en lineær funksjon på formen y = mx + b. Har vi et dataset, kan vi dermed gjøre en lineær regresjon for å sjekke hvor godt datasettet passer til denne rette linjen. Dersom datasettet passer til den rette linjen, kan vi konkludere med at fenomentet vi undersøker følger en Weibullfordeling. Vi starter med fordelingsfunksjonen: Vi tar så logaritmen på begge sider og får F (t) = e (t/η)β F (t) = e (t/η)β ln ( F (t)) = (t/η) β ln F (t) = (t/η)β Vi tar logaritmen på begge sider enda en gang og får ln ln = β ln(t) β ln(η) F (t) Dersom vi skriver y = ln ln F (t), x = ln(t) og b = β ln(η), får vi y = βx + b som er likningen for en rett linje med β som stigningstall. Dersom vi plotter ln ln F (t) mot ln(t) for et dataset og ser at grafen blir en tilnærmet rett linje, kan vi konkludere med at fenomentet følger en Weibullfordeling. Det er likevel en liten hake. Det er lett å regne ut ln(t), men for å regne ut ln ln F (t), trenger vi F (t). For å estimere F (t) fra et dataset, kan vi bruke Bernards approksimasjon [5]. Anta at vi ser på n industrielle komponenter. La t i være tiden det tok før komponent nr. i sviktet, hvor vi har sortert komponentene slik at i = er den første komponenten som sviktet, i = 2 den andre komponenten som sviktet osv. Bernards approksimasjon sier da at F (t i ) = i.3 n +.4

Teori 8.5. Godhetsmål for lineær regresjon Ved å utføre en lineær regresjon, kan man finne en rett linke som passer best til de dataene vi har. Vi kan dermed bruke den estimerte regresjonslinjen til å estimere en verdi for parameterene i Weibullfordelingen. Dette høres problemfritt ut, men for å avgjøre om dataene følger en Weibullfordeling, må vi først avgjøre om dataene faktisk er lineære (etter omskrivingen beskrevet i forrige avsnitt). For å avgjøre dette, kan vi bruke en såkalt goodness-of-fit -test. Vi skal ikke gå inn på dette temaet her, men det kan vises at korrelasjonskoeffisienten kvadrert, R 2, kan brukes som en goodness-of-fit -mål for vår regresjonsmodell [6]. Koeffisienten, R 2, vil være et tall mellom og der R 2 betyr at dataene passer veldig godt til vår estimerte regresjonslinje. Dersom R 2 >.65 sier vi at dataene passer godt nok til regresjonslinjen og vi konkluderer med at Weibullfordelingen er en god sannsynlighetsmodell for å beskrive det observerte fenomenet. Eksempel 3 Vi observerte 9 industrielle komponenter og målte tiden det tok før hver av dem sviktet. Vi målte følgende tider (målt i timer): 652.5, 223.5, 236.7, 2893.5, 353.4, 355.8, 3939.6, 439.8, 4526.4 Vi bruker Bernards approksimasjon for å beregne F (t) for hvert datapunkt. I tillegg regner vi ut ln ln F (t i ) og ln(t i): Komp. t i F (ti ) ln t i ln ln F (t i ) 652.5.745 7.4-2.5585 2 223.5.89 7.626 -.67 3 236.7.2872 7.767 -.83 4 2893.5.3936 7.972 -.6927 5 353.4.5 8.24 -.3665 6 355.8.664 8.57 -.67 7 3939.6.728 8.2788.222 8 439.8.89 8.3284.5364 9 4526.4.9255 8.477.9543 Vi plotter ln ln F (t i ) mot ln(t i) og gjør en lineær regresjon ved hjelp av minste-kradratersmetode i tillegg til å regne ut korrelasjonskoeffisienten, R. Resultatene kan sees i figur 4. Minste-kvadraters-metode gir oss R =.99647 (som gir R 2 =.9839). Det betyr at regresjonslinjen passer veldig godt til dataene, og vi kan konkludere at Weibull fordelingen er en passende modell for å beskrive fenomenet dataene kommer fra. Stigningstallet til den estimerte regresjonslinjen, er 3.2354, som da også blir et estimat for β.

2 Oppgaver 9 Reg: y = m ln(t) + b m = 3.2354 y - b = -26.3538 R =.99647-2 7.4 7.6 7.8 8 8.2 8.4 ln(t) Fig. 4: Lineær regresjon for y = ln ln F (t i) og ln(t). Regresjonen gav også b = 26.3538. Vi fant tidligere ut at b = β ln(η). En omskriving av denne, gir oss η = e b/β e ( 26.3538)/3.2354 3447.4. For å oppsummere: ˆβ = 3.2354 ˆη = 3447.4 2 Oppgaver. Anta at vi har en stokastisk variabel X W(2, 5). Finn sannsynligheten for at en tilfeldig måling av X er a) er mindre enn 2. b) minst. c) mellom 3 og 4. 2. Anta at bølgehøyden (målt i meter) for et havområde som vurderes for en oljeplatform har en Weibullfordeling med β = 2.5 og η =. a) Finn sannsynligheten for at bølgehøyden vil være høyere enn 4 m. b) Finn forventet bølgehøyde for dette havområdet. 3. Vi ser på 7 komponenter og måler tiden det tar før de svikter. Tidene ble målt til (i timer): 66, 2, 88, 242, 542, 789, 87

2 Oppgaver a) Bruk måledataene til å undersøke om Weibullfordelingen er en passende fordeling for å beskrive levetiden til komponentene. b) Estimer parameterene i denne Weibullfordelingen. c) Bruk Weibullmodellen til å estimere forventet levealder til en tilfeldig komponent. 4. Vi lar komponenter stå i 2 timer. Etter 2 timer har 8 komponenter sviktet. Vi markerer tiden det tok før de sviktet (målt i timer): 8.6, 57., 69.9, 27.6, 49.9, 63.3, 8.9, 99.7 a) Bruk måledataene til å undersøke om eksponensialfordelingen er en passende fordeling for å beskrive levetiden til komponentene. b) Estimer parameteren, α, i denne eksponensialfordelingen. c) Beregn sannsynligheten for at en tilfeldig komponent lever i mindre enn 2 timer. d) I vårt forsøk sviktet 8 av komponenter i løpet av 2 timer. Beregn sannsynligheten for dette skulle skje (anta at komponentene svikter uavhengig av hverandre). Se neste side for fasit.

3 Fasit 3 Fasit. a).48 b).96 c).7 2. a).6 b) 9.76 m 3. a) Ja, siden R 2 =.95 b) ˆβ =.744, ˆη = 44.45 c) ca. 428 timer. 4. a) Ja, siden R 2 =.977 og ˆβ =.7397. b) ˆα 3.489 3 c).674 d).29 Referanser [] Alf Harbitz (2) Statistikk og sannsynlighetsregning, Fagbokforlaget. [2] Richard A. Johnson (994) Miller & Freund s Probability & Statistics For Engineers, Prentice-Hall Inc. Englewood Cliffs, New Jersay 7632 [3] David M. Levine, Patricia P. Ramsey & Robert K. Smidt (2) Applied Statistics for Engineers and Scientists, Prentice-Hall Inc. Uppper Saddle River, New Jersey 7458. [4] http://reliawiki.org/index.php/distributions_used_in_accelerated_ Testing [5] WARWICK MANUFACTURING GROUP (27) The use of Weibull in defect data analysis, University of Warwick. [6] Gunnar G. Løvås (23) Statistikk for universiteter og høgskoler Universitetsforlaget AS