L12-Dataanalyse. Introduksjon. Nelson Aalen plott. Page 76 of Introduksjon til dataanalyse. Levetider og sensurerte tider

Like dokumenter
EKSAMEN I FAG TMA4275 LEVETIDSANALYSE

ST0103 Brukerkurs i statistikk Høsten Momentestimatoren og sannsynlighetsmaksimeringsestimatoren

i=1 t i +80t 0 i=1 t i = 9816.

UNIVERSITETET I OSLO

Siden vi her har brukt første momentet i fordelingen (EX = EX 1 ) til å konstruere estimatoren kalles denne metoden for momentmetoden.

EKSAMEN I FAG TMA4275 LEVETIDSANALYSE Xxxdag xx. juni 2008 Tid: 09:0013:00

Kapittel 8: Tilfeldige utvalg, databeskrivelse og fordeling til observatorar, Kapittel 9: Estimering

TMA4240 Statistikk Høst 2016

EKSAMEN I FAG TMA4275 LEVETIDSANALYSE Lørdag 4. juni 2005 Tid: 09:00 13:00

TMA4240 Statistikk H2010

Introduksjon til pålitelighetsanalyse. Jørn Vatn NTNU

TMA4240 Statistikk Høst 2015

Poissonprosesser og levetidsfordelinger

Statistisk inferens: 9.14: Sannsynlighetsmaksimeringsestimatoren 8.5: Fordeling til gjennomsnittet 9.4: Konfidensintervall for µ (σ kjent)

TMA4245 Statistikk. Innlevering 3. Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag

Bootstrapping og simulering Tilleggslitteratur for STK1100

Eksamensoppgave i TMA4275 Levetidsanalyse

TMA4240 Statistikk H2010

Utfordring. TMA4240 Statistikk H2010. Mette Langaas. Foreleses uke 40, 2010

Eksamensoppgave i TMA4275 Levetidsanalyse

Eksamensoppgave i TMA4275 Levetidsanalyse

UNIVERSITETET I OSLO

Første sett med obligatoriske oppgaver i STK1110 høsten 2015

for x 0 F X (x) = 0 ellers Figur 1: Parallellsystem med to komponenter Figur 2: Seriesystem med n komponenter

Forelesning 27. mars, 2017

TMA4245 Statistikk Eksamen desember 2016

Eksamensoppgave i Løsningsskisse TMA4240 Statistikk

UNIVERSITETET I OSLO

Kontinuerlige sannsynlighetsfordelinger.

Normal- og eksponentialfordeling.

UNIVERSITETET I OSLO

TMA4240 Statistikk Høst 2015

Eksamensoppgave i TMA4240 Statistikk

Eksamensoppgave i ST0103 Brukerkurs i statistikk

EKSAMEN I FAG TMA4315 GENERALISERTE LINEÆRE MODELLER Torsdag 14. desember 2006 Tid: 09:0013:00

Weibullfordelingen. Kjetil L. Nielsen. Innhold. 1 Teori. 1.1 Tetthetsfunksjon og fordelingsfunksjon

EKSAMEN I FAG TMA4275 LEVETIDSANALYSE Mandag 27. mai 2013 Tid: 09:00 13:00

Gruvedrift. Institutt for matematiske fag, NTNU. Notat for TMA4240/TMA4245 Statistikk

Løsningsforslag Eksamen i Statistikk SIF5060 Aug 2002

Matematisk statistikk og stokastiske prosesser B, høsten 2006 Løsninger til oppgavesett 5, s. 1. Oppgave 1

MAT-INF 2360: Obligatorisk oppgave 3. Løsningsforslag

Dekkes av kap , 9.10, 9.12 og forelesingsnotatene.

UNIVERSITETET I OSLO

Løsningsforslag øving 8, ST1301

Høgskolen i Telemark. Institutt for økonomi og informatikk FORMELSAMLING Statistikk I. Til bruk ved eksamen. Per Chr. Hagen

UNIVERSITETET I OSLO

TMA4240 Statistikk 2014

(a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x].

TMA4240 Statistikk Eksamen desember 2015

UNIVERSITETET I OSLO

Eksamensoppgave i TMA4295 Statistisk inferens

TMA4240 Statistikk Høst 2018

Levetid (varighet av en tilstand)

TMA4240/TMA4245 Statistikk: Oppsummering kontinuerlige sannsynlighetsfordelinger

Notat 3 - ST februar 2005

TMA4240 Statistikk Høst 2016

TMA4240 Statistikk Høst 2015

Kontinuerlige sannsynlighetsfordelinger.

Eksamensoppgave i TMA4240 Statistikk

TMA4240 Statistikk 2014

TMA4240 Statistikk H2017 [15]

Gammafordelingen og χ 2 -fordelingen

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 4

Om eksamen. Never, never, never give up!

ÅMA110 Sannsynlighetsregning med statistikk, våren

Bootstrapping og simulering

Punktestimator. STK Bootstrapping og simulering - Kap 7 og eget notat. Bootstrapping - eksempel Hovedide: Siden λ er ukjent, bruk ˆλ:

Bioberegninger - notat 4: Mer om sannsynlighetsmaksimering

Transformasjoner av stokastiske variabler

Modifisering av Black & Scholes opsjonsprising ved bruk av NIG-fordelingen

Eksamensoppgave i TMA4240 Statistikk

Bootstrapping og stokatisk simulering Tilleggslitteratur for STK1100

i x i

6.2 Signifikanstester

Inferens. STK Repetisjon av relevant stoff fra STK1100. Eksempler. Punktestimering - "Fornuftig verdi"

Eksponensielle klasser

TMA4245 Statistikk Høst 2016

TMA4245 Statistikk Eksamen desember 2016

Eksamensoppgave i TMA4240 / TMA4245 Statistikk

Kapittel 4.4: Forventning og varians til stokastiske variable

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 8 (s. 1) Oppgaver fra boka:

Om eksamen. Never, never, never give up!

Ekstraoppgaver for STK2120

Løsningsforslag til andre sett med obligatoriske oppgaver i STK1110 høsten 2010

vekt. vol bruk

Løsningsforsalg til første sett med obligatoriske oppgaver i STK1110 høsten 2015

Medisinsk statistikk Del I høsten 2009:

Ferdig før tiden 4 7 Ferdig til avtalt tid 12 7 Forsinket 1 måned 2 6 Forsinket 2 måneder 4 4 Forsinket 3 måneder 6 2 Forsinket 4 måneder 0 2

TMA4240 Statistikk H2010

MAT-INF 2360: Obligatorisk oppgave 3

OPPGAVESETTET BESTÅR AV 3 OPPGAVER PÅ 6 SIDER MERKNADER: Alle deloppgaver vektlegges likt.

FORMELSAMLING TIL STK1100 OG STK1110

Verdens statistikk-dag.

Notat 4 - ST februar 2005

LØSNINGSFORSLAG KONTINUASJONSEKSAMEN VÅR 2012 I TIØ4120 OPERASJONSANALYSE, GRUNNKURS

Oppfriskning av blokk 1 i TMA4240

TMA4240 Statistikk Høst 2015

STK Oppsummering

EKSAMEN I EMNE SIF5072 STOKASTISKE PROSESSER Lørdag 16. august 2003 Tid: 09:00 14:00

Transkript:

Page 76 of 80 L12-Dataanalyse Introduksjon Introduksjon til dataanalyse Presentasjonen her fokuserer på dataanalyseteknikker med formål å estimere parametere (MTTF,, osv) i modeller vi benytter for vedlikeholdsoptimering Ikkeparametriske metoder vil her være grafiske teknikker for å synliggjøre aldring, overlevelsessannsynlighet og midlere tid til svikt Dersom vi har fullstendige data, er metodene enklere og gir bedre resultater enn dersom vi har mange sensurerte datapunkter Et sensurert datapunkt betyr her at vi ikke har observert svikttiden, men kun at enheten har overlevd en viss tid Levetider og sensurerte tider Figuren viser hvordan vi kan tenke oss at levetider fremkommer ved et kontrollert forsøk. Alle komponentene settes i drift ved t = 0, og vi registrere tid til svikt for hver komponent Vi benytter notasjonen T i for å betegne levetiden til komponent i når vi betrakter denne som en tilfeldig størrelse. Tilhørende observerte verdi betegnes t i, dvs tallverdiene T 5 * er en sensurert levetid fordi komponent 5 ikke har sviktet når forsøket opphører Lokal og global tid Lokal tid benyttes for komponenter. Vi ønsker å estimere parametre i levetidsfordelinger Global tid er for systemer. Vi ønsker å se om det er trend i intensiteten av svikt over tid Nelson Aalen plott Nelson Aalen plott Nelson Aalen plottet benyttes for å se om det er global trend i dataene Dette gjelder spesielt dersom vi observerer flere svikt per system (vi bruker begrepet system her fordi et slikt system kan ha flere komponenter som kan svikte, men vi betrakter systemet generelt under ett) Ofte vil slike enheter ikke være så god som ny etter en svikt, og vi får en økning i antall svikt per tidsenhet. Nelson Aalen plottet viser essensielt kumulativt antall svikt som funksjon av global tid Prosedyre for å konstruere et Nelson Aalen plott Vi observerer data for n systemer, og for system i observerer vi svikt i perioden (a i,b i ] i forhold til global alder

Page 77 of 80 La T ij betegne svikttid j i system i (global eller kalendertid) Slå sammen alle tidene, T ij, og sorter dem i økende orden. Betegn resultatet T k, k = 1,2,... For hver k, la O k betegne antall systemer som er i drift like før svikttid T k La W^ 0 =0 Beregn W^ k = W^ k 1 +1/ O k Plott ( t k, W^ k ) Eksempel på et Nelson Aalen plottet Data: a i b i t ij 0 50 7, 20, 35, 44 20 60 26, 33, 41, 48, 57 40 100 50, 60, 69, 83, 88, 92, 99 Tilørende plott Fortolkning av Nelson Aalen plottet Et plott som krummer oppover (konveks) indikerer økende antall svikt Et plott som krummer nedover (konkav) viser et system som forbedrer seg Et plott som ligger langs en rett linje indikerer at det ikke er noen trend Dersom vi ikke kan se noen trend, kan vi anta at tid mellom svikt er tilnærmet identisk fordelt, og klassisk levetidsanalyse kan benyttes Dersom vi har kun ett system blir prosedyren svært enkel: Lag et plott som øker med 1 på y-aksen for hver svikt Plottet er et estimat for W(t), som er forventet antall svikt i intervallet [0,t) for ett system TTT plott TTT plott for komplette data Vi antar at vi har n uavhengige identisk fordelte levetider Enhetene er operert under tilnærmet like betingelser, og enhetene er så god som ny etter en svikt dersom flere svikttider er observert for en og samme enhet Dersom vi observerer flere svikt for samme system, så må Nelson Aalen plottet vise punkter tilnærmet på en linje Levetidene betegnes T 1,T 2,T 3,..,T n T (1),T (2),T (3),..., T (n) er sorterte levetider dvs T (1) T (2) T (3).. T (n) Den såkalte TTT observatoren defineres nå for et hvert tidspunkt t som totalt observert tid (Total Time on Test) fram til t: T (t) = i j=1 T (j) +(n i) T (i) hvor i er slik at T (i) t < T (i+1) TTT plottet finnes nå ved å plotte normalisert TTT observator mot normalisert indeks i T ( T (i) ) (, ) n T ( T (n) ) TTT plott - Eksempel

Page 78 of 80 i T (i) T (j) T i = T (j) + (n-i)t (i) i/n / 1 45 45 495 0.09 0.38 2 47 92 515 0.18 0.40 3 50 142 542 0.27 0.42 4 67 209 678 0.36 0.52 5 93 302 860 0.45 0.66 6 103 405 920 0.55 0.71 7 117 522 990 0.64 0.76 8 123 645 1014 0.73 0.78 9 180 825 1185 0.82 0.92 10 200 1025 1225 0.91 0.95 11 270 1295 1295 1.00 1.00 Tilhørende plott T i T n 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 0.2 0.4 0.6 0.8 1 Fortolkning av TTT plottet Et plott rundt diagonalen indikerer konstant sviktintensitet, dvs eksponensialfordelte levetider Et konkavt plott (over diagonalen) indikerer økende sviktintensitet (IFR = Increasing Failure Rate) Et konvekst plott indikerer avtakende sviktintensitet (DFR = Decreasing Faiure Rate) Ett plott som først er konvekst, og deretter konkavt, indikerer "badekarskurven" Et plott som først er konkavt, og deretter konvekst, indikerer hetrogenitet i dataene TTT transformen TTT transformasjonen er en parametrisk analog til TTT-plottet, og er gitt ved: F 1 (v) 0 R(u)du ϕ F (v) = MTTF For Weibullfordelingen: ϕ W (v, α) = CDFGamma( ln(1 v), 1/α,1) CDFGamma() er fordelingsfunksjonen i gammafordelingen, og finnes i MS Excel ved =GAMMADIST(-LN (1-v),1/Alpha,1,TRUE) Ved å prøve med ulike verdier for, og sammenligne TTT transformen med TTT plottet, kan man anslå om Weibull fordelingen er rimelig, og verdien på aldringen, Kaplan Meier plott Kaplan Meier plott Standard TTT plot antar at vi har komplette data Dersom vi har sensurerte data, viser det seg at det vanlige TTT plottet ikke hensiktsmessig, og Kaplan Meier plottet er bedre La T (1), T (2),...,T (n) være de sorterte levetidene vi har (inkluder sensurerte levetider) La n (i) være antall komponenter «under risiko», dvs som fortsatt lever, ved tid T (i) og s (i) være antall svikt ved tid T (i) I regelen er s (i) = 1, men kan være større enn 1, dersom vi observerer like svikttider (med målenøyaktigheten vi benytter)

Page 79 of 80 Kaplan Meier estimatoren for overlevelsessannsynligheten er nå gitt ved: n (i) s (i) R^ (t) = T(i) <t n (i) n (i) s (i) For å lage plottet beregner vi n for hvert svikttidspunkt T (i) (i) Tidligere verdier multipliseres da med denne brøken for å finne neste verdi av R^ (t) Vi plotter så R^(t) mot t for å lage Kaplan Meier plottet Dette plottet kan da sammenlignes med f eks R(t) i Weibullfordelingen Estimering Introduksjon til parameterestimering Med estimering mener vi å fastsette verdien på parametere i en stokastisk modell En estimator er en formel for å estimere en parameter, og er en funksjon av observasjonene Et estimat er en tallverdi, når vi setter inn verdiene på observasjonene i estimatoren Vi betrakter to situasjoner: Konstant sviktintensitet Økende sviktintensitet - Weibullfordeling Prinsipper for estimering Maksimering av rimelighetsfunksjonen (MLE) Bruke de verdiene av parameterne som er mest «rimelig» i lys av observasjonene Minste kvadratsum s prinsipp (LS) Lage en modell som beskriver forventet verdi av en observasjon, og finn verdiene av parameterne som minimerer avstanden mellom Momentprinsippet Finn gjennomsnitt og standardavvik fra observasjonene (f eks ved Excel), og tilpass parametere i en statistisk modell slik at uttrykkene for forventning og standardavvik i den statistiske modellen passer best mulig med beregnede verdier fra dataene I dette kurset betrakter vi kun MLE MLE prinsippet La T 1, T 2,...,T n være levetider og sensurerte levetider Store bokstaver benyttes når vi betrakter disse som stokastiske variabler, og små bokstaver benyttes når vi setter inn tallverdiene La t være en vektor av alle observerte levetider og sensurerte levetider La U være mengden av usensurerte levetider, og la C være mengden av sensurerte levetider La θ være en vektor av ukjente parametere som vi ønsker å estimere Rimelighetsfunksjonen er nå gitt ved: L(θ; t) = i U f( t i ;θ) i C R( t i ;θ) L(θ; t) representerer sannsynligheten for at vi har observert det vi har gjort i lys av dataene (observasjonene) ML estimatorene er nå gitt ved verdien av θ som maksimerer L(θ; t) Vi benytter symbolet θ^ for å angi løsningen av dette optimaliseringsproblemet For å forenkle analysen, er det ofte lettere å maksimere l(θ; t) =lnl(θ; t), hvor ln x er den naturlige logaritmen til x MLE prinsippet for exponensialfordelingen Anta at vi har observert levetider for en eller flere komponenter La T 1, T 2,...,T n være levetidene vi har (inkluder sensurerte levetider) La x være antall levetider, og n-x være antall sensurerte levetider For eksponensialfordelingen har vi ( θ = λ ): f(t) =λe λt R(t) =e λt Setter så inn for eksponensialfordelingen i det generelle uttrykket: L(θ; t) = i U f( t i ;θ) i C R( t i ;θ), og får: L(λ; t) = i U λe λti i C e λti Dersom vi nå tar logaritmen får vi: l(λ; t) =lnl(λ; t) =xlnλ λ i U t i λ i C t i Siden vi har x svikttider, og n-x sensurerte tider får vi: l(λ; t) =xlnλ λ n i=1 t i Deriverer mht λ, og setter lik 0: x = n = 0 = λ i=1 t x i λ^ dl(λ;t) dλ n i=1 ti For eksponensialfordelingen kan vi derfor enkelt finne feilraten ved å telle antall observerte svikt, og dividere med total eksponering. Denne metoden kan vi benytte enten det er en komponent, eller flere komponenter vi har data for.

Page 80 of 80 MLE prinsippet for Weibullfordelingen Anta at vi har observert levetider for en eller flere komponenter La T 1, T 2,...,T n være levetidene vi har (inkludert sensurerte levetider) La videre I 1, I 2,...,I n være indikatorer slik at I i = 1 dersom tid nummer i er en levetid, og 0 hvis det er en sensurert levetid Rimelighetsfunksjonen, L(α, λ; t), er nå gitt ved produktet av sannsynlighetstetthetene i punktene t 1, t 2,...,t n for levetidene multiplisert med produktet av overlevelsessannsynlighetene i punktene t 1, t 2,...,t n for de sensurerte levetidene Log-rimelighetsfunksjon blir: l(α, λ; t) =lnl(α, λ; t) = n i=1 I i[lnα + αlnλ +(α 1)ln t i ] n i=1(λt i ) α Rimelighetsfunksjonen må nå maksimeres numerisk, f eks «problemløser» i MS Excel, og bruk av fila MaintOpt.xlsm Oppgaver Øving 12.1 - TTT plott Anta at sviktdata for en spesiell type komponent er samlet inn. Svikttidene (i måneder) er gitt ved: 8,9,7,6,12,18,14,6,9,11,24. Vi antar at svikttidene er uavhengige, og identisk fordelte. a. Konstruer et TTT plott for disse dataene. b. Hva kan du ut fra plottet si om sviktintensiteten? c. Hva kan være en rimelig verdi for aldringsparameteren,? Øving 12.2 - Analyse av sensurerte data Anta at sviktdata for en spesiell type komponent er samlet inn. Svikttidene (i måneder) er gitt ved: 8,9,7,6,12,18,14,18*,6,9,11,24,30*,28*. Svikttider med en stjerne (*) representerer sensurerte levetider. Vi antar at svikttidene er uavhengige, og identisk fordelte. a. Konstruer et Kaplan Meier plott for disse dataene b. Estimer parametrene dersom du antar at det ligger en Weibull modell til grunn. Bruk MLE-prinsippet. c. Plott overlevelsessannsynligheten i Kaplan Meier plottet med parametre du finner fra MLE