Mer om Markov modeller

Transkript

1 Høyere ordens Markov modeller Mer om Markov modeller p h mnr = Pr( Y j+ 3 = ah Y j+ 2 = am, Y j+ 1 = an, Y j = a : r For en k-te ordens Markov modell som modellerer en DNA prosess vil det være 3*4 k mulige overgangssannsynligheter som alle må estimeres. Med andre ord for k > 2 vil vi trenger et stort treningsdatasett for å finne troverdige estimater for alle overgangssannsynlighetene. ) Hvordan vil vi teste om en Markovmodell av orden k beskriver dataene bedre enn en av orden k-1? Sammenlikne maksimum likelihooden til både modellen under nullhypotesen (dvs. orden k-1) og modellen under den alternative hypotesen (dvs. orden k) Anja Bråthen Kristoffersen 1 Anja Bråthen Kristoffersen 2-2logλ statistikk Når den alternative modellen avhenger av parametere som ikke er definert i modellen under nullhypotesen. Krever at modellen under nullhypotesen er en undermodell av modellen under den alternative hypotesen (dvs. ved å sette en eller flere parametere lik null i den alternative-modellen får vi null-modellen). Vi sier da at modellene er nøstet. Hvor ( log L ( θ ; X ) log L ( X )) 2log λ = 2 A A θ; L ( θ X ) = P( X ; θ ) P( X ; θ ) K P( X ; θ ) ; 1 2 n Hvis nullhypotesen er sann, hypotesene er nøstede, parametrene ligger i et oppgitt intervall, likelihoodfunksjonen tar alle verdier likelihoodfunksjonen er deriverbare 2 vil -2logλ asymptotisk være χ -fordelt med antall frihetsgrader lik forskjellen i antall parametere i den alternative-modellen og i null-modellen. Dermed vil vårt eksempel hvor null-modellen har 3*4 k-1 parametere og den alternative modellen har 3*4 k parametere få 3*4 k -3*4 k-1 = 9*4 k-1 frihetsgrader. Anja Bråthen Kristoffersen 3 Anja Bråthen Kristoffersen 4

2 Litt repetisjon om Markov kjede Med stasjonær fordeling mener vi at fordelingen ikke har endret seg mellom tid t og t+1. Dvs.: evt. ϕ j ϕ = j s k = 1 ϕ p k kj ϕ = ϕp, j = 1,2, K, s. hvor er sannsynligheten for å være i tilstand j. Uniform stasjonær fordeling Hvis den stasjonære fordelingen til en første ordens Markov kjede er uniform vil overgangssannsynligheten i hver kolonne av overgangsmatrisen summeres til 1. Dermed vil alle elementene i siste rad kunne bestemmes av foregående elementer. Fra før vet vi at alle elementene i en rad må summeres til 1. Dvs. vi må alltid gå fra en tilstand til en av tilstandene i utfallsrommet. Alle elementene i siste kolonne kan alltid bestemmes av elementene i de andre kolonnene. Anja Bråthen Kristoffersen 5 Anja Bråthen Kristoffersen 6 Aperiodisk Irreduserbar Det finnes ingen t > 1 slik at hvis vi er i en tilstand i ved tid t kan vi ikke komme til tilstanden i igjen før ved tid t+t eller t+2t eller 3t osv. Eksempel på periodisk Markov kjede: P = I dette eksemplet er t = Generelt kan vi anta at alle Markov kjeder innen bioinformatikk er aperiodisk. Du kan komme fra alle mulige utfall til alle andre utfall i løp av et endelig antall steg. Eksempel Irreduserbar: reduserbar:.8 P = P = Anja Bråthen Kristoffersen 7 Anja Bråthen Kristoffersen 8

3 Test for uniform stasjonær fordeling Hvis vi har testet og slått fast hypotesen om at dataene følger en Markov kjede, vil neste spørsmål være om den stasjonære fordelingen til Markov kjeden er uniform. Vi vil her konsentrere oss om første ordens Markov kjeder, men teorien kan utvides til høyere ordens Markov kjeder. Anja Bråthen Kristoffersen 9 For å teste om dataene kommer fra en uniform fordeling bruker vi hypotesetesting. Hypotese 1: den stasjonære fordelingen er ikke uniform Hypotese 2: den stasjonære fordelingen er uniform Vi vet at under hypotesen 1 vil siste kolonne være bestemt av de andre overgangssannsynlighetene mens under hypotesen 2 vil både siste rad og siste kolonne vil være bestemt av de andre overgangssannsynlighetene. Hvilken av hypotesene skal vi velge som null hypotese? For å bruke -2logλ statistikk må null hypotesen være nøstet inn i den alternative hypotesen, dvs. den alternative hypotesen må inneholde samme parametere som null hypotesen, men den må i tillegg ha enda flere parametere. Dermed kan vi tilpasse dataene til modellene fra begge hypotesene og vi kan teste om 2log λ = 2( log LA ( θ A; X ) log L ( θ; X )) 2 følger en χ -fordeling med antall frihetsgrader lik forskjellen mellom antall parametere i de to modellene. Anja Bråthen Kristoffersen 1 Eksempel: Test om en Markov kjede som modellerer en DNA sekvens er uniform? Null hypotesen, uniform modell: både siste rad og siste kolonne summeres til 1, dermed vil vi ha 9 frie parametere som må tilpasses fra dataene. Alternativ hypotese, ikke uniform modell: bare siste kolonne summers til 1, dermed vil vi ha 12 frie parametere som må tilpasses fra dataene. 2-2logλ statistikk vil være χ - fordelt med 3 frihetsgrader. MCMC: Markov Chain Monte Carlo Brukes mye både for å beregne og optimalisere forskjellige ting. Simulerer fra en Markov kjede for å finne stasjonær fordeling for spørsmålet som vil studeres. Vi skal se på en MCMC algoritmer Hastings Metropolis algoritmen Anja Bråthen Kristoffersen 11 Anja Bråthen Kristoffersen 12

4 Eksempel Anta at du ønsker å beregne E(Y). Hvis det eksisterer en enkel måte å generere mange observasjoner Y 1, Y 2,, Y n slik at de har samme fordeling som Y vil loven for store tall fortelle at hvis n er stor nok så vil E 1 n n Y i i= 1 ( Y ) = Anja Bråthen Kristoffersen 13 For enkle problemer vil det være enkelt å generere mange variable fra samme fordeling. Men når ting blir mer komplisert vil det kunne være vanskelig å generere iid data. Her kommer MCMC inn. Markov Chain Monte Carlo er en mer sofistikert metode som også baserer seg på loven om store tall. Anta at du fortsatt ønsker å finne en approksimasjon for E(Y). Anta videre at du har en algoritme som kan generere etterfølgende tilstander X 1, X 2,, X n fra en Markov kjede i et utfallsrom χ med stasjonær fordeling ϕ og at det finnes en funksjon f : χ R slik at: E Y = f ( x) ϕ( x) som en estimator på E(Y) brukes da: ( ) x χ n E( Y ) = f ( X j ) j= 1 Anja Bråthen Kristoffersen 14 MCMC Bruker det fakta at en markov kjede med utfallene s 1, s 2, s 3,,s n har (minst) en stasjonær fordeling φ 1, φ 2, φ 3,,φ n. Når en genererer fra en markov kjede over lengre tid vil den andelen tid markov kjeden befinner seg i tilstand s k være tilnærmet φ k. Ved å generere lenge fra en Markov kjede vil en finne en tilnærming til den stasjonære fordelingen φ. Idee Lag en Markov kjede hvor tilstandsrommet består av parametrene i den statistiske modellen, og slik at den stasjonære fordelingen er posteriori fordelingen til parametrene Generer lenge fra Markov kjeden, ta bort starten, slik at vi kun ser på den delen hvor kjeden har kommet til den stasjonære fordelingen. Anja Bråthen Kristoffersen 15 Anja Bråthen Kristoffersen 16

5 Eksempel Fylogeni Modellvalg Ønsker å skape livets tre på bakgrunn av: DNA sekvenser RNA sekvenser proteinsekvenser Vi har sett på noen modeller for evolusjon: Kimuras 2 parameter modell Juckes Cantor modellen Enda finnes det mange flere modeller. HVILKEN SKAL VI VELGE, HVORDAN SKAL VI GJØRE MODELLSELEKSJON? Anja Bråthen Kristoffersen 17 Anja Bråthen Kristoffersen 18 Mange trær Ikke rotete trær: Rotete trær: Klassiske angrepsmåter Neighbour joining Maximum parsimony Maximum likelihood Anja Bråthen Kristoffersen 19 Anja Bråthen Kristoffersen 2

6 Neighbour joining Baserer seg på en matrise med avstander mellom sekvensene Rask Bygger ikke på noen evolusjonær modell, men avstandene beregnes fra sammenstilling av sekvensene. Gjør en dårlig jobb når den evolusjonære avstanden er stor. Maximum parsimony Minimerer antall mutasjoner i treet. Rask Bygger ikke på noen evolusjonær modell Gjør det bra for individer som evolusjonært er nær hverandre (alle individene er nesten like nære). Anja Bråthen Kristoffersen 21 Anja Bråthen Kristoffersen 22 Maximum likelihood Konfidens Statistisk veldig robust Veldig treg Bygger på en evolusjonær modell Trenger metodikk for å løse optimerings problemer Har kun et datasett. Hvordan finner vi konfidens? BOOTSTRAPPING Dvs. vi sampler fra datasettet med tilbakelegging til vi får et datasett som er like stort som det vi hadde. Dette må gjøres på en fornuftig måte slik at strukturen i dataene blir beholdt. Fører til enormt mye mer data som må bearbeides. Anja Bråthen Kristoffersen 23 Anja Bråthen Kristoffersen 24

7 Anja Bråthen Kristoffersen 25 Anja Bråthen Kristoffersen 26 Moderne angrepsmåte: Bayesiansk statistikk Bayes formula Likelihood: Hva er sannsynligheten for å observere dataene gitt en modell/teori Bayesian inference: Hva er sannsynligheten for at modellen/teorien er riktig gitt de observerte dataene? Prior fordeling Likelihood Pr( T ) Pr( D T ) Pr( T D) = Pr( D) P(D T) P(T D) Posterior fordeling Sannsynlighet for dataene Anja Bråthen Kristoffersen 27 Anja Bråthen Kristoffersen 28

8 Bayesisk inferens sammenliknet med maksimum likelihood Spørsmål: Hva er sannsynligheten for at en tilfeldig trekt terning er biased? Terningeksemplet fortsetter En terning trekkes og kastes to ganger. Resultatet på kastene er 4 og 6, er terningen rettferdig? Maksimum likelihood framgangsmåte: Svar: 1/(1+9)=.1 Pr(bias) =.1 er en prior. Konklusjon: terningen er biased. Anja Bråthen Kristoffersen 29 Anja Bråthen Kristoffersen 3 Terningeksemplet fortsetter Terningeksemplet konklusjon Bayesiansk inferens framgangsmåte: Dermed har sannsynligheten for at terningen er biased forandret seg fra.1 til.179. Men den er fortsatt mest sannsynlig rettferdig. Eksemplet var for lite for at maksimum likelihood metoden ville blitt brukt. Derfor er sammenlikningen urettferdig Forsøket viser hvor mye prioren har å si for bayesiansk statistikk (spesielt for små datasett). Her var prioren lett å finne, normalt er dette mye vanskeligere Anja Bråthen Kristoffersen 31 Anja Bråthen Kristoffersen 32

9 Prior Spørsmål: Vanligvis har vi ingen prior fordeling. Hva gjør vi da? Svar: Bruk en flat eller nesten flat fordeling som prior. To eksempler hvor prior fordelingen er flat mens posteriori fordelingen er smalere. Hva trenger prior i vårt fylogeni eksempel? 2n-3 grenlengde parametere Parametrene som symboliserer relativ substitusjonsrate Parametrene som symboliserer heterogenetirate. Frekvensen av nukleotidene Tretopologi Anja Bråthen Kristoffersen 33 Anja Bråthen Kristoffersen 34 Hvordan beregne Bayesiansk inferens? Ved hjelp av Markov Chain Monte Carlo (MCMC) algoritme. MCMC algoritme for vårt fylogeni eksempel Start med et tilfeldig tre og parametere. For hver iterasjon se på (tilfeldig valgt) enten Ny tre topologi eller Nye verdier på parametrene Hvis det nye treet har større posteriori sannsynlighet (π ny ) enn eksisterende tre (π eksisterende ) aksepter å skift tre Hvis nytt tre har lavere sannsynlighet enn eksisterende aksepter nytt tre med sannsynlighet π ny / π eksisterende For hver k-te iterasjon lag treet og parametrene Etter n iterasjoner, summeres resultatene i histogrammer. Beregn gjennomsnitt, 95 % intervaller på parametrene osv. Anja Bråthen Kristoffersen 35 Anja Bråthen Kristoffersen 36

10 MCMC regler for robot gange Mer enn et minimum For å unngå å bli sittende fast i et minimum: MCMCMC Anja Bråthen Kristoffersen 37 Anja Bråthen Kristoffersen 38 MCMCMC (Metropolis Coupled Markov Chain Monte Carlo) Iterer flere kjeder samtidig, men hvor en er heated (hovedkjeden). De kalde kjedene brukes til å sample rommet, for hver generasjon kan to kjeder bytte verdier. Hvordan trekke konklusjoner? Hvilket tre er korrekt? Sorter de oppnådde trærne etter sannsynlighet, velg mulige trær helt til den kumulative sannsynligheten er.95 Hva er verdien tilparameter p? Lag et histogram over oppnådde verdier for p, finn et 95% intervall Anja Bråthen Kristoffersen 39 Anja Bråthen Kristoffersen 4

11 Hvordan trekke konklusjoner? Er gruppen G av arter helt sikkert relatert (dvs. tilhører de helt sikkert samme gren)? Tell hvor mange av de trærne som er generert som mener at gruppen G av arter er relatert. Hvis artene i 74% av trærne tilhører samme gren sies de å være relatert med 74% sannsynlighet. Eksempel: 1 genererte trær, gruppen G av arter på samme gren i av dem: Pr( G tilhører samme gren ) = 74,695% Problemer MCMC krever at det gjøres mange iterasjoner. Teorien stemmer kun når antall iterasjoner går mot uendelig. Hvor mange er mange nok? Hvor avhengig er modellen vi laget av antakelser? Hvor avhengig er vi av prioren? Hvordan sjekke at resultatet er fornuftig. Kan det i det hele tatt valideres? Anja Bråthen Kristoffersen 41 Anja Bråthen Kristoffersen 42 MCMC vinner stadig flere tilhengere Teknikken er kjapp Den sikrer et tolkbart resultat Flere og flere tar MCMC i bruk uten helt å skjønne hva som gjøres. Vår jobb er å være kritisk, kan denne metoden brukes på vårt spørsmål! HUSK vi får alltid et resultat, men vil resultatet være troverdig? Anja Bråthen Kristoffersen 43