Skjulte Markov Modeller

Like dokumenter
Løsningsforslag øving 6, ST1301

av Erik Bédos, Matematisk Institutt, UiO, 25. mai 2007.

Betydning av feilspesifisert underliggende hasard for estimering av regresjonskoeffisienter og avhengighet i frailty-modeller

Forelesning 4 og 5 MET3592 Økonometri ved David Kreiberg Vår c) Hva er kritisk verdi for testen dersom vi hadde valgt et signifikansnivå på 10%?

~/stat230/teori/bonus08.tex TN. V2008 Introduksjon til bonus og overskudd

MAT1030 Forelesning 26

Levetid (varighet av en tilstand)

Forelesning 26. MAT1030 Diskret Matematikk. Trær med rot. Litt repetisjon. Definisjon. Forelesning 26: Trær. Roger Antonsen

Forelesning 25. Trær. Dag Normann april Beskjeder. Oppsummering. Oppsummering

Kort om ny reguleringskurvelogikk. Trond Reitan 19/8-2013

Beskjeder. MAT1030 Diskret matematikk. Oppsummering. Oppsummering

Spesialisering: Anvendt makro 5. Modul

og ledelse av forsyningskjeder Kapittel 4 Del A - Prognoser SCM200 Innføring i Supply Chain Management

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

INF april 2017

Ved opp -og utladning av kondensatorer varierer strøm og spenning. Det er vanlig å bruke små bokstaver for å angi øyeblikksverdier av størrelser.

Harald Bjørnestad: Variasjonsregning en enkel innføring.

Obligatorisk oppgave ECON 1310 høsten 2014

Løsningsforslag for regneøving 3

HMM-tagging INF4820 H2008. Jan Tore Lønning. 30. september. Institutt for Informatikk Universitetet i Oslo

Bevegelse i én dimensjon (2)

Forelesning nr.9 INF 1410

Go to and use the code Hva var viktig i siste forelesning? FYS-MEK

UNIVERSITETET I OSLO

Gensøk. Oppsummering. Typer av sammenstillinger. Sammenstilling av sekvenser. To prinsipper for søking etter gener i DNA:

Eksamensoppgave i FIN3006 Anvendt tidsserieøkonometri

FYS3220 Oppgaver om Fourieranalyse

Løsningsforslag til øving 9 OPPGAVE 1 a)

Mer om Markov modeller

Eksamen i STK4060/STK9060 Tidsrekker, våren 2006

INF5820 Natural Language Processing - NLP. H2009 Jan Tore Lønning

OPPSUMMERING FORELESNINGER UKE 35

Om muligheten for å predikere norsk inflasjon ved hjelp av ARIMA-modeller

3. Beregning av Fourier-rekker.

Et samarbeid mellom kollektivtrafikkforeningen og NHO Transport. Indeksveileder Indeksregulering av busskontrakter. Indeksgruppe

, og dropper benevninger for enkelhets skyld: ( ) ( ) L = 432L L = L = 1750 m. = 0m/s, og a = 4.00 m/s.

Systemutviklingsprosessen

Styring av romfartøy STE6122

Aliasing: Aliasfrekvensene. Forelesning 19.februar Nyquist-Shannons samplingsteorem

Sensorveiledning UNIVERSITETET I OSLO ØKONOMISK INSTITUTT. ECON 1310 Obligatorisk øvelsesoppgave våren 2012

(x 0,y 0,0) α. Oppgave 3. Ved tiden t har vi følgende situasjon: α = ω1t β = ω2t

Driftsplanlegging i vannkraftproduksjon en realopsjonstilnærming

Prising av opsjoner på OBXindeksen

Sensorveiledning UNIVERSITETET I OSLO ØKONOMISK INSTITUTT. ECON 1310 Eksamensoppgave høsten 2011

Løsningsforslag til regneøving 5. Oppgave 1: a) Tegn tegningen for en eksklusiv eller port ved hjelp av NOG «NAND» porter.

Eksamensoppgave i SØK3001 Økonometri I

YF kapittel 3 Formler Løsninger til oppgavene i læreboka

Styring av romfartøy STE6122

Spesiell relativitetsteori

tiden - t er i teller og nevner og kan derfor strykes mot herandre og gi formelen:

BLAST. Blast. Noen mulige sammenstilling av CHAEFAP og CAETP. Evolusjonær basis for sekvenssammenstilling. Sekvenssammenstilling og statistikken brukt

(a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x].

Eksamensoppgave i TFY4190 Instrumentering

Eksamensoppgave i SØK3001 Økonometri I

j=1 (Y ij Ȳ ) 2 kan skrives som SST = i=1 (J i 1) frihetsgrader.

1. Betrakt følgende modell: Y = C + I + G C = c 0 + c(y T ), c 0 > 0, 0 < c < 1 T = t 0 + ty, 0 < t < 1

Eksamen R2, Hausten 2009

Mønstergjenkjenning i bildesekvenser

Boligprisvekst og markedsstruktur i Danmark og Norge

t [0, t ]. Den er i bevegelse langs en bane. Med origo menes her nullpunktet

(a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x].

System 2000 HLK-Relais-Einsatz Bruksanvisning

Ådne Cappelen, Arvid Raknerud og Marina Rybalka

Hovedoppgave for cand.polit-graden. Industribygg. En studie av nyinvesteringer i industribygg. Kristoffer Eide Hoen. 3. mai 2004

1999/37 Rapporter Reports. Trygve Martinsen. Avanseundersøkelse for detaljhandel. Statistisk sentralbyrå Statistics Norway Oslo Kongsvinger

Levetid og restverdi i samfunnsøkonomisk analyse

Øving 1: Bevegelse. Vektorer. Enheter.

Arbeid og kinetisk energi

5.8 Iterative estimater på egenverdier

INF 2310 Digital bildebehandling. Hva er segmentering? forelesning nr 11 12/ Segmentering av bilder. To segmenterings-kategorier

TMA4265 Stokastiske prosesser

Krefter og betinget bevegelser Arbeid og kinetisk energi

Newtons lover i to og tre dimensjoner

Eksamensoppgave i TFY4190 Instrumentering

Hvis formlene i Γ og er lukkede, vil sannhetsverdiene til formlene under M være uavhengig av variabeltilordning.

Arbeid og kinetisk energi

Tillatte hjelpemidler: Lærebok og kalkulator i samsvar med fakultetet sine regler. 2 2x

Kromatografisk separasjon bygger på stoffers likevektsfordeling mellom en stasjonær fase og en mobil fase. A MP A SP. Likevektskoeffisienten er:

Oppsummering av STK2120. Geir Storvik

Løsningsforslag. Fag 6027 VVS-teknikk. Oppgave 1 (10%) Oppgave 2 (15%)

Oppgave 2 Vi ser på et éndimensjonalt system hvor en av de stasjonære tilstandene ψ(x) er gitt som { 0 for x < 0, ψ(x) = Ne ax (1 e ax (1)

Våren Ordinær eksamen

Eksempel på symmetrisk feil: trefase kortslutning på kraftlinje.

EKSAMEN I EMNE TMA4265/SIF5072 STOKASTISKE PROSESSER Onsdag 10. august 2005 Tid: 09:00 13:00

Arbeid og kinetisk energi

EKSAMEN I EMNE SIF5072 STOKASTISKE PROSESSER Lørdag 16. august 2003 Tid: 09:00 14:00

Dagens plan. INF4170 Logikk. Modelleksistens for grunn LK repetisjon. Kompletthet av fri-variabel LK. Teorem (Kompletthet) Lemma (Modelleksistens)

Oppgaveverksted 3, ECON 1310, h14

TMA4265 Stokastiske prosessar

AVDELING FOR INGENIØRUTDANNING EKSAMENSOPPGAVE

NORMALFORDELINGER, KOVARIANSMATRISER OG ELLIPSOIDER

Fy1 - Prøve i kapittel 5: Bevegelse

2006/2 Notater Håvard Hungnes. Notater. Hvitevarer Modell og prognose. Gruppe for Makroøkonomi

INF november Stein Krogdahl (Litt mye tekst, med tanke på lettere repetisjon) Dagens tema: Kapittel 14:

SNF-rapport nr. 21/04

H Ø G S K O L E N I B E R G E N Avdeling for lærerutdanning

Sammensatt estimering ved roterende utvalg. Matematisk - statistiske problemer knyttet til arbeidskraftundersøkelsene. av Steinar Bjerve x

Forelesning 9 Kjikvadrattesten. Kjikvadrattest for bivariate tabeller (klassisk variant) Når kan vi forkaste H 0?

Generell rekursjon og induksjon. at(n) + bt(n 1) + ct(n 2) = 0

Transkript:

CpG øy Skjule Markov Modeller år CG er eer hverandre i en DA sekvens vil C ofe muere il T ved meylase. (kalles ofe CpG for å ikke forveksles med pare C-G i o DA råder). CpG dinukleoiden forekommer mye sjeldnere enn vi ville forvene hvis vi anar uavhengighe mellom nukleoidene og mulipliserer sannsynligheen for C med sannsynligheen for G for å finne sannsynligheen for CG. Meylering (C muerer il T) skjer sjeldnere rund gener. Disse regionene kalles CpG øyer (vanligvis 00-000 baser lang). I forbindelse med leing eer gener leer en ofe eer CpG øyer. Anja Bråhen Krisoffersen Anja Bråhen Krisoffersen 2 To spørsmål. Gi en kor sekvens, er denne fra en CpG øy eller ikke? Dee spørsmåle skulle dere svar på på forrige øving. 2. Gi en lang sekvens inneholder denne sekvensen en CpG øy eller ikke? Dee spørsmåle vil vi se nærmere på nå. CpG øy eller ikke? Ana a vi har e sor reningsdaase besående av DA sekvenser og ilhørende like lang sekvenser hvor CpG øyer er merke med + og ikke CpG øyer er merke med -. Eksempel ATCGGGTGATTAGCCGCGATCG --------------++++++++ For hver av ilsandene {+,-} esimer + overgangssannsynligheer og hvor i,j = {A,T,C,G} Bruk log-raio il å besemme om en sekvens kommer fra ei CpG øy eller ikke. a ij a ij Anja Bråhen Krisoffersen 3 Anja Bråhen Krisoffersen 4

Eksempel spørsmål :?2. Lang sekvens inneholder en CpG øy? Kan vi bruke Markov kjede modellen fra spørsmål med e vindu av gi lengde, for eksempel 00, for å lee eer CpG øyer? Ikke en ilfredssillende løsning. CpG øyer har varierende lengde, hvorfor ikke bruke e vindu av lengde 0 eller 50 eller 200? Anja Bråhen Krisoffersen 5 Anja Bråhen Krisoffersen 6 Bedre løsning på?2 Modell Represener CpG øyer og ikke CpG øyer i en modell Bruk begge Markov kjedene (både + og -) som funne idligere men i samme modell med lien sjanse for overgang mellom modellene. Vi har da o ilsander for hver nukleoide: A+, C+, G+, T+ og A-, C-, G-, T-. Anja Bråhen Krisoffersen 7 Anja Bråhen Krisoffersen 8

Hva er den sore forskjellen? De er ingen en il en korrespondanse mellom ilsand og symbol. E symbol si C kan være generer fra o ilsander C+ og C-. Før beseme en sekvens veien som var gå enydig. å ønsker vi for en gi sekvens og finne den mes sannsynlige veien. Skjule Markov Modeller (HMM) Tilsanden en skjul Markov modell befinner seg i er skjul. Vi observerer kun e symbol. Ved forskjellige ilsander vil symbole ha forskjellige sannsynligheer for å være uryk. Anja Bråhen Krisoffersen 9 Anja Bråhen Krisoffersen 0 Tilsand og observasjon En skjul markov modell besår av o kjeder. En ilsandskjede En observasjonskjede. Eksempel, DA sekvens: Tilsand: kodene eller ikke kodene A, T, C, G. Men frekvensen (sannsynligheen for å observere) hver av nukleoidene vil være forskjellig i den kodene og den ikke kodene ilsanden. Anja Bråhen Krisoffersen Eksempel: IK: Ikke kodene sekvens K: Kodene sekvens B: Sar E: Slu Anja Bråhen Krisoffersen 2

Sekvensene Iniial ilsand observasjon ilsand observasjon ilsand observasjon q O q 2 O 2 q 3 O 3 Observasjonssekvensen O: O, O 2, O 3, Markov kjeden De er ilsandskjeden som følger en markov kjede. Vi må derfor ha en overgangsmarise som sier noe om sannsynligheen for å gå fra en ilsand il en annen. Hvis vi som i DA eksemple har o ilsander: kodene og ikke kodene vil en overgangsmarise kunne være: Tilsandssekvensen : q, q 2, q 3, 0.9 0.2 0. 0.8 Anja Bråhen Krisoffersen 3 Anja Bråhen Krisoffersen 4 Observasjonene For hver av ilsandene vil vi ha en sannsynlighesmodell for å observere hver av de mulige observasjonene. Eksempel, DA sekvens: kodene: p A =0.25, p G =0.25, p C =0.25, p T =0.25 ikke kodene: p A =0.2, p G =0.3, p C =0.3, p T =0.2 Spørsmål Kjenner observasjonssekvensen O, ønsker å finne ilsandssekvensen. arg max Pr ( O) Ved hjelp av skjule markov kjede eori kan dee gjøres effekiv (rask). Anja Bråhen Krisoffersen 5 Anja Bråhen Krisoffersen 6

Spørsmål 2 Hvor sannsynlig er de å observere den sekvensen vi har observer? Pr( O ) = Pr( O ) Pr( ) Denne beregningen kan brukes il å finne u hvilken av flere modeller som er mes sannsynlig. En skjul markov modell besår av:. ilsander: S, S 2, S 3,, S. 2. M forskjellige observasjonssymboler A={a, a 2, a 3,, a M }. 3. Overgangsmarisen P = (p ij ) p ij = Pr(q + = S i q = S j ), i,j={, }. 4. Observasjonssannsynlighe for hver ilsand S i og hver observasjonssymbol a k b i (a k ) = Pr(observere a k i ilsand S i ). 5. En iniial fordelingsvekor π = (π i ) π i = Pr(q = S i ). Anja Bråhen Krisoffersen 7 Anja Bråhen Krisoffersen 8 Eksempel, erning Ana a e kasino har en referdig og en ureferdig erning. Den referdige brukes ofes. Referdig erning (R): b() = b(2) = b(3) = b(4) = b(5) = b(6) = /6 Ureferdig erning (U): b() = b(2) = b(3) = b(4) = b(5) = 0., b(6) = 0.5 Ana a kasinoe byer fra referdig il ureferdig erning med sannsynlighe 0.05, og byer ilbake med sannsynlighe 0.. HMM for uærlig kasino Referdig Ureferdig Vi ser kun en sekvensen av all x = x x n. Vi ve ingening om veien som generere sekvensen x. Derfor kalles ilsanden for skjul. Vi renger å finne den mes sannsynlige veien. Anja Bråhen Krisoffersen 9 Anja Bråhen Krisoffersen 20

Tre spørsmål Gi en sekvens med observasjoner O: O,O 2,O 3,,O T. Kalkuler Pr(O λ), gi kjen λ = (P, B, π). 2. Finn den mes sannsynlige skjule ilsandssekvensen : q, q 2, q 3, q T. 3. Finn paramerene λ = (P, B, π) som maksimerer Pr(O λ). arg max Pr ( O) Anja Bråhen Krisoffersen 2 Kalkuler Pr(O λ), gi kjen λ = (P, B, π) Beregningen kan gjøres ved å see inn i formelen: Pr( O ) = Pr( O ) Pr( ) Dee vil kreve T 2T opperasjoner Vi renger en mer effekiv prosedyre. Forward algorimen ~ O(T 2 ) Anja Bråhen Krisoffersen 22 Forward algorimen (dynamisk programmering) Beregn α(,i) = Pr(O, O 2, O 3,, O, q = S i ) ilsvarende samle sannsynlighe for a sekvensen O,O 2,O 3,,O er observer fram il iden og a ilsanden ved id er S i. år alle α(t,i) er kjen vil Pr(O) kunne beregnes som: n Pr ( O) = α( T, i) i= Forward algorimen for. α(,i) beregnes ieraiv For = har vi α(,i) = π i b i (O ) For > : α ( +, i) = Pr( O, O2, O3,..., O +, q + = Si, q = S j ) = j= j= α (, j) p b ( O ) ji i + Anja Bråhen Krisoffersen 23 Anja Bråhen Krisoffersen 24

Mes sannsynlige ilsandssekvens Vierbi algorimen Selv om vi ikke ser den underliggende ilsandssekvensen kun observasjonssekvensen er de ofe den underliggende ilsanden vi er ineresser i. CpG øy eller ikke CpG øy Kodene eller ikke kodene Mulippel sammensilling: sammensilling eller gap Dee kalles dekoding. Den mes bruke dekodingsalgorimen er Vierbi algorimen. De finnes mange flere. CGCG De vil være mange ilsandssekvenser som gir samme observasjonssekvens: (C+,G+,C+,G+), (C-,G-,C-,G-), (C+,G-,C+,G-) vil alle gi observasjonssekvensen CGCG. ME de vil ha veldig forskjellig sannsynlighe for å ha forkomme! Sannsynligheen il (C+,G-,C+,G-) vil være produke av å muliplisere mange små sannsynligheer for å hoppe fra ilsand il ilsand. Denne vil derfor få mye mindre sannsynlighe enn de andre o sekvensen. Sannsynligheen il (C-,G-,C-,G-) vil være mindre enn sannsynligheen il (C+,G+,C+,G+) da sannsynligheen for å observere CG er mye mindre i ilsand enn i ilsand +. Anja Bråhen Krisoffersen 25 Anja Bråhen Krisoffersen 26 Veien med sørs sannsynlighe Hvis vi skal velge en vei som gir oss den observasjonssekvensen vi har observer er de mes naurlig å velge den veien med sørs sannsynlighe. Den mes sannsynlige veien * kan finnes rekursiv Ana a sannsynligheen δ - (i) for den mes sannsynlige veien ender i S i ved observasjon - er kjen for alle i. Da kan denne sannsynligheen brukes il å beregne δ (j) δ * = arg max Pr ( O) ( j) δ ( i) p b ( O ), 2 T, j = i max ij j () i = b ( O ), i δ π med sarbeingelse i i DYAMISK PROGRAMMERIG Anja Bråhen Krisoffersen 27 Vierbi algorimen Iniialisering (i=): Rekursiv ( = 2 T): Avsluer for = T og definerer Traceback ( = T ): δ () i = b ( O ), i δ π i ( j) δ ( i) p b ( O ), j = i i max ij j i ψ T = arg maxδ () i pi med q S ψ ψ ψ = arg maxδ = Hvis argmax ikke er unik velges i ilfeldig. + i () i Anja Bråhen Krisoffersen 28 T

Unngå underflow er ofe e sor all > 000 Å muliplisere usenvis av sannsynligheer (mellom 0 og ) fører il a vi får veldig små all. Sandard rikse er å log-ransformere sannsynligheene Algorimen blir da uforandre men isedenfor å muliplisere sannsynligheer må vi nå addere log-ransformere sannsynligheer Oppsummering HMM må ha en arkiekur Symboler (vanligvis observere) Skjul ilsand (ikke allid le å finne) Link mellom ilsand og symbol (vanskelig å finne) HMM har e se med parameere (P, B, π) som må esimeres fra daa. En enkel HMM kan produsere mange forskjellige observasjonssekvenser, men noen av dem vil være mer sannsynlig enn andre Gi paramerene, da kan vi allid beregne den mes sannsynlige veien bak den observere sekvensen. Anja Bråhen Krisoffersen 29 Anja Bråhen Krisoffersen 30 Repiisjon Fordelinger og variable Saisical mehods in bioinformaics: an inroducion Kapiel (ikke.5 og.6) Kapiel 2 (ikke 2.5) Kapiel 3 Kapiel 4 (ikke 4.2 og 4.3) Kapiel 5 Kapiel 6 (6.4 kun il orienering) Kapiel 7 (7.6 kun il orienering) Kapiel 8 (ikke 8.5) Kapiel 9 (ikke 9.6 il 9.9, 9.4 og 9.5 kun il orienering) Kapiel 0 (ikke 0.5.2 og 0.5.3) Kapiel (ikke.2.3) Kapiel 3 (3.2.3-3.2.8 kun il orienering, ikke 3.3) Kapiel 4 (4.2-4.6 kun il orienering) Øvingene Obligene oaene og foilene fra forelesning Anja Bråhen Krisoffersen 3 Hvilke variable er vi ineresser i? Kan vi finne en fordeling (ilnærme) il variabelen vi vil sudere? Hva anar fordelingene år brukes de forskjellige fordelingene Anja Bråhen Krisoffersen 32

Hendelser oe som enen skjer eller ikke skjer. Gjør saisikken enklere Hva mener vi med a o hendelser er uavhengige? Sannsynligheer Forvenningsverdi og varians Hvordan finner vi dem? Hva er beinge sannsynlighe? Anja Bråhen Krisoffersen 33 Anja Bråhen Krisoffersen 34 Esimering og hypoeseesing Subsiusjonsmariser Hvordan esimere variablene? Hvilke egenskaper har en god esimaor? Hvordan see opp en god hypoesees? Type I feil Type II feil ull hypoese og alernaiv hypoese. Hvilken av hypoesene skal være null hypoesen? Likelihood maksimum likelihood esimaor Hypoeseesing: likelihood raio es PAM BLOSUM Hvordan konsrueres de? år brukes de? Anja Bråhen Krisoffersen 35 Anja Bråhen Krisoffersen 36

Tilfeldig gange Teorien Momengenererende funksjon Hvordan brukes ilfeldig gange i BLAST BLAST Hvorfor lage en heurisisk søkemeode Hvordan brukes BLAST Hvordan finner BLAST sine reff, hva er ideen i den heurisiske algorimen? Hva sier saisikkene vi får u E-verdi Hvordan beregne E-verdi Anja Bråhen Krisoffersen 37 Anja Bråhen Krisoffersen 38 Ole Chrisian sin forelesning. Shrinking (minking av daaromme) Glaing Hvorfor gjør man de? Hvilke fordeler oppnår man? oen hovedideer rund formlene. Markov kjeder Teori Eksempler på når Markov kjeder kan brukes innen bioinformaikk. Høyere ordens Markov kjeder MCMC HMM Anja Bråhen Krisoffersen 39 Anja Bråhen Krisoffersen 40