LOcks SUbstitution Matrics Substitusjonsatrisn LOSUM og tilflig gang Hinkoff & Hinkoff 992 Skåringsatrisn brgns so logaritn til n liklioo ratio. yggr IKKE på n volusjonær oll Liklioon basrr sg n og aln på blokkr av sanstilt skvnsr. nja råtn Kristoffrsn nja råtn Kristoffrsn 2 lokk Multipl sanstilling utn gap av strkt konsrvrt orår innn n protinfaili Flr 00 gruppr protinr bl brukt Minst 2369 substitusjonr av nvr ulig substitusjon lokkr bl brukt uavngig av vilkn volusjonær istans skvnsn i blokkn var fra vranr. nja råtn Kristoffrsn 3 Ekspl på fir av blokkn fra Hinkoff & Hinkoff s atabas WWYIR CSILRKIYIYGPV GVSRLRTYGGRK RG WFYVR CSILRHLYHRSP GVGSITKIYGGRK RG WYYVR VRHIYLRKTV GVGRLRKVHGSTK RG WYFIR SICRHLYIRSP GIGSFEKIYGGRR RRG WYYTR SIRKIYLRQGI GVGGFQKIYGGRQ RG WFYKR SVRHIYMRKQV GVGKLKLYGGK SRG WFYKR SVRHIYMRKQV GVGKLKLYGGK SRG WYYVR TSIRRLYVRSPT GVDLRLVYGGSK RRG WYYVR TSVRRLYIRSPT GVGLRRVYGGK RRG WFYTR STRHLYLRGG GVGSMTKIYGGRQ RG WFYTR STRHLYLRGG GVGSMTKIYGGRQ RG WWYVR LLRRVYIDGPV GVSLRTHYGGKK DRG nja råtn Kristoffrsn 4
Hvoran finn liklioon Frkvnsn til vr av ainosyrn i atasttt anss so t stiat for sannsynligtn for vr av ainosyrn. p. ntall gangr to ainosyrr for kspl og finns i sa kolonn i n av blokkn bruks til å finn t stiat for sannsynligtn for substitusjons llo og. p,. Mrk: 20 Dt r 20 + 20 ulig ainosyrpar 2 Hvis vi antar at l atasttt bstår av kolonnr rar vil t vær par so å tlls. 2 Hypotsr H 0 : skvnsn r ikk rlatrt p p liklioon/stirt sannsynligt for substitusjonn ( også for ). Dr vil liklioon/stirt sannsynligt for at vær 2 p p p p H : skvnsn r rlatrt (bslkt) p, liklioon/stirt sannsynligt for substitusjonn. nja råtn Kristoffrsn 5 nja råtn Kristoffrsn 6 Skåringsatris La skårn vær lik liklioo ration: S, p, 2log2 2 p p p, 2log2 p p 2log 2 r kun t valg! log vill gitt ca. sa skårn. Fortsatt to problr Hvoran finn n initial ultipl sanstillingn. Probl at nklt substitusjonr tlls for ang gangr. nja råtn Kristoffrsn 7 nja råtn Kristoffrsn 8
Initial ultippl sanstilling For å finn n initial ultipl sanstillingn trngr vi n substitusjonsoll. Løsning: itrasjon. Hinkoff & Hinkoff startt ntssubstitusjonsatrisn: skår for lik ainosyr skår 0 for ulik ainosyr. Dr fikk n sanstilling å bygg vir på, n først LOSUM atrisn kan brgns, n ny br sanstilling finns v å bruk nn atrisn for så å finn na n LOSUM atris basrt på n ny sanstillingn. Dn trj atrisn so finns på nn åtn r anbfalt brukt. Dnn atrisn kalls LOSUM00. Enklt substitusjonr blir tlt for ang gangr LOSUM00 so vi fant på forrig foil vil ikk vær spsilt nyttig. Dn byggr på l atasttt vor svært lik skvnsr kan forko å før til at nklt substitusjonr blir tlt for oft. Løsning: Klustring av skvnsn i n blokk so r tilstrkklig lik. Dvs. liknn skvnsr blir slått san og tllr kun so n skvns når sannsynligtr skal brgns. Rsultatt kalls LOSUMx vor x inikrr va vi nr tilstrkklig lik. Skvnsn so r x lik llr r r klustrt. nja råtn Kristoffrsn 9 nja råtn Kristoffrsn 0 Ekspl LOSUM80 LOKK s: C s2: CC s3: C s4: CCC s5: C LOKK 2 s6: C s7: C s8: C s9: CC s0: s: LOKK 3 s2: CC s3: CC s4: CC s5: CCC For vr blokk tllr vi opp vor ang gangr sanstillingn av to ainosyrr i n posisjon ksistrr. Hr å vi ta nsyn til klustrn vi ar lagt. Dr for vr blokk vlg all par av to klustr og tll. For vrt par tll slik: anta n og skvnsr i rspktiv klustrn. Tll så antall gangr n gitt sanstilling ksistrr llo to skvnsr i vrt sitt klustr l tilslutt på n. LOKK 2 C s6: C 0 s7: C 0 0 s8: C C 0 0 år all sanstillingn i all klustrn i all blokkn r tlt får vi: For å rusr ovrrprsntasjon av nært rlatrt skvnsr klustrr vi: C lokk : {s, s2, s3, s4}, {s5} lokk 2: {s6, s7}, {s8}, {s9}, {s0}, {s} lokk 3: {s2, s3, s4, s5} 3 4/4 4/4 5 2/4 5/2 Hvrt klustr vil fra nå ssnsilt bli banlt so n skvns! C 2/4 5/2 6 nja råtn Kristoffrsn nja råtn Kristoffrsn 2
Estirt substitusjonssannsynligtr for vr av substitusjonn gitt at atan følgr sa oll so blokkn følgr. 3/70 4/280 C 2/280 Et stiat for bakgrunnsfrkvnsn å også tlls (vs anl gangr vr ainosyr r obsrvrt vor vrt klustr tllr so n skvns): LOKK s: C inosyr anl gangr obsrvrt s2: CC 3/2 s3: C s4: CCC 7/4 s5: C C 7/4 C 4/280 2/280 5/70 5/40 5/40 6/70 For l atasttt: inosyr anl gangr obsrvrt 57/40 9/280 C 75/280 For kt ata vil bakgrunnsfrkvnsn kunn approksirs frkvnsn av ainosyrn i atasttt utn å ta nsyn til klustrn. nja råtn Kristoffrsn 3 nja råtn Kristoffrsn 4 S, p, 2log2 2 p p p, 2log2 p p Først LOSUM80 atris for atan blir a: Enkl tstr for signifikant likt i n sanstilling. Eksakt lik subskvnsr stn lik subskvnsr 0 0-0 - - Så å ny sanstillingr lags og utrgningn gjørs på nytt ut fra ny blokkn. nja råtn Kristoffrsn 5 nja råtn Kristoffrsn 6
Eksakt lik subskvnsr ggagactgtagacagctaatgctata gaacgccctagccacgagcccttatc Dt strngst liktskritrit vil vær å kun s på subskvnsn vor lntn r ksakt lik. I skvnsn ovr ar vi 6 slik subskvnsr vr av lng Y. En tstobsrvator for å tst o to skvnsn r signifikant lik vil vær lngn Y aks. Vi å a finn sannsynligtsforlingn til Y aks gitt nullypotsn (ingn signifikant likt llo to skvnsn). La p vær sannsynligtn for lik lntr, tnk på obsrvasjonn lik lntr so suksss. (gotrisk forling) P(Y aks y) (P(Y y)) n ( p y+ ) n P(Y aks y) (F Y (y )) n ( p y ) n For to skvns vr av lng vil t vær (-p) sanstillingr av ulik lntr. Dr r t (-p) skvnsr av lng 0 llr r. p( y aks ) ( p yaks ) ( p) nja råtn Kristoffrsn 7 stn lik subskvnsr Mn r t lurt å bruk kun lngst ksakt lik skvns so tstobsrvator? Unr volusjon vil non av posisjonn i skvnsn nrs. Dr vil n tst vor an tar nsyn til at non substitusjonr å forvnts, vær br. nta at vi r intrssrt i sanstilt subskvnsr opptil k fil sanstillingr. La Y vær lngn til n subskvns vor antall fil sanstillingr ikk ovrstigr (k+). (k+ pga ranbtinglsr). For å finn sannsynligtsforlingn til Y å vi s på gnralisrt gotrisk forling. Sannsynligtn for at y forsøk (llr færr) r utført før k+ filsanstillingr r obsrvrt blir a: y j FY ( y) Pr( Y y) p j k k j k ( p), k+ y k, k +, k + 2,... nja råtn Kristoffrsn 8 Fra forln: y j FY ( y) Pr( Y y) p j k k j k ( p), k+ y k, k +, k + 2,... I følg stanar fragangsåt når vi ar n tstobsrvator Y aks å vi nå finn n åt å kalkulr p-vrin til n obsrvrt vri y av Y aks på. Dtt gjørs v at forln på forrig sli brgns v bruk av statistisk prograpakkr, f. ks. R. Kan også sannsynligtn for at Y y finns: y Pr( ) Y y j k j p k j k ( p), k+ Dnn sannsynligtn vil vi trng snr. y k +, k + 2, k + 3,... Hvis skvnsn so skal sanstills r lang og sannsynligtn for suksss r p vil vi so for forrig kspl a (-p) skvnsr lng Y i. Sin vi nå tillatr k filsanstillingr i skvnsn vil vi ikk lngr a uavngigt llo (-p) obsrvrt lngn Y i. Dtt blir vlig vansklig å åntr atatisk. Driot kan an nklt v jlp av siulringr ta nsyn til avngigtn llo lngn. nja råtn Kristoffrsn 9 nja råtn Kristoffrsn 20
Stokastisk prosssr. Tilflig gang. Spsialtilfll av Markov kj. Trngr tilflig gang for å forstå LST. Ekskursjon og stig start. TTQLLCTRD SDRHLLDRSSDT Skår: 2, -2, -,, 5, 5 osv. (ntt fra ønskt substitusjonsatris) S(i) Ekskursjon Ekskursjonslngr:, 3, Stig start r finrt so lavst punkt på grafn ittil, og r arkrt svart prikk. Stig start ( laar ) i nja råtn Kristoffrsn 2 nja råtn Kristoffrsn 22 Enkl tilflig gang Montgnrrn funksjon (gf) D nst lovlig stgn r + og -. Sannsynligtn for å gå opp r p, sannsynligtn for å gå n r q p. Vir gang fra posisjon r uavngig av tiligr vi prosssn ar gått. Gangn r bgrnst til oråt [a,b], a < < b, vis topp llr bunn oppnås vil prosssn stopp. To spørsål blir a: Hva r sannsynligtn for å n i vr av grnsn (a og b)? Hva r gjnnosnittlig antall stg til prosssn når n av grnsn? ( ) µ 2 σ E( Y ) y ( ) 2 ( ) 2 y 0 P ( y) 0 Y 2 µ nja råtn Kristoffrsn 23 nja råtn Kristoffrsn 24
bsorbrings sannsynligt Dn ontgnrrn funksjonn til n tilflig variabl so tar vrin sannsynligt p og vrin - sannsynligt q r: Sin inst t positivt og t ngativt stg bgg sannsynligt størr nn 0 r ulig ksistrr t n unik vri ulik 0 slik at (). (s si 35 i lærboka). Dnn vrin vil vær ( ) q + log q p p Dnn vrin skal nå bruks for å finn sannsynligtn for at n nkl tilflig gangn nr i grnsn b (og ikk i grnsn a). Sat og finn ilr antall skritt. nja råtn Kristoffrsn 25 nta at r t tilflig antall skritt so trngs for at prosssn skal n i n av grnsn. Sin n ontgnrrn funksjonn til sun av uavngig tilflig variabl, S Y + Y 2 + Y 3 + + Y, r vil n ontgnrrn funksjonn til n total forflyttingn ttr stg vær: Innsatt får vi: so vil vær lik for all. S S ( ) ( ( )) S ( ) ( q + p ( ) ( q + p ) ). nja råtn Kristoffrsn 26 nta at prosssn ar nå n av grnsn, a llr b, og at n startt i vrin. Dn nr vrin til prosssn r a b- sannsynligt w, llr a- sannsynligt u. Dtt kan ss på so n tilflig variabl, vi kan r stt opp gf for nn variabln: Sin () vil so gir ( b ) ( a ) ( b ) ( a ) ( ) w + u w + ( w ) ( b ) ( a ) ( ) w + ( w ) Forvntt antall stg før n tilflig gangn stoppr. For å finn forvntt antall stg å vi bruk Wal s intitt: ( ) ( ) E T for all vor () r finrt. Hvor r n tilflig variabl so rflktrr antall stg so å gås før n av grnsn oppnås, T r n absolutt forflytningn gjort på stg. T Y vor Y j so før r n tilflig variabl so j j kan ta vrin og. Wal s intitt vil ikk bli bvist r. w b a a og u b b a nja råtn Kristoffrsn 27 nja råtn Kristoffrsn 28
Wal s intitt: E ( ( ) ) T ( T ) E( Y E ) Forvntningsvrin til forflyttingn T r lik forvntningsvrin til lngn på vrt stg gangr forvntt antall stg ( ). V å rivr bgg sir av intittn får vi: T ( ( ) ) E ( ) T ( ) E T T E ( ) ( ) + ( ) T 0 ( ) Sin (0), E(Y) vil vi v å stt inn 0 i likningn ovr få: Dr r: E 0 ( E( Y ) + T ) E( ) E( Y ) + E( T ) 0 ( T ) E( Y E ) Forflyttingn T r b- sannsynligt w llr a- sannsynligt u. E Sin E(Y)p-q vil bli: ( T ) u ( a ) + w ( b ) u ( a ) + w ( b ) p q nja råtn Kristoffrsn 29 nja råtn Kristoffrsn 30 LST Sr på prosssr so startr i 0, lavst grns a - og ingn øvr grns. Dnn tilflig gangn vil før llr sin allti n i grnsn. Vi trngr a å rgn: i. Sannsynligtn for n aksial vrin so n tilflig gangn non gangr oppnår før n tilslutt nr i. ii. Forvntt antall stg før n tilflig gangn tilslutt nr i. Maksial vri Innfør tilflig variabl for n øvr stopp grnsn b, kall nn variabln y. For 0, a - og b y vil sannsynligtn for å n i y vær: vor log (q/p). w Sin r positiv vil y oinr nvnrn når y r stor, r vil sannsynligtn asyptotisk vær Dr ar vi for y : Pr y ( ) y y y ( Y y) ~ ( ) C nja råtn Kristoffrsn 3 nja råtn Kristoffrsn 32
Forvntt antall stg nta grnsn a - og b b og startpunkt 0, vi ar a: u0 bw q p 0 Sin vi r intrssrt i tilfllt når b og vi ar a fra forrig sli at w b 0 satiig so u, r blir forvntt antall skritt: q p Gnrll gang Vi ar nå kun stt på to ulig stglngr: og - Mr gnrlt kan an anta at ulig stglngn r: -c, -c+,,0,, -, tilørn sannsynligtr: nja råtn Kristoffrsn 33 p -c, p -c+,, p on av sannsynligtn kan vær 0, n p -c > 0 og p > 0 Stglngn ar ngativ forvntning: E( Y ) jp < j c j 0 Dn ontgnrrn funksjonn til stglngn Y r a: j ( ) p j nja råtn Kristoffrsn 34 j c Sin inst t positivt og t ngativt stg bgg sannsynligt størr nn 0 r ulig ksistrr t n unik vri ulik 0 slik at (). (s si 35 i lærboka). Dr ar vi Målt r nå å asyptotisk vis sa gnskapn so vi fant for n nkl gangn (forvntt antall stg og forvntt aks vri so oppnås før prosssn stoppr i t ngativt tall). Vi å nå utvi stoppbtinglsn til å vær vis prosssn oppnår n av vrin: Så stoppr prosssn. ( ) j p j j c -c, -c+,,-,y,, y+- La p k vær sannsynligtn for at prosssn stoppr i k. Fra Wal s intitt ar vi a at T ( ) E vor T r n total forflyttingn fra 0 når prosssn stoppr. Hlt likt brgningn for nkl gang kan vi a brgn forvntt antall stg før prosssn stoppr i n ngativ vri til å vær: c j j j c vor forvntt stg lng E(Y) jp j c j r forvntt å vær ngativ og forvntingn til at prosssn stoppr i j r R -j jr jp j nja råtn Kristoffrsn 35 For LST å, og C brgns, C r ikk ltt, n påvirkr også, ns r ltt å brgn fra forln vi fant for nkl prosss. nja råtn Kristoffrsn 36
Gnrll gang, asyptotisk tori Kapitll 7.6 Hr tar vi bar oss rsultatn: v å bruk sa tori n asyptotisk so vi gjor for nkl gang vil vi kunn finn uttrykkn so vi snr trngr for å forstå LST algoritn. nja råtn Kristoffrsn 37