Mer om søking i sekvenser

Transkript

1 Mer om søking i sekvenser agens forelesning orelesning IN335/ sept 27 Ole Christian Lingjærde Gruppen for bioinformatikk Institutt for Informatikk, UiO Kort oppsummering fra sist Globale sammenstillinger med ulineære scorefunksjoner Optimale lokale sammenstillinger (Smith-aterman) Heuristiske lokale sammenstillinger (BLS) Når er en sammenstilling signifikant? 2 Repetisjon: dynamisk programmering Vi så sist gang på Needleman-unsch algoritmen for optimal global sammenstilling av to sekvenser Repetisjon: dynamisk programmering Vi kunne dermed fylle inn tabellen under med optimale scoreverdier rad for rad (eller kolonne for kolonne): Med en lineær scorefunksjon S() fant vi følgende rekurrensrelasjoner for optimal score B(i,j) mellom :i og y :j : B(,) = Bi (,) = S(, ) + + S( i, ) = ig B(, j) = S(, y ) + + S(, y ) = jg j 2 B(,) B(,) B(2,) y B(,) B(,) B(2,) y 2 B(,2) B(,2) B(2,2) y 3 B(,3) B(,3) B(2,3) y 4 B(,4) B(,4) B(2,4) Bi (, j ) + S( i, yj) B(, i j) = ma B( i, j) + S( i, ) i, j Bi (, j ) + S(, yj ) B(3,) B(4,) B(3,) B(4,) B(3,2) B(4,2) B(3,3) B(4,3) B(3,4) B(4,4) 4

2 Repetisjon: dynamisk programmering Optimering med ulineær scorefunksjon Ved å markere avhengighetsforholdet mellom optimale verdier (hvilke som er basert på hvilke) med piler, kan vi etterpå lett konstruere en optimal vei og tilhørende optimale sammenstilling: Eksempel: S( a, yb) = S(, y) + BLOSUM 62( a, b) gopen, y ender ikke med S( a, y) = S(, y) getend, y ender med a blir: B(,) = Bi (,) = gopen ( i ) getend B(, j) = gopen ( j ) getend Bi (, j ) + BLOSUM62( i, yj) gopen hvis B( i, j) B( i 2, j) Bi (, j) = ma Bi (, j) getend hvis Bi (, j) Bi ( 2, j) gopen hvis B( i, j ) Bi (, j 2) Bi (, j ) getend hvis B( i, j ) B( i, j 2) 6 Eksempel Eksempel S(a,a) = S(a,b) = -3 for a b UIineær gapstraff med g open = 5 og g etend = 2 = y = S(a,a) = S(a,b) = -3 for a b UIineær gapstraff med g open = 5 og g etend = 2 = y =

3 Eksempel S(a,a) = S(a,b) = -3 for a b UIineær gapstraff med g open = 5 og g etend = 2 = y = Eksempel S(a,a) = S(a,b) = -3 for a b UIineær gapstraff med g open = 5 og g etend = 2 = y = Eksempel Lokal parvis sammenstilling S(a,a) = S(a,b) = -3 for a b UIineær gapstraff med g open = 5 og g etend = 2 = y = raceback: Needleman-unsch algoritmen kan lett modifiseres til å finne beste lokale sammenstilling av to sekvenser og y ette gir Smith-aterman algoritmen inner da generelt en sammenstilling av to delsekvenser i:j og y r:s for passende i j og r s Samme prinsipp (regneregler) som før, men vi ser om det er mulig å oppnå enda høyere score ved å utelate symboler i begynnelsen av eller slutten av sekvensene

4 Lokal parvis sammenstilling: ide Rekurrensformler nta at vi er ute etter en lokal sammenstilling med positiv score Utelat sluttsymboler i og y som bidrar negativt til scoren I praksis gjør vi dette ved å starte traceback i den ruten som har størst verdi Utelat startsymboler i og y som bidrar negativt til scoren I praksis gjør vi dette ved å sette inn i tabellen når optimal score blir negativ avslutte traceback før vi kommer til en Utregning av B(i,j)-verdier for lokal parvis sammenstilling med lineær scorefunksjon: B(,) = Bi (,) = i> B(, j) = j > Bi (, j ) + S( i, yj) Bi (, j) = ma i, j > Bi (, j) + S( i, ) Bi (, j ) + S(, yj ) 3 4 Eksempel på lokal sammenstilling S(a,a) = S(a,b) = - for a b Gapstraff g = - = y = Eksempel på lokal sammenstilling S(a,a) = S(a,b) = - for a b Gapstraff g = - = y = 5 6

5 Eksempel på lokal sammenstilling S(a,a) = S(a,b) = - for a b Gapstraff g = - = y = Eksempel på lokal sammenstilling S(a,a) = S(a,b) = - for a b Gapstraff g = - = y = Eksempel på lokal sammenstilling S(a,a) = S(a,b) = - for a b Gapstraff g = - = y = Eksempel på lokal sammenstilling S(a,a) = S(a,b) = - for a b Gapstraff g = - = y =

6 Eksempel på lokal sammenstilling Implementasjon: datastruktur S(a,a) = S(a,b) = - for a b Gapstraff g = - = y = raceback: 2 2 Lokal sammenstilling - Score 2 2 or å implementere Needleman-unsch eller Smith-aterman trenger du en datastruktur for å holde på B(i,j)-verdiene i sammenstillingstabellen (i=,,m; j=,,n) pilene i sammenstillingstabellen Noen muligheter: o m n tabeller: en tabell B for å holde på B(i,j)-verdiene en tabell P for å markere pilretninger (feks = ingen pil, = venstre, 2 = diagonalt, 3 = oppover) En m n 2 - tabell: C(i,j,) = B(i,j) og C(i,j,2) = P(i,j) i notasjonen ovenfor 2 22 Implementasjon: algoritme (Needleman-unsch) lgoritme-kompleksitet lgoritme (innfyllingsfase): Sett B(,) = 2 inn B(i,), i=,,n, og B(,j), j=,,m 3 or i = :n or j = :m Beregn B(i,j) Sett P(i,j) til "venstre", "oppover" eller "diag" basert på resultatet ovenfor nta vi skal sammenstille to sekvenser av lengde m og n Minne: O(nm) Et fast antall tabeller (en eller to) med n*m plasser : konstant * nm Et fast antall hjelpevariable : konstant id: O(nm) Må regne ut B(i,j) og P(i,j) for n*m ruter i tabellen : konstant * nm Må foreta traceback : konstant * (n+m) lgoritme (traceback-fase): Sett i = n og j = m 2 Hvis P(i,j) er "venstre": sammenstill "-" med y[j]; j--; "oppover": sammenstill [i] med "-"; i--; "diag" : sammenstill [i] med y[j]; i--; j--; 3 Hvis i > eller j > : gå til 2 Ellers: stopp 23 nta feks at vi bruker 8 bytes minne pr plass i tabellen (svarende til to int-variable eller en int-variabel og en float-variabel i Java) Sammenstilling av to N-sekvenser av lengde krever * * 8 = 8 Mb minne lengde krever * * 8 = 8 Gb minne 24

7 Optimalisering av minnebruk nta først at vi skal finne beste globale sammenstilling En optimal vei vil som oftest ligge nokså nær hoveddiagonalen (fordi gap straffes) Vi begrenser derfor søkerommet til et bånd rundt linjen som forbinder startruten og sluttruten i tabellen: Hvis m n: Minne: O(Kn) id: O(Kn) K = båndbredden Kun de B(i,j)-verdiene som ligger innenfor båndet beregnes, og ved trace-back går vi aldri utenfor båndet Merk: vi kan risikere å gå glipp av den optimale sammenstillingen (hvis den går utenfor båndet) 25 Optimalisering av minnebruk - 2 nta nå at vi skal finne beste lokale sammenstilling a er startruten og sluttruten for optimal vei i utgangspunktet ukjent inn først ruten B(i,j) med høyest score ette kan gjøres med minne O(n) og i tid O(mn) hvis vi bare lagrer raden vi holder på å fylle inn og raden ovenfor Resultat: Ruten med maksimal score 26 Optimalisering av minnebruk - 3 Lokal sammenstilling med BLS En optimal vei fra den markerte ruten vil som oftest ligge nær den diagonal linjen bakover fra den optimale ruten (fordi gap straffes) efiner et bånd rundt den diagonale linjen Beregn alle B(i,j)-verdier innenfor båndet, og gjør traceback fra den optimale ruten BLS = Basic Local lignment Search ool Omfatter flere nært beslektede metoder: NCBI-BLS (NCBI = National Center for Biotechnology Information) U-BLS (U = ashington University) Hvis m n: Vi ser her på NCBI-BLS (den opprinnelige BLS), og kaller den bare for BLS i fortsettelsen Minne: O(Kn) id: O(mn) K = båndbredden BLS ble til i 989 Målet var å lage et heuristisk søkeprogram som veldig raskt kunne finne rimelig opplagte lokale similariteter mellom sekvenser 27 BLS viste seg imidlertid også å være god til å finne fjernt beslektede sekvenser 28

8 Naboskapstabellen BLS benytter en tabell som angir for hver trimer S alle de trimerer som har høy similaritet med S, definert ved at de sammenstilt med S gir en score Slike trimerer utgjør naboskapet til S orekomsttabellen BLS benytter også en tabell som angir for hver trimer hvor den forekommer i databasen C YY YYY C YY YYY Mer generelt kan trimerer erstattes med -merer ypiske valg er = 3 for proteinsekvenser og = for N-sekvenser Videre kan vi feks ha 29 score = BLOSUM62 og = rimer C YYY orekomster i databasen 3 BLS-algoritmen: hovedtrinnene nta at en søkesekvens Q er gitt: Velg en trimer S i sekvensen Q 2 Velg en S' i naboskapet til S 3 Velg en forekomst av S' la oss si i sekvensen Q' - i databasen 4 Sammenstill S i sekvensen Q med S' i sekvensen Q' Utvid sammenstillingen i begge retninger langs Q og Q', inntil en av følgende inntreffer: BLS-algoritmen: hovedtrinnene forts Kun de beste HSP'ene beholdes (de med score over en gitt terskel) Hver av HSP'ene undersøkes nærmere ved å finne en (tilnærmet) optimal lokal sammenstilling med gap i dette området Beregn E-verdi og endel andre verdier som skal rapporteres til brukeren sammen med den lokale sammenstillingen kkumulert score < ma(akkumulert score) ERSKEL kkumulert score < Enden av en av sekvensene nås 4 Sammenstillingen vi nå har kalles High-scoring Segment Pair (HSP) Prosessen gjentas for alle valg av S, S' og forekomster av S' 3 32

9 BLS: valgmuligheter BLS: valg av type søk ype søk (feks N mot protein) atabase som det skal søkes i Organisme som det skal søkes i ormat på søkesekvens ype sammenstilling (med/uten gap) iltrering av lavkompleksitetsområder Scoringsskjema ormat på BLS-rapporten 33 Program BLSN MEGBLS BLSP PSI-BLS PHI-BLS BLS BLSN BLS atabase Nukleotid Protein Protein Nukleotid (oversettes til protein) Nukleotid (oversettes til protein) Søkesekvens Nukleotid Protein Nukleotid (oversettes til protein) Protein Nukleotid (oversettes til protein) Eksempel på bruk Gitt en N-sekvens, finn relaterte N-sekvenser i samme organisme eller i andre organismer Gitt en proteinsekvens, finn beslektede proteiner Gitt en N-sekvens, avgjør om den svarer til kjent protein Gitt en proteinsekvens, finn posisjonen til tilhørende gen Gitt en N-sekvens som potensielt koder for protein inn relaterte Nsekvenser i samme organisme eller andre organismer (mer følsom enn BLSN) 34 BLS: valg av database (eksempler) Peptidsekvens-databaser nr ll non-redundant GenBank CS translations+pb+swissprot+pir+pr swissprot Last major release of the SISS-PRO protein sequence database (no updates) yeast Yeast (Saccharomyces cerevisiae) genomic CS translations ecoli Escherichia coli genomic CS translations pdb Sequences derived from the 3-dimensional structure from PB alu ranslations of select lu repeats from REPBSE Nukleotidsekvens-databaser nr ll GenBank+EMBL+BJ+PB sequences () dbest atabase of GenBank+EMBL+BJ sequences from ES ivisions dbsts atabase of GenBank+EMBL+BJ sequences from SS ivisions htgs Unfinished High hroughput Genomic Sequences yeast Yeast (Saccharomyces cerevisiae) genomic nucleotide sequences E coli Escherichia coli genomic nucleotide sequences pdb Sequences derived from the 3-dimensional structure from PB mito atabase of mitochondrial sequences alu Select lu repeats from REPBSE 35 BLS: valg av format på søkesekvens Sekvens i S-format (se neste foil) GI-nummer (GenBank Identifier) Løpenummer som tildeles sekvenser etterhvert som de blir registrert i GenBank Oppdateringer av sekvensen får nytt GI-nummer ccession # Entydig identifikator som tildeles en sekvensrecord (= en sekvens + tilhørende informasjon) første gang denne blir registrert Senere oppdateringer av en record fører ikke til endring av, eller nye, accession # 36

10 S format IUPC-koder (IUPC = International Union of Pure and pplied Chemistry) ørst en kommentarlinje som starter med > og som gir en kort beskrivelse av dataene, deretter dataene på IUPC-format (se neste foil) Linjene skal helst ha maksimalt 8 tegn denin Cytosin Guanin C G lanin Cystein sparginsyre Glutaminsyre la Cys sp Glu C E Eksempel (N): hymin Uracil U enylalanin Glycin Phe Gly G >B263 acc=b263 descr=homo sapiens mrn for CGGCCGCCCCCGGCCCCGCGCGCGCCCCGGGGCCCGGCC CCGCGCCCGCCCCGGGGGGGCCCCCCGGCCGGCGCGGCGCC GGGCGGCGGGGGCGCCCCGCCCCGCGGGG GGGGCCCCCGGCCGGCCGGGCCCCCGGGGGGCCGGGGG Eksempel (protein): Purin (G ) Pyrimidin ( C) Keto (G ) mino ( C) G eller C eller G, eller C R Y K M S B Histidin Isoleucin Lysin Leucin Methionin sparagin Prolin His Ile Lys Leu Met sn Pro H I K L M N P >gi pir 496 chitinase (EC 324) YPLKLPPSSCVGHKLMNVVVVEQVREYPLKLPPSSCVGHKLMNVVVV EQVREYPLYPLKLPPSSCVGHKLMNVVVVEQVREYPLKLPPYPLK LPPSSCVGHKLMNVVVVEQVREYPLKLPPSSCVGHKLMNVVVVEQVR EYPLYPLKLPPSSCVGHKLMNVVVVEQVREYPLKLPP 37 G, eller, C eller, C, G eller NB: store og små bokstaver kan normalt brukes om hverandre H N Glutamin rginin Serin hreonin Valin ryptofan yrosin Gln rg Ser hr Val rp yr Q R S V Y 38 BLS: valg av scoringsskjema BLS homepage (wwwncbinlmnihgov/blast) Scoringsmatrise BLOSUM45 BLOSUM62 BLOSUM8 PM3 PM7 Gapstraff Kan velge mellom diverse affine gapstraffer Velg søkeprogram 39 4

11 Eksempel: protein blast Eksempel : søkestreng = gi Her oppgis søkesekvensen Valg av database Valg av søkeprogram Start søk 4 42 BLS-rapporten (innledning) BLS-rapporten (grafisk oversikt) Skal refereres når man publiserer noe basert på NCBI-BLS Resultat-identifikator (RI) Info om databasen Info om søkesekvensen 43 44

12 BLS-rapporten (liste over treff i databasen) Ett av treffene i databasen Bit score / raw score E-verdi Her kan vi velge å se nærmere på de enkelte treffene HSP HSP = High-scoring Segment Pair BLS versus dynamisk programmering Egenskaper ved BLS: Er to sekvenser relaterte? nta at vi har en lokal sammenstilling: Vesentlig raskere enn dynamisk programmering Utforsker ikke hele spekteret av mulige sammenstillinger, i motsetning til dynamisk programmering inner ikke nødvendigvis alle lokale similariteter som oppfyller kriteriet for å bli rapportert inner statistisk signifikante sammenstillinger selv om de ikke er optimale, i motsetning til dynamisk programmering Slike sammenstillinger kan være av stor biologisk interesse : 2 3 N y: y y 2 y 3 y N Sammenstillingen kan være funnet ved: Smith-aterman BLS En annen sammenstillingsalgoritme Vi antar for enkelhets skyld at sammenstillingen er uten gap Hvordan avgjør vi om sekvensene er relaterte? 47 48

13 Mulige framgangsmåter Hva er mest trolig: relatert eller ikke? Sammenlign sannsynligheten ovenfor med tilsvarende sannsynlighet beregnet under antagelse av at sekvensene er relaterte (og med en viss evolusjonær avstand) Hva er mest trolig? Log-likelihood ratio et er essensielt dette vi gjør når vi regner ut BLOSUM-scoren til en sammenstilling: husk at scoren mellom aminosyre i og aminosyre j er BLOSUM(i,j) = log [q ij / (p i *p j )] I BLS rapporteres denne verdien som raw score (eller bare score) Litt notasjon S( j, k) : score for sammenstilling av aminosyre j og aminosyre k Si () i : akkumulert score Si () = S ( j, y j ) j= p k : a priori sannsynligheten for at en vilkårlig i er aminosyre k : a priori sannsynligheten for at en vilkårlig y i er aminosyre k p k 2 i N y y 2 y i y N 2 Hvor trolig er resultatet hvis de ikke er relaterte? Under antagelse av at det er en tilfeldig sammenstilling av to sekvenser, hvor sannsynlig er det at vi skulle observere en så høy score som obs? ette er prinsippet for Karlin-ltschul testen i BLS 49 S(, y ) 2 2 i Si () = S ( j, y j ) j= 5 Urelaterte sekvenser or urelaterte sekvenser vil vi ha "typiske verdiintervaller" for: andelen par ( i,y i ) med identiske aminosyrer (dvs i =y i ) lengden av lengste sammenhengende segment av slike par lengden av lengste ekskursjon fra et stigepunkt Vi kan så sjekke om den gitte sammenstillingen er i samsvar med dette 5 Urelaterte sekvenser forts nta at sekvensene er urelaterte (i henhold til tidligere modell): sannsynligheten for aminosyreparet (j,k) : p p j forventet score : forventet akkumulert score : i i 2 2 E[ S( i)] = E[ S(, y )] = E[ S(, y )] = i p p S( j, k) Merk at k 2 2 E[ S(, y )] pps ( j, k) = antar at S er valgt slik i i j k j= k= at denne blir negativ aminosyre j aminosyre k i i i i j k j= j= j= k= ES [ ()] > ES [ (2)] > > ESN [ ( )] S(i) har "negativ drift" 52

14 Normalisert score Motivasjon for definisjonen av lambda Ulike scorefunksjoner (scorematriser) S(j,k) kan operere på ulike skalaer il hver scorefunksjon S(j,k) kan vi definere en normalisert score S '( j, k) = λs( j, k) λ > hvor er en skaleringsfaktor Ideen er at disse normaliserte scorene er sammenliknbare for ulike scoringsfunksjoner λ Scaleringsfaktoren bestemmes ved å løse likningen 2 2 j= k= j S( j, k) k = ppe λ et finnes ulike måter å definere scorefunksjonen S(j,k) på, men vi kan nesten alltid tenke på S(j,k) som et estimat på lod-scoren, dvs q jk S( j, k) log (tilnærmet) pp Vi definerer λ slik at j k Etter en enkel omskriving får vi q = p p e λ jk j k Vi summerer over alle j og k og får: j q jk λ S( j, k) = log (tilnærmet) pp k S( j, k) λs( j, k) ppe j k qjk j= k= j= k= = = E-verdi og P-verdi Søk mot en hel database La s være scoren til en HSP et kan vises at når sekvensene er urelaterte, så vil forventet antall ekskursjoner av høyde s eller mer være tilnærmet E = k Ne λs (E-verdi, eller Epect-verdi) Hittil har vi tatt utgangspunkt i en lokal sammenstilling uten gap av to sekvenser som begge har lengde N I praksis er situasjonen ofte en annen: Vi har en søkesekvens som består av m aminosyrer Vi søker mot en database som totalt består av n aminosyrer en konstant (kan beregnes) ølgende resultat kan også vises å holde tilnærmet: Prob( S s) = e E lengden av sekvensene som sammenstilles (P-verdi) en statistiske analysen er mye mer komplisert i dette tilfellet (og er ennå ikke fullstendig avklart) ølgende resultat er etablert: Når søkesekvensen og databasesekvensen er urelaterte, vil forventet antall ekskursjoner av høyde s eller mer være tilnærmet E = kmne λ s 55 for en passende konstant k (som er kjent) 56

15 olking av P-verdier olking av E-verdier Lave P-verdier svarer til høy signifikans Eksempel: Lave E-verdier svarer til høy signifikans Retningslinjer: P < - : eksakt match P < -5 : nær identiske P < - : nært beslektet P < - : fjernt beslektet (eller ikke beslektet) ellers : ikke signifikant E < 2 : trolig beslektet E < : kan være beslektet ellers : ingen indikasjon på beslektet 57 58