Hvor er genene? Gensøk-algoritmer. Gener i prokaryoter. Genenes anatomi (prokaryoter) Forelesning INF3350/4350 5. sept 2007



Like dokumenter
Kapittel 14: Det eukaryote genom og dets uttrykksregulering

Mer om gensøk. Kjapp oppsummering fra sist gang. Motif eller tilfeldig DNA forts. Motif eller tilfeldig DNA? Forelesning INF3350/

Gensøk. Oppsummering. Typer av sammenstillinger. Sammenstilling av sekvenser. To prinsipper for søking etter gener i DNA:

Flervalgsoppgaver: proteinsyntese

Foreleser: Eivind Coward, kontor 5. etg. Datablokken. Gruppeleder: Harald Barsnes

UNIVERSITETET I OSLO

GENER, genregulering, og genfamilier

UNIVERSITETET I OSLO

Kapittel 12: FRA DNA TIL PROTEIN:

Oversikt over kap. 11. Kap. 11 Den direkte påvisning av genotype skiller individuelle genomer. Fire klasser av DNA polymorfismer.

ML-208, generell informasjon

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

Oppgave 2b V1979 Hvor i cellen foregår proteinsyntesen, og hvordan virker DNA og RNA i cellen under proteinsyntesen?

Naturfag for ungdomstrinnet

Regulering av DNA Transkripsjon i Eukaryote Organismer. ID, Kull 99, Vår 2001 Frank Skorpen IKM, DMF

ML-208, generell informasjon

Fremgangsmåte for å produsere en gnager med evne til å produsere et repertoar av kimære antistoffer eller tunge antistoffkjeder, idet fremgangsmåten

Forelesning 9 mandag den 15. september

1. En ikke-naturlig forekommende eller konstruert sammensetning omfattende:

UNIVERSITETET I OSLO. Det matematisk-naturvitenskapelige fakultet

Frå DNA til Protein. Medisin stadium IA, 9. september Astrid Lægreid

PBM 233 Mikrobiologi for farmasøyter

Forelesning 22 MA0003, Mandag 5/ Invertible matriser Lay: 2.2

Institutt for Samfunnsøkonomi. Utlevering: Kl. 09:00 Innlevering: Kl. 14:00

Uendelige rekker. Konvergens og konvergenskriterier

Bioteknologi i dag muligheter for fremtiden

Opptelling - forelesningsnotat i Diskret matematikk Opptelling

Kreativ utvikling av engasjerte mennesker. Fylkesmessa 2009 Kristiansund

FYS3710 Molekylærbiologi

Den komplette DNA sekvens fra en organisme.

FYS 3710 Biofysikk og Medisinsk Fysikk, DNA, RNA, Translasjon, Transkripsjon Proteinsyntese, Cellesyklus

PRIMTALL FRA A TIL Å

Viktige opplysninger: Oppgavesettet utgjør totalt 100 vekttall. Antall vekttall er vist i parentes ved hver spørsmålsgruppe.

BI Celle- og molekylærbiologi

Epigenetikk; arvesynden i ny innpakning? Dag O. Hessen University of Oslo, Dept. Biology Center of Ecological and Evolutionary Synthesis (CEES)

Olweusprogrammet. Tema i klassemøtet. Klasseregel 4 Hvis vi vet at noen blir mobbet

Grafisk kryptografi (hemmelig koding av bilder)

Oppnå. økt salg! Keeping things together

Kap 12. Det eukaryote kromosom. En organelle for pakking og styring av DNA

TMA4140 Diskret matematikk Høst 2011 Løsningsforslag Øving 7

MAT 1001, Høsten 2009 Oblig 2, Løsningsforslag

REFERAT Fornyingsutvalget Dato

Emnekode: LV121A Dato: Alle skrevne og trykte hjelpemidler

KarriereDagen SLIK FÅR DU STØRST UTBYTTE AV

Kap. 5 og Notat 2 Oppsummering

Positiv og virkningsfull barneoppdragelse

Sammenligningen mellom Arabidopsis thaliana genomet og de kjente genomene fra cyanobakterier, gjær, bananflue og nematode, viser bl. a.

Mandat, prosjekt rapportering bostedsløse og vanskeligstilte på boligmarkedet

MAT1030 Forelesning 30

Født sånn eller blitt sånn: om gener, søppel-dna og epigenetikk

Kap. 5 Egenverdier og egenvektorer

Mer om likninger og ulikheter

Uttrykket 2 kaller vi en potens. Eksponenten 3 forteller hvor mange ganger vi skal multiplisere grunntallet 2 med seg selv. Dermed er ) ( 2) 2 2 4

a) Ved avlesning på graf får man. Dermed er hastighet ved tid sekund lik.

Eksamensoppgave i BI1001 Celle og Molekylærbiologi

GENTEKNOLOGISK ARBEID MED NAKENT DNA

Løsningsforslag til seminar 4 Undervisningsfri uke

27.mars Begrepet hatkriminalitet benyttes i flere land, men fenomenet defineres ofte ulikt. De mest brukte

a ) Forventningen estimeres med gjennomsnittet: x = 1 12 (x x 12 ) = 1 ( ) = 8813/12 = 734.4

FELLES STANDARD FOR LESING I LINDESNESSKOLEN

Fasit - Oppgaveseminar 1

Hypotesetesting. Notat til STK1110. Ørnulf Borgan Matematisk institutt Universitetet i Oslo. September 2007

Oversikt over kap.10. Kap 10. Rekonstruksjon av Genomet. Splitt og overvinn strategien imøtekommer de fleste utfordringer

Befolkningsvekst. Nico Keilman. Demografi grunnemne ECON 1710 Høst 2013

STATISTIKK FRA A TIL Å

Tyngdekraft og luftmotstand

(12) Oversettelse av europeisk patentskrift

Karakterisering av PISCINE MYOCARDITIS VIRUS (PMCV)

INF280 Søking og maskinlæring

Motspill. Samarbeid Gode signaler Resonnement Kreativitet Taktikk

Examination paper for Bi2014 Molecular Biology

TBT4170 Bioteknologi Eksamensnotater. Audun F. Buene

Hva er bioinformatikk? Introduksjon til bioinformatikk. Summary. Menneskets genom. Prokaryoter og eukaryoter. Lars O. Baumbusch

Binomisk fordeling. Tilfeldige variabler. MAT0100V Sannsynlighetsregning og kombinatorikk

Genfeil i kreftsvulster nøkkelen til en mer persontilpasset behandling?

REFLEKSJONSBREV MARS TYRIHANS. Fokus: Et læringsmiljø som støtter barnas samarbeidsprosesser

Fasit og løsningsforslag til Julekalenderen for mellomtrinnet

Sigbjørn Hals. Nedenfor har vi tegnet noen grafer til likningen y = C, der C varierer fra -2 til 3, med en økning på 1.

OSLO KULTURNATT 2015 PUBLIKUMSUNDERSØKELSE. Kjersti Tubaas

Labyrint Introduksjon Scratch Lærerveiledning. Steg 1: Hvordan styre figurer med piltastene

Rev.: 3 Brukerveiledning Teknisk Regelverk og Adobe Acrobat Reader Side: 1 av 10

er et er et heltall. For eksempel er 2, 3, 5, 7 og 11 primtall, mens 4 = 2 2, 6 = 2 3 og 15 = 3 5 er det ikke.

LEKSJON 4: BIOTEKNOLOGI HVORDAN VI BRUKER NATURENS EGNE MEKANISMER TIL VÅR FORDEL, OG UTFORDRINGENE SOM FØLGER MED

Møteinnkalling STJØRDAL KOMMUNE. Utvalg: Administrasjonsutvalget Møtested: Formannskapssalen, Rådhuset Dato: Tidspunkt: 13:00

Fagmøte i kjemi 7/

GENETISKE MEKANISMER INVOLVERT I SPREDING AV RESISTENS

FLERVALGSOPPGAVER - CELLEMEMBRANEN

Kap. 5 Egenverdier og egenvektorer

Plan. Pensum i bioinformatikk. Hva er bioinformatikk?

Vanen, viljen og valget

INF5820 Natural Language Processing - NLP. H2009 Jan Tore Lønning

Kunnskapsbehov. Torleif Husebø PTIL/PSA

Tallet 0,04 kaller vi prosentfaktoren til 4 %. Prosentfaktoren til 7 % er 0,07, og prosentfaktoren til 12,5 % er 0,125.

Oncogenic Mutations Affecting Cell Proliferation

RAPPORT ETTER STØYMÅLING I RISØR SENTRUM.

ALGORITMER OG DATASTRUKTURER

Vekst av planteplankton - Skeletonema Costatum

Virkningsfulle spørsmål i veiledningssamtaler

Transkript:

Gensøk-algoritmer Hvor er genene? Forelesning INF330/430. sept 2007 Ole Christian Lingjærde Gruppen for bioinformatikk Institutt for Informatikk, UiO En viktig del av kartleggingen av et genom er å finne ut hvor genene og deres regulatoriske elementer ligger. Mønstergjenkjenningsproblem! GATCAGTTTCTTTAAGCCGATGGGTCCAGACTTTTCAGCCCTGCCAGAGAATTCCTAAT TCCATCTCTCAGGTTTTCCAGTGGTAATGAAAAGCTAGCCAAGTTTGGCTATGCTAACC AAAGCGGGTTCAGTGTGTGTTGTCAGTAAATATTAGTCTATGTGATGTTAATAATCAAAC TTATCTTGTGTGGGACCACTATGCTGAATGAACTTTGTACTGTTATCTCATTTAATTCTG AGGATAGCTCTTAAGGTAAGTATTATGATAGCCCTTGATTTACACTTGAGGAAACCAA GGCATAGAGAGATTAAGTAGTGTGTCTAAAGTCACACTACTAGAAAGTGCAAGAGCCT GAACTCAACCCAGGCAGTCTGACTCTGGAGCCCAGCTTGTGAGCTCCATGCTAGTCTG TCACCTTACCTTACCAGTCCTTGGACTACAAAGCTGCTAGTTCTGGTACTGTATCCTTGA GTGTCACGCGCGTCCGTGTGAAGAGACCACCAAACAGGCTTTGTGTGAGCAATAAA.... Vanskelig problem, fordi gener varierer mye i struktur, basekomposisjon og lengde. Å skille kodende DNA fra ikke-kodende DNA krever ofte en kombinasjon av flere teknikker. 2 Genenes anatomi (prokaryoter) Gener i prokaryoter RBS Kodende region Translasjonsstart Translasjonsslutt Transkripsjonsstart Transkripsjonsstopp RBS = Ribosomalt bindingssete Transkripsjon = kopiering av DNA til mrna (hvert gen for seg) Translasjon = oversettelse fra mrna til protein (skjer på ribosomene) 3 Høy gentetthet (> 90% kodende) Få repetitive sekvenser Et gen har en enkelt sammenhengende kodende sekvens De fleste gener har ATG (=methionin) som startkodon Tre mulige stoppkodoner (TAG, TAA, TGA) Ofte felles transkripsjon av flere gener operoner med karakteristisk termineringssignal (rho-uavhengig terminator) Mellom transkripsjonsstart og translasjonsstart er et ribosomalt bindingssete (RBS), Shine-Dalgarno sekvensen, med konsensussekvens AGGAGG Tredje posisjon i kodoner er GC-rik Tredje nukleotid i kodoner har tendens til å repetere seg 4

Genenes anatomi (eukaryoter) Gener i eukaryoter Lav gentetthet (~3% i det humane genomet) Kodende region Translasjonsstart Translasjonsslutt Mange repetitive sekvenser og transposoner (= sekvenser av DNA som kan flytte rundt til forskjellige posisjoner i genomet i en enkelt celle med hjelp fra naturlig forekommende enzymer) Et gen består normalt av flere kodende delsekvenser (exoner) atskilt av ikke-kodende sekvenser (introner) RBS Felles transkripsjon av flere gener (operoner) er uvanlig, med noen få unntak (nematoder = rundormer) exoner = kodende områder av et gen atskilt av introner Transkripsjonsstart Transkripsjonsstopp RBS rett oppstrøms for (= før) translasjonsstart : Kozaksekvensen med konsensussekvens (GCC)[AG]CCATGG Start- og stoppkodoner som for prokaryoter (GCC) = mindre konservert sekvens [AG] = A eller G CCA = konservert sekvens To typer metoder Homologibaserte metoder Homologibaserte metoder Ab initio baserte metoder Sammenlikner sekvensen direkte med kjente gensekvenser. Kan brukes til å finne gener med sekvens som likner det vi finner i et kjent gen. 7 8

Homologibaserte metoder Homologibaserte metoder Ideen som utnyttes her er at to organismer (f.eks. menneske og mus) har et felles opphav en "forfar-organisme" som begge stammer fra. Gen? Gen? Gen? Dermed vil vi forvente at de to organismene fortsatt bærer på endel felles gener som stammer fra forfar-organismen. Men etter at organismene A og B skilte lag kan: A og/eller B ha mistet noen av de opprinnelige genene A og/eller B ha ervervet seg nye gener De felles genene ha utviklet seg forskjellig i A og B (divergens) Homologibaserte metoder håndterer ikke de to første, men det siste punktet kan langt på vei håndteres med gode sammenstillingsmetoder. 9 Sentralt spørsmål for denne typen metoder: når er sekvenslikheten stor nok til at vi kan fastslå slektsskap? (Tema for senere forelesning) Kjente gensekvenser (kan være fra andre organismer) 0 Ab initio baserte metoder Forskjellige metoder Sammenlikner ulike egenskaper ved sekvensen med tilsvarende egenskaper hos kjente gener. Vi har sett at prokaryoter og eukaryoter har tildels svært forskjellige egenskaper. Med slike metoder kan vi også finne gener som ikke har noen sekvenslikhet med kjente gener, såfremt de har andre fellestrekk med gener. Ab initio metoder for genprediksjon i prokaryoter er derfor forskjellige fra tilsvarende metoder for eukaryoter. 2

Ab initio metoder : generelt Seks leserammer Leter etter spesielle kjennetegn for gener, bl.a. Vi vet ikke på forhånd hvilken leseramme en proteinkodende sekvens benytter: konserverte sekvenser nær start/slutt av genet konserverte sekvenser i overgangene mellom introner og exoner statistiske egenskaper hos exonene (basekomposisjon m.m.) To hovedtyper av ab initio metoder: Signalsøk: Søk etter sekvenselementer som matcher gitte mønstre, f.eks. Shine-Dalgarno eller Kozak konsensussekvensen. Innholdssøk: Leting etter sekvensregioner med statistiske egenskaper som matcher de vi finner i kjente gensekvenser, f.eks. med hensyn til hyppighet av GC i tredje base i kodoner. 3 2 3 4 ' - G C A T C A G C G T A A T C G T T - 3' 3' - C G T A G T C G C A T T A G C A A - ' To gener i samme DNA-sekvens kan benytte forskjellige leserammer. 4 Ab initio prediksjon i prokaryoter Ab initio prediksjon forts. Strategi : Finn alle åpne leserammer (= Open Reading Frames = ORF'er). En ORF er en delsekvens som: Har baselengde som er delelig på 3 Starter med startkodonet ATG Slutter med en av stoppkodonene TAA, TAG, TGA Ikke har noen stoppkodoner i midten Problem: slike sekvenser finner en også i ikkekodende DNA! Løsning: Anta for enkelhets skyld at ikkekodende DNA er helt tilfeldig sammensatt av A, T, G og C. I en gitt leseramme er da sannsynligheten for å unngå stoppkodon i k påhverandre følgende basetripler gitt ved (/4) k. Betrakt en sekvens i ikkekodende DNA av formen: 2 eller flere basetripler uten stoppkodon ATG XXX XXX XXX... XXX XXX TAG Sannsynligheten for å finne dette er (/4) 2 =, altså svært lav! M.a.o. hvis vi begrenser ORF-søk til de som har lengde minst 4 basetripler, får vi bare noen få falske positive.

Ab initio prediksjon forts. Ab initio prediksjon forts. Strategi 2: Søk etter Shine-Dalgarno sekvenser. Strategi 3: Velg en leseramme og lag et plott som viser hyppigheten av GC i tredje base. Gjør tilsvarende for alle andre leserammer. I praksis holder det å søke rett oppstrøms for de ORF'er som vi har identifisert ved strategi. Strategi 4: Velg en leseramme og lag et plott som viser hyppigheten av repetisjon i tredje base. Gjør tilsvarende for alle andre leserammer. 7 8 Ab initio metoder i eukaryoter Signalsøk i eukaryoter Start- og stoppkodoner Må da identifisere: Start og slutt for genet Start og slutt for hvert exon i genet For å identifisere exoner benyttes typisk en kombinasjon av signalsøk (signaler ved genets start og slutt, spleisesignaler mellom introns og exons) og innholdssøk (f.eks. CpG-øyer). Promotere forteller RNA polymerase hvor transkripsjonen starter. Ex: GC boks, TATA boks, CAAT boks. Spleisesteder exon-intron grenser (donorer) og intron-exon grenser (akseptorer). F.eks. kan akseptorer ha formen ' - PyPyPyPyPyPyNCAG - 3' hvor Py {C,T} og N {A,C,G,T}. Terminatorer, ribosomale bindingsseter,... 9 20

Promotere Søk etter promotere og spleisesteder Eukaryote promotere består av en samling korte sekvenser plassert med relativt konstant avstand fra stedet hvor transkripsjonen starter. Fungerer som bindingssete for RNA polymerase for å initiere transkripsjon. Eksempler: β-globin glucocorticoid reseptor Histon H2B Promotere og spleisesteder er mer kompliserte å finne enn f.eks. start- og stoppkodoner, fordi det er betydelig sekvensvariasjon. Eksempel: konsensussekvensen for en av promoterne til E.coli er TATAAT, men i et studium av 23 promoterregioner hadde ingen akkurat denne sekvensen. Søkemetoder for slike signaler inkluderer motif-baserte søkemetoder. Vi skal se nærmere på dette. GC boks TATA boks : GGGCGG : TATAAA CAAT boks : CCAAT 2 22 Motif-baserte søkemetoder Posisjonsvektmatriser Vi lager først en beskrivelse av domenet. Til det trenger vi et sett av kjente instanser (et "treningssett"). Vi løpet deretter gjennom sekvensen med et vindu av fast lengde og gir hvert segment en score etter hvor godt det passer med beskrivelsen av domenet. Dette kan implementeres på flere måter. To sentrale klasser av metoder er bruk av Posisjonsvektmatriser Skjulte Markov modeller 23 En posisjonsvektmatrise (profil) beregnes ut fra en multippel sammenstilling av sekvensene i treningssettet og estimerer sannsynligheten for at en bestemt nukleotid skal forekomme i en bestemt posisjon. Eksempel: GAGGTAAAC TCCGTAAGT CAGGTTGGA ACAGTCAGT TAGGTCATT TAGGTACTG ATGGTAACT CAGGTATAC TGTGTGAGT AAGGTAAGT A C G T posisjoner 2 3 4 0.3 0. 0. 0.7 0.2 0.2 0.2 0.2 0.2 0.7.0 0. 0.4.0 0.2 0. 7 tabell over relative frekvenser 8 9 24

Posisjonsvektmatriser forts. Posisjonsvektmatriser forts. Anta at vi har gitt en sekvens: ACTGTGCCC Sannsynligheten for at en instans av domenet skal se slik ut: 0.3 * 0.2 * *.0 *.0 * * * * 0.2 = 00002 Tilfeldig valgte sekvenser kan også få positiv score. For hver sekvens S regner vi derfor ut sannsynligheten for å finne S i domenet: P(S domene) = 0.3 * 0.2 * *.0 *.0 * * * * 0.2 Høy score betyr god overensstemmelse med domenebeskrivelsen (treningssettet). A C G T 0.3 0.2 0.4 2 0. 0.2 3 0.7 4.0.0 0. 0.2 7 0.7 8 9 0.2 0.2 0. 0.2 0. 2 sannsynligheten for å finne S et tilfeldig sted: P(S tilfeldig) = p A * p C * p T * p G * p T * p G * p C * p C * p C Forholdet mellom disse kalles en likelihood ratio. Ofte ser vi på logaritmen: ln P( S domene) λ = P ( S tilfeldig ) λ < 0 : mest trolig tilfeldig λ = 0 : like trolig domene og tilfeldig λ > 0 : mest trolig domene 2 Posisjonsvektmatriser forts. Posisjonsvektmatriser forts. La posisjonsvektmatrisen være 2 3 4 7 8 9 Definer verdier h n,i= ln (f og erstatt verdiene i i n,i/p i n ) i posisjons-vektmatrisen med disse: A f A f A2 f A3 f A4 f A f A f A7 f A8 f A9 C f C f C2 f C3 f C4 f C f C f C7 f C8 f C9 G f G f G2 f G3 f G4 f G f G f G7 f G8 f G9 T f T f T2 f T3 f T4 f T f T f T7 f T8 f T9 Da er log-likelihood ratioen til sekvensen S = n n 2...n 9 gitt ved P( S domene) λ = ln = ln P( S domene) ln P( S tilfeldig) P( S tilfeldig) 9 9 9 fn,i i = ln f ln p = ln ( ) p n, i i ni i= i= i= ni 27 A C G T 2 3 4 7 8 9 h A h A2 h A3 h A4 h A h A h A7 h A8 h A9 h C h C2 h C3 h C4 h C h C h C7 h C8 h C9 h G h G2 h G3 h G4 h G h G h G7 h G8 h G9 h T h T2 h T3 h T4 h T h T h T7 h T8 h T9 Dermed har f.eks. sekvensen ACTGTGCCC score 9 hn,i h i A hc2 ht3 hg4 ht hg hc7 hc8 hc9 i= λ = = + + + + + + + + 28

Skjulte Markov modeller Innholdssøk i eukaryoter Posisjonsvektmatriser definerer en sannsynlighetsfordeling over alle mulige sekvenser av en gitt lengde: for hver sekvens kan vi finne dens sannsynlighet. En svakhet med metoden er at den antar uavhengighet mellom nukleotidene i en sekvens. Skjulte Markov modeller (Hidden Markov Models = HMM) definerer også en sannsynlighetsfordeling over alle mulige sekvenser av en gitt lengde, men antar ikke uavhengighet. Søk etter CpG-øyer Sammenlikne hyppigheten av ulike basetripler med det vi forventer å finne i kodende og ikke-kodende regioner 29 30 CpG-øyer CpG-øyer Områder på '-siden av genet som har høyere forekomst av sekvensen ' - CG - 3' enn ellers i genomet. Det er en klar sammenheng mellom tetthet av CpG-øyer og tetthet av gener på kromosomet: På genomisk skala er sekvensen ' - CG - 3' (= CpG) mer uvanlig hos pattedyr (ca %) i forhold til det en statistisk skulle forvente (ca %) hvis en ser på frekvensen av C'er og G'er. Årsak: basen til C metyleres ofte og muterer til T ' -C G -3' 3' - G C - ' metylering + mutasjon ' -T G -3' 3' -A C -' Viktig observasjon: Det finnes likevel mange "øyer" av ikkemetylert CpG i genomet, ca 2kb lange, der andelen av CG er nærmere det en skulle forvente statistisk. Og dessuten: CpG-øyer er ofte rett oppstrøms for gener Anslagsvis 0-0% av genene hos pattedyr har tilhørende CpG-øy. 3 32

Søk etter CpG-øyer Søk etter CpG-øyer Eksempel: metoden cpgplot i EMBOSS (European Molecular Biology Open Software Suite) Se på flere vinduer (=segmenter) av en gitt lengde L: ' - A C G T C A C G C G T C G A C T G - 3' ' - A C G T C A C G C G T C G A C T G - 3' ' - A C G T C A C G C G T C G A C T G - 3' Typisk verdi: L = 200 w= w=2 w=3 Et område defineres som en CpG-øy dersom området har lengde 200 baser GC andel er over 0% observert/forventet ratio > 0. For hvert vindu beregn: GC-andel: (# GC) / (L-) observert/forventet ratio = (GC-andel) / (forventet GC-andel) hvor (forventet GC-andel) = (#G)/L * (#C)/L 33 De ulike parametrene ovenfor kan endres ved behov. 34 Søk etter CpG-øyer: cpgplot observert/forventet ratio 0. GC-andel 0. CpG-øyer 3