Foreleser: Eivind Coward, kontor 5. etg. Datablokken. coward@ii.uib.no Gruppeleder: Harald Barsnes Forelesninger: tirsdag og fredag 12 14 rom 2104 Øvinger: fredag 10 12 rom 2143 Gi en innføring i noen sentrale problemer i bioinformatikk Informatikk-synsvinkel: generelle algoritmer og metoder med anvendelse også utenom bioinformatikk Interessant for informatikk-studenter, også for dem som ikke går videre med bioinformatikk Gi grunnlag for videre studier i bioinformatikk (kursene INF380, INF381 og mastergrad) All informasjon finnes på www.ii.uib.no/~coward/inf280/ (lenke fra Studentportalen) 1 2 Strengmatchingsalgoritmer Strengsammenstilling, dynamisk programmering Heuristisk matching, databasesøk Generelt søk Maskinlæring Konseptlæring Avgjørelsestrær Kunstige nevrale nettverk Har valgt å plukke stoff fra flere ulike bøker. Strengsammenstilling og -søk: Ingvar Eidhammer, Inge Jonassen, William R. Taylor: Protein Bioinformatics An Algorithmic Approach to Sequence and Structure Analysis, J. Wiley 2004 Generelt om søking: Utdelt materiale Maskinlæring: Tom M. Mitchell: Machine learning, McGraw Hill, 1997 I tillegg øvelser. 3 4!"# Uke 34 34 37 37 39 43 Generelt søk Maskinlæring Plan Introduksjon til molekylærbiologi Strengsammenstilling, dynamisk programmering, databasesøk Eidhammer, Jonassen & Taylor Eidhammer, Jonassen & Taylor Mitchell Bok Forsøk på definisjon: Anvendelse av informatikk i molekylærbiologi Problemstillinger fra (motivert av) biologi, teknikker fra informatikk og andre vitenskaper Tverrfaglighet: Biologi, informatikk, matematikk, statistikk... 44 45 Repetisjon, oppsummering Ca. 10 øvinger, hvorav 2 3 obligatoriske innleveringer 5 6 1
$!"# EMBL database growth: Total # nucleotides in gigabases 7 Kilde: EMBL, status pr. 23.08.05 8 %"" Molekylærbiologi Bakgrunn - motivasjon for problemene vi forsøker å løse Generell interesse Bioinformatikk Litt om hvordan informatikk bidrar til fremskritt i molekylærbiologi Bakgrunn - sammenheng for teknikkene vi går gjennom & Egenskaper overføres fra en generasjon til neste Trenger sikkert lagringsmedium mulighet for å skape variasjon/endring/utvikling mekanisme for å implementere egenskaper 9 10 11 12 2
'& Forkortelse for deoksyribonukleinsyre (DeoxyriboNucleic Acid) Inneholder arvematerialet til alle levende organismer Består av en lang kjede av baser/nukleotider. 4 forskjellige baser: A, T, G, C. ggccttaaag cttttagaga actctttttg cagtaaaaag cacaaggcgt atgacacgct 60 caaagcctta cgcattacaa aaaacctaaa ttgataactc gtttatgcca tagcaacaat 120 tacgagtgcg tcgtgcttgc acgtagcaca tcaacaacaa tatgtcatat gccaatgcaa 180 tggaaatcaa caacaaaaaa atcaaaagaa agaaaatcaa tcaaatcgtt gacatacaaa 240 aaaaaatcat tataatagaa agcattaagg gtagcgacac taaatcacgc ttaaacaaga 300 aaggttcaaa aatgaaaaaa tatatcaatt attagtaatc gtagattacc aagaaaaaca 360 agaaatacac actctacacg ttggtccaaa acaccaatgt gtagcagttc aattattagc 420 gaaaaacacc tcaaaaaaaa tatattccaa aagaaggcaa aagttcaata taaaataaaa 480 aaaaatagaa gaggtcaaat aaatgaaaac aaatgttcaa ttaatccaaa caagaaacga 540 agtaaaaaaa taaagaaact ggcgaaacaa aaagatatac aagcttgcat taacataggt 600 aacagatacg tggacgtgcc tatacgccca gtgtctgttg ccgacccaga tacaccaaaa 660 gaaacaaaag aagataaaga gaaaggatgc cattttagaa atggaataca ttgaaatcac 720 tgtcaataaa tcacaacact ttgtgaatac agaccaaata tataatatgc tctggagttc 780 13 14 '& Struktur - oppdaget av Watson & Crick 1953 Dobbel heliks To kjeder binder hverandre ved at det lages parvise bindinger mellom baser i de to kjedene A binder T, G binder C De to kjedene inneholder samme informasjon Ta bort en kjede kan reprodusere denne fra den andre kjeden Kjedene sies å være komplementære 15 16 17 18 3
$( Kromosom: Lang DNA-heliks (to komplementære kjeder) Mennesket har 23 kromosom-par Samlet kalles dette menneskets genom Menneskets genom inneholder tilsammen rundt 3 milliarder baser. 19 20 ) Utfører mye av arbeidet i cellene/kroppen stoffskifte signalsending/behandling... Byggesteiner Kjede av aminosyrer (20 forskjellige) Folder (krøller) seg opp i en kompakt 3-dimensjonal struktur som gjør at det kan utføre jobben/være del av strukturen. 21 22 '& DNA: arvestoffet, kokebok kjede av 4 forskjellige baser Protein: byggesteiner og cellemaskineri kjede av 20 forskjellige aminosyrer Gen: Et stykke DNA som koder for ett protein (vanligvis) Menneskets genom inneholder ca 30-40 000 gener. 23 24 4
' * * * +, -& Forkortelse for ribonukleinsyre (RiboNucleic Acid) Ligner DNA Kjede av baser I DNA var basene A, T, G og C. I RNA er de A, U, G og C (uracil erstatter thymin). Stukturen litt ulik DNA. Forekommer ikke som dobbel-heliks Brukes til melding fra genom til oversettelse-maskineri (mrna) funksjonelle/strukturelle oppgaver 25 26 -* * DNA DNA A T T A C G G C Utføres av enzymet DNA-polymerase Kopierer arvestoffet ved celledeling DNA RNA A U T A C G G C Utføres av enzymet RNA-polymerase Overføring av informasjon (mrna = messenger RNA) som skal oversettes til et protein 27 28. /% '&/ -&%0 '-&%-& +-&,1 0" "-&/ 2*2%3 -& * 0. 3 " 0 4*3 5 0 63 20 78/ 3209:8 0 ' 0 29 30 5
. 3 0' % +, 0 / % 0' 0 ) Primærstruktur rekkefølgen av aminosyrer langs kjeden bestemmes av rekkefølgen av baser/nukleotider i genet og den genetiske koden (som er universell/konstant) Sekundærstruktur sammenhengende biter (segmenter) av kjeden danner alfa-helikser beta-tråder (beta-strands) stabiliserende for lokal struktur Tertiærstruktur plasseringen i rommet (x,y,z-koordinater) til alle atomer i en kjede Kvartærstuktur plasseringen i rommet av flere kjeder i proteinet (hvis det har flere kjeder) 31 32 ) Rekkefølgen av aminosyrer langs kjeden Bestemmes av rekkefølgen av baser/nukleotider i genet og den genetiske koden (som er universell/konstant) ' 33 34 * Ribosomer (komplekser av protein og RNA) leser en mrna-sekvens (nukleotider) og genererer en aminosyresekvens 35 36 6
sammenhengende biter (segment) av kjeden danner alpha-helikser beta-tråder (ligger ofte sammen i beta-flak (sheets) stabiliserende for lokal struktur 37 3((;;;0"20<0 (2(773(2("2(03 38!" plasseringen i rommet (x,y,zkoordinater) til alle atom i en kjede #!$!! %!! $ 3((;;;0"30 (*(=3%( 03 39 40 http://www.bocklabs.wisc.edu/~palmenberg/images/sgro-allbeta2.gif 3-dimensjonal struktur energetisk gunstig kan bestemmes eksperimentelt for en del protein røntgen-krystallografi nukleær-magnetisk resonans (NMR) kostbart og vanskelig Funksjon proteinets rolle i cellen (alanin syntetisering) binder protein X binder ligand Y, omdanner til Z+T kostbart å bestemme eksperimentelt >%+?, Maskineri finner start av gen. Skiller tråder/kjeder i DNA fra hverandre ( glidelås ) Lager RNA-tråd komplementær til den ene DNA tråden (transkripsjon) samme informasjon RNA transporteres til maskineri (ribosomer) for oversetting til protein (translasjon) 41 42 7
)% % )% To hovedtyper av celler/organismer: Prokaryoter har ingen cellekjerne Eukaryoter har cellekjerne avgrenset av membran Har ingen cellekjerne Ett kromosom (ofte sirkulært), flyter fritt i cellen Alle prokaryoter er encellede organismer Omfatter bakterier og archea 43 44.% 2 % Har cellekjerne Genomet ligger i cellekjernen, pakket kompakt sammen som et antall kromosomer Organismene kan være encellede (gjær, alger,...) eller flercellede (planter, dyr,...) Genene består av vekselvis kodende og ikke-kodende deler kalt exons og introns Intronene fjernes fra mrna før translasjonen 45 46 DNA chains of nucleotides, double helix stores genetic information Gene region on a DNA molecule a gen codes for one protein in eukaryote organisms; consists of exons and introns RNA chains of nucleotides carrier of information from DNA to translation machinery for generation of proteins may have other functions Protein chain of amino acids, folds up in three dimensional structures building blocks, important functions amino acid sequence determined by a gene + the genetic code 47 determines 3D structure. Variation Individuals do not have identical genetic material mutations changes in the base sequence in DNA May be caused by mistakes in replication or damage (e.g., due to radiation) cross-over Selection Individuals with mutations that give none-functional proteins, may die positiv/negative selective value 48 8
';@ 32A 423% Can determine the sequence (the sequence (order) of nucleotides/bases of a DNA molecule Find the location of genes Computationally - prediciton Experimentally sequence mrna (cdna) Deduce protein sequence (gene location, coding parts, genetic code) Determine the protein s properties structure Computationally prediciton Experimentally X-ray/magnetic resonance function Computationally prediction Experimentally tailored experiments Kloning 49 50 2// / DNA promoter 1 gene 1 promoter 2 gene 2 promoter 3 gene 3 promoter 4 gene 4 transcription prim-transcript mrna splicing translation, folding proteins regulation 51 &*2 Determine the sequence of bases along the chromosomes Difficult since today s technology allows only to determine short pieces (less than 1000 bases) at a time Need to put the pieces together a giant puzzle! Find where the genes are Gene prediction what features are characteristic for a gene? - a machine learning problem difficult for eukaryotes Find translation to protein order of amino acids Predict properties of the proteins Structure prediciton Function prediction Predict network metabolic and regulatory 52 &'# &! ' #( =!4) Organize and store data. Ca 3 billion bases (A,G,T,C) Finished in 2003 Approx 20-30.000 genes (surprisingly few!) What now? Find the function of the genes How they work together Relations to disease, phenotypical properties etc. 53 54 9
=!4) Organize and store data. Find sequences that overlap and put the genome back together (assembly) =!4) Organize and store data. Find sequences that overlap and put the genome back together (assembly) Identify genes and propose function 55 56 =!4) Organize and store data. Find sequences that overlap and put the genome back together (assembly) Identify genes and propose function Make models of how the proteins work together &% 2% Not all genes are required In every cell At every time Measure the activity of each gene mrna level Protein level Find genes behaving similarly explain 57 58 2%:'&23 Measure the activity (mrna) of each gene in a cell at a certain point in time For thousands of genes in parallel Useful to understand Gene function Relations between genes Gene 1 Gene 2 Gene n condition 1 condition m 59 60 10
'"23 Protein sequences that resemble each other may be related they can be traced back to the same ancestral protein and are said to be homologous If a new protein sequence has a certain degree of similarity to a protein with known properties, we can assume that the new protein has similar properties 2 B"2 String search, comparison/alignment of strings, database search find similar (homologe) genes predct forutsi protein structure and function General search methods search for a good solution to a problem (e.g., assembly of sequence fragments) Machine learningmake model of relationship between protein seequence and structure (structure prediction), predicting genes,... 61 62 11