Foreleser: Eivind Coward, kontor 5. etg. Datablokken. Gruppeleder: Harald Barsnes

Like dokumenter
INF280 Søking og maskinlæring

Foreleser: Eivind Coward, kontor 5. etg. Datablokken. Gruppeleder: Harald Barsnes

Dynamic Programming Longest Common Subsequence. Class 27

UNIVERSITETET I OSLO

EKSAMENSOPPGAVE I BI2014 MOLEKYLÆRBIOLOGI

5 E Lesson: Solving Monohybrid Punnett Squares with Coding

FYS 3710 Biofysikk og Medisinsk Fysikk, DNA, RNA, Translasjon, Transkripsjon Proteinsyntese, Cellesyklus

UNIVERSITETET I OSLO

Flervalgsoppgaver: proteinsyntese

Unit Relational Algebra 1 1. Relational Algebra 1. Unit 3.3

Bioteknologi i dag muligheter for fremtiden

Kapittel 12: FRA DNA TIL PROTEIN:

Introduksjon til Biokjemi. Ingar Leiros, Institutt for Kjemi, UiT

Examination paper for (BI 2015) (Molekylærbiologi, laboratoriekurs)

Grunnleggende cellebiologi

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet BIOKJEMISK INSTITUTT

Slope-Intercept Formula

Forelesninger i BI Cellebiologi. Protein struktur og funksjon - Kap. 3

DNA - kroppens byggestener

... Proteiner og enzymer. kofaktor. polypeptid

Molare forsterkningsbetingelser

Databases 1. Extended Relational Algebra

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Trigonometric Substitution

UNIVERSITY OF OSLO DEPARTMENT OF ECONOMICS

EKSAMENSOPPGAVE I BI3013 EKSPERIMENTELL CELLEBIOLOGI

Den komplette DNA sekvens fra en organisme.

Den som gjør godt, er av Gud (Multilingual Edition)

Oppgave 2b V1979 Hvor i cellen foregår proteinsyntesen, og hvordan virker DNA og RNA i cellen under proteinsyntesen?

PATIENCE TÅLMODIGHET. Is the ability to wait for something. Det trenger vi når vi må vente på noe

Estimating Peer Similarity using. Yuval Shavitt, Ela Weinsberg, Udi Weinsberg Tel-Aviv University

Exercise 1: Phase Splitter DC Operation

UNIVERSITETET I OSLO

KROPPEN LEDER STRØM. Sett en finger på hvert av kontaktpunktene på modellen. Da får du et lydsignal.

UNIVERSITETET I OSLO

LEKSJON 4: BIOTEKNOLOGI HVORDAN VI BRUKER NATURENS EGNE MEKANISMER TIL VÅR FORDEL, OG UTFORDRINGENE SOM FØLGER MED

Genfeil i kreftsvulster nøkkelen til en mer persontilpasset behandling?

Issues and challenges in compilation of activity accounts

Moving Objects. We need to move our objects in 3D space.

Neural Network. Sensors Sorter

Endelig ikke-røyker for Kvinner! (Norwegian Edition)

Oppgave 1a Definer følgende begreper: Nøkkel, supernøkkel og funksjonell avhengighet.

Øvingsforelesning 2. Mengdelære, funksjoner, rekurrenser, osv. TMA4140 Diskret Matematikk. 10. og 12. september 2018

Kapittel 14: Det eukaryote genom og dets uttrykksregulering

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITY OF OSLO. Make sure that your copy of this examination paperis complete before answering.

Reproduksjon av dyrevirus. Adsorpsjon Penetrasjon og avkledning Replikasjon og transkripsjon Syntese og samling (assembly) av viruskapsid Frigjøring

Reproduksjon av dyrevirus. Adsorpsjon Penetrasjon og avkledning Replikasjon og transkripsjon Syntese og samling (assembly) av viruskapsid Frigjøring

ML-208, generell informasjon

MOL204 Anvendt bioinformatikk I

Basepar i DNA. TFY4215 Innføring i kvantefysikk Øving 13 Molekylfysikk

FYS3710 Molekylærbiologi

TFY4170 Fysikk 2 Justin Wells

IN2010: Algoritmer og Datastrukturer Series 2

Dagens tema: Eksempel Klisjéer (mønstre) Tommelfingerregler

Han Ola of Han Per: A Norwegian-American Comic Strip/En Norsk-amerikansk tegneserie (Skrifter. Serie B, LXIX)

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Graphs similar to strongly regular graphs

GEOV219. Hvilket semester er du på? Hva er ditt kjønn? Er du...? Er du...? - Annet postbachelor phd

ML-208, generell informasjon

Exam in Quantum Mechanics (phys201), 2010, Allowed: Calculator, standard formula book and up to 5 pages of own handwritten notes.

Hvor mye teoretisk kunnskap har du tilegnet deg på dette emnet? (1 = ingen, 5 = mye)

Velkommen til BIOS1100

Hva er bioinformatikk? Introduksjon til bioinformatikk. Summary. Menneskets genom. Prokaryoter og eukaryoter. Lars O. Baumbusch

En praktisk innføring i team-basert læring

HONSEL process monitoring

Semmelweis University. Genetic and epigenetic regulation of. Dept. GCI. the immune response. András Falus. November

EKSAMENSOPPGAVE I SØK 1002 INNFØRING I MIKROØKONOMISK ANALYSE

Examination paper for Bi2014 Molecular Biology

Gensøk. Oppsummering. Typer av sammenstillinger. Sammenstilling av sekvenser. To prinsipper for søking etter gener i DNA:

UNIVERSITETET I BERGEN Det matematisk-naturvitenskapelige fakultet

Hvor mye praktisk kunnskap har du tilegnet deg på dette emnet? (1 = ingen, 5 = mye)

FIRST LEGO League. Härnösand 2012

Hva er fakta og hva er spekulasjon i forbindelse med moderne genforskning?

Hovedområde: Bioteknologi Eksamensoppgaver fra skriftlig eksamen Naturfag (NAT1002).

Emnedesign for læring: Et systemperspektiv

Hvor mye teoretisk kunnskap har du tilegnet deg på dette emnet? (1 = ingen, 5 = mye)

Naturfag for ungdomstrinnet

FYSMEK1110 Eksamensverksted 23. Mai :15-18:00 Oppgave 1 (maks. 45 minutt)

Hva viser genanalyser av muskulatur hos laks med mørke flekker. Aleksei Krasnov, Hooman Moghadam Nofima, Ås

Epigenetikk; arvesynden i ny innpakning? Dag O. Hessen University of Oslo, Dept. Biology Center of Ecological and Evolutionary Synthesis (CEES)

Andrew Gendreau, Olga Rosenbaum, Anthony Taylor, Kenneth Wong, Karl Dusen

Plan. Pensum i bioinformatikk. Hva er bioinformatikk?

Flervalgsoppgaver: Arvestoffet

Administrasjon av postnummersystemet i Norge Post code administration in Norway. Frode Wold, Norway Post Nordic Address Forum, Iceland 5-6.

Mannen min heter Ingar. Han er også lege. Han er privatpraktiserende lege og har et kontor på Grünerløkka sammen med en kollega.

Hvor mye teoretisk kunnskap har du tilegnet deg på dette emnet? (1 = ingen, 5 = mye)

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Public roadmap for information management, governance and exchange SINTEF

TEKSTER PH.D.-KANDIDATER FREMDRIFTSRAPPORTERING

NORSI Kappe workshop - introduction

Dialogkveld 03. mars Mobbing i barnehagen

Medisin stadium 1A Geir Slupphaug, IKM. Den eukaryote cellen I

Call function of two parameters

Den eukaryote cellen I. Prokaryote celler

FASMED. Tirsdag 21.april 2015

3/1/2011. I dag. Recursive descent parser. Problem for RD-parser: Top Down Space. Jan Tore Lønning & Stephan Oepen

Hva er syntetisk liv? Svein Valla Institutt for bioteknologi NTNU

FYS 3710 Biofysikk og Medisinsk Fysikk, Aminosyrer, Polypeptider, Proteiner

Transkript:

Foreleser: Eivind Coward, kontor 5. etg. Datablokken. coward@ii.uib.no Gruppeleder: Harald Barsnes Forelesninger: tirsdag og fredag 12 14 rom 2104 Øvinger: fredag 10 12 rom 2143 Gi en innføring i noen sentrale problemer i bioinformatikk Informatikk-synsvinkel: generelle algoritmer og metoder med anvendelse også utenom bioinformatikk Interessant for informatikk-studenter, også for dem som ikke går videre med bioinformatikk Gi grunnlag for videre studier i bioinformatikk (kursene INF380, INF381 og mastergrad) All informasjon finnes på www.ii.uib.no/~coward/inf280/ (lenke fra Studentportalen) 1 2 Strengmatchingsalgoritmer Strengsammenstilling, dynamisk programmering Heuristisk matching, databasesøk Generelt søk Maskinlæring Konseptlæring Avgjørelsestrær Kunstige nevrale nettverk Har valgt å plukke stoff fra flere ulike bøker. Strengsammenstilling og -søk: Ingvar Eidhammer, Inge Jonassen, William R. Taylor: Protein Bioinformatics An Algorithmic Approach to Sequence and Structure Analysis, J. Wiley 2004 Generelt om søking: Utdelt materiale Maskinlæring: Tom M. Mitchell: Machine learning, McGraw Hill, 1997 I tillegg øvelser. 3 4!"# Uke 34 34 37 37 39 43 Generelt søk Maskinlæring Plan Introduksjon til molekylærbiologi Strengsammenstilling, dynamisk programmering, databasesøk Eidhammer, Jonassen & Taylor Eidhammer, Jonassen & Taylor Mitchell Bok Forsøk på definisjon: Anvendelse av informatikk i molekylærbiologi Problemstillinger fra (motivert av) biologi, teknikker fra informatikk og andre vitenskaper Tverrfaglighet: Biologi, informatikk, matematikk, statistikk... 44 45 Repetisjon, oppsummering Ca. 10 øvinger, hvorav 2 3 obligatoriske innleveringer 5 6 1

$!"# EMBL database growth: Total # nucleotides in gigabases 7 Kilde: EMBL, status pr. 23.08.05 8 %"" Molekylærbiologi Bakgrunn - motivasjon for problemene vi forsøker å løse Generell interesse Bioinformatikk Litt om hvordan informatikk bidrar til fremskritt i molekylærbiologi Bakgrunn - sammenheng for teknikkene vi går gjennom & Egenskaper overføres fra en generasjon til neste Trenger sikkert lagringsmedium mulighet for å skape variasjon/endring/utvikling mekanisme for å implementere egenskaper 9 10 11 12 2

'& Forkortelse for deoksyribonukleinsyre (DeoxyriboNucleic Acid) Inneholder arvematerialet til alle levende organismer Består av en lang kjede av baser/nukleotider. 4 forskjellige baser: A, T, G, C. ggccttaaag cttttagaga actctttttg cagtaaaaag cacaaggcgt atgacacgct 60 caaagcctta cgcattacaa aaaacctaaa ttgataactc gtttatgcca tagcaacaat 120 tacgagtgcg tcgtgcttgc acgtagcaca tcaacaacaa tatgtcatat gccaatgcaa 180 tggaaatcaa caacaaaaaa atcaaaagaa agaaaatcaa tcaaatcgtt gacatacaaa 240 aaaaaatcat tataatagaa agcattaagg gtagcgacac taaatcacgc ttaaacaaga 300 aaggttcaaa aatgaaaaaa tatatcaatt attagtaatc gtagattacc aagaaaaaca 360 agaaatacac actctacacg ttggtccaaa acaccaatgt gtagcagttc aattattagc 420 gaaaaacacc tcaaaaaaaa tatattccaa aagaaggcaa aagttcaata taaaataaaa 480 aaaaatagaa gaggtcaaat aaatgaaaac aaatgttcaa ttaatccaaa caagaaacga 540 agtaaaaaaa taaagaaact ggcgaaacaa aaagatatac aagcttgcat taacataggt 600 aacagatacg tggacgtgcc tatacgccca gtgtctgttg ccgacccaga tacaccaaaa 660 gaaacaaaag aagataaaga gaaaggatgc cattttagaa atggaataca ttgaaatcac 720 tgtcaataaa tcacaacact ttgtgaatac agaccaaata tataatatgc tctggagttc 780 13 14 '& Struktur - oppdaget av Watson & Crick 1953 Dobbel heliks To kjeder binder hverandre ved at det lages parvise bindinger mellom baser i de to kjedene A binder T, G binder C De to kjedene inneholder samme informasjon Ta bort en kjede kan reprodusere denne fra den andre kjeden Kjedene sies å være komplementære 15 16 17 18 3

$( Kromosom: Lang DNA-heliks (to komplementære kjeder) Mennesket har 23 kromosom-par Samlet kalles dette menneskets genom Menneskets genom inneholder tilsammen rundt 3 milliarder baser. 19 20 ) Utfører mye av arbeidet i cellene/kroppen stoffskifte signalsending/behandling... Byggesteiner Kjede av aminosyrer (20 forskjellige) Folder (krøller) seg opp i en kompakt 3-dimensjonal struktur som gjør at det kan utføre jobben/være del av strukturen. 21 22 '& DNA: arvestoffet, kokebok kjede av 4 forskjellige baser Protein: byggesteiner og cellemaskineri kjede av 20 forskjellige aminosyrer Gen: Et stykke DNA som koder for ett protein (vanligvis) Menneskets genom inneholder ca 30-40 000 gener. 23 24 4

' * * * +, -& Forkortelse for ribonukleinsyre (RiboNucleic Acid) Ligner DNA Kjede av baser I DNA var basene A, T, G og C. I RNA er de A, U, G og C (uracil erstatter thymin). Stukturen litt ulik DNA. Forekommer ikke som dobbel-heliks Brukes til melding fra genom til oversettelse-maskineri (mrna) funksjonelle/strukturelle oppgaver 25 26 -* * DNA DNA A T T A C G G C Utføres av enzymet DNA-polymerase Kopierer arvestoffet ved celledeling DNA RNA A U T A C G G C Utføres av enzymet RNA-polymerase Overføring av informasjon (mrna = messenger RNA) som skal oversettes til et protein 27 28. /% '&/ -&%0 '-&%-& +-&,1 0" "-&/ 2*2%3 -& * 0. 3 " 0 4*3 5 0 63 20 78/ 3209:8 0 ' 0 29 30 5

. 3 0' % +, 0 / % 0' 0 ) Primærstruktur rekkefølgen av aminosyrer langs kjeden bestemmes av rekkefølgen av baser/nukleotider i genet og den genetiske koden (som er universell/konstant) Sekundærstruktur sammenhengende biter (segmenter) av kjeden danner alfa-helikser beta-tråder (beta-strands) stabiliserende for lokal struktur Tertiærstruktur plasseringen i rommet (x,y,z-koordinater) til alle atomer i en kjede Kvartærstuktur plasseringen i rommet av flere kjeder i proteinet (hvis det har flere kjeder) 31 32 ) Rekkefølgen av aminosyrer langs kjeden Bestemmes av rekkefølgen av baser/nukleotider i genet og den genetiske koden (som er universell/konstant) ' 33 34 * Ribosomer (komplekser av protein og RNA) leser en mrna-sekvens (nukleotider) og genererer en aminosyresekvens 35 36 6

sammenhengende biter (segment) av kjeden danner alpha-helikser beta-tråder (ligger ofte sammen i beta-flak (sheets) stabiliserende for lokal struktur 37 3((;;;0"20<0 (2(773(2("2(03 38!" plasseringen i rommet (x,y,zkoordinater) til alle atom i en kjede #!$!! %!! $ 3((;;;0"30 (*(=3%( 03 39 40 http://www.bocklabs.wisc.edu/~palmenberg/images/sgro-allbeta2.gif 3-dimensjonal struktur energetisk gunstig kan bestemmes eksperimentelt for en del protein røntgen-krystallografi nukleær-magnetisk resonans (NMR) kostbart og vanskelig Funksjon proteinets rolle i cellen (alanin syntetisering) binder protein X binder ligand Y, omdanner til Z+T kostbart å bestemme eksperimentelt >%+?, Maskineri finner start av gen. Skiller tråder/kjeder i DNA fra hverandre ( glidelås ) Lager RNA-tråd komplementær til den ene DNA tråden (transkripsjon) samme informasjon RNA transporteres til maskineri (ribosomer) for oversetting til protein (translasjon) 41 42 7

)% % )% To hovedtyper av celler/organismer: Prokaryoter har ingen cellekjerne Eukaryoter har cellekjerne avgrenset av membran Har ingen cellekjerne Ett kromosom (ofte sirkulært), flyter fritt i cellen Alle prokaryoter er encellede organismer Omfatter bakterier og archea 43 44.% 2 % Har cellekjerne Genomet ligger i cellekjernen, pakket kompakt sammen som et antall kromosomer Organismene kan være encellede (gjær, alger,...) eller flercellede (planter, dyr,...) Genene består av vekselvis kodende og ikke-kodende deler kalt exons og introns Intronene fjernes fra mrna før translasjonen 45 46 DNA chains of nucleotides, double helix stores genetic information Gene region on a DNA molecule a gen codes for one protein in eukaryote organisms; consists of exons and introns RNA chains of nucleotides carrier of information from DNA to translation machinery for generation of proteins may have other functions Protein chain of amino acids, folds up in three dimensional structures building blocks, important functions amino acid sequence determined by a gene + the genetic code 47 determines 3D structure. Variation Individuals do not have identical genetic material mutations changes in the base sequence in DNA May be caused by mistakes in replication or damage (e.g., due to radiation) cross-over Selection Individuals with mutations that give none-functional proteins, may die positiv/negative selective value 48 8

';@ 32A 423% Can determine the sequence (the sequence (order) of nucleotides/bases of a DNA molecule Find the location of genes Computationally - prediciton Experimentally sequence mrna (cdna) Deduce protein sequence (gene location, coding parts, genetic code) Determine the protein s properties structure Computationally prediciton Experimentally X-ray/magnetic resonance function Computationally prediction Experimentally tailored experiments Kloning 49 50 2// / DNA promoter 1 gene 1 promoter 2 gene 2 promoter 3 gene 3 promoter 4 gene 4 transcription prim-transcript mrna splicing translation, folding proteins regulation 51 &*2 Determine the sequence of bases along the chromosomes Difficult since today s technology allows only to determine short pieces (less than 1000 bases) at a time Need to put the pieces together a giant puzzle! Find where the genes are Gene prediction what features are characteristic for a gene? - a machine learning problem difficult for eukaryotes Find translation to protein order of amino acids Predict properties of the proteins Structure prediciton Function prediction Predict network metabolic and regulatory 52 &'# &! ' #( =!4) Organize and store data. Ca 3 billion bases (A,G,T,C) Finished in 2003 Approx 20-30.000 genes (surprisingly few!) What now? Find the function of the genes How they work together Relations to disease, phenotypical properties etc. 53 54 9

=!4) Organize and store data. Find sequences that overlap and put the genome back together (assembly) =!4) Organize and store data. Find sequences that overlap and put the genome back together (assembly) Identify genes and propose function 55 56 =!4) Organize and store data. Find sequences that overlap and put the genome back together (assembly) Identify genes and propose function Make models of how the proteins work together &% 2% Not all genes are required In every cell At every time Measure the activity of each gene mrna level Protein level Find genes behaving similarly explain 57 58 2%:'&23 Measure the activity (mrna) of each gene in a cell at a certain point in time For thousands of genes in parallel Useful to understand Gene function Relations between genes Gene 1 Gene 2 Gene n condition 1 condition m 59 60 10

'"23 Protein sequences that resemble each other may be related they can be traced back to the same ancestral protein and are said to be homologous If a new protein sequence has a certain degree of similarity to a protein with known properties, we can assume that the new protein has similar properties 2 B"2 String search, comparison/alignment of strings, database search find similar (homologe) genes predct forutsi protein structure and function General search methods search for a good solution to a problem (e.g., assembly of sequence fragments) Machine learningmake model of relationship between protein seequence and structure (structure prediction), predicting genes,... 61 62 11