MOL204 Anvendt bioinformatikk I og KB207 Anvendt bioinformatikk

Like dokumenter
MOL204 Anvendt bioinformatikk I

MOL204 Anvendt bioinformatikk I

MOL204 Anvendt bioinformatikk I

MOL204 Anvendt bioinformatikk I

MOL204 Anvendt bioinformatikk I

MOL204 Anvendt bioinformatikk I

MOL204 Anvendt bioinformatikk I

UNIVERSITETET I BERGEN Det matematisk-naturvitenskapelige fakultet

MOL204 Anvendt bioinformatikk I

Universitetet i Bergen Molekylærbiologisk institutt. Matematisk-naturvitenskapelig Embetseksamen. MOL204 Anvendt bioinformatikk I

UNIVERSITETET I BERGEN Det matematisk-naturvitenskapelige fakultet

UNIVERSITETET I BERGEN Det matematisk-naturvitenskapelige fakultet

UNIVERSITETET I BERGEN Det matematisk-naturvitenskapelige fakultet

MOL204 Anvendt bioinformatikk I

MOL204 Anvendt bioinformatikk I

MOL204 Anvendt bioinformatikk I

Eksamen ENG1002/1003 Engelsk fellesfag Elevar og privatistar/elever og privatister. Nynorsk/Bokmål

MOL204 Anvendt bioinformatikk I. MOL204 Applied Bioinformatics I

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet BIOKJEMISK INSTITUTT

Unit Relational Algebra 1 1. Relational Algebra 1. Unit 3.3

Dynamic Programming Longest Common Subsequence. Class 27

MOL204 Anvendt bioinformatikk I

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO

Slope-Intercept Formula

UNIVERSITY OF OSLO DEPARTMENT OF ECONOMICS

UNIVERSITY OF OSLO. Faculty of Mathematics and Natural Sciences

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Hvor mye praktisk kunnskap har du tilegnet deg på dette emnet? (1 = ingen, 5 = mye)

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Kartleggingsskjema / Survey

UNIVERSITETET I OSLO

EN Skriving for kommunikasjon og tenkning

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

English Notice! Start your answer to every main question on a new page.

UNIVERSITETET I OSLO

EXAM TTM4128 SERVICE AND RESOURCE MANAGEMENT EKSAM I TTM4128 TJENESTE- OG RESSURSADMINISTRASJON

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Databases 1. Extended Relational Algebra

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Neural Network. Sensors Sorter

5 E Lesson: Solving Monohybrid Punnett Squares with Coding

Moving Objects. We need to move our objects in 3D space.

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO

Besvar tre 3 av følgende fire 4 oppgaver.

KROPPEN LEDER STRØM. Sett en finger på hvert av kontaktpunktene på modellen. Da får du et lydsignal.

EKSAMENSOPPGAVE I BI2034 Samfunnsøkologi EXAMINATION IN: BI Community ecology

UNIVERSITETET I OSLO

Eksamensoppgave i GEOG1004 Geografi i praksis Tall, kart og bilder

TDT4117 Information Retrieval - Autumn 2014

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITY OF OSLO DEPARTMENT OF ECONOMICS

Eksamensoppgave i SANT2100 Etnografisk metode

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Information search for the research protocol in IIC/IID

Endelig ikke-røyker for Kvinner! (Norwegian Edition)

Hvor mye teoretisk kunnskap har du tilegnet deg på dette emnet? (1 = ingen, 5 = mye)

Oppgave 1a Definer følgende begreper: Nøkkel, supernøkkel og funksjonell avhengighet.

Hvordan føre reiseregninger i Unit4 Business World Forfatter:

MID-TERM EXAM TDT4258 MICROCONTROLLER SYSTEM DESIGN. Wednesday 3 th Mars Time:

Eksamen PSY1010 PSYC1100 Forskningsmetode I vår 2013

AVSLUTTENDE EKSAMEN I/FINAL EXAM. TDT4237 Programvaresikkerhet/Software Security. Mandag/Monday Kl

Den som gjør godt, er av Gud (Multilingual Edition)

EKSAMENSOPPGAVE I SØK 1002 INNFØRING I MIKROØKONOMISK ANALYSE

Examination paper for BI2034 Community Ecology and Ecosystems

0:7 0:2 0:1 0:3 0:5 0:2 0:1 0:4 0:5 P = 0:56 0:28 0:16 0:38 0:39 0:23

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO

Trigonometric Substitution

Vekeplan 4. Trinn. Måndag Tysdag Onsdag Torsdag Fredag AB CD AB CD AB CD AB CD AB CD. Norsk Matte Symjing Ute Norsk Matte M&H Norsk

EKSAMENSOPPGAVE I BI3013 EKSPERIMENTELL CELLEBIOLOGI

Examination paper for TDT4252 and DT8802 Information Systems Modelling Advanced Course

Fagevalueringsrapport FYS Diffraksjonsmetoder og elektronmikroskopi

Eksamen PSY1010 / PSYC1100 Forskningsmetode I

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Eksamensoppgave i GEOG Menneske og sted I

UNIVERSITY OF OSLO DEPARTMENT OF ECONOMICS

1. Explain the language model, what are the weaknesses and strengths of this model?

GEOV219. Hvilket semester er du på? Hva er ditt kjønn? Er du...? Er du...? - Annet postbachelor phd

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

The exam consists of 2 problems. Both must be answered. English

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Emneevaluering GEOV272 V17

Faglige kontaktperson under eksamen: Torbjørn Ekrem, ,

Mathematics 114Q Integration Practice Problems SOLUTIONS. = 1 8 (x2 +5x) 8 + C. [u = x 2 +5x] = 1 11 (3 x)11 + C. [u =3 x] = 2 (7x + 9)3/2

eutdanningsdirektoratet Eksamen ENG1002/ENG1003 Engelsk fellesfag For elevar og privatistar/for elever og privatister Nynorsk/Bokmal

Examination paper for (BI 2015) (Molekylærbiologi, laboratoriekurs)

Exercise 1: Phase Splitter DC Operation

UNIVERSITETET I OSLO

Eksamensoppgave i SOS1000 Innføring i sosiologi Examination paper for SOS1000 Introduction to Sociology

UNIVERSITETET I OSLO

Han Ola of Han Per: A Norwegian-American Comic Strip/En Norsk-amerikansk tegneserie (Skrifter. Serie B, LXIX)

Eksamensoppgave i SOS1000 Innføring i sosiologi

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Transkript:

Universitetet i Bergen Molekylærbiologisk institutt Matematisk-naturvitenskapelig Embetseksamen MOL204 Anvendt bioinformatikk I og KB207 Anvendt bioinformatikk bokmål / nynorsk / english Onsdag 17. desember 2003, 4 timer, kl 9:00-13:00 Alle spørsmål skal besvares. Dersom ikke annet er angitt, forventes korte og konsise svar. Les oppgavetekstene nøye. Sammenlign gjerne med den engelske teksten. Bruk ikke for lang tid på noe enkeltspørsmål. Hopp heller over spørsmål som synes å ta for lang tid, og ta heller disse til slutt. Dersom et spørsmål er uklart, gjør da oppmerksom på hvordan du har bestemt deg for å forstå det. Ta med alle relevante momenter i hver oppgave eller henvis til andre svar dersom noen av oppgavene synes å overlappe. I noen av spørsmålene er det brukt engelske ord slik de forekommer i læreboken. Disse ordene er understreket. Dersom du illustrerer dine svar med figurer, husk at disse skal vurderes både som original og kopi - unngå derfor bruk av farger. Bruk heller andre metoder for å fremheve ulike deler av figurene. Tentative poeng er angitt for hver oppgave. Totalt utgjør de 80 poeng. Bruk poengene til å vurdere hvor mye arbeid det lønner seg å legge i hvert svar. Merk: Ingen spørsmål krever lange utredninger. Tillatte hjelpemidler: Norsk tekst side 2-5. kalkulator ordbøker for språk ------ MOL204 Applied Bioinformatics I KB207 Anvendt bioinformatikk Wednesday December 17. 2003, 4 hours, 9:00-13:00 Answer all questions. If not otherwise stated, brief and concise answers are expected. Read the questions carefully. Do not spend too much time on each question. It is better to proceed to the next questions and return to time consuming questions at the end. If a question appears unclear or ambigous, then explain how you have interpreted the question. Include all relevant aspects in each answer. If one answer appears to overlap with another, you may cross reference them. If you illustrate any of your answers with figures, remember that the these will be evaluated both from the original and from the copy - avoid therefore the use of colors. Use other methods to highlight different parts of the figures. For each question is given a number of points to indicate how the question contributes to the total of 80 points. Use these points to judge how much time it is worth spending on each question. Note: None of the questions require long answers Allowed aids: English text pages 6-9 electronic calculator 1 language dictionaries

Oppgåve 1 - Parvis samanstilling av sekvensar (totalt 13p) A (5p) Vi har to sekvensar SATLTA og STVRLS. Med bruk av dynamisk programmering finn vi ei global samanstilling mellom dei som: SAT--LTA S-TVRLS- Teikn opp matrisa (tabellen) som er brukt ved den dynamiske programmeringa, og teikn inn korleis pilene går mellom cellene i matrisa for at ein skal få denne samanstillinga ved tilbakesporinga (backpropagation). Du skal sjølvsagt ikkje fylla inn verdiar i matrisa. Skriv dei generelle formlane for kostnad av gap av lengde k for affine og lineær gap kostnad, og forklår kva dei betyr. Diskuter forskjellen på lineær og affine gapkostnad med omsyn på verknaden dei har for kor mange, og kor lange gap som blir laga ved bruk i samanstillingar. C (5p) Vi har to sekvensar q=fslv og d=vswfsv. Utdrag frå PAM 250 gir: F L S V W F 9 2 3 1 0 L 6 3 2 2 S 2 1 3 V 4 6 W 17 Med bruk av PAM 250 og kostnad g k =5k for gap av lengde k blir beste samanstilling funne som Samanstilling I FS-L-V VSWFSV Med bruk av kostnad g k =4+k for gap av lengde k blir beste samanstilling funne som Samanstilling II ---FSLV VSWFS-V (i) Finn scoringane for Samanstillingane I og II, både når g k blir brukt, og når g k blir brukt. (ii) Diskuter dei to samanstillingane med omsyn på kor mange mutasjonar som kan ha skjedd mellom sekvensane. Kva samanstilling trur du er mest biologisk korrekt? Grunngje svaret. Oppgåve 2 - Databasesøk - sensitivitet og spesifisitet (totalt 12p) A (4p) Det finst fleire program for søking i sekvensdatabasar etter sekvensar som er homologe til ein søkesekvens q. Forklår korleis ein kan gå fram for å 2 måla sensitivitet og spesifisitet av slike program.

B (2p) Forklår korleis den generelle samanhengen mellom sensitivitet og spesifisitet er. Illustrer gjerne med ein figur. C (2p) Forklår kva ROC-verdiar blir brukt til, og spesielt kva dei blir brukt til ved databasesøk. D (4p) Med bruk av eit søkeprogram for søk i ein sekvensdatabase (der ein kjenner kven som er homologe til q), får ein følgande resultat: HHHnHnnHHHnnHHnnHnnn... Dette skal forsås som at dei tre sekvensane som scorar høgast mot q alle er homologe til q, så kjem ein som ikkje er det, så ein homolog, to som ikkje er homologe osv. Bruk dette til å finna ROC 5, når vi veit at det er 12 sekvensar i databasen som er homologe til q. Oppgave 3 - Sekvenssammenstilling og proteindomener (totalt 14p) A (4p) I dette kurset har vi lagt stor vekt på at de fleste proteiner har en modulær oppbygning hvor ett eller flere globulære domener er knyttet sammen med mer eller mindre ustrukturerte sekvenssegmenter. Beskriv hva konserverte globulære domener er og forklar hvorfor de har en slik sentral betydning for sekvensanalyse av proteiner. Hva er Pfam? Hvorfor er Pfam-søk så nyttige ved analyse av proteinsekvenser? C (3p) I databasene SCOP og CATH er proteindomener er klassifisert på lignenende vis. Forklar kort hva som menes med familie, superfamilie og fold (Det er ikke nødvendig å forklare forskjellene mellom de to klassifiseringssystemene). D (4p) Det sies at proteiner med samme fold ikke nødvendigvis er homologe. Kommenter dette utsagnet og forklar hva årsaken til dette kan være. Tror du at du vil kunne finne ikke-homologe proteiner med samme fold ved hjelp av vanlige Blastp-søk? Begrunn svaret. Oppgave 4 - Multippel sekvenssammenstilling (totalt 13p) A (4p) Hva er det man prøver å oppnå når man gjør en multippel sammenstilling av et sett med homologe proteinsekvenser? Gitt et sett av homologe proteinsekvenser, hvor god kan en multippel sammenstilling bli? B (5p) Progressiv multippel sammenstilling: (i) Forklar kort hovedtrinnene i fremgangsmåten. (ii) Hva er svakheten med denne fremgangsmåten? C (4p) I en av kursets obligatoriske øvelser så vi at vi fikk langt bedre multippel sammenstilling av proteinsekvenser med Clustal når vi brukte en 3

struktur-maske. Beskriv kort hvordan strukturmasken brukes i Clustal og forklar hvorfor dette gir bedre sammenstillinger. Fra hvilken kilde kan du hente informasjon som kan brukes til å lage en struktur-maske? Oppgåve 5 - PSI-BLAST (totalt 8p) A (4p) Forklår grovt korleis PSI-BLAST fungerer, gjerne skjematisk (som ein grov algoritme). B (4p) Forklar kort kvifor PSI-BLAST kan nyttast til å finna fjerne slektningar til eit gitt protein. Det er alltid risiko for å få mange falske positive med PSI-BLAST, kvifor? Oppgave 6 - Metoder for å estimere fylogenetiske trær (totalt 11p) A (2p) Hvordan skiller karakterbaserte metoder seg fra avstandsbaserte metoder for estimering av fylogenetiske trær? Gi ett eksempel på en karakterbasert metode og forklar meget kort hvordan den virker. C (4p) Vi utfører analyse av et sett med sekvenser 1, 2,..., 8 ved hjelp av UPGMA og WPGMA algoritmene. På et visst punkt i analysen har vi slått sammen sekvensene 1-5 og vi står igjen med følgende avstandsmatrise: 1..5 6 7 8 1..5 3 8 8 6 10.5 11 7 9 8 Utfør ett steg i algoritmen - dvs. en sammenslåing og beregning av ny avstandsmatrise. Hvilke sekvenser slås sammen når du bruker WPGMA? D (2p) Dersom du i C skulle ha brukt UPGMA, hva måtte du da har gjort annerledes? 4

Oppgave 7 - Informasjon i sekvensdatabasene (totalt 9p) A (3p) Forklar kort hvordan du kan bruke SRS og Entrez til tekst-baserte søk i sekvens databasene. Diskuter kort de viktigste forskjellene mellom de to verktøyene. B (2p) Beskriv kort egenskapene til Swiss-Prot-databasen. C (4p) Nedenfor er gjengitt et utdrag av en Swiss-Prot entry. Forklar kort hvilken type informasjon som finnes i hver av linjene. ID SRC_HUMAN STANDARD; PRT; 535 AA. AC P12931; Q9H5A8; DE Proto-oncogene tyrosine-protein kinase Src (p60-src) OS Homo sapiens (Human). DR EMBL; K03218; AAA60584.1; -. DR PDB; 1HCS; 15-SEP-95. DR GO; GO:0004713; F:protein-tyrosine kinase activity; TAS. DR Pfam; PF00069; pkinase; 1. DR PROSITE; PS00107; PROTEIN_KINASE_ATP; 1. KW Transferase; Tyrosine-protein kinase; Phosphorylation; FT DOMAIN 269 522 PROTEIN KINASE. SQ SEQUENCE 535 AA; 59703 MW; 5CB29FF9683E5DFC CRC64; Kun til informasjon: Den 15. desember 2003 annonserte EBI, SIB og PIR at de nå har gått sammen i et konsortium hvor de har organisert alle sekvensene som før fantes i Swiss-Prot, TrEMBL og PIR-databasene i et nytt databasesystem som kalles UniProt. ---- Spørsmål 8. (Frivillig) Gi som kode første og siste bokstav i din mors fornavn og siste tall i din mors fødselsår. end of norwegian text - english text on next pages 5

English text Question 1 - Pairwise comparison of sequences (total 13p) A (5p) Consider the two sequences SATLTA and STVRLS. Using dynamic programming, we find a global alignment between the two as: SAT--LTA S-TVRLS- Write the matrix (table) which is used for the dynamic programming and indicate with arrows on the matrix how you can get this alignment with backpropagation. You do not have to fill in the values in the matrix. Write the general formulae for cost of gaps of length k for affine and linear gap costs and explain what they mean. Discuss the difference between linear and affine gap costs with respect to the effects they have on how many and how long gaps are generated in sequence alignments. C (5p) Given two sequences q=fslv and d=vswfsv. A part of PAM 250 gives: F L S V W F 9 2 3 1 0 L 6 3 2 2 S 2 1 3 V 4 6 W 17 Using PAM 250 and cost g k =5k for gaps of length k the best alignment is found as: Alignmnet I FS-L-V VSWFSV With cost g k =4+k for gaps of length k, the best alignment is found as Alignment II ---FSLV VSWFS-V (i) Find the scores for Alignments I and II, both when g k is used and when g k is used. (ii) Discuss the two alignments with respect to how many mutations may have taken place between the two sequences. Which of the two alignments is "most biologically relevant"? Justify your answer. Question 2 - Database searches - sensitivity and specificity (total 12p) A (4p) There are several programs for searching sequence databases for sequences homologous to a query sequence q. Explain how one can meassure 6 sensitivity and specificity for such programs.

B (2p) Explain how the general relationship between sensitivity and specificity is. If you wish, you can illustrate with a figure. C (2p) Explain what ROC-values are used for and, in particular, what they are used for in database searches. D (4p) Using a search program for search in databases (where you know which sequences are homologous to q), you get the following result: HHHnHnnHHHnnHHnnHnnn... This notation means that the three sequences scoring best with q are all homologues, then comes one which is not homologous, then a homologue, and two non-homologues etc. Use this to find ROC 5, when we know that there are 12 sequences in the database that are homologous to q. Question 3 - Sequence alignment and protein domains (total 14p) A (4p) In this course we have emphazised that most proteins have a modular architecture where one or more globular domains are linked with more or less unstructured sequence segments. Describe what conserved globular domains are and explain why they have such a central role in sequence analysis of proteins. What is Pfam? Why are Pfam searches so useful for analysis of protein sequences? C (3p) In the databases SCOP and CATH, protein domains are classified in a similar way. Explain briefly what is meant by family, superfamily and fold (it is not necessary to explain the differences between the two classification schemes). D (4p) It is said that proteins with the same fold may not be homologous. Comment this statement and explain the reason why this may be so. Do you think you can find non-homologous sequences with the same fold using ordinary Blastp searches? Justify your answer. Question 4 - Multiple sequence alignment (total 13p) A (4p) What is the goal when generating a multiple sequence alignments of a set of homologous protein sequences? Given a set of homologous sequences, how good can a multiple alignment be? B (5p) Progressive multiple alignment: (i) Explain briefly the main steps for this procedure. (ii) What is the weakness with this proceedure? C (4p) In one of the exercises in the course, we saw that we obtained a much better multiple alignment of protein sequences with Clustal when we used 7 a structure-mask. Describe briefly how a structure mask is used in

Clustal and explain why this gives better alignments. From what source can you obtain information which can be used to make a structure-mask. Question 5 - PSI-BLAST (total 8p) A (4p) Explain crudely how PSI-BLAST works, preferably schematically (as a crude algorithm). B (4p) Explain briefly why PSI-BLAST can be used to find distant relatives to a given protein. PSI-BLAST always have a high risk for generating many false positives. Why? Question 6 - Methods for estimating phylogenetic trees (total 11p) A (2p) How does the character-based methods differ from the distance-based methods for estimation of phylogenetic trees? Give one example of a character-based method and explain very briefly how it works. C (4p) We perform an analysis of a set of sequences 1,2,, 8 using the UPGMA and WPGMA algorithms. At a certain stage in the procedure, we have merged sequences 1-5 and we have the following distance matrix: 1..5 6 7 8 1..5 3 8 8 6 10.5 11 7 9 8 Perform the next step in the procedure, i.e. one new merge and calculation of a new distance matrix. Which sequence are merged in this step when using WPGMA? D (2p) If you in C should have used UPGMA, what would have have had to do differently? Question 7 - Information in sequence databases (total 9p) A (3p) Explain briefly how you can use SRS and Entrez for text-based searches in the sequence databases. Discuss briefly the most important differences 8 between the two tools.

B (2p) Describe briefly the properties of the Swiss-Prot database. C (4p) Below is given an excerpt of a Swiss-Prot entry. Explain briefly which type of information is found on each line. ID SRC_HUMAN STANDARD; PRT; 535 AA. AC P12931; Q9H5A8; DE Proto-oncogene tyrosine-protein kinase Src (p60-src) OS Homo sapiens (Human). DR EMBL; K03218; AAA60584.1; -. DR PDB; 1HCS; 15-SEP-95. DR GO; GO:0004713; F:protein-tyrosine kinase activity; TAS. DR Pfam; PF00069; pkinase; 1. DR PROSITE; PS00107; PROTEIN_KINASE_ATP; 1. KW Transferase; Tyrosine-protein kinase; Phosphorylation; FT DOMAIN 269 522 PROTEIN KINASE. SQ SEQUENCE 535 AA; 59703 MW; 5CB29FF9683E5DFC CRC64; For your information: On December 15. 2003 EBI, SIB and PIR announced that they have formed a consortium which will organise and provide sequences previously in the Swiss- Prot, TrEMBL and PIR databases in a new database system called UniProt. Question 8. (Voluntary) Give as a code the first and last letter in your mother's first name and the last digit in your mother's year of birth. End of english text 9