UNIVERSITETET I OSLO

Like dokumenter
UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

Gensøk. Oppsummering. Typer av sammenstillinger. Sammenstilling av sekvenser. To prinsipper for søking etter gener i DNA:

Oblig3 - obligatorisk oppgave nr. 3 (av 3) i INF3350/4350

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

BLAST. Blast. Noen mulige sammenstilling av CHAEFAP og CAETP. Evolusjonær basis for sekvenssammenstilling. Sekvenssammenstilling og statistikken brukt

Foreleser: Eivind Coward, kontor 5. etg. Datablokken. Gruppeleder: Harald Barsnes

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

Mer om gensøk. Kjapp oppsummering fra sist gang. Motif eller tilfeldig DNA forts. Motif eller tilfeldig DNA? Forelesning INF3350/

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet BIOKJEMISK INSTITUTT

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

Hva er bioinformatikk? Introduksjon til bioinformatikk. Summary. Menneskets genom. Prokaryoter og eukaryoter. Lars O. Baumbusch

UNIVERSITETET I OSLO

Eksamen iin115, 14. mai 1998 Side 2 Oppgave 1 15 % Du skal skrive en prosedyre lagalle som i en global character array S(1:n) genererer alle sekvenser

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO. Introduksjon. Det matematisk-naturvitenskapelige fakultet 1.1

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

Arabidopsis thaliana, vårskrinneblom

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

Norsk informatikkolympiade runde

UNIVERSITETET I OSLO

UNIVERSITETET I AGDER

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

Om oppgaveteksten på noe punkt er uklar eller upresis, kan du gjøre egne presiseringer. Formulér i så fall disse tydelig i oppgavebesvarelsen din.

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

Den komplette DNA sekvens fra en organisme.

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

LEKSJON 4: BIOTEKNOLOGI HVORDAN VI BRUKER NATURENS EGNE MEKANISMER TIL VÅR FORDEL, OG UTFORDRINGENE SOM FØLGER MED

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

Seksjon 1. INF2270-V16 Forside. Eksamen INF2270. Dato 1. juni 2016 Tid Alle trykte og skrevne hjelpemidler, og en kalkulator, er tillatt.

UNIVERSITETET I OSLO. Det matematisk-naturvitenskapelige fakultet

UNIVERSITETET I OSLO

Eksamensoppgave i TMA4140 Diskret matematikk

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

Eksamen INF2270 våren 2018

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

Faglærerne prøver å besøker eksamenslokalet mellom klokka 15 og 16 for å oppklare eventuelle uklarheter og feil i oppgaveteksten.

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

Transkript:

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i : INF2300 Grunnkurs i bioinformatikk Eksamensdag : Tirsdag 15. juni 2004 Tid for eksamen : 09.00 12.00 Oppgavesettet er på : 13 sider Vedlegg : Ingen Tillatte hjelpemidler : Kun skrivesaker. Det er ikke tillatt med trykte eller skrevne hjelpemidler eller programmerbar kalkulator. Les gjennom hele oppgaven før du begynner å løse oppgaven. Kontroller at oppgavesettet er komplett før du begynner å besvare det. Dine svar skal skrives på disse oppgavearkene, og ikke på separate ark. På spørsmål med avkrysningssvar kan det være null, ett eller flere korrekte alternativer. Husk å sette kryss for alle korrekte alternativer. Hvis du har krysset av feil, kan du skrive "FJERN" med tydelig skrift like ved (eller inni der det er plass) avkrysningsboksen hvor krysset var satt. Oppgave 1 (forslag til tidsbruk: 20 min) 1) Levende organismer klassifiseres i tre domener. Hvilke? (Sett ett kryss) Bakterier, planter og dyr Prokaryoter, eukaryoter og bakterier Bakterier, archae-bakterier og eukaryoter Prokaryoter, archae-bakterier og eukaryoter 2) Kryss av i kolonnen med overskrift "Prokaryoter" for de påstandene du mener er korrekte om prokaryoter, og kryss av i kolonnen med overskrift "Eukaryoter" for de påstandene du mener er korrekte om eukaryoter. De er alltid encellede De er alltid flercellede De omfatter bl.a. dyr og planter Cellene har normalt cellekjerne Cellene har normalt interne membransystemer og membransomsluttede organeller De omfatter bl.a. archae-bakterier Cellene er normalt haploide Prokaryoter Eukaryoter 1

3) Vi sier at det er seks mulige leserammer ved DNA-transkripsjon. Forklar hva dette betyr, gjerne med et eksempel: 4) Kryss av i kolonnen "Genetiske kart" for de påstandene du mener er korrekte om genetiske kart, og tilsvarende for kolonnen Fysiske kart. Markørene i slike kart må være polymorfe Et eksempel på kart av denne typen er cytogenetiske kart Et eksempel på kart av denne typen er sekvenskart Avstander mellom markører i slike kart måles i centimorgan (cm) Konstruksjonen av slike kart er basert på at det kan skje rekombinasjoner under meiosen Kart av denne typen har generelt dårlig oppløsning Genetiske kart Fysiske kart 5) Hva er GenBank? Register over gener (kodende DNA-sekvenser) Register over DNA-sekvenser (kodende og ikke-kodende) Register over proteinsekvenser 2

6) Tabellen nedenfor gir en oversikt (hentet fra forelesningsnotatene) over noen vanlig benyttede BLAST-programmer: Program Database Søkesekvens BLASTN nukleotid nukleotid BLASTP protein protein BLASTX protein nukleotid (oversettes til protein) TBLASTN nukleotid (oversettes til protein) protein TBLASTX nukleotid (oversettes til protein) nukleotid (oversettes til protein) Avgjør i hvert av tilfellene A D nedenfor hvilket av de fem BLAST-programmene over som kan brukes direkte til å få svaret. A) Gitt en proteinsekvens, finn beslektede proteiner i samme art og andre arter. Jeg ville brukt følgende BLAST-program: B) Gitt en DNA-sekvens, avgjør om den svarer til noe kjent protein. Jeg ville brukt følgende BLAST-program: C) Gitt en DNA-sekvens, finn beslektede DNA-sekvenser. Jeg ville brukt følgende BLAST-program: D) Gitt en proteinsekvens fra menneske, finn posisjonen i det menneskelige genomet til tilhørende gen. Jeg ville brukt følgende BLAST-program: 3

Oppgave 2 (forslag til tidsbruk: 60 min) 1) Kryss av i kolonnen med overskrift "Smith-Waterman" for de påstandene du mener er korrekte om denne metoden, og tilsvarende for de to andre metodene. Metode for å finne globale sammenstillinger Metode for å finne lokale sammenstillinger Metode for å finne parvise sammenstillinger Metode basert på dynamisk programmering Finner alltid matematisk optimal løsning Eksempel på et heuristisk søkeprogram Smith-Waterman Needleman-Wunsch BLAST 2) Hvor mange globale sammenstillinger finnes det av aminosyresekvensene WAHI og KLV, når vi tillater gap i sammenstillingene? Vis utregningen. 4

3) Dynamisk programmering er navnet på en teknikk som ble utviklet av Richard Bellman på 1950-tallet. Hva er formålet med dynamisk programmering generelt, hva er det som kjennetegner teknikken, og hvilke algoritmer for sekvensanalyse kjenner du til som er basert på dynamisk programmering? 5

4) Du skal nå bruke dynamisk programmering til å finne en optimal global sammenstilling av følgende aminosyresekvenser: XAWDT og XDTZ Anta at det er en lineær scorefunksjon, gitt ved scoring mellom like aminosyrer er 2 scoring mellom ulike aminosyrer er 0 scoring for aminosyre mot indelsymbol (gap) er -3 Fyll inn sammenstillingstabellen under (dvs fyll inn verdier og piler i tabellen) og bruk resultatet av dette til å sette opp en optimal global sammenstilling av sekvensene i svarfeltet nederst. Sammenstillingstabell (fyll inn verdier og sett på piler): φ X A W D T φ X D T Z Optimal global sammenstilling av sekvensene: 6

5) Anta at følgende lineære scorefunksjon er gitt: scoring mellom like aminosyrer er 2 scoring mellom ulike aminosyrer er 0 scoring for aminosyre mot indelsymbol (gap) er -3 Finn sum av par (SP) scoren til følgende multiple sammenstilling: TDW-S-K I-WISIK TRWKLRK Svar (vis de viktigste trinnene i utregningen): 7

Oppgave 3 (forslag til tidsbruk: 15 min) 1) Forklar hva som menes med primær-, sekundær, tertiær- og kvartærstruktur til proteiner: 2) Kryss av i respektive kolonner for de påstandene du mener er korrekte: Vanligvis signifikant sekvenssimilaritet Liten eller ingen sekvenssimilaritet Ingen eller moderat grad av variasjon i struktur Store variasjoner i strukturdetaljer Felles evolusjonært opphav Proteiner i samme familie Proteiner i samme superfamilie Proteiner med analog folding 8

Oppgave 4 (forslag til tidsbruk: 60 min) 1) Figuren nedenfor viser hovedtrinnene i bruk av en cdna-mikroarray helt fram til det vi kaller rådata. A B C Forklar hva de ulike trinnene består i, dvs forklar hva hvert av punktene A, B, C, D, E, F i figuren viser, og forklar hva som skjer i overgangene fra A til B, fra B til C, osv. Svar: D E F (Svarfeltet fortsetter på neste side) 9

10

2) Anta at vi ønsker å måle ekspresjonen til et stort antall gener i A forskjellige tumorprøver. Vi analyserer hver av de A tumorprøvene med en egen cdna-mikroarray. Mikroarrayene antas å være identisk konstruerte og med de samme G genene printet på, og referansen er den samme i alle analysene. Etter at vi har gjennomført analysen og foretatt bildeanalyse og kvalitetskontroll, sitter vi igjen med en tabell med genekspresjonsmålinger x ij, hvor x ij er logaritmen (i base 2) til ratioen mellom rød intensitet og grønn intensitet for i'te gen i j'te tumorprøve. gener x x x 11 12 1A x x x 21 22 2 A x x x G1 G2 GA prøver Anta at vi skal foreta en klustring av prøvene (arrayene) basert på genekspresjonsmålingene ovenfor. Forklar med utgangspunkt i tabellen ovenfor hva dette innebærer (hvilke vektorer er det konkret som klustres, og hva forsøker man generelt å oppnå med en slik klustring): 11

3) Figuren under viser resultatet av å klustre 8 prøver (arrayer) med en hierarkisk klustringsalgoritme. Prøvene har navn T1, T2,..., T8. T3 T2 T7 T4 T1 T5 T8 T6 Hvordan ville du dele opp prøvene T1,...,T8 i fire grupper (fire klustere) basert på dendrogrammet ovenfor? 4) Anta at klustringen ovenfor er basert på data om to gener. Da er de åtte prøvene (arrayene) representert som åtte punkter i planet. Du skal nå angi (i form av en tegning) hvordan de åtte punktene kunne ha ligget i forhold til hverandre (merk: det er mange mulige måter å gjøre dette på). Tegn åtte kryss i feltet nedenfor og marker dem henholdsvis T1, T2,..., T8. Plasser kryssene slik i forhold til hverandre at hierarkisk klustring med euklidsk avstand og single linkage ville gitt et klustringsresultat som tilsvarer det som er vist i deloppgave 3 ovenfor. Det er tilstrekkelig å bruke øyemål når du skal tegne kryssene; du skal se bort fra den nøyaktige høyden på grenene i dendrogrammet ovenfor. 12

Oppgave 5 (forslag til tidsbruk: 15 min) 1) Forklar hva som menes med kopitallet til et gen: 2) Vil kopitallendringer i en celle kunne påvirke cellens genekspresjon, og isåfall hvordan? Begrunn svaret kort: 3) Vi har i kurset vært inne på en teknikk som kan brukes til å estimere kopitallratioer for tusenvis av gener (eller mer generelt DNA-segmenter) på en gang. Hvilken teknikk er dette? 13