UNIVERSITETET I OSLO

Like dokumenter
UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

Oblig3 - obligatorisk oppgave nr. 3 (av 3) i INF3350/4350

Eksamen INF3350/INF4350 H2006 Løsningsforslag

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

MOL204 Anvendt bioinformatikk I

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

Det matematisk-naturvitenskapelige fakultet

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

Gensøk. Oppsummering. Typer av sammenstillinger. Sammenstilling av sekvenser. To prinsipper for søking etter gener i DNA:

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

Midtveiseksamen. INF Digital Bildebehandling

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

Eksamensoppgave i TDT4120 Algoritmer og datastrukturer

UNIVERSITETET I OSLO

Arabidopsis thaliana, vårskrinneblom

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

BLAST. Blast. Noen mulige sammenstilling av CHAEFAP og CAETP. Evolusjonær basis for sekvenssammenstilling. Sekvenssammenstilling og statistikken brukt

Hva er bioinformatikk? Introduksjon til bioinformatikk. Summary. Menneskets genom. Prokaryoter og eukaryoter. Lars O. Baumbusch

Algoritmer for klustering av mikromatriser. Kompleks prosess. Forelesning # 9. Sammenlikning av flere populasjoner. Mange gener og få prøver

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

Eksamensoppgave i TDT4120 Algoritmer og datastrukturer

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

Eksamen REA3022 Matematikk R1. Nynorsk/Bokmål

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

Kommentarer til Eksamen IM005 - V02

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

Avsluttende eksamen i TDT4120 Algoritmer og datastrukturer

UNIVERSITETET I OSLO

Norges teknisk-naturvitenskapelige universitet Fakultet for samfunnsvitenskap og teknologiledelse Pedagogisk institutt

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

ALGORITMER OG DATASTRUKTURER

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I BERGEN

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

Fasit - det står en sort prikk bak riktig svar. (NB! Rekkefølgen på oppgavesettene varierte).

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

Transkript:

Kandidatnummer: BOKMÅL UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i : INF3350/INF4350 Grunnkurs i bioinformatikk Eksamensdag : Tirsdag 5. desember 2006 Tid for eksamen : 15.30 18.30 Oppgavesettet er på : 5 sider Vedlegg : Ingen Tillatte hjelpemidler : Kalkulator og norsk-engelsk ordbok Les gjennom hele oppgaven før du begynner å løse oppgaven. Kontroller at oppgavesettet er komplett før du begynner å besvare det. Dersom du savner opplysninger i oppgaven, kan du selv legge dine egne forutsetninger til grunn og gjøre rimelige antagelser, så lenge de ikke bryter med oppgavens "ånd". Gjør i såfall rede for forutsetningene og antagelsene du gjør. Oppgave 1 (10 poeng) Under er det oppgitt seks av resultatene fra et BLAST søk. Resultatene er oppgitt i tilfeldig rekkefølge: Sequences producing significant alignments: Score E (Bits) Value 1. gi 57336671 emb AJ844821.1 Drosophila malerkotliana pallens... 50.1 0.042 2. gi 205961 gb K02599.1 RATPAH Rat phenylalanine hydroxylase mrna 801 0.0 3. gi 51860103 gb AY722626.1 Homo sapiens clone A395D phenylala... 135 9e-28 4. gi 4557818 ref NM_000277.1 Homo sapiens phenylalanine hydroz... 5313 0.0 5. gi 47604919 ref NM_001001298.1 Gallus gallus phenylalanine h... 206 3e-49 6. gi 32456054 gb AY330224.1 Danio rerio Pah mrna, complete cds 107 2e-19 1. Forklar hvordan målene Score og E value er definert. 2. Hvordan ville du benytte de oppgitte verdiene til å avgjøre hvilke sekvenser som likner minst og mest på søkesekvensen? Hvilke sekvenser er dette? 3. Er det noen av de oppgitte sekvensene som man med rimelighet kan anta er beslektet med søkesekvensen, og isåfall hvilke?

-2 - Oppgave 2 (20 poeng) Vi ønsker å finne den beste sammenstillingen av to sekvenser GAATTCAGTTA og GGATCGA. For å oppnå den beste sammenstillingen benytter vi dynamisk programmering og har fylt ut en sammenstillingstabell C: 1. Forklar framgangsmåten for å regne ut en score C(i,j) i den dynamiske programmeringstabellen (sett opp formelen). 2. Hvilken score er brukt i tabellen for: a. Match (sammenstilling av to like symboler) b. Mismatch (sammenstilling av to forskjellige symboler) c. Delesjon/Innsetting (sammenstilling av symbol og gap) 3. Skriv opp den beste sammenstillingen (eller de beste sammenstillingene hvis det finnes flere) med utgangspunkt i den utfylte tabellen ovenfor. 4. Sammenstillingen ovenfor tar utgangspunkt i to nukleotidsekvenser. Hvilke scoringssystemer kjenner du til for sammenstilling av aminosyresekvenser? 5. Forklar hva mener vi med at en scoringsfunksjon er lineær ved å sette opp formen på en slik scoringsfunksjon.

-3 - Oppgave 3 (10 poeng) Anta at vi har gitt følgende posisjonsvektmatrise for TATA bokser: Posisjon 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 A 61 16 352 3 354 268 360 222 155 56 83 82 82 68 77 C 145 46 0 10 0 0 3 2 44 135 147 127 118 107 101 G 152 18 2 2 5 0 10 44 157 150 128 128 128 139 140 T 31 309 35 374 30 121 6 121 33 48 31 31 61 75 71 1. Hvor mange sekvenser bygger posisjonsvektmatrisen på? 2. Skriv opp konsensussekvensen til posisjonsvektmatrisen. 3. Gitt følgende to nukleotidsekvenser: P: CCTTAAATGCCGGGGG Q: GTATAAATGCCGGGGG Bruk posisjonsvektmatrisen ovenfor til å avgjøre hvilken av de to sekvensene som med størst sannsynlighet opptrer som en TATA boks. Forklar hvordan du går fram. Oppgave 4 (15 poeng) Anta at vi har gitt følgende fylogenetiske tre: S 4 S 1 S 5 S 2 S 3 1. Forklar hva som menes med en utgruppe. Hvis S 2 er utgruppen, hvordan vil treet ovenfor se ut med rot? 2. Anta at du får oppgitt følgende distansematrise mellom fire arter: D ij Bjørn Vaskebjørn Ilder Sel Bjørn 0.26 0.34 0.29 Vaskebjørn 0.42 0.44 Ilder 0.44 Bruk UPGMA (Unweighted Pair Group Method with Arithmetic Mean) til å finne det fylogenetiske treet for de fire artene. Forklar trinnene i utregningen og skriv til slutt opp treet du kommer fram til.

-4- Oppgave 5 (5 poeng) Anta at du ønsker å se nærmere på et bestemt gen på kromosom 8 i det humane genomet. Genet er ikke tidligere beskrevet, og du kaller det LOBOCL. Genets nøyaktige posisjon i genomet er ikke kjent, men du har kjennskap til to andre gener LOB1 og LOB2 på kromosom 8. Du har klart å finne ut at rekombinasjons-frekvensen mellom LOBOCL og genet LOB1 er 50%, mens rekombinasjons-frekvensen mellom LOBOCL og genet LOB2 er 20%. Basert på dette, tror du genet LOBOCL ligger nærmest LOB1 eller nærmest LOB2? Begrunn svaret! Oppgave 6 (5 poeng) I forbindelse med hierarkisk klustring av mikromatrise-data har vi sett på ulike mål på avstand/similaritet mellom vektorer, blant annet Euklidsk avstand, Manhattan-avstand og Pearson korrelasjon. Gi definisjonene av (dvs. formlene for) disse målene, med utgangspunkt i to vektorer x = (x 1, x 2,..., x n ) og y = (y 1, y 2,..., y n ) som du skal måle avstand/similaritet mellom. Bruk deretter hver av målene til å beregne avstand/similaritet mellom de to vektorene x = (0, 3, 9, 6) y = (0, 1, 3, 2) Merk: sett opp de eksakte svarene, ikke benytt kalkulator. Oppgave 7 (10 poeng) Nedenfor ser du et dendrogram som har fremkommet ved å benytte hierarkisk klustring med Euklidsk avstandsmål på en genekspresjonstabell (mikromatrisedata) med 8 gener og 100 individer. 0.75 0 1. Anta at klustringen ble foretatt med single-linkage metoden. Hvilken informasjon om avstanden mellom Gene 1 og Gene 2 kan du lese ut av dendrogrammet? 2. Anta at klustringen ble foretatt med complete-linkage metoden. Hvilken informasjon om avstanden mellom Gene 1 og Gene 2 kan du nå lese ut av dendrogrammet? 3. Anta at du ønsker å splitte opp de åtte genene i fire grupper (klustere) med utgangspunkt i dendrogrammet ovenfor. Hvilke gener får du i hver av de fire gruppene? 4. Dendrogrammet ovenfor fremkom ved å benytte en agglomerativ algoritme (den vi har sett på i forelesningene). Hvilke gener ble først klustret sammen?

Oppgave 8 (5 poeng) -5-1. Hva vil være best bevart av disse (begrunn svaret, og gjør presiseringer hvis du mener det er nødvendig): a. DNA-sekvensen til et gen b. Aminosyresekvensen til det tilhørende proteinet c. Strukturen til proteinet 2. Vil to proteiner med ulik aminosyresekvens kunne ha lik struktur? 3. Hvor stor likhet må det være mellom to sekvenser for å bruke homologimodellering? Velg en av alternativene nedenfor: a. 25 30 % b. 40 45 % c. 60 65 %