Bokmål UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i : INF2300 Grunnkurs i bioinformatikk Eksamensdag : Mandag 6. juni 2005 Tid for eksamen : 09.00 12.00 Oppgavesettet er på : 11 sider Vedlegg : Ingen Tillatte hjelpemidler : Kun skrivesaker. Det er ikke tillatt med trykte eller skrevne hjelpemidler, programmerbar kalkulator eller mobiltelefon. Les gjennom hele oppgaven før du begynner å løse oppgaven. Kontroller at oppgavesettet er komplett før du begynner å besvare det. Dine svar skal skrives på disse oppgavearkene, og ikke på separate ark. På spørsmål med avkrysningssvar kan det være null, ett eller flere korrekte alternativer. Husk å sette kryss for alle korrekte alternativer. Hvis du har krysset av feil, kan du skrive "FJERN" med tydelig skrift like ved (eller inni der det er plass) avkrysningsboksen hvor krysset var satt. Oppgave 1 (Biologi og genetikk) 1) Hvilke av følgende påstander om menneskets genom er sanne? Det er 22 par av kromosomer, samt to kjønnskromosomer (ialt 46 kromosomer) Kvinner har to Y-kromosomer, mens menn har ett X-kromosom og ett Y-kromosom Genomet består av ca 3 * 10 12 basepar Antall gener anslås å være over 100.000 En liten del av genomet ligger i mitokondriene, mens resten ligger i cellekjernen Over 95% av alt DNA er ikke-kodende 2) Hva vil det si at et individ er homozygot for et gitt gen? Genet er homologt med et annet gen i samme organisme Genet finnes bare i en variant i befolkningen (dvs det er ikke polymorft) Organismen har to identiske alleler for dette genet Organismen har to gener som koder for det samme 1
3) Figuren under er hentet fra en av forelesningene og viser skjematisk cellesyklusen for celler med mitotisk celledeling. Forklar kort hva hver av de fire stadiene G1-S-G2-M er ved å fylle inn de fire tomme feltene nedenfor. 4) Genetisk avstand måles ofte i centimorgan (cm). En avstand på 1 cm svarer da til en rekombinasjonsfrekvens på 1%. Forklar hva som menes med rekombinasjonsfrekvens. 2
5) Anta at to gener ligger på samme kromosom i genomet til mus (som er en diploid organisme). Det er to alleler A og a av det første genet, og to alleler B og b av det andre genet. Vi ser på meiose i mus som er doble heterozygoter (dvs har genotypen AaBb) og antar at det ikke skjer noen rekombinasjon i 45% av tilfellene, en rekombinasjon i 50% av tilfellene og to rekombinasjoner i 5% av tilfellene. Genotypen til gametene følger dermed følgende mønster: Regn først ut frekvensen av hver av genotypene AB, Ab, ab og ab i de resulterende gametene. Bruk deretter dette til å regne ut hva rekombinasjonsfrekvensen mellom de to genene er. 3
Oppgave 2 (Genomkart) Nedenfor finner du beskrivelsen av tre hovedtyper av fysiske kart. Angi i hvert punkt hva denne hovedtypen av fysiske kart heter. a) Slike kart inneholder selve DNA-basesekvensen, og fremstilles på ulike måter. Plassering av et DNA-segment på kartet kan bl.a. gjøres gjennom sekvensering av segmentet, fulgt av søking i sekvensdatabaser (lokal sammenstilling mot genomisk DNA med BLAST el.l.). Navn på denne typen av kart:... b) Slike kart er basert på at man farger kromosomene slik at man får frem et båndmønster når man ser på dem i mikroskop. Resultatet fremstilles ofte skjematisk som et ideogram. Navn på denne typen av kart:... c) Slike kart har endel til felles med genetiske kart, men rekombinasjon induseres kunstig ved hjelp av stråling, istedet for gjennom naturlig arv. Navn på denne typen av kart:... Oppgave 3 (Sekvensanalyse) 1) Følgende eksempel angir en nukleotidsekvens: LOCUS AB000263 368 bp mrna linear PRI 05-FEB-1999 DEFINITION Homo sapiens mrna for prepro cortistatin likepeptide, complete cds. ACCESSION AB000263 ORIGIN 1 acaagatgcc attgtccccc ggcctcctgc tgctgctgct ctccggggcc 61 ctgccctgcc cctggagggt ggccccaccg gccgagacag cgagcatatg 121 caggaataag gaaaagcagc ctcctgactt tcctcgcttg gtggtttgag 181 aggccagtgc cgggcccctc ataggagagg aagctcggga ggtggccagg 241 gcgcaccccc ccagcaatcc gcgcgccggg acagaatgcc ctgcaggaac 301 agaccttctc ctcctgcaaa taaaacctca cccatgaatg ctcacgcaag 361 gacctgaa // Hva heter sekvensformatet som er benyttet ovenfor (sett ett kryss)? Plain sequence format FASTA format BLAST format GenBank format LOCUS format 4
2) Anta at vi ønsker å finne en global sammenstilling av to sekvenser p og q, hvor begge sekvensene antas å ha lengde n = 4. Hvor mange måter kan dette gjøres på når vi tillater gap av vilkårlig lengde i sekvensen p, men ingen gap i sekvensen q? 3) Bruk dynamisk programmering til å finne en optimal lokal sammenstilling av følgende aminosyresekvenser: XAXA og XDXA Anta at det er en lineær scorefunksjon, gitt ved scoring mellom like aminosyrer er 1 scoring mellom ulike aminosyrer er 0 scoring for aminosyre mot indelsymbol (gap) er -1 Fyll inn sammenstillingstabellen under (dvs fyll inn verdier og piler i tabellen). φ X A X A φ X D X A 5
Angi en optimal lokal sammenstilling av sekvensene: Skriv opp hva scoren til den optimale lokale sammenstillingen er: Oppgave 4 (Søking etter gener) 1) I forbindelse med søking etter gener skiller vi gjerne mellom signalsøk-metoder og innholdssøk-metoder. Forklar kort hva som kjennetegner hver av de to typene metoder (NB: det er ikke meningen her at du skal ramse opp navn på signalsøk-metoder og innholdssøk-metoder): 6
2) Sett kryss i kolonnen Signalsøk for de metodene som du mener er signalsøk-metoder, og tilsvarende for kolonnen Innholdssøk. Promoter-søk med skjulte Markovmodeller (HMM) Motif-baserte søkemetoder Søk etter CpG-øyer Søk etter Open Reading Frames (ORF) Posisjonsvektmatriser Codon Usage Method Signalsøk Innholdssøk 3) Angi en enkel form for signalsøk som egner seg spesielt godt for å finne gener i bakterier. Forklar hvordan metoden virker. 7
4) Forklar hva som menes med en CpG-øy og forklar hvorfor og hvordan CpG-øyer er relevante i forbindelse med søking etter gener. 5) Anta at følgende multiple sammenstilling er gitt: GTAAA GTAAG GTTGG GTCAG GTCAT GTACT GTAAC GTATA GTGAG GTAAG a) Sett opp hva konsensussekvensen for sammenstillingen over blir: 8
b) Sett opp en posisjonsvektmatrise (hvor elementene i matrisen er relative frekvenser) basert på den multiple sammenstillingen: c) Bruk matrisen du fant i punkt b) til å beregne scoren til følgende sekvens: GTGCC 9
Oppgave 6 (Mikroarrayer) 1) Bildeanalyse i forbindelse med mikroarrayer har i kurset vært delt opp i fire trinn (se boksen nedenfor). Skriv i boksen for de tre første trinnene hva de går ut på. o Adressering: o Segmentering: o Informasjonsekstraksjon: o Resultat: For hver spot på arrayen R = rødt signal G = grønt signal informasjon om kvaliteten på spoten 10
2) Genekspresjon kan måles med forskjellige teknikker, hvorav en er cdna-mikroarrayer. Hvilke andre teknikker vet du om? 3) I forbindelse med hierarkisk klustring av mikroarray-data har vi sett på ulike avstandsmål mellom vektorer, blant annet Euklidsk avstand og Manhattan-avstand. Sett opp definisjonen av disse to avstandsmålene og bruk begge avstandsmål til å beregne avstanden mellom vektorene x = (-1, 0, 1) og y = (2, 0, -2). Finn også Pearsons korrelasjonskoeffisient for de to vektorene. 11