Eksamen INF3350/INF4350 H2006 Løsningsforslag

Eksame INF3350/INF4350 H2006 Løsigsforslag Oppgave. Score (eller bit score) S' er e statistisk idikator på hvor sigifikat e match er. Høyere bit score svarer til høyere sigifikas. Idikatore er uavhegig av legde på søkesekvese og databasestørrelse, og de er proporsjoal med raw aligmet score S: S' = (lambda*s log K)/log2 hvor lambda og K er kostater. E value (eller expectatio value) er e ae statistisk idikator på hvor sigifikat e match er. De agir sasylighete for at sammestilligee ma har fuet i et databasesøk skal opptre ved re tilfeldighet. E-verdie er gitt ved E = mp hvor m og er størrelse på hhv søkesekvese og database og P er sasylighete for at e HSP (High-scorig segmet pair = høytscorede lokal sammestillig ute gap) opptrer ved re tilfeldighet. Lavere E value svarer til høyere sigifikas. E reger E <= 0.0 som sigifikat. 2. For å fie hvilke sekveser som liker mist: se etter stor E value (evt lite bit score). I dette tilfellet er det sekves som liker mist. For å fie hvilke sekveser som liker mest: se etter lite E value (evt stor bit score). I dette tilfellet sekves 2 og 4, og blat disse har sekves 4 størst bit score og er derfor de som liker mest. 3. Alle sekveser med utak av r ka ma ata med rimelighet er beslektet med søkesekvese (basert på kriteriet E <= 0.0). Oppgave 2. La x = (x(),..., x(m)) og y = (y(),..., y()) være sekvesee som skal sammestilles, og la S(.,.) være scorigsfuksjoe. Da er Ci (, j ) + Sxi ( ( ), yi ( )) Ci (, j) = mi Ci (, j) + Sxi ( (), ) Ci (, j ) + S(, y( j)) 2. I tabelle er det beyttet følgede score: 5 for match; -3 for mismatch; -4 for delesjo/isettig.

3. G A A T T C A G T T A G G A T C G - - A G A A T T C A G T T A G G A T C G - - A 4. PAM-matriser. E PAM matrise svarer til mutasjo pr 00 residuer (dvs % av amiosyreposisjoee er edret). PAM = (PAM)*(PAM)*...*(PAM) ( gager) svarer til et evolusjoært forløp av gager så lag varighet. For høyere verdier av vil e bestemt amiosyreposisjo kue se flere mutasjoer, mes e ae posisjo ikke opplever oe mutasjoer. F.eks. svarer PAM250 til at ca 80% av amiosyree har edret seg. BLOSUM-matriser. Mes PAM-matriser bare er basert på data for ært beslektede sekveser (% mutasjo), beyttes også mer divergete sekveser til å estimere BLOSUM-matriser. De er av dee gru (og i motsetig til PAM) veleget for å score sammestilliger mellom sekveser som har stor evolusjoær avstad. For å estimere BLOSUM beyttes sekveser med gjeomsittlig % idetitet. 5. E scorigsfuksjo S(x,y) er lieær hvis de tilfredsstiller følgede betigelse for e global gap-sammestillig (x,y): S( xy, ) = S( xi, yi)

Oppgave 3. Atall sekveser = summe av verdiee i e koloe. Svaret skal være 389, me merk at det er e feil i tabelle slik at koloe 7 har sum 379. 2. Kosesussekvese fier vi ved å se hvilke symboler som gir maksimal score i hver koloe. I dette tilfellet er det bare e ekelt sekves som gir maksimal score, og det er: G T A T A A A A G G C G G G G 3. Merk at de to sekvesee bare avviker i de tre første posisjoee, så det holder å rege ut score for disse posisjoee. La N være score for posisjo 4-5. Score P = 45 * 46 * 35 * N Score Q = 52 * 309 * 352 * N Det er da klart at Score P < Score Q, slik at det er Q som med størst sasylighet opptrer som e TATA boks. Oppgave 4. E utgruppe er e sekves som er homolog med de øvrige sekveser ma ser på, me som ble separert fra disse på et tidlig evolusjoært tidspukt. For å avgjøre hva som skal være utgruppe beytter ma geerelt iformasjo ut over de sekvesee ma har. Med S 2 som utgruppe får vi følgede tre med rot: S 2 S S 3 S 4 S 5

2. Vi bruker forkortelsee B = Bjør, V = vaskebjør, I = ilder, S = sel. Vi idetifiserer miste avstad i tabelle (0.26) og klustrer samme tilhørede arter (B og V) ved å plassere e y ode midtveis mellom dem slik at avstade fra dee ode til hver av bara blir 0.26/2 =. Vi teker oss altså at B og V har divergert akkurat like lagt fra et felles opphav (de ye ode). V I S B 0.26 0.34 0.29 V 0.42 0.44 I 0.44 B V Vi lager å e y avstadsmatrise hvor B og V er slått samme til BV. Avstadee mellom BV og de øvrige artee bereges som gjeomsitt, slik at avstade mellom BV og I blir: d(bv,i) = (d(b,i) + d(v,i)) / 2 = (0.34 + 0.42)/2 = 0.38 og avstade mellom BV og S blir d(bv,s) = (d(b,s) + d(v,s)) / 2 = (0.29 + 0.44)/2 = 0.365. Så gjør som vi før og idetifiserer miste avstad i tabelle og legger e y ode midtveis mellom de tilhørede arter/klustere: I BV 0.38 0.365 I 0.44 S 0.825 S B V Vi lager igje e y avstadsmatrise hvor BV og S er slått samme. Avstade mellom BVS og I blir d(bvs,i) = (d(b,i)+d(v,i)+d(s,i)) / 3 = (0.34 + 0.42 + 0.44)/3 = 0.4. I BVS 0.4 0.2 0.825 I S B V

Oppgave 5 For to geer på samme kromosom er det geerelt slik at jo større rekombiasjosfrekvese er, jo større er avstade på kromosomet. Beytter vi Morgas mappigfuksjo er avstade mellom LOBOCL og LOB 50cM og avstade mellom LOBOCL og LOB2 20cM. Vi kokluderer derfor med at LOBOCL ligger ærmere LOB2 e LOB. Oppgave 6 Defiisjoee av målee er som følger: 2 E(, ) = ( i i) (Euklid) d x y x y d ( x, y) = x y (Mahatta) M i i ( x x) ( y y) ( x x)( y y) T i i (, ) = = (Pearso) x x y y 2 2 ( xi x) ( yi y) cxy For de oppgitte vektoree x = (0, 3, 9, 6) og y = (0,, 3, 2) får vi at: Euklidsk avstad er d x y = + + + = = 2 2 2 2 E (, ) 0 2 6 4 56 2 4 Mahatta avstad er Pearso korrelasjo er d (, ) 0 2 6 4 2 M x y = + + + = cxy (, ) = cx (, 3 x) = cos ( x,3 x) = Oppgave 7 Merk : vi beytter her det faktum at y = 3x og at Pearsos korrelasjoskoeffisiet til to vektorer er cosius til vikele mellom vektoree. Om vi vil slippe å bruke cosius ka vi i stedet kostatere at c(x,3x) = side e vektor har korrelasjo (= maksimal korrelasjo) til seg selv eller et positivt multiplum av seg selv. Merk 2: vi kue her aturligvis også ha beyttet formele for Pearso korrelasjo og ville da etter e del regig også ha kommet til svaret c(x,y) =.. Avstade mellom Gee og Gee 2 er større e eller lik 0.75. 2. Avstade mellom Gee og Gee 2 er midre e eller lik 0.75. 3. De fire gruppee blir {,2,3}, {4,5,6}, {7} og {8}. 4. Gee 5 og Gee 6 ble først klustret samme.

Oppgave 8. Geerelt er strukture til et protei bedre koservert e de assosierte sekvese av amiosyrer, slik at svaret blir c. Dette heger samme med at strukture til et protei ofte er kritisk for dets fuksjo, samtidig som små til moderate edriger i sekveskomposisjoe i mage tilfeller vil ha lite ivirkig på strukture. 2. Ja, to proteier med ulik amiosyresekves ka ha samme sekudær- og tertiærstruktur. 3. E reger at homologimodellerig er aktuelt år det er mer e 25-30% sekveslikhet, så svaret blir b (40-45%).