Eksamen INF3350/INF4350 H2006 Løsningsforslag

Like dokumenter
Statistikk og økonomi, våren 2017

UNIVERSITETET I OSLO

Introduksjon. Hypotesetesting / inferens (kap 3) Populasjon og utvalg. Populasjon og utvalg. Populasjonsvarians

Mer om utvalgsundersøkelser

Matematikk for IT. Oblig 7 løsningsforslag. 16. oktober

TMA4245 Statistikk Eksamen mai 2017

MA1102 Grunnkurs i analyse II Vår 2014

X = 1 5. X i, i=1. som vil være normalfordelt med forventningsverdi E( X) = µ og varians Var( X) = σ 2 /5. En rimelig estimator for variansen er

TMA4240 Statistikk Høst 2016

Differensligninger Forelesningsnotat i Diskret matematikk Differensligninger

Avsnitt 8.1 i læreboka Differensligninger

OM TAYLOR POLYNOMER. f x K f a x K a. f ' a = lim x/ a. f ' a z

Løsningsforslag til eksamen i STK desember 2010

Kapittel 7: Noen viktige sannsynlighetsfordelinger

Løsning TALM1005 (statistikkdel) juni 2017

Løsningsforslag for andre obligatoriske oppgave i STK1100 Våren 2007 Av Ingunn Fride Tvete og Ørnulf Borgan

ECON240 Statistikk og økonometri

Oppgaven består av 9 delspørsmål, A,B,C,., som anbefales å veie like mye, Kommentarer og tallsvar er skrevet inn mellom <<.. >>.

Eksamen R2, Va ren 2013

TMA4240 Statistikk Eksamen desember 2015

Løsningsforslag Eksamen 10. august 2010 FY2045/TFY4250 Kvantemekanikk I

TMA4100 Matematikk 1 Høst 2014

H14 - Hjemmeeksamen i statistikk/ped sensurveiledning

Lsningsforslag ved Klara Hveberg Lsningsforslag til utvalgte oppgaver i kapittel 4 I seksjon 4.1 gir de innledende oppgavene deg trening i a lse diere

Forelesning Moment og Momentgenererende funksjoner

Kapittel 7: Noen viktige sannsynlighetsfordelinger

Totalt Antall kandidater oppmeldt 1513 Antall møtt til eksamen 1421 Antall bestått 1128 Antall stryk 247 Antall avbrutt 46 % stryk og avbrutt 21%

MA1101 Grunnkurs Analyse I Høst 2017

Løsningsforslag Oppgave 1

LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4245 STATISTIKK 6.august 2004

TMA4245 Statistikk Vår 2015

Noen vanlige. Indikatorfordeling: 1, dersom suksess. I mange situasjoner kan fenomenet vi ser på. 0, dersom ikke suksess

FØLGER, REKKER OG GJENNOMSNITT

Eksamen REA3028 S2, Våren 2012

Signifikante sifre = alle sikre pluss ett siffer til

EKSAMENSOPPGAVE. Mat-1060 Beregningsorientert programmering og statistikk

Forventningsverdi. MAT0100V Sannsynlighetsregning og kombinatorikk

TMA4240 Statistikk Høst 2015

Løsningsforslag ST1101/ST6101 kontinuasjonseksamen 2018

ÅMA110 Sannsynlighetsregning med statistikk, våren Noen viktige sannsynlighetsmodeller. Binomisk modell. Kp. 3 Diskrete tilfeldige variable

Kap. 9: Inferens om én populasjon

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Polynominterpolasjon

LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4240 STATISTIKK 5.august 2004

H 1 : µ 1 µ 2 > 0. t = ( x 1 x 2 ) (µ 1 µ 2 ) s p. s 2 p = s2 1 (n 1 1) + s 2 2 (n 2 1) n 1 + n 2 2

Løsningsforslag: Deloppgave om heuristiske søkemetoder

2T kapittel 3 Modellering og bevis Utvalgte løsninger oppgavesamlingen

Emnenavn: Eksamenstid: 4 timer. Faglærer: Hans Kristian Bekkevard

TMA4240 Statistikk Høst 2016

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007 Kp. 6, del 5. Hypotesetesting, del 5

ÅMA110 Sannsynlighetsregning med statistikk, våren 2008 Kp. 6, del 5

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 5

Kap. 9: Inferens om én populasjon. Egenskaper ved t-fordelingen. ST0202 Statistikk for samfunnsvitere. I Kapittel 8 brukte vi observatoren

TMA4240 Statistikk Høst 2009

LØSNING: Eksamen 28. mai 2015

Econ 2130 Forelesning uke 11 (HG)

ST1201 Statistiske metoder

ÅMA110 Sannsynlighetsregning med statistikk, våren Kontinuerlige tilfeldige variable, intro. Kontinuerlige tilfeldige variable, intro.

Eksamen R2, Våren 2010

LØSNING, EKSAMEN I STATISTIKK, TMA4240, DESEMBER Anta at sann porøsitet er r. Måling med utstyret gir da X n(x; r, 0,03).

Oppgave 1. (i) Hva er sannsynligheten for at det øverste kortet i bunken er et JA-kort?

Estimering 1 -Punktestimering

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010 Kp. 6, del 5

Eksamen REA3024 Matematikk R2. Nynorsk/Bokmål

UNIVERSITETET I OSLO

Oppgaver fra boka: Med lik men ukjent varians antatt har vi fra pensum at. t n1 +n 2 2 under H 0 (12 1) (12 1)

Eksempeloppgave REA3028 Matematikk S2 Eksempel på eksamen våren 2015 etter ny ordning. Ny eksamensordning. Del 1: 3 timer (uten hjelpemidler)

Tema. Statistikk og prøvetakning. Hvorfor måle mer enn en gang? Fordelinger en innledning. Hvorfor måle mer enn en gang

LØSNING: Eksamen 17. des. 2015

Påliteligheten til en stikkprøve

Høgskolen i Telemark Avdeling for estetiske fag, folkekultur og lærerutdanning BOKMÅL 12. desember 2008

Kap. 9: Inferens om én populasjon

8 + 2 n n 4. 3n 4 7 = 8 3.

UNIVERSITETET I OSLO

Utvidet løsningsforslag Eksamen i TMA4100 Matematikk 1, 16/

Kapittel 10 fra læreboka Grafer

Oppgaver fra boka: X 2 X n 1

Løsningsforslag til prøveeksamen i MAT1110, våren 2012

) = P(Z > 0.555) = > ) = P(Z > 2.22) = 0.013

Estimering 1 -Punktestimering

Kapittel 8: Estimering

Ukeoppgaver i BtG207 Statistikk, uke 4 : Binomisk fordeling. 1

KLMED8004 Medisinsk statistikk. Del I, høst Estimering. Tidligere sett på. Eksempel hypertensjon

Eksamen REA3028 S2, Våren 2011

LØSNINGSFORSLAG TILEKSAMEN I FAG TMA4240/TMA4245 STATISTIKK 10. august 2005

Emnenavn: Metode 1, statistikk deleksamen. Eksamenstid: 4 timer. Faglærer: Bjørnar Karlsen Kivedal

TMA4240 Statistikk Høst 2015

211.7% 2.2% 53.0% 160.5% 30.8% 46.8% 17.2% 11.3% 38.7% 0.8%

ÅMA110 Sannsynlighetsregning med statistikk, våren Estimering. Målemodellen. Konfidensintervall, innledning. Kp. 5 Estimering.

2.1 Polynomdivisjon. Oppgave 2.10

Econ 2130 uke 15 (HG) Poissonfordelingen og innføring i estimering

IN3030 Uke 12, v2019. Eric Jul PSE, Inst. for informatikk

Løsning eksamen R1 våren 2010

OPPGAVE 4 LØSNINGSFORSLAG OPPGAVE 5 LØSNINGSFORSLAG UTVIKLING AV REKURSIV FORMEL FOR FIGURTALL SOM GIR ANDREGRADSFUNKSJONER

Metoder for politiske meningsmålinger

Eksamen R2, Høsten 2010

TALLSVAR. Det anbefales at de 9 deloppgavene merket med A, B, teller likt uansett variasjon i vanskelighetsgrad. Svarene er gitt i << >>.

DEL 1. Uten hjelpemidler 500+ er x

Konfidensintervall. Notat til STK1110. Ørnulf Borgan, Ingrid K. Glad og Anders Rygh Swensen Matematisk institutt, Universitetet i Oslo.

Transkript:

Eksame INF3350/INF4350 H2006 Løsigsforslag Oppgave. Score (eller bit score) S' er e statistisk idikator på hvor sigifikat e match er. Høyere bit score svarer til høyere sigifikas. Idikatore er uavhegig av legde på søkesekvese og databasestørrelse, og de er proporsjoal med raw aligmet score S: S' = (lambda*s log K)/log2 hvor lambda og K er kostater. E value (eller expectatio value) er e ae statistisk idikator på hvor sigifikat e match er. De agir sasylighete for at sammestilligee ma har fuet i et databasesøk skal opptre ved re tilfeldighet. E-verdie er gitt ved E = mp hvor m og er størrelse på hhv søkesekvese og database og P er sasylighete for at e HSP (High-scorig segmet pair = høytscorede lokal sammestillig ute gap) opptrer ved re tilfeldighet. Lavere E value svarer til høyere sigifikas. E reger E <= 0.0 som sigifikat. 2. For å fie hvilke sekveser som liker mist: se etter stor E value (evt lite bit score). I dette tilfellet er det sekves som liker mist. For å fie hvilke sekveser som liker mest: se etter lite E value (evt stor bit score). I dette tilfellet sekves 2 og 4, og blat disse har sekves 4 størst bit score og er derfor de som liker mest. 3. Alle sekveser med utak av r ka ma ata med rimelighet er beslektet med søkesekvese (basert på kriteriet E <= 0.0). Oppgave 2. La x = (x(),..., x(m)) og y = (y(),..., y()) være sekvesee som skal sammestilles, og la S(.,.) være scorigsfuksjoe. Da er Ci (, j ) + Sxi ( ( ), yi ( )) Ci (, j) = mi Ci (, j) + Sxi ( (), ) Ci (, j ) + S(, y( j)) 2. I tabelle er det beyttet følgede score: 5 for match; -3 for mismatch; -4 for delesjo/isettig.

3. G A A T T C A G T T A G G A T C G - - A G A A T T C A G T T A G G A T C G - - A 4. PAM-matriser. E PAM matrise svarer til mutasjo pr 00 residuer (dvs % av amiosyreposisjoee er edret). PAM = (PAM)*(PAM)*...*(PAM) ( gager) svarer til et evolusjoært forløp av gager så lag varighet. For høyere verdier av vil e bestemt amiosyreposisjo kue se flere mutasjoer, mes e ae posisjo ikke opplever oe mutasjoer. F.eks. svarer PAM250 til at ca 80% av amiosyree har edret seg. BLOSUM-matriser. Mes PAM-matriser bare er basert på data for ært beslektede sekveser (% mutasjo), beyttes også mer divergete sekveser til å estimere BLOSUM-matriser. De er av dee gru (og i motsetig til PAM) veleget for å score sammestilliger mellom sekveser som har stor evolusjoær avstad. For å estimere BLOSUM beyttes sekveser med gjeomsittlig % idetitet. 5. E scorigsfuksjo S(x,y) er lieær hvis de tilfredsstiller følgede betigelse for e global gap-sammestillig (x,y): S( xy, ) = S( xi, yi)

Oppgave 3. Atall sekveser = summe av verdiee i e koloe. Svaret skal være 389, me merk at det er e feil i tabelle slik at koloe 7 har sum 379. 2. Kosesussekvese fier vi ved å se hvilke symboler som gir maksimal score i hver koloe. I dette tilfellet er det bare e ekelt sekves som gir maksimal score, og det er: G T A T A A A A G G C G G G G 3. Merk at de to sekvesee bare avviker i de tre første posisjoee, så det holder å rege ut score for disse posisjoee. La N være score for posisjo 4-5. Score P = 45 * 46 * 35 * N Score Q = 52 * 309 * 352 * N Det er da klart at Score P < Score Q, slik at det er Q som med størst sasylighet opptrer som e TATA boks. Oppgave 4. E utgruppe er e sekves som er homolog med de øvrige sekveser ma ser på, me som ble separert fra disse på et tidlig evolusjoært tidspukt. For å avgjøre hva som skal være utgruppe beytter ma geerelt iformasjo ut over de sekvesee ma har. Med S 2 som utgruppe får vi følgede tre med rot: S 2 S S 3 S 4 S 5

2. Vi bruker forkortelsee B = Bjør, V = vaskebjør, I = ilder, S = sel. Vi idetifiserer miste avstad i tabelle (0.26) og klustrer samme tilhørede arter (B og V) ved å plassere e y ode midtveis mellom dem slik at avstade fra dee ode til hver av bara blir 0.26/2 =. Vi teker oss altså at B og V har divergert akkurat like lagt fra et felles opphav (de ye ode). V I S B 0.26 0.34 0.29 V 0.42 0.44 I 0.44 B V Vi lager å e y avstadsmatrise hvor B og V er slått samme til BV. Avstadee mellom BV og de øvrige artee bereges som gjeomsitt, slik at avstade mellom BV og I blir: d(bv,i) = (d(b,i) + d(v,i)) / 2 = (0.34 + 0.42)/2 = 0.38 og avstade mellom BV og S blir d(bv,s) = (d(b,s) + d(v,s)) / 2 = (0.29 + 0.44)/2 = 0.365. Så gjør som vi før og idetifiserer miste avstad i tabelle og legger e y ode midtveis mellom de tilhørede arter/klustere: I BV 0.38 0.365 I 0.44 S 0.825 S B V Vi lager igje e y avstadsmatrise hvor BV og S er slått samme. Avstade mellom BVS og I blir d(bvs,i) = (d(b,i)+d(v,i)+d(s,i)) / 3 = (0.34 + 0.42 + 0.44)/3 = 0.4. I BVS 0.4 0.2 0.825 I S B V

Oppgave 5 For to geer på samme kromosom er det geerelt slik at jo større rekombiasjosfrekvese er, jo større er avstade på kromosomet. Beytter vi Morgas mappigfuksjo er avstade mellom LOBOCL og LOB 50cM og avstade mellom LOBOCL og LOB2 20cM. Vi kokluderer derfor med at LOBOCL ligger ærmere LOB2 e LOB. Oppgave 6 Defiisjoee av målee er som følger: 2 E(, ) = ( i i) (Euklid) d x y x y d ( x, y) = x y (Mahatta) M i i ( x x) ( y y) ( x x)( y y) T i i (, ) = = (Pearso) x x y y 2 2 ( xi x) ( yi y) cxy For de oppgitte vektoree x = (0, 3, 9, 6) og y = (0,, 3, 2) får vi at: Euklidsk avstad er d x y = + + + = = 2 2 2 2 E (, ) 0 2 6 4 56 2 4 Mahatta avstad er Pearso korrelasjo er d (, ) 0 2 6 4 2 M x y = + + + = cxy (, ) = cx (, 3 x) = cos ( x,3 x) = Oppgave 7 Merk : vi beytter her det faktum at y = 3x og at Pearsos korrelasjoskoeffisiet til to vektorer er cosius til vikele mellom vektoree. Om vi vil slippe å bruke cosius ka vi i stedet kostatere at c(x,3x) = side e vektor har korrelasjo (= maksimal korrelasjo) til seg selv eller et positivt multiplum av seg selv. Merk 2: vi kue her aturligvis også ha beyttet formele for Pearso korrelasjo og ville da etter e del regig også ha kommet til svaret c(x,y) =.. Avstade mellom Gee og Gee 2 er større e eller lik 0.75. 2. Avstade mellom Gee og Gee 2 er midre e eller lik 0.75. 3. De fire gruppee blir {,2,3}, {4,5,6}, {7} og {8}. 4. Gee 5 og Gee 6 ble først klustret samme.

Oppgave 8. Geerelt er strukture til et protei bedre koservert e de assosierte sekvese av amiosyrer, slik at svaret blir c. Dette heger samme med at strukture til et protei ofte er kritisk for dets fuksjo, samtidig som små til moderate edriger i sekveskomposisjoe i mage tilfeller vil ha lite ivirkig på strukture. 2. Ja, to proteier med ulik amiosyresekves ka ha samme sekudær- og tertiærstruktur. 3. E reger at homologimodellerig er aktuelt år det er mer e 25-30% sekveslikhet, så svaret blir b (40-45%).