Oblig3 - obligatorisk oppgave nr. 3 (av 3) i INF3350/4350

Like dokumenter
UNIVERSITETET I OSLO

Obligatorisk oppgave 1 i INF 4130, høsten 2009

Obligatorisk oppgave 1 i INF 4130, høsten 2008

UNIVERSITETET I OSLO

Obligatorisk oppgave nr. 3 (av 4) i INF1000, våren 2006

Algoritmer for klustering av mikromatriser. Kompleks prosess. Forelesning # 9. Sammenlikning av flere populasjoner. Mange gener og få prøver

Oblig2 - obligatorisk oppgave nr. 2 (av 4) i INF1000 h2006

INF 1050 OBLIGATORISK OPPGAVE 1

Oblig2 - obligatorisk oppgave nr. 2 (av 4) i INF1000

UNIVERSITETET I OSLO

Oblig2 - obligatorisk oppgave nr. 2 (av 4) i INF1000 v2008

Oblig2 - obligatorisk oppgave nr. 2 (av 4) i INF1000 v2009

MAT-INF 1100: Obligatorisk oppgave 1

Noen presiseringer mhp Diskret Fourier Transform. Relevant for oblig 1.

Oblig2 - obligatorisk oppgave nr. 2 (av 4) i INF1000

Obligatorisk oppgave 3 i FYS-MEK/F1110 våren 2005

MAT-INF 1100: Obligatorisk oppgave 1

UNIVERSITETET I OSLO

Drosjesentralen. I-120: Obligatorisk oppgave 2, 2000

Obligatorisk oppgave 2 i INF 4130, høsten 2009

TMA4140 Diskret Matematikk Høst 2016

Eksamensoppgave i TDT4120 Algoritmer og datastrukturer

Obligatorisk oppgave 2 INF2310 Våren 2018

Forklarende tekst under hvert bilde

EKSAMEN. Dato: 9. mai 2016 Eksamenstid: 09:00 13:00

OBLIGATORISK OPPGAVE 1 FORANALYSE, KRAVHÅNDTERING OG ESTIMERING

UNIVERSITETET I OSLO

EKSAMEN med løsningsforslag

Guide til system for flervalgsprøver

INF Algoritmer og datastrukturer

Oppgave 1 Minimum edit distance

MEK1100, vår Obligatorisk oppgave 1 av 2. Torsdag 28. februar 2019, klokken 14:30 i Devilry (devilry.ifi.uio.no).

Inf109 Programmering for realister Uke 5. I denne leksjonen skal vi se på hvordan vi kan lage våre egne vinduer og hvordan vi bruker disse.

Introduksjon. MAT1030 Diskret Matematikk. Introduksjon. En graf. Forelesning 22: Grafteori. Roger Antonsen

INF Algoritmer og datastrukturer

INF Algoritmer og datastrukturer

UNIVERSITETET I BERGEN Det matematisk-naturvitenskapelige fakultet. Obligatorisk innlevering 1 i emnet MAT111, høsten 2016

MAT1120. Obligatorisk oppgave 1 av 2. Torsdag 20. september 2018, klokken 14:30 i Devilry (devilry.ifi.uio.no).

VELKOMMEN TIL MAT-INF1100(L) Knut Mørken Rom 1033, Niels Henrik Abels hus

Introduksjon. MAT1030 Diskret matematikk. Søkealgoritmer for grafer. En graf

MAT1030 Diskret matematikk

Notat for oblig 2, INF3/4130 h07

Hjemmeeksamen 1 i INF3110/4110

IN Algoritmer og datastrukturer

Obligatorisk oppgave 2 i MAT1140, Høst Løsninger og kommentarer

Dagens plan. INF Algoritmer og datastrukturer. Koding av tegn. Huffman-koding

INF Algoritmer og datastrukturer

Inf1510: Oppsummering. Rune Rosseland

IN Algoritmer og datastrukturer

INF Algoritmer og datastrukturer

Algoritmer og Datastrukturer

Høgskolen i Gjøvik. Avdeling for elektro- og allmennfag K O N T I N U A S J O N S E K S A M E N. EKSAMENSDATO: 11. august 1995 TID:

Oppgavesettet består av 7 sider, inkludert denne forsiden. Kontroll& at oppgaven er komplett før du begynner å besvare spørsmålene.

MAT1030 Forelesning 22

Definisjon: Et sortert tre

Obligatorisk oppgave 1 MAT1120 H15

MAT 1120: Obligatorisk oppgave 2, H-09

Obligatorisk oppgavesett 1 MAT1120 H16

Kombinatorikk. MAT1030 Diskret Matematikk. Oppsummering av regneprinsipper

MAT1030 Diskret Matematikk

Obligatorisk oppgave 1

Løsningsforslag. Oppgavesettet består av 9 oppgaver med i alt 20 deloppgaver. Ved sensur vil alle deloppgaver telle omtrent like mye.

INF Innleveringsoppgave 6

Hva er bioinformatikk? Introduksjon til bioinformatikk. Summary. Menneskets genom. Prokaryoter og eukaryoter. Lars O. Baumbusch

Prøve- EKSAMEN med løsningsforslag

N-dronningproblemet Obligatorisk oppgave 1 I120, H-2000

INF Algoritmer og datastrukturer. Hva er INF2220? Algoritmer og datastrukturer

INF Algoritmer og datastrukturer

DAFE ELFE Matematikk 1000 HIOA Obligatorisk innlevering 3 Innleveringsfrist Torsdag 26. mars 2015 Antall oppgaver:

RUTINESKRIVELSE FOR HOVEDVAKT VED DIGITAL SKOLEEKSAMEN MED INSPERA

Forelesning 1 mandag den 18. august

Eksamensoppgave i TDT4120 Algoritmer og datastrukturer

Andre sett med obligatoriske oppgaver i STK1110 høsten 2010

STK1000 Obligatorisk oppgave 1 av 2

EKSAMEN. Dato: 28. mai 2018 Eksamenstid: 09:00 13:00

Grunnregler for å snakke og tenke sammen

IN Algoritmer og datastrukturer

Oversikt over flervalgstester på Ifi

UNIVERSITETET I OSLO

Obligatorisk oppgave 2

i=0 Repetisjon: arrayer Forelesning inf Java 4 Repetisjon: nesting av løkker Repetisjon: nesting av løkker 0*0 0*2 0*3 0*1 0*4

Forelesning inf Java 4

Løsningsforslag for Obligatorisk Oppgave 2. Algoritmer og Datastrukturer ITF20006

Vurderingsformer i AST2000 høsten 2018

MAT-INF 1100: Obligatorisk oppgave 2

EKSAMEN I FAG TMA4255 FORSØKSPLANLEGGING OG ANVENDTE STATISTISKE METODER

MEK1100, vår Obligatorisk oppgave 1 av 2.

UNIVERSITETET I OSLO

MAT1030 Forelesning 22

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

EKSAMEN. Dato: 18. mai 2017 Eksamenstid: 09:00 13:00

MAT-INF 2360: Obligatorisk oppgave 3

INF 1040 Digital representasjon 2007 Utkast til - Obligatorisk oppgave nr 2

SymWriter: R6 Innstillinger, preferanser og verktøylinjer

INF 1040 Digital representasjon 2006 Utkast til - Obligatorisk oppgave nr 3

INF Algoritmer og datastrukturer

INF Algoritmer og datastrukturer

Ekstra ark kan legges ved om nødvendig, men det er meningen at svarene skal få plass i rutene på oppgavearkene. Lange svar teller ikke positivt.

Transkript:

Oblig3 - obligatorisk oppgave nr. 3 (av 3) i INF3350/4350 Levering av besvarelsen Besvarelse må leveres senest mandag 12. november kl 16.00. Send besvarelsen på epost til Lars Baumbusch (lars.o.baumbusch@rr-research.no). Arbeidsform I denne oppgaven er det meningen at man skal diskutere seg fram til svarene mange steder, og derfor skal den løses i grupper på to-tre personer. Oppgaven - del 1 Last ned følgende artikkel av Alizadeh et al. (2000) : http://www.ifi.uio.no/inf4350/h07/obliger/alizadeh2000.pdf Les artikkelen og besvar følgende spørsmål: a) Hva slags sykdom er non-hodgkin s lymphoma og hvilken del av kroppen rammer den? Hva er DLBCL (Diffuse large B-cell lymphoma)? b) Hvilke mål hadde forfatterne med det studiet som beskrives? c) Gi en beskrivelse av mikromatrisen (mikroarrayen) som de anvendte i studiet (hva slags type array, hva slags gener/kloner, hvor mange gener/kloner, osv). d) Beskriv forsøksmaterialet (hvor mange prøver/sampler, hva slags type prøver). e) Målinger (=spots) på en array som var for dårlige til å brukes ble markert som missing i studiet. For å avgjøre hvilke spots dette var, foretok man først en manuell screening hvor dårlige spots ble flagget. Deretter foretok man en automatisk screening av de spotsene som ikke hadde blitt flagget. Hva ble da brukt som kriterium for å avgjøre hvilke spots som var missing? f) Noen gener ble ekskludert fra hele analysen, på grunn av for mange dårlige målinger av genet. Hva var det presise kriteriet som ble brukt her? g) Ble det foretatt noen form for sentrering av dataene (og hva ble isåfall gjort)? h) Beskriv hvordan de klustret dataene, dvs hvilken metode som ble benyttet (inkludert valg av avstandsmål og andre detaljer) og hva slags programvare de brukte. i) I figur 1 blir alle gener og alle prøver klustret. Forklar med egne ord hvilken innsikt forfatterne trakk ut av denne figuren. j) I figur 2 har de klustret et subsett av dataene i figur 1. Hvilket subsett, og hvorfor har de valgt dette subsettet? Side 1 av 5

k) Figur 3 viser tre klusterdiagrammer basert på de samme prøvene, men med ulike sett av gener. Hvilke prøver og hvilke sett av gener? Forklar med egne ord hvilke konklusjoner forfatterne trekker fra disse klusterdiagrammene. l) Hva ser forfatterne for seg at denne typen studier ( genekspresjons-profilering ) vil bidra med i framtiden? Oppgaven del 2 1) I mikromatrise-terminologi brukes begrepet selv-selv hybridisering for å angi et tokanal mikromatrise-forsøk hvor de to samplene som hybridiseres mot arrayen (dvs både rød og grønn sample) inneholder identisk biologisk materiale. Nedenfor ser du to punktplott (hentet fra en av forelesningene) med data fra en slik selv-selv hybridisering. Hvert punkt i hvert av disse plottene svarer til en måling (et spot) på arrayen. Det er lett å vise at plottet til høyre er identisk med resultatet av å rotere venstre plott 45 grader, slik at de to plottene inneholder den samme informasjonen, men presentert på to litt forskjellige måter. Forklar hvorfor vi ideelt sett burde hatt at punktene i venstre plott lå symmetrisk rundt diagonalen log2 R = log2g. Hvordan skulle punktene i høyre plott ideelt sett ligget (ut fra samme resonnement)? Presiser hvilke antagelser du legger til grunn. log2 R log R 2 G log G 1 log RG 2 2 2 2) Før en klustrer dataene i en genekspresjonstabell vil en noen ganger ønske å sentrere rader (=gener), kolonner (=sampler) eller begge deler. For å sentrere rader kan man for hver rad trekke fra medianen for den raden (slik at medianen blir 0), og tilsvarende for å sentrere kolonner. For å sentrere både rader og kolonner må man gjenta denne prosessen noen ganger for å oppnå at medianen til hver rad blir 0 og at medianen til hver kolonne blir 0 (denne prosessen kalles medianpolering). Side 2 av 5

Vis de første to iterasjonene av en slik medianpolering utført på følgende genekspresjonstabell (hver iterasjon består av radsentrering etterfulgt av kolonnesentrering som beskrevet ovenfor): 5 3 11 9 2 3 11 7 8 3) Ved mikromatriseforsøk vil statistikere argumentere for gjentak, dvs at samme gen for samme prøve/individ er reprensentert flere ganger, helst på forskjellige arrayer. Hvilke argumenter ser du for å gjøre gjentak, og hvorfor tror du gjentak er relativt lite benyttet i praksis? 4) I denne oppgaven skal de todimensjonale vektorene A,B,...,G nedenfor klustres for hånd. A: (0.5, 1.0) B: (1.0, 1.0) C: (2.0, 1.0) D: (4.0, 1.0) E: (6.0, 0.8) F: (6.0, 1.5) G: (7.0, 1.0) Tegn først opp dataene i et todimensjonalt plott. a) Lag et dendrogram basert på single-linkage og med Euklidsk avstand som avstandsmål. Lag også et dendrogram basert på complete-linkage og med Euklidsk avstand som avstandsmål. b) Gjør som i punkt a, men denne gangen med Manhattan avstand som avstandsmål. Får du samme resultat som i a)? c) Et biprodukt av hierarkisk klustring er at en får en ordning av punktene (eks D, A, B...). Denne ordningen er imidlertid ikke entydig, siden ordningen av to subtrær med samme rot er vilkårlig (hvis vi f.eks. ser på de to klusterne som ligger rett under roten på toppen av dendrogrammet, så kan disse bytte plass og tilsvarende på lavere nivå i treet). Hvor mange forskjellige ordninger finnes det som tilfredsstiller det hierarkiske klustertreet (dendrogrammet) du fikk med single linkage og Euklidsk avstand? d) Diskuter mulige strategier for å velge en bestemt ordning blant alle de ordningene som tilfredsstiller det hierarkiske klustertreet. e) I forbindelse med gjennomgangen av ekspresjonsdata er det som nevnt ovenfor noen ganger interessant å klustre data begge veier (med hensyn på både gener og Side 3 av 5

prøver). For de enkle kunstige dataene ovenfor er klustring den andre veien av enkle årsaker lite interessant. Hvorfor? 5) Manglende verdier ("missing values") er et vanlig problem når en jobber med genekspresjonstabeller. Siden de fleste analyseverktøy forutsetter at det ikke er manglende verdier i tabellen, må en enten fjerne de genene hvor det forekommer manglende verdier eller "fylle igjen hullene" på en eller annen måte. På forelesning ble en enkel imputasjonsmetode nevnt; en annen metode (som kalles k-nærmeste nabo imputasjon, eller bare k-nn) er som følger (k er et heltall som antas å være gitt på forhånd): 1. Initialisering. Start med å sette inn en foreløpig verdi alle steder hvor det mangler en verdi. Denne foreløpige verdien avhenger av hvilken rad (hvilket gen) vi ser på, og skal være gjennomsnittet av de observerte verdiene på denne raden. 2. For hver manglende verdi la (i,j) være posisjonen i tabellen (i'te rad=gen og j'te kolonne=prøve) og gjør følgende: a) Finn de k radene i ekspresjonstabellen som er mest lik den i'te raden (basert på Manhattan avstand). b) Plukk ut den j'te verdien fra hver av de k utvalgte radene, og ta gjennomsnittet av disse k verdiene. c) Sett inn (imputer) dette gjennomsnittet i posisjon (i,j) i tabellen. 3. Gjenta trinn 2 til konvergens. Ta utgangspunkt i følgende ekspresjonstabell med 3 manglende verdier: 2 5 8 2 4 7 1 4 6 8 1 1 1 1 2 1 3 Bruk k-nærmeste nabo imputasjon som beskrevet ovenfor og med k = 2 til å imputere manglende verdier i tabellen ovenfor. Vis utregningene trinn for trinn, og kjør to iterasjoner av algoritmen (dvs utfør trinn 2 i algoritmen to ganger). Vær nøye med å vise i utregningene dine hvilken rekkefølge du imputerer de manglende verdiene i punkt 2, og for hver gang du imputerer forklar hvilke data (rader) som danner utgangspunkt for den imputerte verdien. Hvilke fordeler/ulemper ser du med metoden ovenfor i forhold til de to metodene som ble nevnt på forelesning (kun se på gener uten missing verdier, og imputasjon med radgjennomsnitt)? Side 4 av 5

6) Undersøk gjerne ved å klustre manuelt noen små eksempler - hva som karakteriserer single-linkage versus complete-linkage. Drøft hvilke karakteristiske forskjeller mellom de klusterne vi får med den ene metoden versus den andre metoden. 7) Anta at vi har gitt en genekspresjonstabell X med data for p gener og n prøver. Anta videre at prøvene er gruppert i tre undergrupper A, B og C. Hvordan ville du gått fram for å finne ut hvilke gener som er forskjellig uttrykt i minst to av gruppene, eller forskjellig uttrykt i alle tre grupper? Svaret skal inneholde de beregninger du ville utført og hvordan du ville trekke konklusjoner basert på beregningene. Side 5 av 5

Institutt for informatikk Krav til innleverte oppgaver ved Institutt for informatikk Ved alle pålagte innleveringer av oppgaver ved Ifi enten det dreier seg om obligatoriske oppgaver, hjemmeeksamen eller annet forventes det at arbeidet er et resultat av studentens egen innsats. Å utgi andres arbeid for sitt eget er uetisk og kan medføre sterke reaksjoner fra Ifis side. Derfor gjelder følgende: 1. Hvis du tar med tekst, programkode, illustrasjoner og annet som andre har laget, må du tydelig merke det og angi hvor det kommer fra. 2. Det er greit å få hint om hvorledes en oppgave kan løses, men dette skal eventuelt brukes som grunnlag for egen løsning og ikke kopieres uendret inn. 3. Kursledelsen kan innkalle studenter til samtale om deres innlevering. Gruppearbeid I noen kurs skal det leveres gruppearbeid. Ifi krever da at alle medlemmer av gruppen kan gjøre rede for hovedtrekkene i det innleverte arbeidet. Dessuten må alle ha utført en rimelig del av det hele, og kunne identifisere og svare i detalj for sin del. Samarbeid Reglene om kopiering betyr ikke at Ifi fraråder samarbeid tvert imot, Ifi oppfordrer studentene til å utveksle faglige erfaringer om det meste. Men det kreves som nevnt at man kan stå inne for det som leveres. Hvis du er i tvil om hva som er lovlig samarbeid, kan du kontakte gruppelærer eller faglærer. www.ifi.uio.no/studinf/skjemaer/erklaring.pdf 27. jan. 2004