Oblig3 - obligatorisk oppgave nr. 3 (av 3) i INF3350/4350 Levering av besvarelsen Besvarelse må leveres senest mandag 12. november kl 16.00. Send besvarelsen på epost til Lars Baumbusch (lars.o.baumbusch@rr-research.no). Arbeidsform I denne oppgaven er det meningen at man skal diskutere seg fram til svarene mange steder, og derfor skal den løses i grupper på to-tre personer. Oppgaven - del 1 Last ned følgende artikkel av Alizadeh et al. (2000) : http://www.ifi.uio.no/inf4350/h07/obliger/alizadeh2000.pdf Les artikkelen og besvar følgende spørsmål: a) Hva slags sykdom er non-hodgkin s lymphoma og hvilken del av kroppen rammer den? Hva er DLBCL (Diffuse large B-cell lymphoma)? b) Hvilke mål hadde forfatterne med det studiet som beskrives? c) Gi en beskrivelse av mikromatrisen (mikroarrayen) som de anvendte i studiet (hva slags type array, hva slags gener/kloner, hvor mange gener/kloner, osv). d) Beskriv forsøksmaterialet (hvor mange prøver/sampler, hva slags type prøver). e) Målinger (=spots) på en array som var for dårlige til å brukes ble markert som missing i studiet. For å avgjøre hvilke spots dette var, foretok man først en manuell screening hvor dårlige spots ble flagget. Deretter foretok man en automatisk screening av de spotsene som ikke hadde blitt flagget. Hva ble da brukt som kriterium for å avgjøre hvilke spots som var missing? f) Noen gener ble ekskludert fra hele analysen, på grunn av for mange dårlige målinger av genet. Hva var det presise kriteriet som ble brukt her? g) Ble det foretatt noen form for sentrering av dataene (og hva ble isåfall gjort)? h) Beskriv hvordan de klustret dataene, dvs hvilken metode som ble benyttet (inkludert valg av avstandsmål og andre detaljer) og hva slags programvare de brukte. i) I figur 1 blir alle gener og alle prøver klustret. Forklar med egne ord hvilken innsikt forfatterne trakk ut av denne figuren. j) I figur 2 har de klustret et subsett av dataene i figur 1. Hvilket subsett, og hvorfor har de valgt dette subsettet? Side 1 av 5
k) Figur 3 viser tre klusterdiagrammer basert på de samme prøvene, men med ulike sett av gener. Hvilke prøver og hvilke sett av gener? Forklar med egne ord hvilke konklusjoner forfatterne trekker fra disse klusterdiagrammene. l) Hva ser forfatterne for seg at denne typen studier ( genekspresjons-profilering ) vil bidra med i framtiden? Oppgaven del 2 1) I mikromatrise-terminologi brukes begrepet selv-selv hybridisering for å angi et tokanal mikromatrise-forsøk hvor de to samplene som hybridiseres mot arrayen (dvs både rød og grønn sample) inneholder identisk biologisk materiale. Nedenfor ser du to punktplott (hentet fra en av forelesningene) med data fra en slik selv-selv hybridisering. Hvert punkt i hvert av disse plottene svarer til en måling (et spot) på arrayen. Det er lett å vise at plottet til høyre er identisk med resultatet av å rotere venstre plott 45 grader, slik at de to plottene inneholder den samme informasjonen, men presentert på to litt forskjellige måter. Forklar hvorfor vi ideelt sett burde hatt at punktene i venstre plott lå symmetrisk rundt diagonalen log2 R = log2g. Hvordan skulle punktene i høyre plott ideelt sett ligget (ut fra samme resonnement)? Presiser hvilke antagelser du legger til grunn. log2 R log R 2 G log G 1 log RG 2 2 2 2) Før en klustrer dataene i en genekspresjonstabell vil en noen ganger ønske å sentrere rader (=gener), kolonner (=sampler) eller begge deler. For å sentrere rader kan man for hver rad trekke fra medianen for den raden (slik at medianen blir 0), og tilsvarende for å sentrere kolonner. For å sentrere både rader og kolonner må man gjenta denne prosessen noen ganger for å oppnå at medianen til hver rad blir 0 og at medianen til hver kolonne blir 0 (denne prosessen kalles medianpolering). Side 2 av 5
Vis de første to iterasjonene av en slik medianpolering utført på følgende genekspresjonstabell (hver iterasjon består av radsentrering etterfulgt av kolonnesentrering som beskrevet ovenfor): 5 3 11 9 2 3 11 7 8 3) Ved mikromatriseforsøk vil statistikere argumentere for gjentak, dvs at samme gen for samme prøve/individ er reprensentert flere ganger, helst på forskjellige arrayer. Hvilke argumenter ser du for å gjøre gjentak, og hvorfor tror du gjentak er relativt lite benyttet i praksis? 4) I denne oppgaven skal de todimensjonale vektorene A,B,...,G nedenfor klustres for hånd. A: (0.5, 1.0) B: (1.0, 1.0) C: (2.0, 1.0) D: (4.0, 1.0) E: (6.0, 0.8) F: (6.0, 1.5) G: (7.0, 1.0) Tegn først opp dataene i et todimensjonalt plott. a) Lag et dendrogram basert på single-linkage og med Euklidsk avstand som avstandsmål. Lag også et dendrogram basert på complete-linkage og med Euklidsk avstand som avstandsmål. b) Gjør som i punkt a, men denne gangen med Manhattan avstand som avstandsmål. Får du samme resultat som i a)? c) Et biprodukt av hierarkisk klustring er at en får en ordning av punktene (eks D, A, B...). Denne ordningen er imidlertid ikke entydig, siden ordningen av to subtrær med samme rot er vilkårlig (hvis vi f.eks. ser på de to klusterne som ligger rett under roten på toppen av dendrogrammet, så kan disse bytte plass og tilsvarende på lavere nivå i treet). Hvor mange forskjellige ordninger finnes det som tilfredsstiller det hierarkiske klustertreet (dendrogrammet) du fikk med single linkage og Euklidsk avstand? d) Diskuter mulige strategier for å velge en bestemt ordning blant alle de ordningene som tilfredsstiller det hierarkiske klustertreet. e) I forbindelse med gjennomgangen av ekspresjonsdata er det som nevnt ovenfor noen ganger interessant å klustre data begge veier (med hensyn på både gener og Side 3 av 5
prøver). For de enkle kunstige dataene ovenfor er klustring den andre veien av enkle årsaker lite interessant. Hvorfor? 5) Manglende verdier ("missing values") er et vanlig problem når en jobber med genekspresjonstabeller. Siden de fleste analyseverktøy forutsetter at det ikke er manglende verdier i tabellen, må en enten fjerne de genene hvor det forekommer manglende verdier eller "fylle igjen hullene" på en eller annen måte. På forelesning ble en enkel imputasjonsmetode nevnt; en annen metode (som kalles k-nærmeste nabo imputasjon, eller bare k-nn) er som følger (k er et heltall som antas å være gitt på forhånd): 1. Initialisering. Start med å sette inn en foreløpig verdi alle steder hvor det mangler en verdi. Denne foreløpige verdien avhenger av hvilken rad (hvilket gen) vi ser på, og skal være gjennomsnittet av de observerte verdiene på denne raden. 2. For hver manglende verdi la (i,j) være posisjonen i tabellen (i'te rad=gen og j'te kolonne=prøve) og gjør følgende: a) Finn de k radene i ekspresjonstabellen som er mest lik den i'te raden (basert på Manhattan avstand). b) Plukk ut den j'te verdien fra hver av de k utvalgte radene, og ta gjennomsnittet av disse k verdiene. c) Sett inn (imputer) dette gjennomsnittet i posisjon (i,j) i tabellen. 3. Gjenta trinn 2 til konvergens. Ta utgangspunkt i følgende ekspresjonstabell med 3 manglende verdier: 2 5 8 2 4 7 1 4 6 8 1 1 1 1 2 1 3 Bruk k-nærmeste nabo imputasjon som beskrevet ovenfor og med k = 2 til å imputere manglende verdier i tabellen ovenfor. Vis utregningene trinn for trinn, og kjør to iterasjoner av algoritmen (dvs utfør trinn 2 i algoritmen to ganger). Vær nøye med å vise i utregningene dine hvilken rekkefølge du imputerer de manglende verdiene i punkt 2, og for hver gang du imputerer forklar hvilke data (rader) som danner utgangspunkt for den imputerte verdien. Hvilke fordeler/ulemper ser du med metoden ovenfor i forhold til de to metodene som ble nevnt på forelesning (kun se på gener uten missing verdier, og imputasjon med radgjennomsnitt)? Side 4 av 5
6) Undersøk gjerne ved å klustre manuelt noen små eksempler - hva som karakteriserer single-linkage versus complete-linkage. Drøft hvilke karakteristiske forskjeller mellom de klusterne vi får med den ene metoden versus den andre metoden. 7) Anta at vi har gitt en genekspresjonstabell X med data for p gener og n prøver. Anta videre at prøvene er gruppert i tre undergrupper A, B og C. Hvordan ville du gått fram for å finne ut hvilke gener som er forskjellig uttrykt i minst to av gruppene, eller forskjellig uttrykt i alle tre grupper? Svaret skal inneholde de beregninger du ville utført og hvordan du ville trekke konklusjoner basert på beregningene. Side 5 av 5
Institutt for informatikk Krav til innleverte oppgaver ved Institutt for informatikk Ved alle pålagte innleveringer av oppgaver ved Ifi enten det dreier seg om obligatoriske oppgaver, hjemmeeksamen eller annet forventes det at arbeidet er et resultat av studentens egen innsats. Å utgi andres arbeid for sitt eget er uetisk og kan medføre sterke reaksjoner fra Ifis side. Derfor gjelder følgende: 1. Hvis du tar med tekst, programkode, illustrasjoner og annet som andre har laget, må du tydelig merke det og angi hvor det kommer fra. 2. Det er greit å få hint om hvorledes en oppgave kan løses, men dette skal eventuelt brukes som grunnlag for egen løsning og ikke kopieres uendret inn. 3. Kursledelsen kan innkalle studenter til samtale om deres innlevering. Gruppearbeid I noen kurs skal det leveres gruppearbeid. Ifi krever da at alle medlemmer av gruppen kan gjøre rede for hovedtrekkene i det innleverte arbeidet. Dessuten må alle ha utført en rimelig del av det hele, og kunne identifisere og svare i detalj for sin del. Samarbeid Reglene om kopiering betyr ikke at Ifi fraråder samarbeid tvert imot, Ifi oppfordrer studentene til å utveksle faglige erfaringer om det meste. Men det kreves som nevnt at man kan stå inne for det som leveres. Hvis du er i tvil om hva som er lovlig samarbeid, kan du kontakte gruppelærer eller faglærer. www.ifi.uio.no/studinf/skjemaer/erklaring.pdf 27. jan. 2004