Algoritmer for klustering av mikromatriser. Kompleks prosess. Forelesning # 9. Sammenlikning av flere populasjoner. Mange gener og få prøver

Transkript

1 , most ing ingle tip sists of nally xtract mages, it tely of each of ming this lify and ess. nalyze n each, most ing ingle tip sists of onally xtract mages, it tely of each of ming this lify and ess. analyze n each, most ing ingle tip sists of nally xtract mages, it tely of each of ming this lify and ess. nalyze n each Algoritmer for klustering av mikromatriser Kompleks prosess Forelesning # 9 Biological question Differentially expressed genes Sample class prediction etc. Experimental design Lars O. Baumbusch Radiumhospitalet Rikshospitalet HF Senter for Bioinformatikk, IFI, UiO Forelesning er en modifiserte versjon av forlesninger utarbeidet av Ole Christian Lingjærde og andre Estimation Microarray experiment -bit TIFF files Image analysis (Rfg, Rbg), (Gfg, Gbg) Normalization R, G Testing Clustering Discrimination Biological verification and interpretation Lars O. Baumbusch (DNR/IFI) INF0/INF0 Høst 00 Lars O. Baumbusch (DNR/IFI) INF0/INF0 Høst 00 Sammenlikning av flere populasjoner Mange og få Det er ofte interessant å sammenlikne gen-ekspresjonen i mange forskjellige populasjoner: prøve + referanse prøve + referanse prøve + referanse... Identifikasjon av vevsspesifikke Søke etter endringer i genekspresjon når normale celler endrer seg til kreftceller mikroarray mikroarray mikroarray... Skille mellom ulike ekspresjonsmønstre i samme krefttyper Studere cellulære responser til endringer i omgivelsene (f.eks. virusinfeksjon, giftstoffer, legemiddler) Antall variable () er normalt er langt større enn antall observasjoner () rød : høy ekspresjon grønn : lav ekspresjon Lars O. Baumbusch (DNR/IFI) INF0/INF0 Høst 00 Betydelige variasjon Lars O. Baumbusch (DNR/IFI) INF0/INF0 Høst 00

2 Tabeller over genekspresjoner Log(R/G) har mer symmetrisk fordeling x x x x x x x x x sampler Ratio Histogram Log(ratio) Histogram x = genekspresjon for i'te gen i j'te prøve ij rød intensitet = log grønn intensitet Frequency Ratio Frequency Log(ratio) Tabellen med genekspresjonsdata (eller kopitall) er ofte startpunktet for statistiske analyser av mikromatrisedata log () = 0 log () = log (/) = - Lars O. Baumbusch (DNR/IFI) INF0/INF0 Høst 00 Lars O. Baumbusch (DNR/IFI) INF0/INF0 Høst 00. Normalisering Forsøk på å fjerne systematiske feil i målingene Mål: fjerne effekten av alle ikke-biologiske (matrise-spesifikke og målespesifikke) faktorer som måtte påvirke målt intensitet For normaliserte data skal enhver forskjell i måleverdi ideelt sett skyldes forskjell i genekspresjon Normalisering er ofte nødvendig for å kunne sammenlikne data fra en mikromatrise med data fra en annen. Reduksjon av antall Vanligvis er vi mest interessert i de som ikke har samme ekspresjon i alle prøvene Gener som varierer lite i ekspresjon kan isåfall utelukkes fra datasettet. Det er mange måter å gjøre dette på; en av de metodene som ofte benyttes er følgende: For rad (gen) i=,,...,n: finn radmedianen μ i tell antall j=,,...,m som oppfyller Xij < μi eller Xij > μi + Fjern raden (genet) fra datasettet hvis antallet er mindre enn k (med f.eks. k=) Xi Xi Xi beholder kun med k eller flere interessante verdier Lars O. Baumbusch (DNR/IFI) INF0/INF0 Høst 00 Lars O. Baumbusch (DNR/IFI) INF0/INF0 Høst 00 8

3 Eksempler på objekter og egenskaper Eksempel på problemstilling I Objekter: Stjerner Egenskaper: Lysstyrke og overflatetemperatur Objekter: Gener Egenskaper: Ekspresjon i 0 ulike vevs Objekter: Vevs Egenskaper: Ekspresjon av Lars O. Baumbusch (DNR/IFI) INF0/INF0 Høst 00 9 Vil klustre 00 personer med hensyn på inntekt og formue Utgangspunkt: Data om personene INNTEKT Individ nr Inntekt Formue Individ og bør åpenbart havne i samme kluster, men hva med individ 00, som er temmelig lik individ og? Skal (forskjeller i) inntekt og formue vektes likt? Er det rimelig å fastlegge antall klustre på forhånd, eller skal dataene tale for seg selv? FORMUE Lars O. Baumbusch (DNR/IFI) INF0/INF0 Høst 00 0 Eksempel på problemstilling II Eksempel på problemstilling III Anta at dataene så slik ut: Hvor mange klustere har vi her: Individ nr... Inntekt Formue INNTEKT FORMUE Kan vi snakke om klustere her? Hvor mange? Ulike klustringsmetoder kan her gi svært forskjellige svar Og her: Slike situasjoner er mest problematiske i høyere dimensjon (f.eks. punktene på et fler-dimensjonalt rom, da kan vi ikke så lett visualisere den romlige strukturen) Lars O. Baumbusch (DNR/IFI) INF0/INF0 Høst 00 Lars O. Baumbusch (DNR/IFI) INF0/INF0 Høst 00

4 Hvordan klustre? Anta at vi ønsker å finne klustere av. Tenk på hvert gen (hver rad) som en vektor: Y = ( Y, Y,, Y ), i =,,, n i i i im Hvordan klustre? Formelt ønsker vi å finne en funksjon c(i) som tilordner den i'te vektoren Y i til en av k klasser: c : {,,...,n} {,,...,k} Klusteranalyse søker å arrangere vektorene i grupper (klustere) av vektorer slik at medlemmene innen en gruppe er mer like enn medlemmer fra ulike grupper. Eksempel (m=): Dvs c(i) er klassen (klusteret) til vektoren Y i. i c(i) Y i Her er det naturlig å arrangere punktene (vektorene) i tre klustere Yi Y i Y i Lars O. Baumbusch (DNR/IFI) INF0/INF0 Høst 00 Lars O. Baumbusch (DNR/IFI) INF0/INF0 Høst 00 Resultatet av klustring Eksempel Resultatet av en klustring kan være: navngitte klustre For hvert objekt angis hvilket kluster (f.eks. kluster, kluster,...) objektet tilhører anonyme klustre For hvert objekt angis hvilke andre objekter som tilhører samme kluster Navngitte klustre: Anonyme klustre: Objekt x x x x x x x x x Kluster x x x x x x x x x x x x x x x x Lars O. Baumbusch (DNR/IFI) INF0/INF0 Høst 00 Lars O. Baumbusch (DNR/IFI) INF0/INF0 Høst 00

5 , most ing ingle tip sists of onally xtract mages, it tely of each of ming this lify and ess. analyze n each, most ing ingle tip sists of nally xtract mages, it tely of each of ming this lify and ess. nalyze n each Konklusjon Hvorfor klustre ekspresjonsdata? Hvorfor klustre : Ikke alltid opplagt hva som bør utgjøre et kluster! Ulike klustermetoder kan gi veldig ulike grupperinger Hva som definerer interessante klustre er problemavhengig Resultatene av å kjøre en klustermetode på høydimensjonale data må alltid tolkes med varsomhet vi kan ikke validere resultatet med et enkelt plot av dataene Redusere kompleksitet: identifisere typiske ekspresjonsmønstre Generere hypoteser: liknende ekspresjonsmønster kan være indikasjon på liknende funksjon eller koregulering Hvorfor klustre : Identifisere kjente kategoriseringer (f.eks. i friske og syke ) basert på ekspresjon Finne nye (eller mer detaljerte) kategoriseringer (f.eks. subtyper av en sykdom) basert på ekspresjon Lars O. Baumbusch (DNR/IFI) INF0/INF0 Høst 00 Lars O. Baumbusch (DNR/IFI) INF0/INF0 Høst 00 8 Klustring av genekspresjonsdata Objektene som skal klustres er da en av følgende: Genekspresjonsdata Anta at vi har genekspresjonsdata på G og A arrayer:, hvor hvert gen er beskrevet av et sett av genekspresjonsverdier (en verdi for hver array) arrayer/, hvor hver array/prøve er beskrevet av et sett av genekspresjonsverdier (en verdi for hvert gen) prøve referanse mikroarray prøve A referanse + mikroarray Ofte ønsker en klustre både og arrayer: klustre (som over) klustre arrayer (som over) felles presentasjon av begge klustringer A A sampler xg xg xga Lars O. Baumbusch (DNR/IFI) INF0/INF0 Høst 00 9 Lars O. Baumbusch (DNR/IFI) INF0/INF0 Høst 00 0

6 x ij = Genekspresjonsdata A A G G GA genekspresjon for i'te gen i j'te prøve Antar at preprosessering (filtrering, normalisering) og eventuell transformasjon (f.eks. til log-skala) er utført Klustring av Hvert gen beskrives som en A-dimensjonal vektor: A A G G GA x x To i og j ligger nær hverandre dersom avstanden mellom de tilhørende vektorene x i og x j er liten x G Lars O. Baumbusch (DNR/IFI) INF0/INF0 Høst 00 Lars O. Baumbusch (DNR/IFI) INF0/INF0 Høst 00 Klustring av Hver array/prøve beskrives som en G-dimensjonal vektor: A A G G GA x x x A To i og j ligger nær hverandre dersom avstanden mellom de tilhørende vektorene x i og x j er liten. Ting vi må ta stilling til Objektets egenskaper Hvilke egenskaper ved objektene ønsker vi å se på? Avstandsmål Hvordan skal vi måle avstand/likhet mellom objekter? Klustringsmetode Hvordan ønsker vi at grupperingen skal foregå? Presentasjon av resultatet Hvordan ønsker vi resultatet presentert? Lars O. Baumbusch (DNR/IFI) INF0/INF0 Høst 00 Lars O. Baumbusch (DNR/IFI) INF0/INF0 Høst 00

7 Eksempel: Klustring av rader i et bilde tilfeldig permutasjon av radene Ordning av radene basert på hierarkisk klustring av radvektorene (mer om hierarkisk klustring senere i forelesningen) (Eksempel fra Gavin Sherlock, MGED V, 00) (Eksempel fra Gavin Sherlock, MGED V, 00) Lars O. Baumbusch (DNR/IFI) INF0/INF0 Høst 00 Lars O. Baumbusch (DNR/IFI) INF0/INF0 Høst 00 pause Klustering metoder K-means klustering Hierarkisk klustring Self-organizing maps (SOM) Prinsipalkomponent klustring Lars O. Baumbusch (DNR/IFI) INF0/INF0 Høst 00 Lars O. Baumbusch (DNR/IFI) INF0/INF0 Høst 00 8

8 Distance measure Define distance or dissimilarity measure between genes: Convert gene expression matrix in a distance matrix Two different types of similarity for two sets of gene expression levels and the correlation of gene expression between two arrays can be observed:. Has gene in array A approximately the same level of expression compared to gene in array B = mean distance. Coordinated changes from gene to gene across two arrays = correlation measure Distance measure Euclidean distance: Is the square root of the sum of squared distances between expression data points When comparing x gene expression with y gene expression at time point i (assuming there are n time points in total), the distance score (d) can be calculated by: n d = ( x y ) i= i i Distance can be expressed as Euclidean distance or Pearson correlation coefficient Lars O. Baumbusch (DNR/IFI) INF0/INF0 Høst 00 9 Lars O. Baumbusch (DNR/IFI) INF0/INF0 Høst 00 0 Distance measure Example of Euclidian and Manhattan distance Variable (,) Euclidean distance: d( xy, ) = ( x y ) k k Manhattan- distance: d( xy, ) = xk yk (,) Variable Euclidian distance Manhattan distance (+=8) Lars O. Baumbusch (DNR/IFI) INF0/INF0 Høst 00 Lars O. Baumbusch (DNR/IFI) INF0/INF0 Høst 00 8

9 Distance measure Pearson correlation coefficient: Measures the overall similarity between the trends or shapes of two sets of data Perfect positive correlation = Perfect negative correlation = - Distance score (d) can be calcluated as: n xi x yi y d = n i= sdi sdi (Were n is the total number of time points, x and y are average values for the x gene and y gene data, and sd are the standard deviation values Lars O. Baumbusch (DNR/IFI) INF0/INF0 Høst 00 Avstandsmål Pearsons korrelasjonskoeffisient: cov( xy, ) ( xk x)( yk y) r( xy, ) = = sd( x) sd( y) ( x x) ( y y) (cov = co-varians, sd standard deviation) Dette er et similaritetsmål, ikke et avstandsmål Geometrisk tolking: anta at vi har sentrert vektorene x og y: x x x y y y Da er xy k k x y cosθ r( xy, ) = = = cosθ x y x y k hvor θ er vinkelen mellom vektorene x og y k k k Lars O. Baumbusch (DNR/IFI) INF0/INF0 Høst 00 Pearsons korrelasjonskoeffisient k-means klustring To vektorer x og y (sentrerte): x Samme vektorer, nå skalert: ax Basisalgoritmen: θ y Euklidsk avstand (svarer til stiplede linjer) avhenger av skaleringen Pearsons korrelasjonskoeffisient (svarer til vinkler) avhenger ikke av skaleringen Med Pearson korrelasjon er ikke skaleringen av dataene viktig; med Euklidsk avstand er den det θ by. Antall klustre k bestemmes av bruker. Foreta en initiell tilordning av objekter til klustre. Beregn senteret i hvert kluster. Tilordne hvert objekt til nærmeste kluster (= nærmeste senter). Repeter steg - inntil klusterne har stabilisert seg Lars O. Baumbusch (DNR/IFI) INF0/INF0 Høst 00 Lars O. Baumbusch (DNR/IFI) INF0/INF0 Høst 00 9

10 Initiell tilordning av punkter til klustre Beregning av klustersentre Tre metoder for initiell tilordning av objekter til klustre: Plasser k punkter i tilfeldige posisjoner i det rommet dataene ligger, og tilordne hvert objekt til det nærmeste av disse punktene Velg tilfeldig ut k av punktene som skal klustres, og tilordne hvert objekt til det nærmeste av disse punktene Fordel tilfeldig punktene som skal klustres i k grupper av tilnærmet samme størrelse. Dette kan f.eks. gjøres ved å starte med følgende klustertilordning: La x x være punktene som tilhører et bestemt kluster., r Klustersenteret blir da: r r i= z = xi (,,,,,,,,,,,,...) (de tre første datapunktene tilordnes kluster, osv) og foreta en tilfeldig permutasjon Lars O. Baumbusch (DNR/IFI) INF0/INF0 Høst 00 Lars O. Baumbusch (DNR/IFI) INF0/INF0 Høst 00 8 Tilordne hvert punkt til nærmeste senter Eksempel med k= klustre: Hierarkiske klustringsmetoder Konstruerer et hierarki av klustere (en trestruktur) 9 Resulterer i et dendrogram hvor man kan få ut en partisjonering av dataene i så mange klustere man ønsker (fra ett kluster til n klustere, hvor n er antall objekter som klustres) 0 8 To hovedgrupper av beregningsalgoritmer: agglomerative: start med hvert objekt som et eget kluster, og slå sammen klustere iterativt helt til bare ett kluster gjenstår divisive: start med alle objekter i ett kluster, og del opp på beste måte iterativt helt til hvert kluster bare består av ett objekt Lars O. Baumbusch (DNR/IFI) INF0/INF0 Høst 00 9 Lars O. Baumbusch (DNR/IFI) INF0/INF0 Høst

11 8 9 Hierarkisk klustring Resultatet er en nestet sekvens av partisjoner av dataene (partisjoner inni partisjoner) som normalt vises i form av et dendrogram Ordningen av objektene (genene, prøvene) er ikke entydig i et dendrogram: ved hver forgrening kan vi velge å bytte om plasseringen av høyre og venstre gren Tre sentrale varianter: single-link, complete-link, averagelink Mange varianter Avstanden mellom to klustre kan defineres på flere måter: Single linkage : bruk minste punktavstand Complete linkage: bruk største punktavstand Average linkage : bruk gjennomsnittlig punktavstand Complete linkage Single linkage Lars O. Baumbusch (DNR/IFI) INF0/INF0 Høst 00 Lars O. Baumbusch (DNR/IFI) INF0/INF0 Høst 00 Eksempel SOM (self-organizing maps) Single-linkage: SOM er opprinnelig inspirerert av biologiske forbilder Y i Y i I de sensoriske delene av nervesystemet tilpasses nerveforbindelsene i henhold til de mønstre som systemet presenteres for Algoritmene som benyttes i SOM har en meget grov analogi til de prinsippene som opererer i de biologiske forbildene Lars O. Baumbusch (DNR/IFI) INF0/INF0 Høst 00 Lars O. Baumbusch (DNR/IFI) INF0/INF0 Høst 00

12 Prinsipalkomponent klustring Anta at punktene x,...,x n som skal klustres ligger i R p. Gitt en vektor z i R p av lengde kan vi finne projeksjonen av x,...,x n ned på z: proj(x i, z) = x it z = x i z + x i z x ip z p (i =,,..., n) A B G C D F E z A G B C F ED Dermed er vektorene x,...,x n redusert til skalarer (reelle tall i R). La Prinsipalkomponent klustring p = proj( x, z ), i =,, n i i Vi kan regne ut variansen (spredningen) til projeksjonen: n n n k n i k= i= v ( z) = ( p -p), p = p Variansen avhenger typisk av retningen til vektoren z: z z z Liten varians Middels varians Stor varians Lars O. Baumbusch (DNR/IFI) INF0/INF0 Høst 00 Lars O. Baumbusch (DNR/IFI) INF0/INF0 Høst 00 Prinsipalkomponent klustring Vektoren z som maksimerer variansen v(z) kalles første prinsipalkomponent til dataene. Prinsipalkomponent klustring: Finn første prinsipalkomponent til dataene identifiser klustre ved å se på prosjeksjonene Prinsipalkomponent klustring Vi kan også finne andre, tredje,..., prinsipalkomponent. Da reduseres datapunktene til lavere dimensjon, men ikke nødvendigvis til skalarer Eksempel: Vi kan da identifisere klustere med andre teknikker: A D F E z A G F ED klustring Finn første, andre,... prinsipalkomponent til dataene klustre projeksjonene med f.eks. hierarkisk klustring G Lars O. Baumbusch (DNR/IFI) INF0/INF0 Høst 00 Lars O. Baumbusch (DNR/IFI) INF0/INF0 Høst 00 8

13 Prinsipalkomponent klustring Validering av klustre If there is correlation between the objects, then the first few principal components can account for a lot of the variation in the data A plot of the first two principal components can therefore be useful for looking for differences between objects Problem: The first principal components many not minimize the within-cluster variance while maximizing the between-cluster variance Homogenitet innen klustre kan f.eks. måles som gjennomsnittlig avstand fra et klustermedlem til senteret av klusteret Separasjon mellom klustre kan f.eks. måles som gjennomsnittlig avstand mellom klustersentre, eller minste avstand mellom to klustersentre Robusthet av klustre kan f.eks. måles ved å se hvor stor endring man får i klusterne når punktene perturberes (dvs hvert punkt forflyttes litt i en tilfeldig retning) Lars O. Baumbusch (DNR/IFI) INF0/INF0 Høst 00 9 Lars O. Baumbusch (DNR/IFI) INF0/INF0 Høst 00 0 Eksempler på programverktøy For bildebehandling: TIGR Spotfinder ( ArraySuite software package ( GenePix Pro ( ImaGene ( ScanAlyze (rana.lbl.gov) For visualisering & dataanalyse: TIGR MultiExperiment Viewer ( XCluster (genome- Gene Expression Omnibus (NCBI) Expression Profiler (ep.ebi.ac.uk) Stanford Microarray Database (SMD) J-Express ( Cluster & TreeView (rana.lbl.gov) Lars O. Baumbusch (DNR/IFI) INF0/INF0 Høst 00