Mikromatriser introduksjon Strategi for mikromatrise eksperimenter Forelesning # 8 probe Lars O. Baumbusch Radiumhospitalet Rikshospitalet HF Senter for Bioinformatikk, IFI, UiO Biological Question Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 1 Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 2 Bruksområder Generelle formål for parallell eksperimenter genomiske undersøkelser: Whole genome arrays Kan se hvordan genekspresjon varierer over tid mellom individer eller i en cellesystem mellom sykdomstilstander Kan designe mikromatriser for spesielle formål human cancer array: 1700 utvalgte gener lymphochip: 18000 gener knyttet til lymfekreft Bestemte gener, pathways, organismer 1. Extract RNA make cdna 2. Label with fluorescent dyes reference RNA 3. Hybridize to microarray Mikromatriser trinn for trinn tissue tumor RNA 4. Scan intensity (after: Brown PO and Botstein D 1999 and Perou CM et al., 2000) 5. Analyse Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 3 Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 4 1
Trinn 1: Ekstrahere RNA og lage cdna Trinn 2: Fluorescens merking RNA ekstraheres fra cellene og revers-transkripteres til komplementær cdna (entrådet DNA) Ikke alle RNA er revers-transkripteres like effektivt til cdna. Dette kalles revers transkripsjonsbias og bidrar til at to gener som er likt uttrykt ikke nødvendigvis gir samme resultat når vi måler genekspresjon For å få nok mrna er det nødvendig å ta mange celler, og det kan medføre at man får med seg mange ulike typer celler, med ulik ekspresjon > To prøver fra samme vev gir ikke nødvendigvis samme resultat når man måler genekspresjon Merk cdna er med fluorescens-molekyler, ofte: Cy 5 (rød) ofte prøven Cy 3 (grønn) ofte referansen Antall fluorescens-molekyler som binder seg til et cdna kan avhenge av molekylets lengde og til dels også sekvenskomposisjonen > To gener som er likt uttrykt ikke nødvendigvis gir samme resultat når vi måler genekspresjonen Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 5 Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 6 Trinn 3: Hybridisering til mikromatriser Hybridisering De to fluorescens markerte cdna-sampler blandes og skylles over mikromatrisen Fargemerkede sample (cdna) som analyseres Hvis en av samplene inneholder cdna med komplementær DNA sekvens som gitt i posisjon på arrayet, så vil de to binde seg til hverandre = hybridisere til arrayet Hvert spot i mikroarrayet inneholder nok DNA til at begge sampler (rød og grønn) og har mulighet til å hybridisere uten å interferere De to fluorene (rød og grønn) gir de merkede samplene litt ulike egenskaper, noe som kan virke inn på hvor effektiv hybridiseringen er (fluor-effekt) DNA sekvens festet på mikromatrisen Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 7 Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 8 2
Trinn 4: Scanning og tolking Hvert spot på mikroarrayet belyses med laser og man leser av rødt og grønt signal separat Til tross for mange feilkilder: kvantitative endringer av størrelsesorden faktor to (dvs halvparten så mye mrna eller dobbelt så mye mrna) kan typisk detekteres Signalanalysen Signalet i grønn og rød kanal avleses hver for seg og normaliseres (f.eks. for å få sum av grønne signaler til å være lik summen av røde signaler på en array) Tolking av resultatet er ikke trivielt: - Komplekse data med dårlig forstått struktur - Mange mulige støykilder: støv på mikroarrayet det vil alltid være endel irregulære spots bakgrunnstøy (kryss-hybridiseringer og ikke-spesifikke hybridiseringer) GenPix 4000 Resultat: 16-bits TIFF-bilde for Cy3 16-bits TIFF-bilde for Cy5 Problem: Mange variable og få observasjoner Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 10 Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 9 Bildet Eksempel prøven er mest uttrykt for dette genet, most ing ingle tip sists of nally xtract mages, it tely of each of ingen sampler er uttrykt for dette genet referansen er mest uttrykt for dette genet ming this lify and ess. nalyze n each Et lite utsnitt av en mikroarray begge sampler like sterkt uttrykt for dette genet Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 11 Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 12 3
Repetisjon: Mikromatrise med 2 farger Fra rådata til ekspresjonsdata Cy5 (red) Cy3 (green) Rådataene fra et mikroarray eksperiment består av to bildefiler (TIFF-filer): ett for den grønne kanalen (Cy3) og ett for den røde (Cy5) Hvordan ekstrahere man informasjon om det enkelte gens ekspresjon fra rådataene: Rådata Bildeanalyse + kvalitetskontroll Normalisering Ekspresjonsdata Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 13 TIFF-bilde (Cy3) TIFF-bilde (Cy5) Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 14 Different types of microarrays cdna arrays (Stanford arrays) cdna clones from expressed genes and ESTs Short, ca. 1 kb Originally used for RNA expression BAC (Bacterial Artificial Chromosomes) arrays BAC clones include promotor and spacer regions Cover a small portion of the human genome Long, ca. 150 kb Used for DNA (acgh) Oligo arrays (NimbleGen, Agilent, Affymetirx ) Synthesized in situ on slide Very short sequences, 0,015 0,070 kb Used for RNA, DNA or SNP measurements Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 15 Probe design issue Probe design Unique probe for each gene Different probe sets for each genes or alternative splices products Probes (or a unique probe) of each gene should have the ability of representing the gene The similarities between probes should very low Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 16 4
Hvordan lager man cdna mikromatriser? Mikromatrise printer (From: The Brown Lab Stanford University http://cmgm.stanford.edu/pbrown/) Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 17 Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 18 A special oligo technology: Affymetrix Single color technique Probes (oligos) synthesized on slide One treatment per chip: Biotin-marked: one dye instead of 2 colors Several markers per gene (from: DESOKY, 2003) Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 19 Composition: One sequence: perfect match PM: Maximizes hybridization Second sequence: one base mismatch MM: Ascertains degree of cross-hybridization Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 20 5
Number of features Use multiple oligos per gene Redundancy improves detection and quantification of the target gene 5 Gene Sequence 3 Technology mismatches for control Each probe has a control a DNA sequence which differs only slightly from the feature In a 25-mer, the mismatch sequence differs in the 13 th position 5 Gene Sequence 3 Multiple oligo probes 25-mers Multiple oligo probes 25-mers Features Perfect Match Mismatch Lars O. Baumbusch (DNR/IFI) (DESOKY, INF3350/INF4350 2003) Høst 2007 21 Lars O. Baumbusch (DNR/IFI) (DESOKY, INF3350/INF4350 2003) Høst 2007 22 Stadier i dataanalysen Analysen kan deles i flere stadier: 1) Kvalitetskontroll 2) Fremstilling av mikromatrise-bildene Probe pair PM MM 3) Oversette mikromatrise-bildene til en genekspresjonstabell 4) Analysere genekspresjonstabellen Probe set Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 23 (from: STROMBERG, 2003) Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 24 6
Fra rådata til ekspresjonsdata: kvalitetskontroll Flere eksempler på feilkilder Anti-probe Locally high background Spot overlap Precipitate Locally low signal Comet-tails (donut hole) (From: www.cse.ucsc.edu/classes/bme210/winter04/lectures/bio210w04-lect06b- Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 25 ComputationalNormalization.pdf) Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 26 Fra bilde til ekspresjonstabell Laser scanning produserer to digitale gråtonebilder: ett for den røde kanalen og ett for den grønne kanalen. For å konvertere disse til en genekspresjonstabell, må følgende gjøres: 1) Gridding Lokalisering av hvert enkelt spot på sliden 2) Segmentering Klassifikasjon av hvert enkelt pixel som enten spot eller bakgrunn 3) Tilordning av intensiteter Tilordne et tall (en intensitet) til hvert spot Bildeanalyse Adressering: estimere posisjonen til hvert spot-senter Segmentering: klassifisere hver enkelt pixel som enten forgrunn = signal eller bakgrunn Informasjonsekstraksjon: For hvert spot og hver farge avgjøre forgrunnsintensitet bakgrunnsintensitet kvaliteten til spotet Resultat: for hver spot på arrayen R = rødt signal G= grønt signal informasjon om kvaliteten på spoten Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 27 Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 28 7
Alignment Gridding Good Alignment Bad Alignment Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 29 Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 30 Analyse av individuelle spots Etter adressering (gridding) er det nødvendig å analysere hvert spot for å avgjøre hvilken intensitet som skal tilordnes spotten Ulike metoder kan gi noe ulike svar Segmentering En rekke metoder eksisterer for å klassifisere hvert enkelt pixel som enten spot eller bakgrunn. De fleste metoder hører til en av disse kategoriene: Fast sirkel segmentering Antar at spotene har identisk størrelse og form: sirkulær Adaptiv sirkelsegmentering Antar at alle spot har identisk form (sirkulær), men at størrelsen kan variere Adaptiv formsegmentering Den mest genelle av de tre kategoriene. Omfatter f.eks. seeded region growing (SRG) Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 31 Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 32 8
Segmentering Tilordning av intensitet Beregn rød og grønn intensitet ved å ta et gjennomsnitt over pikslene innen et spot Korriger for bakgrunnsstøy R = μ ν Cy5 G = μ ν Cy3 Cy5 Cy3 ν μ Spot pixel Bakgrunnspixel Nabospot pixel Fast sirkel segmentering Adaptiv segmentering (SRG) gjennomsnittlig intensitet i spot Filtrer ut svake spots: φ = fraction of spot pixels in red image > background median red φ = fraction of spot pixels in green image > background median green f red < a or f < a green median intensitet i bakgrunn missing spot (hvor f.eks a=0.55) Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 33 Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 34 Estimering av bakgrunnsintensitet Take a break... Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 35 Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 36 9
Eukaryoter DNA and tumors DNA is the fundamental basis of information DNA is robust and can be handled and stored easily DNA copy number changes occur frequently in tumors There are several different powerful methods of assessing copy number changes in cancer Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 37 Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 38 Point mutation Mutation types Array CGH tissue * 1. Extract DNA reference DNA tumor DNA 2. Label with fluorescent dyes 3. Hybridize to microarray 4. Scan intensity 5. Analyse Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 39 (After: Brown and Botstein 1999 Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 and Perou et al., 2000) 40 10
Array Comparative Genomic Hybridization (acgh) Moving average example Quantitatively detect single copy gains and losses and high level amplifications in an experiment Array containing about 3.000 400.000 clones or oligo probes for genome-wide scanning Detect these aberrations on a single clone Very high density effective resolution is necessary Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 41 Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 42 Smoothing methods: Moving average Different CGH Software applications Fit a smooth curve f(x) to the data For each x, the value f(x) is a (weighted) average of the data in a neighborhood of x Examples: Kernel smoothing, smoothing splines and others S = smoothing algorithm E = estimation algorithm Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 43 Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 44 (From: Lai et al., Bioinformatics 2005 ) 11
CGH profiles of chr. 13 in a Glioblastoma Multiforme sample CGH-Explorer (IFI/DNR - inhouse) Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 45 (From: Lai et al., Bioinformatics 2005 ) Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 46 Analysis of Copy Errors (ACE) Potts filter/edge preserving curve fitting Analysis of Copy Errors (ACE) is based on false-discovery-rate (FDR) Search for copy errors in acgh data: Segmentation: Find interesting segments Feature extraction: Get properties of each segments Obtain the null distribution of the (Length,Height)-pairs Find significant genes Estimate the positive false discovery rate Fit a smooth curve f(x) to the data, but allow points of discontinuity t 1, t 2,..., t d For each x in [t i, t i+1 ], the value f(x) is the average of the data in the interval The number and location of discontinuity points are parameters to be estimated from the data Report genes (Prep.: Estimation of the variance parameter σ 2 ) Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 47 Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 48 12
Potts filter/edge preserving smoother for chr.17 Why not estimate copy number directly? Normal cell contamination (<50% of the normal cells) Aneuploidy (tumor is not diploid): We approximate the ploidy by the median copy number of the loci represented on the array Heterogenuity: Not all cells acquired a given aberration Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 49 (From: J. Fridlyand, Microarrays: Case studies Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 50 and advanced analysis, USCF 2004) An array of uses Alternative splicing Example: Tissue specific alternative splicing BAC, oligos Copy number changes (From: S. Saunak, Recent technologies Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 51 and applications, UCSF 2004) Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 52 (From: Messina et al., 2003) 13
Splice arrays Analysis of splice junction probe arrays E.g.: Exon junction arrays by Rosetta Array probe design based on all human RefSeq with at least two exons and having a genomic contig in the LocusLink database For each RefSeq and each exon-exon junction, designed 36bp long oligo probes Gene expression from 52 tissue samples measured (Spleen vs heart, etc) (After: Johnson et al., Science 2003 and S. Saunak, Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 53 Recent technologies and applications, UCSF 2004) (From: Johnson et al., Science 2003 and S. Saunak, Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 54 Recent technologies and applications, UCSF 2004) SNPs Example: Illumina technology: SNP-CGH 100.000-500.000 probes of 50-mer oligonucleotides 20 are used for decoding and 30 are SNP-specific Based on a single-base extension (SNP) - scoring step. BeadChip arrays: oligos are attached to microbeads, require a decoding step for location on the array Probes: ~ 25,000 of loci are in transcripts, >73,000 loci are within 10kb of coding sequences Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 55 (From: Oliphant et al., Biotechniques 2002) Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 56 14
SNP-CGH arrays Summary: Different types of arrays Microarrays are not for gene expression alone Probes and targets can be designed for custom applications Multiple-comparison adjustments for genomewide questions, but not for gene-specic onces address Statistical issues depend closely on biological question and technology Statistical design and statistical methods are an integral part of technology (From: Gunderson et al., Genome Res. 2004 Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 57 and Gunderson et al., Nature Genetics 2005) (From: S. Saunak, Recent technologies Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 58 and applications, UCSF 2004) Mechanistic models and functional data In order to obtain a clearer picture, we need to combine direct and indirect data sources På lang sikt... Bedre forståelse av mange geners funksjon Bedre differensiering mellom ulike sykdomstilfeller Skreddersydde behandlinger Utvikling av medikamenter som modifiserer ekspresjonen til farlige gener Gen-tester for diverse sykdommer ikke helt uproblematisk... Lars O. Baumbusch (DNR/IFI) (From: Ziv Bar-Joseph and Eric Xing, Computational Molecular Biology: INF3350/INF4350 Høst 2007 59 a machine learning approach, Carnegie Mellon University 2005) Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 60 15
http://www.unsolvedmysteries.oregonstate.edu/microarray_07.shtml Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 61 16