Mikromatriser introduksjon. Strategi for mikromatrise eksperimenter. Forelesning # 8. Bruksområder. Mikromatriser trinn for trinn. Lars O.



Like dokumenter
Hva er bioinformatikk? Introduksjon til bioinformatikk. Summary. Menneskets genom. Prokaryoter og eukaryoter. Lars O. Baumbusch

UNIVERSITETET I OSLO

5 E Lesson: Solving Monohybrid Punnett Squares with Coding

Plan. Pensum i bioinformatikk. Hva er bioinformatikk?

Neural Network. Sensors Sorter

GeWare: A data warehouse for gene expression analysis

Mette Langaas. Norsk Regnesentral Mette Langaas 1. Plan

Unit Relational Algebra 1 1. Relational Algebra 1. Unit 3.3

Satellite Stereo Imagery. Synthetic Aperture Radar. Johnson et al., Geosphere (2014)

Graphs similar to strongly regular graphs

Salting of dry-cured ham

Plan. Pensum i bioinformatikk. Hva er bioinformatikk?

Databases 1. Extended Relational Algebra

Dynamic Programming Longest Common Subsequence. Class 27

Information search for the research protocol in IIC/IID

VLSI Design for Yield on Chip Level

Speed Racer Theme. Theme Music: Cartoon: Charles Schultz / Jef Mallett Peanuts / Frazz. September 9, 2011 Physics 131 Prof. E. F.

PSi Apollo. Technical Presentation

Moving Objects. We need to move our objects in 3D space.

EKSAMENSOPPGAVE I BI2014 MOLEKYLÆRBIOLOGI

Slope-Intercept Formula

Accuracy of Alternative Baseline Methods

UNIVERSITETET I OSLO

Estimating Peer Similarity using. Yuval Shavitt, Ela Weinsberg, Udi Weinsberg Tel-Aviv University

SERK1/2 Acts as a Partner of EMS1 to Control Anther Cell Fate Determination in Arabidopsis

Oppgave 1a Definer følgende begreper: Nøkkel, supernøkkel og funksjonell avhengighet.

Genkartlegging. Hva er egentlig et genkart? Genetisk og fysisk kartlegging

Hvordan føre reiseregninger i Unit4 Business World Forfatter:

Software applications developed for the maritime service at the Danish Meteorological Institute

BIOINFORMATIKK ET INTERESSANT FORSKNINGSFELT FOR STATIS TIKERE? METTE LANGAAS, NORSK REGNESENTRAL HVA ER BIOINFORMATIKK?

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Examination paper for Bi2014 Molecular Biology

EKSAMENSOPPGAVE I BI3013 EKSPERIMENTELL CELLEBIOLOGI

Bruk av genteknologiske analyser ved diagnostikk av luftveisinfeksjoner. Gardermoen Svein Arne Nordbø

Eksamensoppgave i PSY3100 Forskningsmetode - Kvantitativ

Andrew Gendreau, Olga Rosenbaum, Anthony Taylor, Kenneth Wong, Karl Dusen

Nucleic Acid Research Group Study:

Confidence-based Data Management for Personal Area Sensor Nets

2A September 23, 2005 SPECIAL SECTION TO IN BUSINESS LAS VEGAS

HONSEL process monitoring

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Evaluating Call-by-need on the Control Stack

UNIVERSITETET I OSLO

buildingsmart Norge seminar Gardermoen 2. september 2010 IFD sett i sammenheng med BIM og varedata

Administrasjon av postnummersystemet i Norge Post code administration in Norway. Frode Wold, Norway Post Nordic Address Forum, Iceland 5-6.

OPPA European Social Fund Prague & EU: We invest in your future.

Generalization of age-structured models in theory and practice

Dean Zollman, Kansas State University Mojgan Matloob-Haghanikar, Winona State University Sytil Murphy, Shepherd University

Du må håndtere disse hendelsene ved å implementere funksjonene init(), changeh(), changev() og escape(), som beskrevet nedenfor.

Medisinsk statistikk, KLH3004 Dmf, NTNU Styrke- og utvalgsberegning

Merak Un-glazed Porcelain Wall and Floor Tiles

Exercise 1: Phase Splitter DC Operation

Presenting a short overview of research and teaching

SAS FANS NYTT & NYTTIG FRA VERKTØYKASSA TIL SAS 4. MARS 2014, MIKKEL SØRHEIM

Exploratory Analysis of a Large Collection of Time-Series Using Automatic Smoothing Techniques

Prosjektet Digital kontaktinformasjon og fullmakter for virksomheter Digital contact information and mandates for entities

EN Skriving for kommunikasjon og tenkning

UNIVERSITY OF OSLO DEPARTMENT OF ECONOMICS

Algoritmer for klustering av mikromatriser. Kompleks prosess. Forelesning # 9. Sammenlikning av flere populasjoner. Mange gener og få prøver

Supplemental Information

Examination paper for (BI 2015) (Molekylærbiologi, laboratoriekurs)

GEO231 Teorier om migrasjon og utvikling

OPPA European Social Fund Prague & EU: We invest in your future.

FYS 3710 Biofysikk og Medisinsk Fysikk, DNA, RNA, Translasjon, Transkripsjon Proteinsyntese, Cellesyklus

Ole Isak Eira Masters student Arctic agriculture and environmental management. University of Tromsø Sami University College

Han Ola of Han Per: A Norwegian-American Comic Strip/En Norsk-amerikansk tegneserie (Skrifter. Serie B, LXIX)

Trigonometric Substitution

Presenting a short overview of research and teaching

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Elektronisk innlevering/electronic solution for submission:

SVM and Complementary Slackness

Dagens tema: Eksempel Klisjéer (mønstre) Tommelfingerregler

Digitalt lederskap i global konkurranse. - mulig for norsk

MID-TERM EXAM TDT4258 MICROCONTROLLER SYSTEM DESIGN. Wednesday 3 th Mars Time:

Issues and challenges in compilation of activity accounts

Call function of two parameters

TMA4329 Intro til vitensk. beregn. V2017

KROPPEN LEDER STRØM. Sett en finger på hvert av kontaktpunktene på modellen. Da får du et lydsignal.

Hvor mye praktisk kunnskap har du tilegnet deg på dette emnet? (1 = ingen, 5 = mye)

Hvor mye teoretisk kunnskap har du tilegnet deg på dette emnet? (1 = ingen, 5 = mye)

Verifiable Secret-Sharing Schemes

TUSEN TAKK! BUTIKKEN MIN! ...alt jeg ber om er.. Maren Finn dette og mer i. ... finn meg på nett! Grafiske lisenser.

Hva kan vi bruke WGS til?

Kundetilfredshetsundersøkelse FHI/SMAP

Eksamensoppgave i PSY Forskningsdesign

Utstyr for avstandsmåling. Dommersamling 14. mars 2015 Stein Jodal

Lydia Rice, Doctoral Student University of Arkansas Advisor: Jean-François Meullenet

TUSEN TAKK! BUTIKKEN MIN! ...alt jeg ber om er.. Maren Finn dette og mer i. ... finn meg på nett! Grafiske lisenser.

Physical origin of the Gouy phase shift by Simin Feng, Herbert G. Winful Opt. Lett. 26, (2001)

Bestille trykk av doktoravhandling Ordering printing of PhD Thesis

The Future of Academic Libraries the Road Ahead. Roy Gundersen

Øystein Haugen, Professor, Computer Science MASTER THESES Professor Øystein Haugen, room D

UNIVERSITY OF OSLO. Faculty of Mathematics and Natural Sciences

Numerical Simulation of Shock Waves and Nonlinear PDE

TUSEN TAKK! BUTIKKEN MIN! ...alt jeg ber om er.. Maren Finn dette og mer i. ... finn meg på nett! Grafiske lisenser.

The building blocks of a biogas strategy

Amplifikasjonsteknikker - andre metoder

Stationary Phase Monte Carlo Methods

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet BIOKJEMISK INSTITUTT

Skjema for spørsmål og svar angående: Skuddbeskyttende skjold Saksnr TED: 2014/S

Transkript:

Mikromatriser introduksjon Strategi for mikromatrise eksperimenter Forelesning # 8 probe Lars O. Baumbusch Radiumhospitalet Rikshospitalet HF Senter for Bioinformatikk, IFI, UiO Biological Question Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 1 Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 2 Bruksområder Generelle formål for parallell eksperimenter genomiske undersøkelser: Whole genome arrays Kan se hvordan genekspresjon varierer over tid mellom individer eller i en cellesystem mellom sykdomstilstander Kan designe mikromatriser for spesielle formål human cancer array: 1700 utvalgte gener lymphochip: 18000 gener knyttet til lymfekreft Bestemte gener, pathways, organismer 1. Extract RNA make cdna 2. Label with fluorescent dyes reference RNA 3. Hybridize to microarray Mikromatriser trinn for trinn tissue tumor RNA 4. Scan intensity (after: Brown PO and Botstein D 1999 and Perou CM et al., 2000) 5. Analyse Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 3 Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 4 1

Trinn 1: Ekstrahere RNA og lage cdna Trinn 2: Fluorescens merking RNA ekstraheres fra cellene og revers-transkripteres til komplementær cdna (entrådet DNA) Ikke alle RNA er revers-transkripteres like effektivt til cdna. Dette kalles revers transkripsjonsbias og bidrar til at to gener som er likt uttrykt ikke nødvendigvis gir samme resultat når vi måler genekspresjon For å få nok mrna er det nødvendig å ta mange celler, og det kan medføre at man får med seg mange ulike typer celler, med ulik ekspresjon > To prøver fra samme vev gir ikke nødvendigvis samme resultat når man måler genekspresjon Merk cdna er med fluorescens-molekyler, ofte: Cy 5 (rød) ofte prøven Cy 3 (grønn) ofte referansen Antall fluorescens-molekyler som binder seg til et cdna kan avhenge av molekylets lengde og til dels også sekvenskomposisjonen > To gener som er likt uttrykt ikke nødvendigvis gir samme resultat når vi måler genekspresjonen Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 5 Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 6 Trinn 3: Hybridisering til mikromatriser Hybridisering De to fluorescens markerte cdna-sampler blandes og skylles over mikromatrisen Fargemerkede sample (cdna) som analyseres Hvis en av samplene inneholder cdna med komplementær DNA sekvens som gitt i posisjon på arrayet, så vil de to binde seg til hverandre = hybridisere til arrayet Hvert spot i mikroarrayet inneholder nok DNA til at begge sampler (rød og grønn) og har mulighet til å hybridisere uten å interferere De to fluorene (rød og grønn) gir de merkede samplene litt ulike egenskaper, noe som kan virke inn på hvor effektiv hybridiseringen er (fluor-effekt) DNA sekvens festet på mikromatrisen Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 7 Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 8 2

Trinn 4: Scanning og tolking Hvert spot på mikroarrayet belyses med laser og man leser av rødt og grønt signal separat Til tross for mange feilkilder: kvantitative endringer av størrelsesorden faktor to (dvs halvparten så mye mrna eller dobbelt så mye mrna) kan typisk detekteres Signalanalysen Signalet i grønn og rød kanal avleses hver for seg og normaliseres (f.eks. for å få sum av grønne signaler til å være lik summen av røde signaler på en array) Tolking av resultatet er ikke trivielt: - Komplekse data med dårlig forstått struktur - Mange mulige støykilder: støv på mikroarrayet det vil alltid være endel irregulære spots bakgrunnstøy (kryss-hybridiseringer og ikke-spesifikke hybridiseringer) GenPix 4000 Resultat: 16-bits TIFF-bilde for Cy3 16-bits TIFF-bilde for Cy5 Problem: Mange variable og få observasjoner Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 10 Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 9 Bildet Eksempel prøven er mest uttrykt for dette genet, most ing ingle tip sists of nally xtract mages, it tely of each of ingen sampler er uttrykt for dette genet referansen er mest uttrykt for dette genet ming this lify and ess. nalyze n each Et lite utsnitt av en mikroarray begge sampler like sterkt uttrykt for dette genet Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 11 Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 12 3

Repetisjon: Mikromatrise med 2 farger Fra rådata til ekspresjonsdata Cy5 (red) Cy3 (green) Rådataene fra et mikroarray eksperiment består av to bildefiler (TIFF-filer): ett for den grønne kanalen (Cy3) og ett for den røde (Cy5) Hvordan ekstrahere man informasjon om det enkelte gens ekspresjon fra rådataene: Rådata Bildeanalyse + kvalitetskontroll Normalisering Ekspresjonsdata Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 13 TIFF-bilde (Cy3) TIFF-bilde (Cy5) Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 14 Different types of microarrays cdna arrays (Stanford arrays) cdna clones from expressed genes and ESTs Short, ca. 1 kb Originally used for RNA expression BAC (Bacterial Artificial Chromosomes) arrays BAC clones include promotor and spacer regions Cover a small portion of the human genome Long, ca. 150 kb Used for DNA (acgh) Oligo arrays (NimbleGen, Agilent, Affymetirx ) Synthesized in situ on slide Very short sequences, 0,015 0,070 kb Used for RNA, DNA or SNP measurements Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 15 Probe design issue Probe design Unique probe for each gene Different probe sets for each genes or alternative splices products Probes (or a unique probe) of each gene should have the ability of representing the gene The similarities between probes should very low Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 16 4

Hvordan lager man cdna mikromatriser? Mikromatrise printer (From: The Brown Lab Stanford University http://cmgm.stanford.edu/pbrown/) Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 17 Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 18 A special oligo technology: Affymetrix Single color technique Probes (oligos) synthesized on slide One treatment per chip: Biotin-marked: one dye instead of 2 colors Several markers per gene (from: DESOKY, 2003) Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 19 Composition: One sequence: perfect match PM: Maximizes hybridization Second sequence: one base mismatch MM: Ascertains degree of cross-hybridization Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 20 5

Number of features Use multiple oligos per gene Redundancy improves detection and quantification of the target gene 5 Gene Sequence 3 Technology mismatches for control Each probe has a control a DNA sequence which differs only slightly from the feature In a 25-mer, the mismatch sequence differs in the 13 th position 5 Gene Sequence 3 Multiple oligo probes 25-mers Multiple oligo probes 25-mers Features Perfect Match Mismatch Lars O. Baumbusch (DNR/IFI) (DESOKY, INF3350/INF4350 2003) Høst 2007 21 Lars O. Baumbusch (DNR/IFI) (DESOKY, INF3350/INF4350 2003) Høst 2007 22 Stadier i dataanalysen Analysen kan deles i flere stadier: 1) Kvalitetskontroll 2) Fremstilling av mikromatrise-bildene Probe pair PM MM 3) Oversette mikromatrise-bildene til en genekspresjonstabell 4) Analysere genekspresjonstabellen Probe set Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 23 (from: STROMBERG, 2003) Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 24 6

Fra rådata til ekspresjonsdata: kvalitetskontroll Flere eksempler på feilkilder Anti-probe Locally high background Spot overlap Precipitate Locally low signal Comet-tails (donut hole) (From: www.cse.ucsc.edu/classes/bme210/winter04/lectures/bio210w04-lect06b- Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 25 ComputationalNormalization.pdf) Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 26 Fra bilde til ekspresjonstabell Laser scanning produserer to digitale gråtonebilder: ett for den røde kanalen og ett for den grønne kanalen. For å konvertere disse til en genekspresjonstabell, må følgende gjøres: 1) Gridding Lokalisering av hvert enkelt spot på sliden 2) Segmentering Klassifikasjon av hvert enkelt pixel som enten spot eller bakgrunn 3) Tilordning av intensiteter Tilordne et tall (en intensitet) til hvert spot Bildeanalyse Adressering: estimere posisjonen til hvert spot-senter Segmentering: klassifisere hver enkelt pixel som enten forgrunn = signal eller bakgrunn Informasjonsekstraksjon: For hvert spot og hver farge avgjøre forgrunnsintensitet bakgrunnsintensitet kvaliteten til spotet Resultat: for hver spot på arrayen R = rødt signal G= grønt signal informasjon om kvaliteten på spoten Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 27 Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 28 7

Alignment Gridding Good Alignment Bad Alignment Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 29 Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 30 Analyse av individuelle spots Etter adressering (gridding) er det nødvendig å analysere hvert spot for å avgjøre hvilken intensitet som skal tilordnes spotten Ulike metoder kan gi noe ulike svar Segmentering En rekke metoder eksisterer for å klassifisere hvert enkelt pixel som enten spot eller bakgrunn. De fleste metoder hører til en av disse kategoriene: Fast sirkel segmentering Antar at spotene har identisk størrelse og form: sirkulær Adaptiv sirkelsegmentering Antar at alle spot har identisk form (sirkulær), men at størrelsen kan variere Adaptiv formsegmentering Den mest genelle av de tre kategoriene. Omfatter f.eks. seeded region growing (SRG) Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 31 Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 32 8

Segmentering Tilordning av intensitet Beregn rød og grønn intensitet ved å ta et gjennomsnitt over pikslene innen et spot Korriger for bakgrunnsstøy R = μ ν Cy5 G = μ ν Cy3 Cy5 Cy3 ν μ Spot pixel Bakgrunnspixel Nabospot pixel Fast sirkel segmentering Adaptiv segmentering (SRG) gjennomsnittlig intensitet i spot Filtrer ut svake spots: φ = fraction of spot pixels in red image > background median red φ = fraction of spot pixels in green image > background median green f red < a or f < a green median intensitet i bakgrunn missing spot (hvor f.eks a=0.55) Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 33 Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 34 Estimering av bakgrunnsintensitet Take a break... Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 35 Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 36 9

Eukaryoter DNA and tumors DNA is the fundamental basis of information DNA is robust and can be handled and stored easily DNA copy number changes occur frequently in tumors There are several different powerful methods of assessing copy number changes in cancer Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 37 Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 38 Point mutation Mutation types Array CGH tissue * 1. Extract DNA reference DNA tumor DNA 2. Label with fluorescent dyes 3. Hybridize to microarray 4. Scan intensity 5. Analyse Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 39 (After: Brown and Botstein 1999 Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 and Perou et al., 2000) 40 10

Array Comparative Genomic Hybridization (acgh) Moving average example Quantitatively detect single copy gains and losses and high level amplifications in an experiment Array containing about 3.000 400.000 clones or oligo probes for genome-wide scanning Detect these aberrations on a single clone Very high density effective resolution is necessary Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 41 Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 42 Smoothing methods: Moving average Different CGH Software applications Fit a smooth curve f(x) to the data For each x, the value f(x) is a (weighted) average of the data in a neighborhood of x Examples: Kernel smoothing, smoothing splines and others S = smoothing algorithm E = estimation algorithm Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 43 Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 44 (From: Lai et al., Bioinformatics 2005 ) 11

CGH profiles of chr. 13 in a Glioblastoma Multiforme sample CGH-Explorer (IFI/DNR - inhouse) Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 45 (From: Lai et al., Bioinformatics 2005 ) Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 46 Analysis of Copy Errors (ACE) Potts filter/edge preserving curve fitting Analysis of Copy Errors (ACE) is based on false-discovery-rate (FDR) Search for copy errors in acgh data: Segmentation: Find interesting segments Feature extraction: Get properties of each segments Obtain the null distribution of the (Length,Height)-pairs Find significant genes Estimate the positive false discovery rate Fit a smooth curve f(x) to the data, but allow points of discontinuity t 1, t 2,..., t d For each x in [t i, t i+1 ], the value f(x) is the average of the data in the interval The number and location of discontinuity points are parameters to be estimated from the data Report genes (Prep.: Estimation of the variance parameter σ 2 ) Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 47 Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 48 12

Potts filter/edge preserving smoother for chr.17 Why not estimate copy number directly? Normal cell contamination (<50% of the normal cells) Aneuploidy (tumor is not diploid): We approximate the ploidy by the median copy number of the loci represented on the array Heterogenuity: Not all cells acquired a given aberration Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 49 (From: J. Fridlyand, Microarrays: Case studies Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 50 and advanced analysis, USCF 2004) An array of uses Alternative splicing Example: Tissue specific alternative splicing BAC, oligos Copy number changes (From: S. Saunak, Recent technologies Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 51 and applications, UCSF 2004) Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 52 (From: Messina et al., 2003) 13

Splice arrays Analysis of splice junction probe arrays E.g.: Exon junction arrays by Rosetta Array probe design based on all human RefSeq with at least two exons and having a genomic contig in the LocusLink database For each RefSeq and each exon-exon junction, designed 36bp long oligo probes Gene expression from 52 tissue samples measured (Spleen vs heart, etc) (After: Johnson et al., Science 2003 and S. Saunak, Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 53 Recent technologies and applications, UCSF 2004) (From: Johnson et al., Science 2003 and S. Saunak, Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 54 Recent technologies and applications, UCSF 2004) SNPs Example: Illumina technology: SNP-CGH 100.000-500.000 probes of 50-mer oligonucleotides 20 are used for decoding and 30 are SNP-specific Based on a single-base extension (SNP) - scoring step. BeadChip arrays: oligos are attached to microbeads, require a decoding step for location on the array Probes: ~ 25,000 of loci are in transcripts, >73,000 loci are within 10kb of coding sequences Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 55 (From: Oliphant et al., Biotechniques 2002) Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 56 14

SNP-CGH arrays Summary: Different types of arrays Microarrays are not for gene expression alone Probes and targets can be designed for custom applications Multiple-comparison adjustments for genomewide questions, but not for gene-specic onces address Statistical issues depend closely on biological question and technology Statistical design and statistical methods are an integral part of technology (From: Gunderson et al., Genome Res. 2004 Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 57 and Gunderson et al., Nature Genetics 2005) (From: S. Saunak, Recent technologies Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 58 and applications, UCSF 2004) Mechanistic models and functional data In order to obtain a clearer picture, we need to combine direct and indirect data sources På lang sikt... Bedre forståelse av mange geners funksjon Bedre differensiering mellom ulike sykdomstilfeller Skreddersydde behandlinger Utvikling av medikamenter som modifiserer ekspresjonen til farlige gener Gen-tester for diverse sykdommer ikke helt uproblematisk... Lars O. Baumbusch (DNR/IFI) (From: Ziv Bar-Joseph and Eric Xing, Computational Molecular Biology: INF3350/INF4350 Høst 2007 59 a machine learning approach, Carnegie Mellon University 2005) Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 60 15

http://www.unsolvedmysteries.oregonstate.edu/microarray_07.shtml Lars O. Baumbusch (DNR/IFI) INF3350/INF4350 Høst 2007 61 16