Bioinformatikk - en innføring fra en statistikers ståsted Mette Langaas Plan Hva er bioinformatikk? Hva er gen og genom? Forskningsområder innen bioinformatikk. Funksjonell genomikk: genekspresjon og DNA mikroarray data. Statistiske utfordringer. Figur fra The Human Genome Project http://www.ornl.gov/hgmis/ 08.05.2001 Mette Langaas 1 08.05.2001 Mette Langaas 2 Hva er bioinformatikk? Pensum i bioinformatikk Ifølge Professor R. Altman (lederartikkel i Bioinformatics) bør pensum inneholde: Bioinformatikk er et tverrfaglig forskningsområde der matematikk, statistikk og informatikk anvendes til å analysere data som er produsert av eksperimentelt arbeide innen biokjemi, cellebiologi og genetikk. Definisjon benyttet ved Chalmers Universitet. biologi: generelt: molekyl ærbiologi, cellebiologi og genetikk informatikk generelt: programmering, datastrukturer, algoritmer og håndtering av databaser mer spesielt: dynamisk programmering, søkealgoritmer, optimering statistikk generelt: sannsynlighetsteori,statistisk forsøksplanlegging, statistisk analyse og stokastiske prosesser mer spesielt: klusteranalyse, klassifikasjon, nevrale nettverk, genetiske algoritmer og Bayesiansk inferens "bioinformatiske kjernefag" generelt: biologiske databaser, annotasjon av biologiske sekvenser, metoder som støtter laboratorie-arbeid, proteinstruktur mer spesielt: sammenligning av biologiske sekvenser (sequence alignment), Hidden Markov Models og fylogenetiske trær etikk 08.05.2001 Mette Langaas 3 08.05.2001 Mette Langaas 4 Cellen Copied from talk by Terry Speed at http://www.ipam.ucla.edu/programs/fg2000/ fgt_tspeed7.ppt project/info.html 08.05.2001 Mette Langaas 5 08.05.2001 Mette Langaas 6 1
08.05.2001 Mette Langaas 7 08.05.2001 Mette Langaas 8 Proteinsyntese: translasjon og transkripsjon project/info.html 08.05.2001 Mette Langaas 9 The Human Genome Project Begun formally in 1990, planned to be completedin 2003. U.S. Human Genome Project is coordinated by the U.S. Department of Energy and the National Institutes of Health. Project goals are to identify all the approximately 50,000(?) genes in human DNA, determine the sequences of the 3 billion chemical bases that make up human DNA, store this information in databases, develop faster, more efficient sequencing technologies, develop tools for data analysis, and address the ethical, legal, and social issues that may arise from the project. Results by now: Draft of entire genome (June 2000) 9711 mapped genes (February 4, 2001) New estimate: 30 000 genes (February, 2001) 08.05.2001 Mette Langaas 10 Noen forskningsområder innen bioinformatikk funksjonell genomikk: utforske funksjonen til genomet, dvs. rollen til hvert gen. proteomikk: hvilke proteiner er tilstede i en celleog hvordan samvirker de ulike proteinene? strukturell genomikk: bestemme den tredimensjonale strukturen til proteiner som er kodet i genomet. pharmacogenetikk: hvordan påvirker ulike genetiske forskjeller en pasients respons på medisiner komparativ genomikk: studere funksjonen til menneskets gener og andre områder av menneskets DNA ved å studere deres paralleller i andre organismer (f.eks. mus). Komparativ genomikk: sammenligning av kromosomer for mus og mennesket 08.05.2001 Mette Langaas 11 08.05.2001 Mette Langaas 12 2
Funksjonell genomikk: genekspresjon og data fra cdna microarrays Genekspresjon Genekspresjon. Anvendelser. cdna microarray eksperiment. Data fra cdna microarray eksperimenter. The process by which a gene's coded information is converted into the structures present and operating in the cell. Expressed genes include those that are transcribed into mrna and then translated into protein and those that are transcribed into RNA but not translated into protein (e.g., transfer and ribosomal RNAs). http://www.ornl.gov/hgmis/publicat/glossary.html 08.05.2001 Mette Langaas 13 08.05.2001 Mette Langaas 14 DNA microarray applications Human disease diagnostics and treatment determination of predisposition and risk factors wrt. certain diseases prediction of risk factors involved using certain treatment schemes monitor disease stage and treatment progress Agricultural diagnostics and development identify plant pathogens to allow suitable plant protection to be improved efficiacy and economy in plant biotechnology Analysis of food and genetically modified organisms (GMO) determine the integrity of food detect alterations and contaminations quantify GMOs Drug discovery and drug development 08.05.2001 Mette Langaas 15 Biological question Differentially expressed genes Sample class prediction etc. Experimental design Microarray experiment Statistical analyses Biological verification and interpretation 16-bit TIFF files Copied from talk by Terry Speed at http://www.stat.berkeley.edu/users/terry/zarray/html/talk-ts -sko01.html 08.05.2001 Mette Langaas 16 cdna microarray experiment laser 2 excitation scanning laser 1 printing cdna clones (probes) PCR product amplification purification mrna target emission overlay images and normalise 0.1nl/spot microarray Hybridise target to microarray Copied from talk by Terry Speed at http://www.ipam.ucla.edu/programs/fg2000/ fgt_tspeed7.ppt analysis 08.05.2001 Mette Langaas 17 08.05.2001 Mette Langaas 18 3
The cdna microarray experiment 1. Constructing the microarray (probe): From a collection of purified DNA s. A drop of each type of DNA in solutionis placedon a specially prepared glass microscope slide by an arrayer machine. 2. Choosing and preparing the targets: Select targets: theaim is to comparegeneexpressionin different cell populations: tissue specific, disease specific, environmental, cell cycle etc. mrna extraction: capture mrna, amplification. Reverse transcription to cdna (more stable). Fluorescent labelling of cdna targets: to identify its presence. Red and green dyes (Cy3 and Cy5) arethe most common. Microarray- printer ved NTNU, bildet er hentet fra http://www.idi.ntnu.no/grupper/ks-grp/microarray/instrument.html 08.05.2001 Mette Langaas 19 08.05.2001 Mette Langaas 20 The cdna microarray experiment (cont d.) 3. Hybridization and scanning: The cdna target will hybridize tospots on the array. Using a laser (different wavelengths) the fluorescent target will emit light. The intensity will reflect the abundance of mrna in the original target tissue. Using a scanner two images (red and green) is aquired. 4. Image analysisof the microarray: Identifythe spots (gridding, segmentation) and assign a intensity measurement. Relate theintensity in each spot to the background intensity (local or overall) and filter out weak spots (signal-to-noise ratio low, label as missing). 08.05.2001 Mette Langaas 21 Data from cdna experiments Reference design: use the same reference sample (green) for each experiment (often cultivated cells). The different tissue samples are dyed red. Most popular design. sample 1 sample 2 sample 3 reference From image to intensities for each experiment: G gi =green intensity for gene g at array i R gi =red intensityfor gene g at array i Relativelog-intensities from each experiment: X gi* =log 2 (R gi /G gi ) sample n reference reference reference The data matrix: {X gi } for g=1,...,#genes and i=1,...,#arrays. Typically #genes=2000-10000 (in the future 30000) Typically #arrays=2-100 08.05.2001 Mette Langaas 22 Estimation Biological question Differentially expressed genes Sample class prediction etc. Experimental design Microarray experiment Testing Image analysis Normalization R, G Biological verification and interpretation 16-bit TIFF files Clustering Copied from talk by Terry Speed at http://www.stat.berkeley.edu/users/terry/zarray/html/talk-ts -sko01.html (Rfg, Rbg), (Gfg, Gbg) Discrimination 08.05.2001 Mette Langaas 23 Hvordan kan statistikere bidra? For å lykkes kreves tett tverrfaglig samarbeid: biologer-medisinere-biokjemikere-genetikereinformatikere og STATISTIKERE! Stort behov for statistisk tankesett innen analyse av genekspresjonsdata tilfeldig og systematisk støy, replikasjon, reproduserbare analyser. Statistiske utfordringer IDAG: Forsøksdesign: konkurrenter til referansedesign. Utarbeide statistisk modell for å håndtere systematiske og tilfeldige feil med utgangspunkt i scannede microarrays. Metoder for å håndtere manglende (og sensurerte) verdier. Generelt metoder for stor-p-liten-n. 08.05.2001 Mette Langaas 24 4
Modellering av data fra cdna eksperiment(er) Utgangspunkt: scannede microarrays, 2 bilder (16 bit) fra hvert DNA microarray eksperiment. Utallige kilder til systematiske feil, bla. ulik effektivitet av de to fargestoffene effekt av penn romlige effekter over glass-platen scanner-innstillinger, etc. Kilder til tilfeldige feil Statistisk modell som tar hensyn til systematiske og tilfeldige feil. Sluttprodukt: Intensiteter, eller videre statistiske analyser. Web-basert implementasjon. 08.05.2001 Mette Langaas 25 Romlig systematisk effekt? Intensitet=spot- bakgrunn Glattet intensitet Intensitet -glattet intensitet rød grønn Figur fra Petter Mostad, Bioinformatics ved Chalmers, http://www.math.chalmers.se/~mostad 08.05.2001 Mette Langaas 26 Bioinformatikk - et interessant forskningsfelt for statistikere? Viktige biologiske og medisinske problemstillinger Nytt fagfelt med spennende teknologi Store datamengder Mangel på statistisk ekspertise Mange statistiske utfordringer JA! 08.05.2001 Mette Langaas 27 5