Plan. Pensum i bioinformatikk. Hva er bioinformatikk?



Like dokumenter
Mette Langaas. Norsk Regnesentral Mette Langaas 1. Plan

Plan. Pensum i bioinformatikk. Hva er bioinformatikk?

BIOINFORMATIKK ET INTERESSANT FORSKNINGSFELT FOR STATIS TIKERE? METTE LANGAAS, NORSK REGNESENTRAL HVA ER BIOINFORMATIKK?

Hva er bioinformatikk? Introduksjon til bioinformatikk. Summary. Menneskets genom. Prokaryoter og eukaryoter. Lars O. Baumbusch

UNIVERSITETET I OSLO

EKSAMENSOPPGAVE I BI3013 EKSPERIMENTELL CELLEBIOLOGI

Mikromatriser introduksjon. Strategi for mikromatrise eksperimenter. Forelesning # 8. Bruksområder. Mikromatriser trinn for trinn. Lars O.

EKSAMENSOPPGAVE I BI2014 MOLEKYLÆRBIOLOGI

Zebrafish as a model for human development and disease. Jon Vidar Helvik

Unit Relational Algebra 1 1. Relational Algebra 1. Unit 3.3

Dynamic Programming Longest Common Subsequence. Class 27

Foreleser: Eivind Coward, kontor 5. etg. Datablokken. Gruppeleder: Harald Barsnes

Examination paper for (BI 2015) (Molekylærbiologi, laboratoriekurs)

Bruk av genteknologiske analyser ved diagnostikk av luftveisinfeksjoner. Gardermoen Svein Arne Nordbø

SFI-Norman presents Lean Product Development (LPD) adapted to Norwegian companies in a model consisting of six main components.

The internet of Health

Hva viser genanalyser av muskulatur hos laks med mørke flekker. Aleksei Krasnov, Hooman Moghadam Nofima, Ås

FYS 3710 Biofysikk og Medisinsk Fysikk, DNA, RNA, Translasjon, Transkripsjon Proteinsyntese, Cellesyklus

Company Presentation. (sfi) 2 karrieredag. 31 October Knut T. Smerud Founder, Chairman and CEO SMERUD MEDICAL RESEARCH GROUP

Nucleic Acid Research Group Study:

Salting of dry-cured ham

UNIVERSITETET I OSLO

5 E Lesson: Solving Monohybrid Punnett Squares with Coding

Bioteknologi i dag muligheter for fremtiden

Databases 1. Extended Relational Algebra

Horisont 2020 EUs forsknings- og innovasjonsprogram. Brussel, 6. oktober 2014 Yngve Foss, leder, Forskningsrådets Brusselkontor

GeWare: A data warehouse for gene expression analysis

Persontilpasset medisin. Dag Undlien Avdeling for medisinsk genetikk Oslo Universitetssykehus og Universitetet i Oslo

Kliniske studier - krav til søknader. Marit Grønning, professor, dr.med. REC Western Norway

Q2 Results July 17, Hans Stråberg President and CEO. Fredrik Rystedt CFO

Speed Racer Theme. Theme Music: Cartoon: Charles Schultz / Jef Mallett Peanuts / Frazz. September 9, 2011 Physics 131 Prof. E. F.

Exercise 1: Phase Splitter DC Operation

PETROLEUMSPRISRÅDET. NORM PRICE FOR ALVHEIM AND NORNE CRUDE OIL PRODUCED ON THE NORWEGIAN CONTINENTAL SHELF 1st QUARTER 2016

COUNTRY REPORT- NORWAY

Bestille trykk av doktoravhandling Ordering printing of PhD Thesis

Tapsårsaker i lakseoppdrett fra uforutsigbarhet til kontroll

Western Alaska CDQ Program. State of Alaska Department of Community & Economic Development

UiO:Partnerforum. Har stordata definisjonsmakt? Gisle Hannemyr

Sammenligningen mellom Arabidopsis thaliana genomet og de kjente genomene fra cyanobakterier, gjær, bananflue og nematode, viser bl. a.

Information search for the research protocol in IIC/IID

Issues and challenges in compilation of activity accounts

Examination paper for Bi2014 Molecular Biology

Effektstudien Oppfølging i 2009? Kort presentasjon (1) DØ,

Emneevaluering GEOV272 V17

Hvordan komme i kontakt med de store

Confidence-based Data Management for Personal Area Sensor Nets

Prosjektet Digital kontaktinformasjon og fullmakter for virksomheter Digital contact information and mandates for entities

EMPIC MEDICAL. Etterutdanningskurs flyleger 21. april Lars (Lasse) Holm Prosjektleder Telefon: E-post:

Veivalg for industriell forskning og utvikling Unni Steinsmo, PROSINKONFERANSEN 25. og 26 mai Teknologi for et bedre samfunn

OPPA European Social Fund Prague & EU: We invest in your future.

Managing Risk in Critical Railway Applications

Baltic Sea Region CCS Forum. Nordic energy cooperation perspectives

Midler til innovativ utdanning

Metodisk kvalitetsvurdering av systematisk oversikt. Rigmor C Berg Kurs H, mars 2019

Andrew Gendreau, Olga Rosenbaum, Anthony Taylor, Kenneth Wong, Karl Dusen

Hvordan jobber reiselivsgründere med sine etableringer? Sølvi Solvoll Klyngesamling, Bodø

Trigonometric Substitution

En praktisk anvendelse av ITIL rammeverket

IN2010: Algoritmer og Datastrukturer Series 2

Morten Walløe Tvedt, Senior Research Fellow, Lawyer. Seminar 6.juni 2008

Examination paper for Bi2014 Molecular Biology

Den europeiske byggenæringen blir digital. hva skjer i Europa? Steen Sunesen Oslo,

Utfordringer for internasjonal bærekraft. Knut H. Alfsen Forskningssjef, Statistisk sentralbyrå

SOCIAL SCIENCE AND FOOD SAFETY GOVERNANCE: RISK- ANALYSIS AND DECISION-MAKING FRAMEWORKS. Lampros Lamprinakis

Introduksjon til analyse av cdna mikromatrisedata

Implementeringen av ROP retningslinjen; er GAP analyser et

Gaute Langeland September 2016

Molekylærbiologi: Nøkkelen til alle levende organismer

Itled 4021 IT Governance Fra IT-strategi til digital forretningsstrategi og plattformer

Nasjonalt kvalifikasjonsrammeverk og læringsmål i forskerutdanningen

Miljøpåvirkning og legemiddelgodkjenning Hva sier regelverket? Steinar Madsen Statens legemiddelverk

Fremstilling av nanokarbon og hydrogenrik gass fra naturgass

OPPA European Social Fund Prague & EU: We invest in your future.

Amplifikasjonsteknikker - andre metoder

Visjoner og ambisjoner for UiOs energisatsning. Rektor Ole Petter Ottersen

Hvordan ser pasientene oss?

PSi Apollo. Technical Presentation

Forecast Methodology September LightCounting Market Research Notes

Energi og bærekraft. Thina Margrethe Saltvedt, Sjefanalytiker Makro/Olje (Ph.

BIBSYS Brukermøte 2011 Live Rasmussen og Andreas Christensen. Alt på et brett? -om pensum på ipad og lesebrett

Tor Haakon Bakken. SINTEF Energi og NTNU

Eksamensoppgave i SOS1000 Innføring i sosiologi Examination paper for SOS1000 Introduction to Sociology

Informasjon om studieprogrammet Beregningsorientert informatikk

Utstyr for avstandsmåling. Dommersamling 14. mars 2015 Stein Jodal

buildingsmart Norge seminar Gardermoen 2. september 2010 IFD sett i sammenheng med BIM og varedata

SERK1/2 Acts as a Partner of EMS1 to Control Anther Cell Fate Determination in Arabidopsis

Improving Customer Relationships

Status for IMOs e-navigasjon prosess. John Erik Hagen, Regiondirektør Kystverket

Prof. dr. juris Erling Hjelmeng 10 November Purchase agreements: theories of harm in the decisional practise

Studieplan for bachelorprogram i molekylærbiologi

Ny teknologi gir nye godstransportløsninger

Innovasjon, Energi og Syntese i Fornybarsamfunnet

Det humane genomet. (genom = arvemasse) 3 x 10 9 basepar. ca gen. ferdigsekvensert ca. år 2001

EKSAMENSOPPGAVE I BI3013 EKSPERIMENTELL CELLE- OG MOLEKYLÆRBIOLOGI

Kurskategori 2: Læring og undervisning i et IKT-miljø. vår

GIS - BASED STORMWATER MASTER PLANNING: SIMPLIFYING STORMWATER PROGRAM MANAGEMENT. Gregory V. Murphy, PE, ARCSA AP Jonathan A. Villines, EIT, CFM

Algoritmer for klustering av mikromatriser. Kompleks prosess. Forelesning # 9. Sammenlikning av flere populasjoner. Mange gener og få prøver

Digitization of archaeology is it worth while?

Interaction between GPs and hospitals: The effect of cooperation initiatives on GPs satisfaction

Merak Un-glazed Porcelain Wall and Floor Tiles

Transkript:

Bioinformatikk - en innføring fra en statistikers ståsted Mette Langaas Plan Hva er bioinformatikk? Hva er gen og genom? Forskningsområder innen bioinformatikk. Funksjonell genomikk: genekspresjon og DNA mikroarray data. Statistiske utfordringer. Figur fra The Human Genome Project http://www.ornl.gov/hgmis/ 08.05.2001 Mette Langaas 1 08.05.2001 Mette Langaas 2 Hva er bioinformatikk? Pensum i bioinformatikk Ifølge Professor R. Altman (lederartikkel i Bioinformatics) bør pensum inneholde: Bioinformatikk er et tverrfaglig forskningsområde der matematikk, statistikk og informatikk anvendes til å analysere data som er produsert av eksperimentelt arbeide innen biokjemi, cellebiologi og genetikk. Definisjon benyttet ved Chalmers Universitet. biologi: generelt: molekyl ærbiologi, cellebiologi og genetikk informatikk generelt: programmering, datastrukturer, algoritmer og håndtering av databaser mer spesielt: dynamisk programmering, søkealgoritmer, optimering statistikk generelt: sannsynlighetsteori,statistisk forsøksplanlegging, statistisk analyse og stokastiske prosesser mer spesielt: klusteranalyse, klassifikasjon, nevrale nettverk, genetiske algoritmer og Bayesiansk inferens "bioinformatiske kjernefag" generelt: biologiske databaser, annotasjon av biologiske sekvenser, metoder som støtter laboratorie-arbeid, proteinstruktur mer spesielt: sammenligning av biologiske sekvenser (sequence alignment), Hidden Markov Models og fylogenetiske trær etikk 08.05.2001 Mette Langaas 3 08.05.2001 Mette Langaas 4 Cellen Copied from talk by Terry Speed at http://www.ipam.ucla.edu/programs/fg2000/ fgt_tspeed7.ppt project/info.html 08.05.2001 Mette Langaas 5 08.05.2001 Mette Langaas 6 1

08.05.2001 Mette Langaas 7 08.05.2001 Mette Langaas 8 Proteinsyntese: translasjon og transkripsjon project/info.html 08.05.2001 Mette Langaas 9 The Human Genome Project Begun formally in 1990, planned to be completedin 2003. U.S. Human Genome Project is coordinated by the U.S. Department of Energy and the National Institutes of Health. Project goals are to identify all the approximately 50,000(?) genes in human DNA, determine the sequences of the 3 billion chemical bases that make up human DNA, store this information in databases, develop faster, more efficient sequencing technologies, develop tools for data analysis, and address the ethical, legal, and social issues that may arise from the project. Results by now: Draft of entire genome (June 2000) 9711 mapped genes (February 4, 2001) New estimate: 30 000 genes (February, 2001) 08.05.2001 Mette Langaas 10 Noen forskningsområder innen bioinformatikk funksjonell genomikk: utforske funksjonen til genomet, dvs. rollen til hvert gen. proteomikk: hvilke proteiner er tilstede i en celleog hvordan samvirker de ulike proteinene? strukturell genomikk: bestemme den tredimensjonale strukturen til proteiner som er kodet i genomet. pharmacogenetikk: hvordan påvirker ulike genetiske forskjeller en pasients respons på medisiner komparativ genomikk: studere funksjonen til menneskets gener og andre områder av menneskets DNA ved å studere deres paralleller i andre organismer (f.eks. mus). Komparativ genomikk: sammenligning av kromosomer for mus og mennesket 08.05.2001 Mette Langaas 11 08.05.2001 Mette Langaas 12 2

Funksjonell genomikk: genekspresjon og data fra cdna microarrays Genekspresjon Genekspresjon. Anvendelser. cdna microarray eksperiment. Data fra cdna microarray eksperimenter. The process by which a gene's coded information is converted into the structures present and operating in the cell. Expressed genes include those that are transcribed into mrna and then translated into protein and those that are transcribed into RNA but not translated into protein (e.g., transfer and ribosomal RNAs). http://www.ornl.gov/hgmis/publicat/glossary.html 08.05.2001 Mette Langaas 13 08.05.2001 Mette Langaas 14 DNA microarray applications Human disease diagnostics and treatment determination of predisposition and risk factors wrt. certain diseases prediction of risk factors involved using certain treatment schemes monitor disease stage and treatment progress Agricultural diagnostics and development identify plant pathogens to allow suitable plant protection to be improved efficiacy and economy in plant biotechnology Analysis of food and genetically modified organisms (GMO) determine the integrity of food detect alterations and contaminations quantify GMOs Drug discovery and drug development 08.05.2001 Mette Langaas 15 Biological question Differentially expressed genes Sample class prediction etc. Experimental design Microarray experiment Statistical analyses Biological verification and interpretation 16-bit TIFF files Copied from talk by Terry Speed at http://www.stat.berkeley.edu/users/terry/zarray/html/talk-ts -sko01.html 08.05.2001 Mette Langaas 16 cdna microarray experiment laser 2 excitation scanning laser 1 printing cdna clones (probes) PCR product amplification purification mrna target emission overlay images and normalise 0.1nl/spot microarray Hybridise target to microarray Copied from talk by Terry Speed at http://www.ipam.ucla.edu/programs/fg2000/ fgt_tspeed7.ppt analysis 08.05.2001 Mette Langaas 17 08.05.2001 Mette Langaas 18 3

The cdna microarray experiment 1. Constructing the microarray (probe): From a collection of purified DNA s. A drop of each type of DNA in solutionis placedon a specially prepared glass microscope slide by an arrayer machine. 2. Choosing and preparing the targets: Select targets: theaim is to comparegeneexpressionin different cell populations: tissue specific, disease specific, environmental, cell cycle etc. mrna extraction: capture mrna, amplification. Reverse transcription to cdna (more stable). Fluorescent labelling of cdna targets: to identify its presence. Red and green dyes (Cy3 and Cy5) arethe most common. Microarray- printer ved NTNU, bildet er hentet fra http://www.idi.ntnu.no/grupper/ks-grp/microarray/instrument.html 08.05.2001 Mette Langaas 19 08.05.2001 Mette Langaas 20 The cdna microarray experiment (cont d.) 3. Hybridization and scanning: The cdna target will hybridize tospots on the array. Using a laser (different wavelengths) the fluorescent target will emit light. The intensity will reflect the abundance of mrna in the original target tissue. Using a scanner two images (red and green) is aquired. 4. Image analysisof the microarray: Identifythe spots (gridding, segmentation) and assign a intensity measurement. Relate theintensity in each spot to the background intensity (local or overall) and filter out weak spots (signal-to-noise ratio low, label as missing). 08.05.2001 Mette Langaas 21 Data from cdna experiments Reference design: use the same reference sample (green) for each experiment (often cultivated cells). The different tissue samples are dyed red. Most popular design. sample 1 sample 2 sample 3 reference From image to intensities for each experiment: G gi =green intensity for gene g at array i R gi =red intensityfor gene g at array i Relativelog-intensities from each experiment: X gi* =log 2 (R gi /G gi ) sample n reference reference reference The data matrix: {X gi } for g=1,...,#genes and i=1,...,#arrays. Typically #genes=2000-10000 (in the future 30000) Typically #arrays=2-100 08.05.2001 Mette Langaas 22 Estimation Biological question Differentially expressed genes Sample class prediction etc. Experimental design Microarray experiment Testing Image analysis Normalization R, G Biological verification and interpretation 16-bit TIFF files Clustering Copied from talk by Terry Speed at http://www.stat.berkeley.edu/users/terry/zarray/html/talk-ts -sko01.html (Rfg, Rbg), (Gfg, Gbg) Discrimination 08.05.2001 Mette Langaas 23 Hvordan kan statistikere bidra? For å lykkes kreves tett tverrfaglig samarbeid: biologer-medisinere-biokjemikere-genetikereinformatikere og STATISTIKERE! Stort behov for statistisk tankesett innen analyse av genekspresjonsdata tilfeldig og systematisk støy, replikasjon, reproduserbare analyser. Statistiske utfordringer IDAG: Forsøksdesign: konkurrenter til referansedesign. Utarbeide statistisk modell for å håndtere systematiske og tilfeldige feil med utgangspunkt i scannede microarrays. Metoder for å håndtere manglende (og sensurerte) verdier. Generelt metoder for stor-p-liten-n. 08.05.2001 Mette Langaas 24 4

Modellering av data fra cdna eksperiment(er) Utgangspunkt: scannede microarrays, 2 bilder (16 bit) fra hvert DNA microarray eksperiment. Utallige kilder til systematiske feil, bla. ulik effektivitet av de to fargestoffene effekt av penn romlige effekter over glass-platen scanner-innstillinger, etc. Kilder til tilfeldige feil Statistisk modell som tar hensyn til systematiske og tilfeldige feil. Sluttprodukt: Intensiteter, eller videre statistiske analyser. Web-basert implementasjon. 08.05.2001 Mette Langaas 25 Romlig systematisk effekt? Intensitet=spot- bakgrunn Glattet intensitet Intensitet -glattet intensitet rød grønn Figur fra Petter Mostad, Bioinformatics ved Chalmers, http://www.math.chalmers.se/~mostad 08.05.2001 Mette Langaas 26 Bioinformatikk - et interessant forskningsfelt for statistikere? Viktige biologiske og medisinske problemstillinger Nytt fagfelt med spennende teknologi Store datamengder Mangel på statistisk ekspertise Mange statistiske utfordringer JA! 08.05.2001 Mette Langaas 27 5