Hva er bioinformatikk? Introduksjon til bioinformatikk. Summary. Menneskets genom. Prokaryoter og eukaryoter. Lars O. Baumbusch

Like dokumenter
Algoritmer for klustering av mikromatriser. Kompleks prosess. Forelesning # 9. Sammenlikning av flere populasjoner. Mange gener og få prøver

Mikromatriser introduksjon. Strategi for mikromatrise eksperimenter. Forelesning # 8. Bruksområder. Mikromatriser trinn for trinn. Lars O.

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

Plan. Pensum i bioinformatikk. Hva er bioinformatikk?

Genetikk og bioteknologi. Litt historikk et perspektiv. Forelesning # 6. Publiserte genomsekvenser (2003) Bioteknologi etableres... Lars O.

Mette Langaas. Norsk Regnesentral Mette Langaas 1. Plan

Oblig3 - obligatorisk oppgave nr. 3 (av 3) i INF3350/4350

UNIVERSITETET I OSLO

Foreleser: Eivind Coward, kontor 5. etg. Datablokken. Gruppeleder: Harald Barsnes

Oversikt over kap. 11. Kap. 11 Den direkte påvisning av genotype skiller individuelle genomer. Fire klasser av DNA polymorfismer.

Examination paper for (BI 2015) (Molekylærbiologi, laboratoriekurs)

Kapittel 14: Det eukaryote genom og dets uttrykksregulering

GENER, genregulering, og genfamilier

ML-208, generell informasjon

UNIVERSITETET I OSLO

Genkartlegging. Hva er egentlig et genkart? Genetisk og fysisk kartlegging

Plan. Pensum i bioinformatikk. Hva er bioinformatikk?

Genfeil i kreftsvulster nøkkelen til en mer persontilpasset behandling?

Klustring av mikromatrisedata: Estimering av antall klustre og identifikasjon av subtyper.

FAKULTET FOR TEKNOLOGI OG REALFAG EKSAMEN

Flervalgsoppgaver: proteinsyntese

LEKSJON 4: BIOTEKNOLOGI HVORDAN VI BRUKER NATURENS EGNE MEKANISMER TIL VÅR FORDEL, OG UTFORDRINGENE SOM FØLGER MED

Sammenligningen mellom Arabidopsis thaliana genomet og de kjente genomene fra cyanobakterier, gjær, bananflue og nematode, viser bl. a.

Bioteknologi i dag muligheter for fremtiden

Kapittel 12: FRA DNA TIL PROTEIN:

EKSAMENSOPPGAVE I BI1001 CELLE- OG MOLEKYLÆRBIOLOGI

FYS 3710 Biofysikk og Medisinsk Fysikk, DNA, RNA, Translasjon, Transkripsjon Proteinsyntese, Cellesyklus

FLERVALGSOPPGAVER ARV

GRUNNLEGGENDE GENETISKE BEGREPER Del I - en serie om kattegenetikk

Status i forskning: Demens og arvelighet. Arvid Rongve Psykiatrisk Klinikk Helse Fonna

FYS3710 Molekylærbiologi

Kap 12. Det eukaryote kromosom. En organelle for pakking og styring av DNA

Oppgave 2b V1979 Hvor i cellen foregår proteinsyntesen, og hvordan virker DNA og RNA i cellen under proteinsyntesen?

Institutt for biologi Faglig kontaktperson under eksamen: Berit Johansen, EKSAMEN I: BI1001 Celle- og molekylærbiologi BOKMÅL

Arabidopsis thaliana, vårskrinneblom

1. En ikke-naturlig forekommende eller konstruert sammensetning omfattende:

ML-208, generell informasjon

4260 Mikrobiologi. Midtprøveoppgaver. 02. oktober 2013

Faglig kontaktperson under eksamen: 1.aman. Hans K. Stenøien ( )

DNA - kroppens byggestener

Født sånn eller blitt sånn: om gener, søppel-dna og epigenetikk

Holder cytoplasmaet på plass. Regulerer transporten inn i og ut av cellen og har kontakt med naboceller.

BIOINFORMATIKK ET INTERESSANT FORSKNINGSFELT FOR STATIS TIKERE? METTE LANGAAS, NORSK REGNESENTRAL HVA ER BIOINFORMATIKK?

Kapittel 10, del 2: Klassisk genetikk: Mendels arvelover. -forhold som influerer fenotypen slik at den avviker fra det Mendel observerte:

EKSAMENSOPPGAVE I BI1001 CELLE- OG MOLEKYLÆRBIOLOGI

Brystkreft; Hva har molekylærbiologi lært oss?

UNIVERSITETET I AGDER

EKSAMENSOPPGAVE I BI3013 EKSPERIMENTELL CELLEBIOLOGI

Hvor er responsen når vi ikke bruker den? Tore Vignes og Stein Evensen

Epigenetikk; arvesynden i ny innpakning? Dag O. Hessen University of Oslo, Dept. Biology Center of Ecological and Evolutionary Synthesis (CEES)

FLERVALGSOPPGAVER EVOLUSJON

UNIVERSITETET I OSLO

Klinisk molekylærmedisin (4): Indirekte diagnostikk ved koblingsanalyser

Regulering av DNA Transkripsjon i Eukaryote Organismer. ID, Kull 99, Vår 2001 Frank Skorpen IKM, DMF

Examination paper for Bi2014 Molecular Biology

Genetiske undersøkelser av biologisk materiale

Læringsutbyttebeskrivelser

Viktige opplysninger: Oppgavesettet utgjør totalt 100 vekttall. Antall vekttall er vist i parentes ved hver spørsmålsgruppe.

Zebrafish as a model for human development and disease. Jon Vidar Helvik

Genetikk i vår tid: Et paradigmeskifte. Kaja Selmer Avd. for medisinsk genetikk NK-SE

FLERVALGSOPPGAVER GENETIKK

BI Celle- og molekylærbiologi

Reproduksjon av dyrevirus. Adsorpsjon Penetrasjon og avkledning Replikasjon og transkripsjon Syntese og samling (assembly) av viruskapsid Frigjøring

Examination paper for Bi2014 Molecular Biology

Obligatorisk innlevering 3kb vår 2004

5 E Lesson: Solving Monohybrid Punnett Squares with Coding

Institutt for biologi Faglig kontaktperson under eksamen: Berit Johansen ( ) EKSAMEN I: BI1001 Celle- og molekylærbiologi BOKMÅL

Bruk av genteknologiske analyser ved diagnostikk av luftveisinfeksjoner. Gardermoen Svein Arne Nordbø

Genetisk variasjon i naturlige populasjoner. grunnlag for foredling. Mari Mette Tollefsrud. Foto: Arne Steffensrem

Matematisk evolusjonær genetikk, ST2301 Onsdag 15. desember 2004 Løsningsforslag

FLERVALGSOPPGAVER BIOTEKNOLOGI

Kræsjkurs i STAT101. Noen anbefalinger Regn mange(5-10) oppgavesett til eksamen:

BINGO - Kapittel 1. kroppsceller hos menn (XY) Arvelærens far (G. J. Mendel) Forkortelse for genmodifiserte organismer (GMO)

EKSAMENSOPPGAVE I BI1001 CELLE- OG MOLEKYLÆRBIOLOGI

Reproduksjon av dyrevirus. Adsorpsjon Penetrasjon og avkledning Replikasjon og transkripsjon Syntese og samling (assembly) av viruskapsid Frigjøring

Faglig kontaktperson under eksamen: Jens Rohloff (mob )

EKSAMENSOPPGAVE I BI1001 Celle og molekylærbiologi

FARGEGENETIKK. av Cecilie Schleer

Løsningsforslag ST2301 Øving 4

FLERVALGSOPPGAVER GENETIKK

Svar til oppgaver i Hartwell

INF280 Søking og maskinlæring

Den komplette DNA sekvens fra en organisme.

UNIVERSITY OF OSLO. Faculty of Mathematics and Natural Sciences

Oncogenic Mutations Affecting Cell Proliferation

CELLER OG ARV TELLUS 10 KAP 1

Naturfag for ungdomstrinnet

Brystkreft og gener. Vårmøtet Britt Fritzman

«Immunterapi» Kreftutvikling. Myelomatose. Immunterapi. Anders'Sundan Senter'for'myelomforskning Institutt'for'klinisk'og'molekylær'medisin,'NTNU

I lys av akkreditering Overgang fra Sanger sekvensering til dypsekvensering innen genetisk sykdomsdiagnostikk

Kromosomer, gener og DNA

Examination paper for Bi2014 Molecular Biology

Hvor er genene? Gensøk-algoritmer. Gener i prokaryoter. Genenes anatomi (prokaryoter) Forelesning INF3350/ sept 2007

BIO 1000 LAB-ØVELSE 1

Semmelweis University. Genetic and epigenetic regulation of. Dept. GCI. the immune response. András Falus. November

NGS = Next generation sequencing Massiv parallell sekvensering (MPS) Dypsekvensering

Løsningsforslag ST2301 Øving 2

Neural Network. Sensors Sorter

Transkript:

Introduksjon til bioinformatikk Summary Hva er bioinformatikk? Bruk av informatikk og statistikk til å trekke biologisk forståelse ut av molekylære data fra levende organismer Lars O. Baumbusch Senter for Bioinformatikk, IFI, UiO Rikshospitalet - Radiumhospitalet Medical Center Lars O. Baumbusch INF3350/INF4350 Høst 2007 1 Bioinformatics is generally defined as the analysis, prediction, and modeling of biological data with the help of informatics Lars O. Baumbusch INF3350/INF4350 Høst 2007 2 Prokaryoter og eukaryoter Menneskets genom Prokaryoter Eukaryoter Genomet Enkel celle Ingen nukleus En eller flere celler Nukleus Kjernegenom 3 200 000 000 bp ~35 000 gener Mitokondrisk genom 16 600 bp 37 gener Ingen organeller Ett sirkulært kromosom Enkel intern organisering Ingen mrna post transkriptsjonal modifikasjon Organeller To eller flere kromosomer Exons/Intron splicing 25% 75% Gen-relatert Ikke gen-relatert >10% <90% Kodende DNA Ikkekodende DNA Repetitiv DNA Annet Pseudogener Genfragmenter Introner m.m. Lars O. Baumbusch INF3350/INF4350 Høst 2007 3 Lars O. Baumbusch INF3350/INF4350 Høst 2007 4 1

Kromosomene dobbelheliks kromatin nukleosom Byggestenene i DNA er fire nukleotider Byggestenene i DNA er de fire nukleotidene 2'-deoxyadenosin 5'-trifosfat = datp = A 2'-deoxycytidin 5'-trifosfat = dctp = C 2'-deoxyguanosin 5'-trifosfat = dgtp = G 2'-deoxythymidin 5'-trifosfat = dttp = T kromosomer Lars O. Baumbusch INF3350/INF4350 Høst 2007 5 Lars O. Baumbusch INF3350/INF4350 Høst 2007 6 Det sentrale dogmet i biologi Fra DNA til protein Det er rekkefølgen av baser i DNA-sekvensen som bestemmer rekkefølgen av aminosyrer i proteinet. Transkripsjon (RNA syntese) og translasjon (protein syntese) fører fra DNA til protein promoter DNA pre-mrna exon intron transkripsjon exon terminator etterprosessering (splicing, capping, polyadenylering) mrna translasjon protein Lars O. Baumbusch INF3350/INF4350 Høst 2007 7 Lars O. Baumbusch INF3350/INF4350 Høst 2007 8 2

Proteiner er livets byggestener Celle-deling Proteiner er byggestenen i alle levende organismer Proteiner er lange kjeder av aminosyrer (21 ulike) Kveiler seg opp i kompliserte og veldig varierte 3D-strukturer Utfører mange forskjellige oppgaver: enzymer antistoffer transportproteiner (f.eks. hemoglobin) reseptorer visse hormoner (f.eks. insulin) muskler, hud, hår, brusk Hemoglobin 1. Mitotiske celle-deling Normal celledeling Resulterer i diploide datterceller Dattercellene er genetisk like 2. Meiotiske celle-deling (reduktiv deling) Gjelder kun primære eggceller og spermatocyter; gir som resultat gameter (spermceller og eggceller) Resulterer i haploide datterceller Dattercellene er genetisk ulike 2n 2n 2n 2n n n n n Lars O. Baumbusch INF3350/INF4350 Høst 2007 9 Lars O. Baumbusch INF3350/INF4350 Høst 2007 10 Mendels prinsipper Gener forekommer i ulike varianter eller alleler Vi har alle to utgaver av hvert gen. Disse kan være ulike alleler (heterozygot) eller samme allel (homozygot) Segregeringsprinsippet: Hver kjønnscelle (og følgelig hvert avkom) får en av de to utgavene og det er tilfeldig hvilken av dem det er. Prinsippet om uavhengig utplukk: Hvilken utgave vi får av et gen har ingen innvirkning på hvilken utgave vi får av et annet gen, forutsatt at genene ligger på forskjellige kromosomer. Lars O. Baumbusch INF3350/INF4350 Høst 2007 11 Genetisk variasjon og mutasjon Mutasjoner er svert sjelden skje under DNA replikasjon er tilfeldig forandrer DNA sekvens/kode > ny variasjon er dårlig for enkeltindivid sjeldne, trenges flere andre faktorer i tillegg for å transformere en art Lars O. Baumbusch INF3350/INF4350 Høst 2007 12 3

Genetisk kopling 1 2 3 Aa Bb Cc La A,B,C være de maternale og a,b,c være de paternale allelene for de tre genene. Forutsatt at chiasmata (= overkrysning) oppstår med like stor sannsynlighet alle steder langs et kromosom, er det mer sannsynlig med en overkrysning mellom gen 2 og gen 3 enn det er mellom gen 1 og gen 2. Da forventer vi flere gameter med (A,B,c) eller (a,b,c) enn med (A,b,c) eller (a,b,c). Konstruksjon av genetiske kart Betrakt to genetiske markører på samme kromosom: Genotype AB Ab ab ab 50% 0% 0% 50% A a B b kromosom 1 Fordelingen til genotypene avhenger av antall rekombinasjoner mellom genene: Ingen rekombinasjon En rekombinasjon 25% 25% 25% 25% To rekombinasjoner 50% 0% 0% 50% Lars O. Baumbusch INF3350/INF4350 Høst 2007 13 Lars O. Baumbusch INF3350/INF4350 Høst 2007 14 Basics of biotechnology methods Cutting and pasting DNA Restriction enzymes Cloning Copying DNA Polymerase Chain Reaction Measuring DNA length Electrophoresis DNA sequencing Hybridization Southern blotting Microarrays Lars O. Baumbusch INF3350/INF4350 Høst 2007 15 Bruksområder Generelle formål for parallell eksperimenter genomiske undersøkelser: Whole genome arrays Kan se hvordan genekspresjon varierer over tid mellom individer eller i en cellesystem mellom sykdomstilstander Kan designe mikromatriser for spesielle formål human cancer array: 1700 utvalgte gener lymphochip: 18000 gener knyttet til lymfekreft Bestemte gener, pathways, organismer Lars O. Baumbusch INF3350/INF4350 Høst 2007 16 4

Mikromatriser trinn for trinn Array CGH tissue tissue 1. Extract RNA make cdna reference RNA tumor RNA 1. Extract DNA reference DNA tumor DNA 2. Label with fluorescent dyes 2. Label with fluorescent dyes 3. Hybridize to microarray 4. Scan intensity 5. Analyse 3. Hybridize to microarray 4. Scan intensity 5. Analyse (after: Brown PO and Botstein D 1999 and Perou CM et al., 2000) Lars O. Baumbusch INF3350/INF4350 Høst 2007 17 (After: Brown and Botstein 1999 Lars O. Baumbusch INF3350/INF4350 Høst 2007 and Perou et al., 2000) 18 An array of uses På lang sikt... BAC, oligos Copy number changes Bedre forståelse av mange geners funksjon Bedre differensiering mellom ulike sykdomstilfeller Skreddersydde behandlinger Utvikling av medikamenter som modifiserer ekspresjonen til farlige gener Gen-tester for diverse sykdommer ikke helt uproblematisk... (From: S. Saunak, Recent technologies Lars O. Baumbusch INF3350/INF4350 Høst 2007 and applications, UCSF 2004) 19 Lars O. Baumbusch INF3350/INF4350 Høst 2007 20 5

Kompleks prosess Sammenlikning av flere populasjoner Biological question Differentially expressed genes Sample class prediction etc. Det er ofte interessant å sammenlikne gen-ekspresjonen i mange forskjellige populasjoner: Estimation Experimental design Microarray experiment 16-bit TIFF files Image analysis (Rfg, Rbg), (Gfg, Gbg) Normalization R, G Testing Clustering Discrimination Biological verification and interpretation Identifikasjon av vevsspesifikke gener Søke etter endringer i genekspresjon når normale celler endrer seg til kreftceller Skille mellom ulike ekspresjonsmønstre i samme krefttyper Studere cellulære responser til endringer i omgivelsene (f.eks. virusinfeksjon, giftstoffer, legemiddler) Lars O. Baumbusch INF3350/INF4350 Høst 2007 21 Lars O. Baumbusch INF3350/INF4350 Høst 2007 22 Hvorfor klustre ekspresjonsdata? Klustering metoder Hvorfor klustre gener: Redusere kompleksitet: identifisere typiske ekspresjonsmønstre Generere hypoteser: liknende ekspresjonsmønster kan være indikasjon på liknende funksjon eller koregulering Hvorfor klustre prøver: Identifisere kjente kategoriseringer (f.eks. i friske og syke ) basert på ekspresjon K-means klustering Hierarkisk klustring Self-organizing maps (SOM) Prinsipalkomponent klustring Finne nye (eller mer detaljerte) kategoriseringer (f.eks. subtyper av en sykdom) basert på ekspresjon Lars O. Baumbusch INF3350/INF4350 Høst 2007 23 Lars O. Baumbusch INF3350/INF4350 Høst 2007 24 6

Distance measure Distance measure Euclidean distance: Is the square root of the sum of squared distances between expression data points When comparing x gene expression with y gene expression at time point i (assuming there are n time points in total), the distance score (d) can be calculated by: n d = ( x y ) i= 1 i i 2 Euclidean distance: Manhattan- distance: d( xy, ) = ( x y ) d( xy, ) = xk yk k 2 k Lars O. Baumbusch INF3350/INF4350 Høst 2007 25 Lars O. Baumbusch INF3350/INF4350 Høst 2007 26 Distance measure Pearsons korrelasjonskoeffisient Pearson correlation coefficient: Measures the overall similarity between the trends or shapes of two sets of data To vektorer x og y (sentrerte): x Samme vektorer, nå skalert: ax Perfect positive correlation = 1 Perfect negative correlation = -1 Distance score (d) can be calcluated as: 1 n xi x yi y d = n i= 1 sdi sdi (Were n is the total number of time points, x and y are average values for the x gene and y gene data, and sd are the standard deviation values θ y Euklidsk avstand (svarer til stiplede linjer) avhenger av skaleringen Pearsons korrelasjonskoeffisient (svarer til vinkler) avhenger ikke av skaleringen Med Pearson korrelasjon er ikke skaleringen av dataene viktig; med Euklidsk avstand er den det θ by Lars O. Baumbusch INF3350/INF4350 Høst 2007 27 Lars O. Baumbusch INF3350/INF4350 Høst 2007 28 7

7 3 2 5 8 6 1 4 9 Hierarkisk klustring Resultatet er en nestet sekvens av partisjoner av dataene (partisjoner inni partisjoner) som normalt vises i form av et dendrogram Ordningen av objektene (genene, prøvene) er ikke entydig i et dendrogram: ved hver forgrening kan vi velge å bytte om plasseringen av høyre og venstre gren Tre sentrale varianter: single-link, complete-link, averagelink Mange varianter Avstanden mellom to klustre kan defineres på flere måter: Single linkage : bruk minste punktavstand Complete linkage: bruk største punktavstand Average linkage : bruk gjennomsnittlig punktavstand Complete linkage 0 50 100 150 200 250 24 40 43 18 10 45 21 39 11 19 46 33 42 17 20 16 27 15 41 23 34 49 22 38 13 30 14 35 29 32 36 26 28 44 12 50 37 47 48 25 31 Single linkage Lars O. Baumbusch INF3350/INF4350 Høst 2007 29 Lars O. Baumbusch INF3350/INF4350 Høst 2007 30 Validering av klustre Homogenitet innen klustre kan f.eks. måles som gjennomsnittlig avstand fra et klustermedlem til senteret av klusteret Separasjon mellom klustre kan f.eks. måles som gjennomsnittlig avstand mellom klustersentre, eller minste avstand mellom to klustersentre Robusthet av klustre kan f.eks. måles ved å se hvor stor endring man får i klusterne når punktene perturberes (dvs hvert punkt forflyttes litt i en tilfeldig retning) Lars O. Baumbusch INF3350/INF4350 Høst 2007 31 8