Introduksjon til bioinformatikk Summary Hva er bioinformatikk? Bruk av informatikk og statistikk til å trekke biologisk forståelse ut av molekylære data fra levende organismer Lars O. Baumbusch Senter for Bioinformatikk, IFI, UiO Rikshospitalet - Radiumhospitalet Medical Center Lars O. Baumbusch INF3350/INF4350 Høst 2007 1 Bioinformatics is generally defined as the analysis, prediction, and modeling of biological data with the help of informatics Lars O. Baumbusch INF3350/INF4350 Høst 2007 2 Prokaryoter og eukaryoter Menneskets genom Prokaryoter Eukaryoter Genomet Enkel celle Ingen nukleus En eller flere celler Nukleus Kjernegenom 3 200 000 000 bp ~35 000 gener Mitokondrisk genom 16 600 bp 37 gener Ingen organeller Ett sirkulært kromosom Enkel intern organisering Ingen mrna post transkriptsjonal modifikasjon Organeller To eller flere kromosomer Exons/Intron splicing 25% 75% Gen-relatert Ikke gen-relatert >10% <90% Kodende DNA Ikkekodende DNA Repetitiv DNA Annet Pseudogener Genfragmenter Introner m.m. Lars O. Baumbusch INF3350/INF4350 Høst 2007 3 Lars O. Baumbusch INF3350/INF4350 Høst 2007 4 1
Kromosomene dobbelheliks kromatin nukleosom Byggestenene i DNA er fire nukleotider Byggestenene i DNA er de fire nukleotidene 2'-deoxyadenosin 5'-trifosfat = datp = A 2'-deoxycytidin 5'-trifosfat = dctp = C 2'-deoxyguanosin 5'-trifosfat = dgtp = G 2'-deoxythymidin 5'-trifosfat = dttp = T kromosomer Lars O. Baumbusch INF3350/INF4350 Høst 2007 5 Lars O. Baumbusch INF3350/INF4350 Høst 2007 6 Det sentrale dogmet i biologi Fra DNA til protein Det er rekkefølgen av baser i DNA-sekvensen som bestemmer rekkefølgen av aminosyrer i proteinet. Transkripsjon (RNA syntese) og translasjon (protein syntese) fører fra DNA til protein promoter DNA pre-mrna exon intron transkripsjon exon terminator etterprosessering (splicing, capping, polyadenylering) mrna translasjon protein Lars O. Baumbusch INF3350/INF4350 Høst 2007 7 Lars O. Baumbusch INF3350/INF4350 Høst 2007 8 2
Proteiner er livets byggestener Celle-deling Proteiner er byggestenen i alle levende organismer Proteiner er lange kjeder av aminosyrer (21 ulike) Kveiler seg opp i kompliserte og veldig varierte 3D-strukturer Utfører mange forskjellige oppgaver: enzymer antistoffer transportproteiner (f.eks. hemoglobin) reseptorer visse hormoner (f.eks. insulin) muskler, hud, hår, brusk Hemoglobin 1. Mitotiske celle-deling Normal celledeling Resulterer i diploide datterceller Dattercellene er genetisk like 2. Meiotiske celle-deling (reduktiv deling) Gjelder kun primære eggceller og spermatocyter; gir som resultat gameter (spermceller og eggceller) Resulterer i haploide datterceller Dattercellene er genetisk ulike 2n 2n 2n 2n n n n n Lars O. Baumbusch INF3350/INF4350 Høst 2007 9 Lars O. Baumbusch INF3350/INF4350 Høst 2007 10 Mendels prinsipper Gener forekommer i ulike varianter eller alleler Vi har alle to utgaver av hvert gen. Disse kan være ulike alleler (heterozygot) eller samme allel (homozygot) Segregeringsprinsippet: Hver kjønnscelle (og følgelig hvert avkom) får en av de to utgavene og det er tilfeldig hvilken av dem det er. Prinsippet om uavhengig utplukk: Hvilken utgave vi får av et gen har ingen innvirkning på hvilken utgave vi får av et annet gen, forutsatt at genene ligger på forskjellige kromosomer. Lars O. Baumbusch INF3350/INF4350 Høst 2007 11 Genetisk variasjon og mutasjon Mutasjoner er svert sjelden skje under DNA replikasjon er tilfeldig forandrer DNA sekvens/kode > ny variasjon er dårlig for enkeltindivid sjeldne, trenges flere andre faktorer i tillegg for å transformere en art Lars O. Baumbusch INF3350/INF4350 Høst 2007 12 3
Genetisk kopling 1 2 3 Aa Bb Cc La A,B,C være de maternale og a,b,c være de paternale allelene for de tre genene. Forutsatt at chiasmata (= overkrysning) oppstår med like stor sannsynlighet alle steder langs et kromosom, er det mer sannsynlig med en overkrysning mellom gen 2 og gen 3 enn det er mellom gen 1 og gen 2. Da forventer vi flere gameter med (A,B,c) eller (a,b,c) enn med (A,b,c) eller (a,b,c). Konstruksjon av genetiske kart Betrakt to genetiske markører på samme kromosom: Genotype AB Ab ab ab 50% 0% 0% 50% A a B b kromosom 1 Fordelingen til genotypene avhenger av antall rekombinasjoner mellom genene: Ingen rekombinasjon En rekombinasjon 25% 25% 25% 25% To rekombinasjoner 50% 0% 0% 50% Lars O. Baumbusch INF3350/INF4350 Høst 2007 13 Lars O. Baumbusch INF3350/INF4350 Høst 2007 14 Basics of biotechnology methods Cutting and pasting DNA Restriction enzymes Cloning Copying DNA Polymerase Chain Reaction Measuring DNA length Electrophoresis DNA sequencing Hybridization Southern blotting Microarrays Lars O. Baumbusch INF3350/INF4350 Høst 2007 15 Bruksområder Generelle formål for parallell eksperimenter genomiske undersøkelser: Whole genome arrays Kan se hvordan genekspresjon varierer over tid mellom individer eller i en cellesystem mellom sykdomstilstander Kan designe mikromatriser for spesielle formål human cancer array: 1700 utvalgte gener lymphochip: 18000 gener knyttet til lymfekreft Bestemte gener, pathways, organismer Lars O. Baumbusch INF3350/INF4350 Høst 2007 16 4
Mikromatriser trinn for trinn Array CGH tissue tissue 1. Extract RNA make cdna reference RNA tumor RNA 1. Extract DNA reference DNA tumor DNA 2. Label with fluorescent dyes 2. Label with fluorescent dyes 3. Hybridize to microarray 4. Scan intensity 5. Analyse 3. Hybridize to microarray 4. Scan intensity 5. Analyse (after: Brown PO and Botstein D 1999 and Perou CM et al., 2000) Lars O. Baumbusch INF3350/INF4350 Høst 2007 17 (After: Brown and Botstein 1999 Lars O. Baumbusch INF3350/INF4350 Høst 2007 and Perou et al., 2000) 18 An array of uses På lang sikt... BAC, oligos Copy number changes Bedre forståelse av mange geners funksjon Bedre differensiering mellom ulike sykdomstilfeller Skreddersydde behandlinger Utvikling av medikamenter som modifiserer ekspresjonen til farlige gener Gen-tester for diverse sykdommer ikke helt uproblematisk... (From: S. Saunak, Recent technologies Lars O. Baumbusch INF3350/INF4350 Høst 2007 and applications, UCSF 2004) 19 Lars O. Baumbusch INF3350/INF4350 Høst 2007 20 5
Kompleks prosess Sammenlikning av flere populasjoner Biological question Differentially expressed genes Sample class prediction etc. Det er ofte interessant å sammenlikne gen-ekspresjonen i mange forskjellige populasjoner: Estimation Experimental design Microarray experiment 16-bit TIFF files Image analysis (Rfg, Rbg), (Gfg, Gbg) Normalization R, G Testing Clustering Discrimination Biological verification and interpretation Identifikasjon av vevsspesifikke gener Søke etter endringer i genekspresjon når normale celler endrer seg til kreftceller Skille mellom ulike ekspresjonsmønstre i samme krefttyper Studere cellulære responser til endringer i omgivelsene (f.eks. virusinfeksjon, giftstoffer, legemiddler) Lars O. Baumbusch INF3350/INF4350 Høst 2007 21 Lars O. Baumbusch INF3350/INF4350 Høst 2007 22 Hvorfor klustre ekspresjonsdata? Klustering metoder Hvorfor klustre gener: Redusere kompleksitet: identifisere typiske ekspresjonsmønstre Generere hypoteser: liknende ekspresjonsmønster kan være indikasjon på liknende funksjon eller koregulering Hvorfor klustre prøver: Identifisere kjente kategoriseringer (f.eks. i friske og syke ) basert på ekspresjon K-means klustering Hierarkisk klustring Self-organizing maps (SOM) Prinsipalkomponent klustring Finne nye (eller mer detaljerte) kategoriseringer (f.eks. subtyper av en sykdom) basert på ekspresjon Lars O. Baumbusch INF3350/INF4350 Høst 2007 23 Lars O. Baumbusch INF3350/INF4350 Høst 2007 24 6
Distance measure Distance measure Euclidean distance: Is the square root of the sum of squared distances between expression data points When comparing x gene expression with y gene expression at time point i (assuming there are n time points in total), the distance score (d) can be calculated by: n d = ( x y ) i= 1 i i 2 Euclidean distance: Manhattan- distance: d( xy, ) = ( x y ) d( xy, ) = xk yk k 2 k Lars O. Baumbusch INF3350/INF4350 Høst 2007 25 Lars O. Baumbusch INF3350/INF4350 Høst 2007 26 Distance measure Pearsons korrelasjonskoeffisient Pearson correlation coefficient: Measures the overall similarity between the trends or shapes of two sets of data To vektorer x og y (sentrerte): x Samme vektorer, nå skalert: ax Perfect positive correlation = 1 Perfect negative correlation = -1 Distance score (d) can be calcluated as: 1 n xi x yi y d = n i= 1 sdi sdi (Were n is the total number of time points, x and y are average values for the x gene and y gene data, and sd are the standard deviation values θ y Euklidsk avstand (svarer til stiplede linjer) avhenger av skaleringen Pearsons korrelasjonskoeffisient (svarer til vinkler) avhenger ikke av skaleringen Med Pearson korrelasjon er ikke skaleringen av dataene viktig; med Euklidsk avstand er den det θ by Lars O. Baumbusch INF3350/INF4350 Høst 2007 27 Lars O. Baumbusch INF3350/INF4350 Høst 2007 28 7
7 3 2 5 8 6 1 4 9 Hierarkisk klustring Resultatet er en nestet sekvens av partisjoner av dataene (partisjoner inni partisjoner) som normalt vises i form av et dendrogram Ordningen av objektene (genene, prøvene) er ikke entydig i et dendrogram: ved hver forgrening kan vi velge å bytte om plasseringen av høyre og venstre gren Tre sentrale varianter: single-link, complete-link, averagelink Mange varianter Avstanden mellom to klustre kan defineres på flere måter: Single linkage : bruk minste punktavstand Complete linkage: bruk største punktavstand Average linkage : bruk gjennomsnittlig punktavstand Complete linkage 0 50 100 150 200 250 24 40 43 18 10 45 21 39 11 19 46 33 42 17 20 16 27 15 41 23 34 49 22 38 13 30 14 35 29 32 36 26 28 44 12 50 37 47 48 25 31 Single linkage Lars O. Baumbusch INF3350/INF4350 Høst 2007 29 Lars O. Baumbusch INF3350/INF4350 Høst 2007 30 Validering av klustre Homogenitet innen klustre kan f.eks. måles som gjennomsnittlig avstand fra et klustermedlem til senteret av klusteret Separasjon mellom klustre kan f.eks. måles som gjennomsnittlig avstand mellom klustersentre, eller minste avstand mellom to klustersentre Robusthet av klustre kan f.eks. måles ved å se hvor stor endring man får i klusterne når punktene perturberes (dvs hvert punkt forflyttes litt i en tilfeldig retning) Lars O. Baumbusch INF3350/INF4350 Høst 2007 31 8