Dypsekvensering. Next generation sequencing (NGS) High throughput sequencing (HTS)

Dypsekvensering Next generation sequencing (NGS) High throughput sequencing (HTS) Bioingeniørkongressen 03.06.2016 Eidi Nafstad Avdelingsingeniør Avdeling for medisinsk genetikk, OUS Kromosomer og DNA 1

Fra gen til protein Standardmetoder på genetisk laboratorium Fragmentanalyse - Fragmentlengder (ekspansjoner) - Semikvantitativ - trisomier MLPA - delesjoner/duplikasjoner DNA sekvensering - enkeltbasemutasjoner - små delesjoner/insersjoner FISH - påvisning av fravær/tilstedeværelse av spesifikke sekvenser - informasjon om plassering - avhengig av celler i deling Southern blotting - store (kb) delesjoner/ekspansjoner Karyotyping - påvisning av store strukturelle feil >5 Mb - påvisning av numeriske feil - avhengig av celler i deling Array CGH - påvisning av delesjoner/duplikasjoner i hele genomet >50 kb - ser ikke balanserte kromosomfeil eller triploidi 2

Monogene sykdommer hos mennesket En gentisk feil kan alene gi en tilstand/sykdom Valgt avgrensning Ca. 4700 tilstander/sykdommer har en kjent genetisk årsak (OMIM) Mange tilstander/sykdommer har fortsatt ingen kjent genetisk årsak Økt sekvenseringseffektivitet en genetisk revolusjon Sangersekvensering: Sekvensering av ett og ett ekson (ca. 500 baser i hver reaksjon) Dypsekvensering: Massiv parallellisering av sekvenseringen Kan sekvensere hele genomet på en gang (ca. 3Mb) 3

Dypsekvensering gir nye muligheter Store muligheter for effektivisering Sykdom/tilstand assosiert med flere gener Mange gener kan sekvenseres samtidig Bedre diagnostikk av heterogene tilstander Nye pasientgrupper får tilbud Større mulighet til å finne årsak til sykdom Ny kunnskap fra forskning kan implementeres raskt i diagnostikk Dypsekvensering prinsipp 4

Ulike mengder DNA sekvenseres Målrettet/ targeted sekvensering: Kun gener analysen er designet for Få gener og mange pasienter Eksomsekvensering: alle genene Ca. 20 000 gener 1 2 % av genomet Mange gener og få pasienter Genomsekvensering: Hele genomet sekvenseres Ca. 3 Gb 5

Maks antall cluster 25 M 400 M 4000 M 6000 M Maks sekvenslengde 2x300 bp 2x150 bp 2x125 bp 2x150 bp Sekvensmengde/run 15 Gb 120 Gb 1 000 Gb 1 800 Gb Typisk tid/run 24 timer 24 timer 6 dager 3 dager Eksempler AMG OUS Arvelig kreft (17 gener) 24 prøver/run TruSight One (~5000 gener) 36 prøver/run Eksom (ca. 20 000 gener) 64 prøver/run Genom (3 Gb) 16 prøver/run Dataprosessering Demultipleksing Sortere hvilke sekvenser som tilhører hvilken prøve Mapping Aligne DNA sekvensene fra hver prøve mot en referanse Variant calling Finne sekvensvarianter (forskjeller fra referansen) Annotering Legge til informasjon fra eksterne databaser Gir sekvensvarianten konsekvenser på proteinnivå? Har andre sett sekvensvarianten før, finnes den i databaser? Finnes den i forskningsartikler som beskriver varianten? 6

Dataprosessering Krever store mengder datakraft og lagring Prosesseringstid (cpu timer) Analysetid (timer) Lagring (GB) Eksom 70 11 40 Genom 1000 81 500 Regneklynge Bruker Tjenester for sensitive data ved UIO Sikker løsning for prosessering og lagring av data Over 1500 prosessorkjerner >1 petabyte lagring (1PB = ~1 000 000 GB) 7

Visualisering av data IGV: Integrative Genomics Viewer 8

Vurdering av varianter Kategoriseres inn i fem klasser 1 dokumentert normal 2 sannsynlig normal 3 usikker klinisk betydning (VUS) 4 sannsynlig sykdomsgivende 5 dokumentert sykdomsgivende t tekniske artefakter u utenfor området som skal vurderes Varianter i klasse 3 5 rapporteres til rekvirent Analyse kun av relevante gener (genlister/genpanel) Begrenser antall funn som må vurderes antall varianter av usikker klinisk betydning (VUS) antall utilsiktede funn Diagnostiske genlister skal være evidensbaserte Evidens for at mutasjon i genet som analyseres forårsaker gitt tilstand 9

Frekvensdatabaser 1000 Genome ESP (NHLBI Exome Sequencing Project) ExAC (Exome Aggregation Consortium) Ca. 60 000 individer (ikke i slekt) IntDB Oppsamling av varianter funnet i alle diagnostiske eksomer analysert ved AMG OUS Alle syke, men forskjellige sykdommer Inneholder norske varianter 10

Nye utfordringer ved dypsekvensering Store datamengder Lagring Prosessering Overføring Analyse Kun få kommersielle programvare for analyse av sekvensdata Pipeline må utvikles av våre bioinformatikere Kvalitet Usikker deteksjon av delesjoner og duplikasjoner Andre metoder kjøres eventuelt parallelt Variantvurdering Mange flere varianter Genpaneler AMG OUS Antall gener Lab prep kit Sekvensator Epileptisk encefalopati og psykisk utviklingshemming 57 Genetiske bindevevssykdommer 33 Ciliopatier (8 underpaneler) 115 Hereditær spastisk paraparese og hereditær ataksi 51 Iktyose (ikke x bundet) 40 Mitokondriesykdommer 115 Epidermolysis bullosa 20 Medfødt glykosyleringsdefekt type 1 25 Ektodermal dysplasi og hypodonti 35 Craniofaciale malformasjoner ca. 60 Primær immunsvikt ca. 300 Trio Psykisk utviklingshemmng og forsinket utvikling 755 Agilent Sure Select 50Mb exome Illumina TruSight One ~5000 gener Arvelig kreft 17 Illumina Nextera Custom Capture Kardiomyopati? Illumina TruSight Cardio 174 gener HiSeq 2500 NextSeq 500 MiSeq MiSeq 11

Takk for meg! 12

Vesentlige parametre ved variantvurderingen Frekvens i normal populasjoner Endringens plassering Kodende ikke-kodende i spleisesete Type endring Delesjon, duplikasjon, insersjon Enkeltbaseforandring (SNP) Arveform (dominant, recessiv, X-bundet) Ulike analysestrategier De novo (trio) Resessiv, homozygot Resessiv, sammensatt heterozygot Flere urelaterte pasienter med samme fenotype Filtrering av gener for analyse (genlister) 13