Et virus assosiert med HSMB er kartlagt. Del 2: Metodikk og potensiale Torstein Tengs
Ukjente patogener I alle systemer finnes det sykdommer hvor man mistenker et infektiøst agens, men hvor dette ikke er blitt identifisert Sannsynligvis store mørketall (sykdommer hvor et patogen er involvert men hvor man ikke ennå har data som underbygger dette) Hos menneske er det en rekke kjente sykdommer hvor man har lett etter patogener (lymfomer, astma, MS osv) Sopp, parasitter, protister, virus, bakterier etc.
Hva er problemet? Det er ikke trivielt å plukke rett vev/tidspunkt i sykdomsforløpet. Av og til er det bra å ikke ha detaljert kunnskap om sykdommen... Agens kan ikke dyrkes eller anrikes enkelt Klassiske molekylære metoder fungere ikke (konsensus PCR, subtraksjon etc.) Alternative metoder fungerer ikke/har ikke blitt prøvd: enzymatisk nedbrytning av vert DNA, screening av biblioteker med prober osv Sykdommen er ikke et resultat av, eller bare delvis forårsaket av, en infeksjon (autoimmun?)...
Sekvenserings-basert patogen karakterisering Man kan studere alle levende organismer indirekte ved å studere deres genomer og transkripter (og proteiner ) DNA/RNA må opprenses og prepareres for sekvensering Stor mengder sekvensdata må genereres Datakraft brukes til å fjerne sekvenser man forventer (vertsgenom/transkriptom, kjente kontaminanter osv) Kandidatsekvenser følges opp med videre sekvensering og PCR
Første eksempel: Computational Subtraction Alle sekvenser fra humane transkripter ble lastet ned fra GenBank (>3 millioner EST sekvenser) Humane (og muse) sekvenser ble fjernet ved å bruke BLAST og MegaBLAST 65.839 kandidatsekvenser ble identifisert Weber et al. Identification of foreign gene sequences by transcript filtering against the human genome. Nat Genet. 2002 Feb;30(2):141-2.
Computational Subtraction Se også: Pathogen discovery from human tissue by sequence-based computational subtraction. Xu et al. Genomics. 2003 Mar;81(3):329-35.
Computational Subtraction - GMO Norge har ett av verdens strengeste regelverk når det kommer til genetisk modifiserte organismer. Det er tillatt kun med spormengder i materiale som skal til humant konsum og inntil 5% i dyrefôr (godkjente GMOer). En GMO defineres som en organisme som er blitt genetisk manipulert ved hjelp av molekylærbiologiske metoder. Brorparten av GMOene har fått satt inn et konstrukt: Toksiner som dreper sopp/bakterier/parasitter (men ikke oss ) Toleranse ovenfor sprøytemidler (Økt næringsinnhold, bedre dyrkbarhet etc.)
Analyse av 5455 EST sekvenser fra GMO ris og 75846 mrna sekvenser fra SunUp papaya
Computational Subtraction - GMO 454-sekvensering av mrna fra GMO Arabidopsis thaliana - Fant også en rekke nye gener/splice former Characterization of unknown genetic modifications using high throughput sequencing and computational subtraction. Tengs et al. BMC Biotechnol. 2009 Oct 8;9:87.
Mer data for pengene Man trenger ikke lange sekvenser for å kunne si om noe ser ut til å være en god kandidat eller ikke Tradisjonell Sanger sekvensering (og til en viss grad 454-basert pyrosekvensering) gir egentlig lengre sekvenser ( reads ) enn det man trenger (300-400+ baser) Man kan subsample DNA/RNA ved å kutte det i småbiter og lime det sammen til lange kjeder ved hjelp av molekylærbiologisk akrobatikk (SAGE, RECORD etc.) Man kan da identifisere flere fragmenter per read
Genomic representations using concatenates of Type IIB restriction endonuclease digestion fragments. Tengs et al. Nucleic Acids Res. 2004 Aug 25;32(15):e121. Patent: Nucleic acid representations utilizing Type IIB restriction endonuclease cleavage products. Matthew L. Meyerson and Torstein Tengs. Patent publication number 2005/079357, application number PCT/US2005/004571.
Subtraksjon av sekvens tags Det er ikke trivielt å filtrere bort uønskede sekvenser (Alternativ løsning sammenlign data mot kjente patogen grupper ) Pass på å ikke kast ut barnet med badevannet Viktig å trimme sekvenser for vektor, linkere etc. Bare bruk sekvenser/baser av god kvalitet Masse data i GenBank (og andre steder) er feilannotert og svært mange komplette genomer er lang fra ferdige (inkluder det human genomet )
Lipkins metode Det går an å bruke både polya RNA og genomisk DNA for å lete etter patogener. Det er også mulig å gjøre ting billigere/enklere ved å bruke sekvens tags Man gjør færrest antagelser ved å bruke total RNA som utgangspunkt, men da ender man opp med >90 % rrna reads Lengre reads er bedre enn tags, men dette vil kreve masse ressurser både til sekvensering og analyse Nye sekvenseringsteknologier og raske algoritmer/datamaskiner har i de siste årene allikevel gjort dette mulig! A metagenomic survey of microbes in honey bee colony collapse disorder. Cox-Foster et al. Science. 2007 Oct 12;318(5848):283-7. Microbe hunting in the 21st century. Lipkin WI. Proc Natl Acad Sci U S A. 2009 Jan 6;106(1):6-7.
Lipkins metode - HSMI Total RNA ble isolert fra hjerte og serum fra utbruddsfisk og fisk fra smitteeksperiment (Kongtorp & Taksdal. J Fish Dis. 2009 Mar;32(3):253-62) Total RNA ble revers transkribert og PCR amplifisert ved hjelp av todelte primere (randomisert oktamer og definert primer sekvens) 15 prøver (9 hjerte og 6 serum) ble sekvenser ved hjelp av 454 pyrosekvensering (om lag 100.000 reads per prøve) Sekvenser ble assemblet slik at contigs ble konstruert av overlappende reads Sekvenser som matchet ribosomalt RNA ble fjernet (SILVA database) Sekvenser som matchet sebrafisk (komplett genom tilgjengelig) ble fjernet Resterende contigs ble oversatt i alle leserammer til protein og BLAST et mot GenBank ved hjelp av tblastx (alle leserammer mot alle leserammer) Resultatet ble tabulert med detaljert info (antall reads i hver contig, bit score, taksonomi til treff, lengde på contig osv)
Lipkins metode - HSMI Flere contigs ble funnet fra noe som lignet på et reovirus Ett PCR assay ble designet for et konservert fragment Alle prøvene ble screenet med dette assayet og den prøven som så ut til å ha høyest titer ble sekvensert en runde til ved hjelp av 454 En rekke contigs ble identifisert fra et nytt reovirus og ingen reads fra andre typer virus ble observert (som ikke kunne avskrives som kontaminanter eller feilannotasjoner) Ved hjelp av forskjellige versjoner av BLAST og FASTX i tillegg til FASD ble en rekke contigs identifisert, og RACE ble brukt for å komplettere 10 genom fragmenter FASD (Frequency Analysis of Sequence Data) er en algoritme som sammenligner metainformasjon fra sekvenser; ikke primærsekvens, men (di/tri) nukleotid mønstre, basesammensetning etc.
Bioinformatikk Når det komplette genomet forelå kunne man konstantere: Bare 1.5 % av genomet kunne gjenkjennes som viralt ved hjelp av nukleotid BLAST 54 % av genomet kunne gjenkjennes som viralt ved hjelp av protein blast 1.264 reovirus reads ble generert fra den opprinnelige 454 sekvenseringen Alle (bortsett fra èn) kom fra sekvensering av serum RNA
Fjern alle punktum, komma og mellomrom gruppèr basert på frekvenser av tekstvindu (lengde 9). Alignment-free genome comparison with feature frequency profiles (FFP) and optimal resolutions. Sims et al. Proc Natl Acad Sci U S A. 2009 Feb 24;106(8):2677-82.
Jeg vil takke Veterinærinstituttet Marie Løvoll Torstein Tengs Anja Braathen Kristoffersen Columbia University W. Ian Lipkin Gustavo Palacio Harvard University Matthew Meyerson