Hvordan kan jeg forbedre en langlæst samling med et gentagne genom?

gringer

2017-05-25 16:46:36 UTC

view on stackexchange narkive permalink

Jeg prøver i øjeblikket at samle et genom fra en gnaverparasit, Nippostrongylus brasiliensis . Dette genom har et eksisterende referencegenom, men det er meget fragmenteret. Her er nogle kontinuitetsstatistikker for stilladserne i det nuværende Nippo-referencegenom (samlet fra Illumina læser):

  Samlede sekvenser: 29375 Samlet længde: 294.400206 MbLængste sekvens: 394.171 kbKorteste sekvens: 500 bMean Længde: 10.022 kbMedian længde: 2,682 kbN50: 2024 sekvenser; L50: 33,527 kbN90: 11638 sekvenser; L90: 4.263 kb

Dette genom er sandsynligvis vanskeligt at samle på grund af de genomiske sekvensers meget gentagne karakter. Disse gentagne sekvenser kommer i (mindst) tre klasser:

Tandem gentages med en gentagelsesenhed længde større end læselængden på Illumina sequencere (f.eks. 171bp)
Tandem gentages med en kumulativ længde, der er større end fragmentlængden af Illumina-sequencere, eller skabelonlængden til sammenkædede læser (f.eks. 20 kb)
Kompleks (dvs. ikke- gentagne) sekvenser, der vises flere steder i hele genomet

Canu ser ud til at håndtere de to første typer gentagelser ganske godt, på trods af overflod af gentagen struktur i genomet. Her er enhedsoversigten produceret af Canu på en af de forsamlinger, jeg har forsøgt. Bemærk, at ca. 30% af læsningerne enten spænder over eller indeholder en lang gentagelse:

kategori læser% læselængdefunktionsstørrelse eller dækningsanalyse -------------- - ------- ------- ---------------------- ------------ ------------ -------------------- mellem-manglende 694 0,07 7470,92 + - 5552,00 953,06 + - 1339,13 (dårlig beskæring) mellem -hump 549 0,05 3770,05 + - 3346,10 74,23 + - 209,86 (dårlig trimning) no-5-prime 3422 0,33 6711,32 + - 5411,26 70,92 + - 272,99 (dårlig trimning) no-3-prime 3161 0,30 6701,35 + - 5739,86 87,41 + - 329,42 (dårlig trimning) lav dækning 27158 2,59 3222,51 + - 1936,79 4,99 + - 1,79 (let at samle, potentiale for lavere kvalitetskonsensus) unik 636875 60.76 6240.20 + - 3908.44 25.22 + - 8.49 (let at montere, perfekt, yay) gentag-forts 48398 4,62 4099,55 + - 3002,72 335,54 + - 451,43 (potentiale for konsensusfejl, ingen indvirkning på samlingen) gentagedue 135 0,01 16996,33 + - 6860,08 397,37 + - 319,52 (svært at samle, sandsynligvis ikke montere korrekt eller endda overhovedet) span-repeat 137927 13.16 9329.94 + - 6906.27 2630.06 + - 3539.53 (læs spænder over en stor gentagelse, som regel let at samle) uniq-repeat-cont 155725 14.86 6529.83 + - 3463.16 (skal placeres entydigt, lavt potentiale for konsensusfejl, ingen indvirkning på samling) uniq-repeat-due 28248 2,70 12499 .99 + - 8446,95 (vil afslutte kontig, potentiale for at samles forkert) uniq-anker 5721 0,55 8379,86 + - 4575,71 3166,22 + - 3858,35 (gentag læsning med unikt afsnit, sandsynligvis dårlig læsning)

Den tredje type gentagelse giver mig dog en smule sorg. Ved hjælp af ovenstående samling er her kontinuitetsparametrene fra de samlede contigs:

  Samlede sekvenser: 3505Total længde: 322.867456 MbLængste sekvens: 1.762243 MbKorteste sekvens: 2.606 kbMiddel længde: 92.116 kbMedianlængde: 42.667 kbN50: 417 sekvenser; L50: 194,126 kbN90: 1996 sekvenser; L90: 35.634 kb

Det er ikke en dårlig samling, især i betragtning af genomets kompleksitet, men jeg føler, at det kunne forbedres ved at tackle de komplekse genomiske gentagelser på en eller anden måde. Ca. 60Mb af kontigerne i denne samling er forbundet med hinanden på et enormt web (baseret på GFA-output fra Canu):

De gentagne regioner er typisk over 500 bp i længde, gennemsnit ca. 3 kb, og jeg har set mindst en sag, der synes at være en 20 kb sekvens, der er duplikeret i flere regioner.

Canu-standarder ser ud til at give de bedste monteringsresultater for de få parametre, jeg har prøvet, med en undtagelse: beskæring. Jeg har prøvet at lege lidt med beskæringsparametrene, og mærkeligt nok synes en beskæringsdækning på 5X (med overlapning på 500bp) at give en mere sammenhængende samling end med en beskæringsdækning på 2X (med samme overlapning). p>

Hvis nogen er interesseret i at se på disse data selv, kan kaldte FASTQ-filer fra Nippo-sekventeringsløb findes her. Jeg er stadig i gang med at uploade de rå nanopore-signalfiler, men de vil være tilgængelige i de næste par uger i forbindelse med ENA-projektet PRJEB20824. Der er også et Zenodo-arkiv her, der indeholder GFA og forsamlinger.

Har nogen andre forslag til, hvordan jeg kunne løse disse komplekse gentagelser?

For at afklare: Vil du have beregningsløsninger, eller er du åben for at genbestille ved hjælp af specifikke teknikker til at forbedre samlingen?

Computational løsninger ville være at foretrække, men resequencing er ikke udelukket.

Jeg er forvirret med spørgsmålet. Det lyder som om du har statistik fra en illumina-samling og også nanoporedata, der ikke er en del af den rapporterede statistik. Så det åbenlyse svar synes at være at gøre f.eks. Canu + pilon (eller lignende) for at forsøge en bedre samling, der kombinerer begge datatyper. Men jeg gætter på, at det ikke er det, du leder efter. Kan du afklare?

Ix Canu [denne samler] (https://github.com/marbl/canu)? Hvem ser kontigerne af forsamlingen med Illumina ud. Det ser ud til, at forsamlingen med nanoPore er meget bedre.

Ja, jeg kan bruge Illumina-data til at rette Canu-samlingen, men det hjælper ikke med at løse "type 3" gentagelser. Regionerne er tilstrækkeligt ens, så illumina-læsninger bliver kortlagt til flere punkter i genomet.

Illumina-kontigene er af høj kvalitet (dvs. de har gode BUSCO-scores, hvilket indikerer få variantfejl), men ganske korte. Enhver sniff af en gentagelse og contig slutter. Jeg har mere end et par eksempler på regioner, der ville få en Illumina til at læse (selv 10x sammenkædede læser) bange i frygt.

Selvom Illumina-konti er af høj kvalitet, betyder det ikke, at de fungerer godt for et sådant gentaget genom.