Jeg prøver i øjeblikket at samle et genom fra en gnaverparasit, Nippostrongylus brasiliensis . Dette genom har et eksisterende referencegenom, men det er meget fragmenteret. Her er nogle kontinuitetsstatistikker for stilladserne i det nuværende Nippo-referencegenom (samlet fra Illumina læser):
Samlede sekvenser: 29375 Samlet længde: 294.400206 MbLængste sekvens: 394.171 kbKorteste sekvens: 500 bMean Længde: 10.022 kbMedian længde: 2,682 kbN50: 2024 sekvenser; L50: 33,527 kbN90: 11638 sekvenser; L90: 4.263 kb
Dette genom er sandsynligvis vanskeligt at samle på grund af de genomiske sekvensers meget gentagne karakter. Disse gentagne sekvenser kommer i (mindst) tre klasser:
- Tandem gentages med en gentagelsesenhed længde større end læselængden på Illumina sequencere (f.eks. 171bp)
- Tandem gentages med en kumulativ længde, der er større end fragmentlængden af Illumina-sequencere, eller skabelonlængden til sammenkædede læser (f.eks. 20 kb)
- Kompleks (dvs. ikke- gentagne) sekvenser, der vises flere steder i hele genomet
Canu ser ud til at håndtere de to første typer gentagelser ganske godt, på trods af overflod af gentagen struktur i genomet. Her er enhedsoversigten produceret af Canu på en af de forsamlinger, jeg har forsøgt. Bemærk, at ca. 30% af læsningerne enten spænder over eller indeholder en lang gentagelse:
Den tredje type gentagelse giver mig dog en smule sorg. Ved hjælp af ovenstående samling er her kontinuitetsparametrene fra de samlede contigs:
Samlede sekvenser: 3505Total længde: 322.867456 MbLængste sekvens: 1.762243 MbKorteste sekvens: 2.606 kbMiddel længde: 92.116 kbMedianlængde: 42.667 kbN50: 417 sekvenser; L50: 194,126 kbN90: 1996 sekvenser; L90: 35.634 kb
Det er ikke en dårlig samling, især i betragtning af genomets kompleksitet, men jeg føler, at det kunne forbedres ved at tackle de komplekse genomiske gentagelser på en eller anden måde. Ca. 60Mb af kontigerne i denne samling er forbundet med hinanden på et enormt web (baseret på GFA-output fra Canu):
De gentagne regioner er typisk over 500 bp i længde, gennemsnit ca. 3 kb, og jeg har set mindst en sag, der synes at være en 20 kb sekvens, der er duplikeret i flere regioner.
Canu-standarder ser ud til at give de bedste monteringsresultater for de få parametre, jeg har prøvet, med en undtagelse: beskæring. Jeg har prøvet at lege lidt med beskæringsparametrene, og mærkeligt nok synes en beskæringsdækning på 5X (med overlapning på 500bp) at give en mere sammenhængende samling end med en beskæringsdækning på 2X (med samme overlapning). p>
Hvis nogen er interesseret i at se på disse data selv, kan kaldte FASTQ-filer fra Nippo-sekventeringsløb findes her. Jeg er stadig i gang med at uploade de rå nanopore-signalfiler, men de vil være tilgængelige i de næste par uger i forbindelse med ENA-projektet PRJEB20824. Der er også et Zenodo-arkiv her, der indeholder GFA og forsamlinger.
Har nogen andre forslag til, hvordan jeg kunne løse disse komplekse gentagelser?