For (3) har denne side mange links til værktøjer til mønster / motiv. Efter linket YMF på den side stødte jeg på University of Washington Motif Discovery sektionen. Af disse projektion syntes det at være det eneste værktøj, der kan downloades. Jeg finder det interessant, hvor gamle alle disse værktøjer er; måske indførelsen af mikroarrays og NGS har gjort dem alle overflødige.
Dit underproblem (2) ligner det problem, jeg har med Nippostrongylus brasiliensis genomssekvenser, hvor Jeg vil gerne finde regioner med meget høj homologi (længde 500bp til 20kb eller mere, 95-99% ens), der gentages i hele genomet. Disse sekvenser dræber samlingen.
Den vigtigste måde, jeg kan finde disse regioner på, er ved at se på et dækningsdiagram over lange nanoporelæsninger kortlagt til det samlede genom (ved hjælp af GraphMap eller BWA). Regioner med væsentligt højere median dækning deles sandsynligvis gentagelser.
Jeg har tidligere spillet med at hugge læsningerne til mindre størrelser, hvilket fungerer bedre til at ramme mindre gentagne regioner, der er en lille del af de fleste læser, at de aldrig er kortlagt til alle de gentagne placeringer. Jeg skrev mit eget script et stykke tid tilbage for at hugge op læser (til et andet formål), hvilket producerer en FASTA / FASTQ-fil, hvor alle læsninger har nøjagtig samme længde. Af ukendt grund tog jeg mig tid til at dokumentere dette script "ordentligt" ved hjælp af POD, så her er et kort resume:
Konverterer alle sekvenser i input FASTA-filen til samme længde. Sekvenser, der er kortere end mållængden, droppes, og sekvenser, der er længere end mållængden, opdeles i overlappende sekvenser, der dækker hele området. Dette forbereder sekvenserne til brug i en overlapning-konsensus-samler, der kræver sekvenser med konstant længde (såsom edena).
Og her er syntaksen:
$ ./normalise_seqlengths.pl -hForbrug:
./normalise_seqlengths.pl <reads.fa> [optioner] Valgmuligheder: -hjælp Vis kun denne hjælpemeddelelse -fraglength Målfragmentlængde (i basepar, standard 2000) -overlap Minimum overlapningslængde (i basepar, standard 200) -short Hold korte sekvenser (kortere end fraglength)