Hvilket motivsøgningssoftware er tilgængeligt til flere sekvenser ~ 10Kb?

Charles E. Grant

2017-06-14 00:28:20 UTC

view on stackexchange narkive permalink

MEME Suite -webstedet indeholder en samling værktøjer til motivanalyse (jeg er en af vedligeholdere). Den indeholder to de novo motiv-opdagelsesværktøjer: MEME og DREME. Der findes offentlige webapplikationer, men du kan også downloade og oprette kommandolinjeværktøjer til en lokal installation.

For dit første mål kan du bruge MEME og vælge "Et hvilket som helst antal gentagelsesmodel "(ANR). Til dit andet mål bruger du MEME med modellen "Zero or One Occurrences Per Sequence" (ZOOPS). Til dit tredje mål kan du bruge FIMO (Find individuelle motivforekomster) og en eller flere af motivdatabaser, der findes på software- og databaseoverførselssiden.

Det lyder som din sekvensdata er ca. 30 Mb. MEME-webapplikationen er begrænset til 60 kb sekvensdata, så du bliver nødt til at installere en lokal kopi af MEME Suite. MEME ville tage lang tid at analysere en 30Mb sekvensdatabase, medmindre du har konfigureret MPI og mange kerner til rådighed. Du kan overveje at analysere et tilfældigt valgt undersæt af dine sekvenser. MEME's driftstid vokser som terningen af antallet af sekvenser.

For korte motiver kan du bruge DREME i stedet for MEME. DREME er bedre end MEME til at identificere korte motiver, men er begrænset til motiver < = 8 positioner brede.

EMiller

2017-06-12 21:02:22 UTC

view on stackexchange narkive permalink

Tjek HOMER. "Software til motivopdagelse og næste generations sekventeringsanalyse", det er, hvad mit laboratorium i øjeblikket bruger til at finde eRNA-motiver.

Rediger: For @ShanZhengYang "HOMER blev designet som en de novo-opdagelsesalgoritme ..." HOMER De Novo Motiv

Kan man finde de novo motiv opdagelse? Hvis ikke, er jeg ikke helt sikker på, hvordan jeg ville skabe en baggrund med denne model.

@ShanZhengYang Se min redigering.

Tak. Jeg er stadig ikke sikker på grund af min opsætning, hvordan jeg vælger en baggrund til Homer dog ...

Jeg har aldrig brugt det til De Novo, så tag dette med et saltkorn, men prøv først standardindstillingerne. Måske skyde udviklerne en e-mail.

For at udvide @EMillers kommentar kan HOMER finde ud af en baggrundsmodel til dig for mange modelorganismer. Du skal bare installere de understøttende filer til din modelorganisme ved hjælp af configureHomer.pl

gringer

2017-06-09 07:19:01 UTC

view on stackexchange narkive permalink

For (3) har denne side mange links til værktøjer til mønster / motiv. Efter linket YMF på den side stødte jeg på University of Washington Motif Discovery sektionen. Af disse projektion syntes det at være det eneste værktøj, der kan downloades. Jeg finder det interessant, hvor gamle alle disse værktøjer er; måske indførelsen af mikroarrays og NGS har gjort dem alle overflødige.

Dit underproblem (2) ligner det problem, jeg har med Nippostrongylus brasiliensis genomssekvenser, hvor Jeg vil gerne finde regioner med meget høj homologi (længde 500bp til 20kb eller mere, 95-99% ens), der gentages i hele genomet. Disse sekvenser dræber samlingen.

Den vigtigste måde, jeg kan finde disse regioner på, er ved at se på et dækningsdiagram over lange nanoporelæsninger kortlagt til det samlede genom (ved hjælp af GraphMap eller BWA). Regioner med væsentligt højere median dækning deles sandsynligvis gentagelser.

Jeg har tidligere spillet med at hugge læsningerne til mindre størrelser, hvilket fungerer bedre til at ramme mindre gentagne regioner, der er en lille del af de fleste læser, at de aldrig er kortlagt til alle de gentagne placeringer. Jeg skrev mit eget script et stykke tid tilbage for at hugge op læser (til et andet formål), hvilket producerer en FASTA / FASTQ-fil, hvor alle læsninger har nøjagtig samme længde. Af ukendt grund tog jeg mig tid til at dokumentere dette script "ordentligt" ved hjælp af POD, så her er et kort resume:

Konverterer alle sekvenser i input FASTA-filen til samme længde. Sekvenser, der er kortere end mållængden, droppes, og sekvenser, der er længere end mållængden, opdeles i overlappende sekvenser, der dækker hele området. Dette forbereder sekvenserne til brug i en overlapning-konsensus-samler, der kræver sekvenser med konstant længde (såsom edena).

Og her er syntaksen:

  $ ./normalise_seqlengths.pl -hForbrug:
./normalise_seqlengths.pl <reads.fa> [optioner] Valgmuligheder: -hjælp Vis kun denne hjælpemeddelelse -fraglength Målfragmentlængde (i basepar, standard 2000) -overlap Minimum overlapningslængde (i basepar, standard 200) -short Hold korte sekvenser (kortere end fraglength)

Kristoffer Vitting-Seerup

2017-06-09 14:41:26 UTC

view on stackexchange narkive permalink

De fleste værktøjer, jeg kender til, søger berigelse af specifikke motiver - men det kræver, at du har et sæt sekvenser, der er af særlig interesse, og en baggrundssæt, du kan teste imod.

Er det din sag?

Opdater efter kommentarer 12. juni 2017.

Du kan prøve meme-pakken mere specifikt motivfinderen

Hej Kristoffer Vitting-Seerup, tak for din kommentar og velkommen til Bioinformatics Stack Exchange. Vi sætter pris på kommentarer som denne, der hjælper folk med at stille bedre spørgsmål. Jeg har markeret dit svar som "ikke et svar", fordi jeg synes, det skal tilføjes som en kommentar til spørgsmålet (som du ikke selv kan gøre, før du når et ry på 50).

Hej der, ja dette ville være en bedre kommentar til det originale spørgsmål. Dette er SO-stilen. Med hensyn til dit spørgsmål har jeg ikke et baggrundssæt

galicae

2017-06-09 15:20:12 UTC

view on stackexchange narkive permalink

det er under udvikling, men måske er BaMMmotif! noget for dig? Dens vigtigste salgsargument er, at det kan se efter motiver beriget i et sæt sekvenser af samme længde de novo . Hvis du ikke kan / ikke ønsker at levere et negativt sæt, lærer det et af de positive sekvenser. Der er et væld af muligheder at vælge imellem, hvis du har flere oplysninger om dine sekvenser: der er forskellige modeller til "nul eller en", "en" og "flere" forekomster af motivet.

Du kan Brug det også til at kigge efter kendte motiver, hvis du koder dem som en XXmotiv PWM. Hvis du har en fil med motiver (som bindingssider), kan du også bruge den som initialisering.

Selvom jeg ikke selv har brugt softwaren, er forfatterne meget lydhøre over git og installationsinstruktionerne virker smukke ligetil.

EDIT: Tilsyneladende blev softwaren udviklet med ChIP-eksperimenter som det sædvanlige brugsscenarie, det kan muligvis opføre sig forkert i større sekvenser eller tage super lang tid at køre.

Hej galicae, tak for dit svar og velkommen til Bioinformatics Stack Exchange. Dit svar er lidt kort og kunne gøre med lidt mere forklaring. Kan du tilføje lidt mere information til dit svar om BaMMmotif? Er det et værktøj, du har brugt før? Ville dette være et passende program til at finde nye delte motiver, gentagne motiver inden for samme sekvens eller kendte motiver?

@gringer fair nok, redigeret.