Spørgsmål:
Hvordan udfører jeg effektivt en metagenomskærm af "alle" arter?
Konrad Rudolph
2017-08-01 21:24:35 UTC
view on stackexchange narkive permalink

Jeg har et RNA-seq datasæt med en stor del af miljømæssig RNA "forurening". BLASTing tilfældigt læser afslører, at meget af dataene kommer fra bakterielt, plante- og viralt RNA. Min målorganisme tegner sig kun for ~ 5% af RNA-seq-læst data.

Jeg vil gerne have et mere eller mindre (mere, hvis muligt) omfattende overblik over, hvilke arter der findes i min prøve - bakterier, planter, dyr (?), men også vira. Hvordan kan jeg udføre dette?

Jeg har ikke været i stand til at finde en "standard" måde at udføre en metagenomskærm på. BLAST-onlinetjenester ser alle ud til at være meget begrænsede satser (bestemt ikke i stand til at uploade ~ 80 M læser). Installation af BLAST (eller et lignende værktøj) lokalt er selvfølgelig ikke et problem, men jeg kan ikke finde en omfattende database, der spænder over alle phyler - det bedste, jeg har været i stand til at finde, er databaser, såsom NCBI-NR, der er begrænset til enkelt phyla eller klasser eller til bakterier.

Ideelt set vil jeg gerne have en arbejdsgang, som jeg fodrer med mine RNA-seq-data, og få en liste over arter med % af læsninger kortlagt.

NCBIs nr-database er ikke begrænset til nogen art, så vidt jeg ved. Hvorfor siger du, at det er begrænset til enkelt phyla eller klasser eller til bakterier? Ville ikke sprængning mod nr være god nok? Og er de virkelig så begrænsede? Jeg indrømmer, at jeg ikke har gjort dette i et par år, men tilbage på dagen kunne jeg bruge NCBIs kommandolinjeblastklient, som ville bruge en fjern nr. DB og med glæde kunne håndtere flere tusinde sekvenser. Har du prøvet det? Måske ved at opdele dine input læser?
@terdon Fra hvad jeg har læst, er det kun til prokaryoter. Men jeg har muligvis helt forkert. Med hensyn til hastighedsgrænsen angiver NCBI BLAST FAQ, at de ikke understøtter batchbrug, og at store job ikke skal køres via URL API.
Nr dækker en bred vifte af taxa som @terdon siger. Du kan downloade det og oprette din egen blast db, hvis du har ~ 100 GB diskplads og en medium hukommelsesserver. BLAST vil dog være langsom, jeg vil i stedet anbefale DIAMOND
Fem svar:
gringer
2017-08-02 02:54:52 UTC
view on stackexchange narkive permalink

Som du påpeger, fungerer BLAST ikke godt til læsninger fra et typisk RNASeq-eksperiment.

Fra et RNASeq-datasæt kan du muligvis slippe væk med bare en ribosomal skærm ved hjælp af Silva, fordi ribosomet er det mest rigeligt transkriberede gen. Dette vil normalt være tilfældet, selvom polyA-selektion eller ribosomal udtømning blev udført på en prøve.

Husk dog, at der vil være mange falske resultater på grund af database-ufuldstændighed. Jeg brugte Kraken, da jeg gjorde noget lignende for et par år siden, og endte med en sekvens, der blev kommenteret som en frugtflagermus (hvor mit emne var en vandlevende planarisk fladorm). Centrifuge ville være en bedre mulighed nu; forfatterne hævder endda, at de kan gemme hele nr i et 70 GB indeks med Centrifuge (hvilket ville være bedre / mere omfattende end bare en ribosomal skærm).

terdon
2017-08-01 22:36:43 UTC
view on stackexchange narkive permalink

Jeg tror, ​​du bare leder efter nr . Det er absolut ikke begrænset til prokaryoter, langt fra det. Ifølge blurb på NCBI's eksplosionsside:

Nukleotidsamlingen består af GenBank + EMBL + DDBJ + PDB + RefSeq-sekvenser, men ekskluderer EST, STS, GSS, WGS, TSA , patentsekvenser såvel som fase 0, 1 og 2 HTGS sekvenser. Databasen er ikke overflødig. Identiske sekvenser er blevet flettet i en post, samtidig med at oplysningerne om tiltrædelse, GI, titel og taksonomi bevares for hver post.

Det link, du gav i dit spørgsmål, beskriver ikke nr database, men samlingen af ​​RefSeq ikke-redundante sekvenser. De to er slet ikke den samme. Nr-databaser indeholder sekvenser fra alle tilgængelige arter, så det skal være perfekt til det, du leder efter.

Nu indrømmer jeg, at jeg ikke har prøvet dette med millioner af redas, men jeg kørte mange eksplosionssøgninger med flere tusinde sekvenser ved hjælp af kommandolinjens eksplosionsværktøjer og den eksterne nr-database. Jeg har lige tjekket blast + docs nu og ser ingen omtale af en satsgrænse. Hvilket ikke er at sige, at der ikke er en bestemt, men da hver forespørgsel køres sekventielt, når du giver en multifasta-fil, ser det ud til at være grund til at begrænse, da serverne skal være i stand til at stille jobene i kø efter behov.

Så brug ikke API'en eller rul din egen, bare download NCBIs blastklient og prøv det:

  blastn -query query .fa -db nr -opgave blastn 

Hvis det klager, bliver du nødt til at downloade nr DB (godt, da du vil have nukleotidblast, har du sandsynligvis vil have sin nukleotidfætter, nt ), som du kan finde her: ftp://ftp.ncbi.nlm.nih.gov/blast/db/. Hent bare alle foo.nt * filer.

Ifølge [BLAST API Usage guidelines] (https://blast.ncbi.nlm.nih.gov/Blast.cgi?CMD=Web&PAGE_TYPE=BlastDocs&DOC_TYPE=DeveloperInfo) understøttes dette ikke rigtig, selvom der ikke er noget hårdt begrænse. Men du ser ud til at have ret i NR, det ser ud til at være det, jeg leder efter.
@KonradRudolph Jeg håber, det refererer til at bruge API'en i dine egne værktøjer og ikke til at bruge deres eget enkeltstående blast + -program. Jeg kan meget vel tage fejl, men jeg er ikke sikker på, om instruktionerne til API også gælder for dem. Jeg forventer, at de har bygget deres værktøj på en sådan måde, at de ikke overbelaster serverne. Jeg regner med, at det i det mindste er et forsøg værd.
mgalardini
2017-08-04 02:38:10 UTC
view on stackexchange narkive permalink

Det kan være en god idé at undersøge minihashes som en mere effektiv måde at gruppere og sammenligne dine sekvenser med kendte arter og prøver. I mosepapiret viser forfatterne, hvordan det ville være muligt at oprette minihash-skitser, som du kunne søge mod fra store metagenomiske datasæt (se afsnittet "Clustering massive metagenomic datasets" i resultaterne):

Til en storstilet test blev prøver fra Human Microbiome Project [36] (HMP) og Metagenomics of the Human Intestinal Tract [37] (MetaHIT) kombineret for at skabe en ~ 10 TB 888-prøve datasæt. Det er vigtigt, at størrelsen på en Mash-skitse er uafhængig af inputstørrelsen, hvilket kun kræver 70 MB for at gemme de kombinerede skitser (s = 10.000, k = 21) til disse datasæt.

Desuden skaberne af sourmash (et værktøj, der bruger samme tilgang) leverer forudberegnede skitser til hele NCBI's RefSeq-database (inkluderer bakterie-, viral- og svampegenomer). Oprettelse af en lignende skitse for hele ENA / SRA (eller en delmængde af den) kan tage lidt tid, men muliggøre meget hurtige og nøjagtige søgninger.

Pierre Barbera
2017-09-15 19:10:56 UTC
view on stackexchange narkive permalink

En ting, der hidtil ikke er blevet foreslået, er fylogenetisk placering. Den første mulighed ville være at placere mod et større træ, der groft rører ved de domæner, du nævnte, for at få et overblik. Den anden mulighed ville være at have tre træer (bakterier, planter, vira), der består af relevante taxa for den type prøve, du har.

Dette giver dig en detaljeret og nøjagtig oversigt over din prøve, men det gør involvere noget arbejde. Desværre er beregningsgennemstrømningen til placering stadig lidt bag BLAST, og der findes ikke mange komplette rørledninger, men efter min mening er det en ekstra mil værd (jeg kan være partisk. Jeg arbejder på at løse så mange af disse problemer som muligt) .

Hvis du vil undersøge det, kan jeg anbefale dette fremragende papir af Erick Matsen. Da dine prøver lyder vagt jordisk, vil jeg også linke dette nylige naturpapir ved hjælp af placering til at analysere jordprøver i regnskov.

Bioathlete
2017-08-03 23:55:26 UTC
view on stackexchange narkive permalink

Jeg har haft god succes ved at bruge MEGAN-softwaren til at opdage og visualisere forurening. Mine inputdata var WGS ikke RNA-seq Men jeg ville tjekke det ud. Det kan skabe et meget flot fylogenetisk træ til alle de påviste organismer.

https://ab.inf.uni-tuebingen.de/software/megan6

enter image description here

Jeg har downloadet MEGAN, men min (ganske vist overflødige) læsning af dokumentationen fik det til at se ud som om softwaren kun visualiserede resultater beregnet af andre værktøjer.


Denne spørgsmål og svar blev automatisk oversat fra det engelske sprog.Det originale indhold er tilgængeligt på stackexchange, som vi takker for den cc by-sa 3.0-licens, den distribueres under.
Loading...