Jeg har et RNA-seq datasæt med en stor del af miljømæssig RNA "forurening". BLASTing tilfældigt læser afslører, at meget af dataene kommer fra bakterielt, plante- og viralt RNA. Min målorganisme tegner sig kun for ~ 5% af RNA-seq-læst data.
Jeg vil gerne have et mere eller mindre (mere, hvis muligt) omfattende overblik over, hvilke arter der findes i min prøve - bakterier, planter, dyr (?), men også vira. Hvordan kan jeg udføre dette?
Jeg har ikke været i stand til at finde en "standard" måde at udføre en metagenomskærm på. BLAST-onlinetjenester ser alle ud til at være meget begrænsede satser (bestemt ikke i stand til at uploade ~ 80 M læser). Installation af BLAST (eller et lignende værktøj) lokalt er selvfølgelig ikke et problem, men jeg kan ikke finde en omfattende database, der spænder over alle phyler - det bedste, jeg har været i stand til at finde, er databaser, såsom NCBI-NR, der er begrænset til enkelt phyla eller klasser eller til bakterier.
Ideelt set vil jeg gerne have en arbejdsgang, som jeg fodrer med mine RNA-seq-data, og få en liste over arter med % af læsninger kortlagt.