Spørgsmål:
Reducer antallet af udskrifter i en meget variabel de novo transkriptomsamling
LinuxBlanket
2018-06-28 21:18:36 UTC
view on stackexchange narkive permalink

Jeg har en de novo samling, der bruger både flere SRA og lokalt sekventerede transkriptomer. Jeg startede med 270M PE-læsninger fra 9 væv. Her er forsamlingsstatistikker genereret med TrinityStats.pl:

  ############################# ############ Tæller af udskrifter osv. ################################################ Total trinity 'gener': 543668 Samlede treenighedstranskripter: 1111089 Procent GC: 33,77 ############################################################################ #### Statistik baseret på ALLE transkriptionsfortegnelser: ######################################################### # Contig N10: 2117 Contig N20: 1324 Contig N30: ​​945 Contig N40: 714 Contig N50: 561 Median contig længde: 344 Gennemsnitlig contig: 496,17 Samlede samlede baser: 551293315 ################ ################################### ############ Statistik baseret på KUN LANGSTE ISOFORM pr. 'GENE' : ################################################################# #### Contig N10: 2172 Contig N20: 1333 Contig N30: ​​925 Contig N40: 681 Contig N50: 523 Median contig længde: 323 Gennemsnitlig contig: 473,63 Samlede samlede baser: 257499729  

Somkan du se, det samlede antal Trinity 'gener' er meget højt. Jeg formoder, at dette skyldes en høj biologisk variation i transkriptomerne (kommer fra organismer, der er udtaget prøver i Italien, Kina, Spanien ...).

  • Hvordan kan jeg vurdere, om problemet virkelig er den biologiske variabilitet?
  • Hvordan kan jeg reducere dette antal? Jeg foretrækker ikke at nedprøve læsningerne. Det ser ud til, at CD-Hit måske gør, hvad jeg leder efter ...
To svar:
gringer
2018-06-29 05:03:46 UTC
view on stackexchange narkive permalink

Som du har foreslået, fungerer CD-HIT til at reducere antallet af udskrifter. Vi brugte en blanding af ekspressionsbaseret filtrering og CD-HIT til at reducere transkriptionstal for vores genomstyrede transkriptomsamling. Dette reducerede antallet meget, uden meget ændring i BUSCO-score:

  1. Kort RNA-seq læser til Trinity-genererede transkripter ved hjælp af laks
  2. Brug udtrykket af BUSCO-gener til indstille en pålidelig signalafskæring
  3. Delsætstranskripter baseret på denne tærskel [for os var det 50 tællinger]
  4. Identificer den længste Met til stop-åben læseramme for hvert udskrift (er muligvis ikke god idé i alle tilfælde)
  5. Kør cdhit for at skjule lignende udskrifter

Her er vores CD-HIT kommandolinje:

  cdhit - T 10 -c 0,98 -i længste_MetStopORF_HC50_TBNOCFED.fasta -o cdhit_0.98_LMOHC50_TBNOCFED.prot.fasta  

Flere detaljer her:

https: // bmcbiol. biomedcentral.com/articles/10.1186/s12915-017-0473-4#Sec9

Tak for dit svar. Før jeg brugte CD-HIT, besluttede jeg at filtrere læsningerne i henhold til BLAST-hits med en brugerdefineret pipeline. Kun 150.000 udskrifter havde et hit, og af disse havde kun 56K et hit med den passende taxon. Dette betyder, at næsten en million udskrifter ikke stemmer overens med noget, og sandsynligvis hjælper CD-HIT ikke meget. Har du nogen idé om, hvorfor dette sker? I betragtning af at BUSCO hentede 975/978 kernegener (så min samling er grundlæggende færdig), skal jeg være ligeglad med dette nummer?
CD-HIT laver en intern kamp; det er ligeglad med matches til eksterne databaser. At BUSCO score er fantastisk; endda * C. elegans * er ikke 100%.
Ja, men mit spørgsmål er: skal jeg bekymre mig om, at jeg har> 1 M udskrifter, og af disse synes kun 5% at svare til et mRNA? Hvad er der i de andre 950k-udskrifter, der er rekonstrueret af treenighed?
Ah, og bare for ordens skyld, i dag kørte jeg CDHIT, og den fik 780.000 klynger, så ja, det forbedrede situationen, men ikke i høj grad. Dette ser stadig urealistisk ud for mig.
For bedre at kunne besvare dette spørgsmål har jeg brug for flere oplysninger om, hvad du sekventerede, hvordan sekventeringen blev udført, og hvilke sekvenser der kommer op. For eksempel, hvis der er stor chance for bakteriel kontaminering, og sekventering er for total RNA inklusive mikroRNA'er, så er 780k noget, der kan ske.
Har du noget imod det i [chat] (https://chat.stackexchange.com/?tab=site&host=bioinformatics.stackexchange.com)? Jeg er bange for at dette bliver længe efter kommentarer :)
Ian Sudbery
2018-06-28 21:25:52 UTC
view on stackexchange narkive permalink

Virker for mig, at dine "gener" er meget korte. Hvilken slags organisme (prokaryote, lavere eukaryote, højere eukaryote) er dette? Jeg ville se, om dine "gener" indeholdt ORF'er, og kun beholde dem med tilstrækkelig lange CDS. Du vil savne uORF'er og ORF-fragmenter på denne måde, men du ville have meget mere tillid til det, du fandt.

Det er en musling. Er disse værdier ikke OK for et transkriptom? Hvor kan jeg finde gode referenceværdier?
Højere eukaryote? Taler om giraffer? http://scienceblogs.com/evolgen/2006/10/18/do-higher-eukaryotes-smoke-mor/


Denne spørgsmål og svar blev automatisk oversat fra det engelske sprog.Det originale indhold er tilgængeligt på stackexchange, som vi takker for den cc by-sa 4.0-licens, den distribueres under.
Loading...