Jeg har en de novo samling, der bruger både flere SRA og lokalt sekventerede transkriptomer. Jeg startede med 270M PE-læsninger fra 9 væv. Her er forsamlingsstatistikker genereret med TrinityStats.pl
:
############################# ############ Tæller af udskrifter osv. ################################################ Total trinity 'gener': 543668 Samlede treenighedstranskripter: 1111089 Procent GC: 33,77 ############################################################################ #### Statistik baseret på ALLE transkriptionsfortegnelser: ######################################################### # Contig N10: 2117 Contig N20: 1324 Contig N30: 945 Contig N40: 714 Contig N50: 561 Median contig længde: 344 Gennemsnitlig contig: 496,17 Samlede samlede baser: 551293315 ################ ################################### ############ Statistik baseret på KUN LANGSTE ISOFORM pr. 'GENE' : ################################################################# #### Contig N10: 2172 Contig N20: 1333 Contig N30: 925 Contig N40: 681 Contig N50: 523 Median contig længde: 323 Gennemsnitlig contig: 473,63 Samlede samlede baser: 257499729
Somkan du se, det samlede antal Trinity 'gener' er meget højt. Jeg formoder, at dette skyldes en høj biologisk variation i transkriptomerne (kommer fra organismer, der er udtaget prøver i Italien, Kina, Spanien ...).
- Hvordan kan jeg vurdere, om problemet virkelig er den biologiske variabilitet?
- Hvordan kan jeg reducere dette antal? Jeg foretrækker ikke at nedprøve læsningerne. Det ser ud til, at CD-Hit måske gør, hvad jeg leder efter ...