Forskel mellem de novo transkriptomsamlingsmetoder

Spørgsmål:

Forskel mellem de novo transkriptomsamlingsmetoder

kaka01

2018-01-03 21:25:19 UTC

view on stackexchange narkive permalink

Jeg har kigget rundt (inklusive læst de originale papirer) for at forstå, hvad der i det væsentlige er forskellen mellem StringTie i ikke-referencebaseret tilstand (de novo) og Trinity de novo-samling. Jeg forstår, at i den genomstyrede natur af StringTie understøttes vi af genominformationen (dvs. under hensyntagen til de kortlagte læsninger). Derudover har vi også en mulighed for enten at køre ved hjælp af genkommenteringsfilen eller ej.

Enkelt sagt, er jeg korrekt, hvis jeg siger, at Trinity rent kigger på de overlappende læser, så samler dem, mens StringTie (ikke-referencebaseret) ser på de kortlagte læsninger, der enten er tætte eller overlappende til hinanden? Er der nogen anden ting, jeg mangler her (jeg forstår, at det ikke er så simpelt, men jeg prøver at gøre det så simpelt / intuitivt som muligt)?

Også hvis det er tilfældet, ville det være er det sikkert at sige, at generelt ikke-referencebaseret StringTie foretrækkes frem for Trinity og referencebaseret StringTie (da genkommentarer kan føre til en vis "bias", hvilket forhindrer opdagelse af ny TSS, exon-længde eller endda lave unødvendige duplikater med små forskelle)? / p>

To svar:

Devon Ryan

2018-01-03 21:53:29 UTC

view on stackexchange narkive permalink

Din intuition er korrekt. stringTie ser bare på klumper af justeringer, og hvordan de kan relateres til hinanden (enten på grund af splejset justeringer eller nærhed). Trinity udfører den mere beregningsvanskelige opgave at finde dele af læsninger, der overlapper hinanden og forsøger at forbinde dem sammen i længere sekvenser.

Hvorvidt det er fornuftigt at bruge noget som stringTie eller ej, afhænger mest af kvaliteten af referencesekvensen. Hvis du arbejder på en organisme med en referencesekvens af høj kvalitet (stort set alt med mange papirer, der bruger den), er der ingen grund til at bekymre sig om Trinity. Hvis dit referencegenom derudover har en kommentar af høj kvalitet (menneske, mus osv.), Skal du bruge det, da alt "nyt", som programmet sandsynligvis vil udsende, ellers sandsynligvis kun er en artefakt. Hvis du enten ikke har en kommentar, eller det vides at være meget problematisk, er det fornuftigt at udelade det, når du bruger stringTie.

Uden at se bevis for det modsatte, køber jeg ikke argumentet om, at en god kommentar er faktisk forspændt output på en problematisk måde. For velstuderede organismer findes alt, der rapporteres som "roman" i disse dage sandsynligvis ikke, eller er ellers så flygtigt, at det er biologisk irrelevant. Argumenterne om bias lyder som noget, der blev fundet på, når en gang ikke nogen fik så mange "nye" resultater, som de håbede.

Tak for dit svar. Omkring det punkt, vi mindre sandsynligt finder nye ting i organismer med høj kvalitet-kommentar, spekulerede jeg på, om det altid er tilfældet, da der er mange nylige publikationer, der fremhæver nye elementer, selv på mennesker. Jeg antager, at du siger, at det generelt er tilstrækkeligt, men i tilfælde af en bestemt tilstand eller lokalisering er det stadig relevant at finde nye elementer?

At finde et par af dem, helt sikkert, men medmindre systemet forstyrres alvorligt, ville man kun forvente en håndfuld reelle nye fund (de, der rapporterer mere, er sandsynligvis primært falske positive på dette tidspunkt).

heathobrien

2018-01-03 22:06:41 UTC

view on stackexchange narkive permalink

Det er virkelig en misvisende betegnelse at kalde StringTies ikke-referencebaserede tilstand 'de-novo'. Det bruger stadig referencegenomsekvensen til at styre transkriptionssamlingen, det bruger bare ikke referencekommentar. Trinity er virkelig de-novo, idet den samler transkriptionen fra overlapningen af læsningerne uden at kortlægge dem til en referencegenomsekvens.

Hvis du ser på præcisionstallene fra StringTie -papiret, vil du se, at det maksimalt når ud til 80% under ideelle forhold med simulerede data. Dette betyder, at hvis du arbejder med et godt kommenteret genom, hvor de fleste udskrifter allerede er blevet opdaget, vil langt størstedelen af de 'nye' udskrifter, du finder, sandsynligvis vise sig at være artefakter.

Tak for svaret. Jeg er enig i det første punkt. For det andet punkt er jeg delvist enig, da jeg tror, at vi altid kan finde nogle nye udskrifter i tilfælde af udækket tilstand / lokalisering (som min kommentar til Devons svar). Jeg håber, at "langt størstedelen" her betyder, at der stadig kan være et par ud af tusinder, der faktisk er biologisk relevante. ;)

Glad for at hjælpe. Det er bestemt muligt, at nogle nye udskrifter vil være ægte, især hvis din eksperimentelle opsætning er ny, men validering sandsynligvis vil være en stor flaskehals. Efter min mening er korte læser egentlig kun egnede til kvantificering af kendte udskrifter. Transkriptionsopdagelse er meget mere effektiv med langlæst sekventeringsteknologier som PACBIO Iso-Seq eller Oxford Nanopre.

ⓘ

Denne spørgsmål og svar blev automatisk oversat fra det engelske sprog.Det originale indhold er tilgængeligt på stackexchange, som vi takker for den cc by-sa 3.0-licens, den distribueres under.

Loading...