Spørgsmål:
Forskel mellem CPM og TPM og hvilken til downstream-analyse?
novicebioinforesearcher
2017-08-15 00:51:22 UTC
view on stackexchange narkive permalink

Hvad er forskellen mellem TPM og CPM, når du beskæftiger dig med RNA-seq-data?

Hvilke metrics vil du bruge, hvis du skal udføre en anden downstream-analyse end Differential udtryk for f.eks.

Klyngeanalyse ved hjælp af Hclust-funktionen og derefter plotte varmekort for at finde forskelle med hensyn til ekspressionsniveauer, korrelation og pca

Er det forkert at bruge TPM til en sådan analyse, hvis ja, når bruger man TPM versus CPM.

To svar:
Devon Ryan
2017-08-15 02:15:28 UTC
view on stackexchange narkive permalink

Du kan finde de forskellige ligninger i dette ofte citerede blogindlæg fra Harold Pimental. Under alle omstændigheder er CPM dybest set dybdenormaliserede optællinger, mens TPM er normaliseret af længden (og derefter normaliseret af de længdens normaliserede værdier for de andre gener).

Hvis man skal vælge mellem disse to valg, vælger man typisk TPM for de fleste ting, da længden normalisering generelt er praktisk. Realistisk set vil du sandsynligvis have log (TPM) , da ellers støj i dine mest udtrykte gener ender med at køre alt.

i et givet tilfælde, hvis man ville trimme adaptere fra parrede endesekventerede rna seq-data, ville dette resultere i forskellige læselængder, som du siger ovenfor 'TPM er længde normaliseret' betyder det, at denne forskel i læselængde tages i betragtning?
@novicebioinforesearcher Nej, transkription / genlængde, der korrelerer (noget) med tællinger og derfor vil have tendens til at drive klynger, medmindre de håndteres på en rimelig måde.
Rob Patro skrev også en ret god artikel om emnet: http://robpatro.com/blog/?p=235
Konrad Rudolph
2017-08-15 14:45:03 UTC
view on stackexchange narkive permalink

Hverken CPM eller TPM er velegnet her, fordi ingen af ​​dem udfører robust krydseksempel normalisering (se blogindlægget Devon linket til).

DESeq2 giver to robuste log-space normaliseringsmetoder til downstream analyse normaliseret log ( rlog ) og variansstabiliserende transformation ( vst ). DESeq2-vignetten forklarer, hvordan man bruger disse til ting som hclust.


På en mere generel note tager CPM ikke højde for forskelle i udskriftslængde, mens TPM gør det. Hvis valget er mellem TPM og CPM, bruger jeg derfor TPM. Men hvis du kun sammenligner de samme udskrifter på tværs af eksperimenter, er transkriptionens længde faktisk uændret, så det betyder ikke noget (men CPM er stadig ikke en god tværeksperiment normalisering).

Jeg er forvirret nu, så hvad er brugen af ​​TPM, hvorfor producerer man det, og hvornår eller hvor bruger man det? , med andre ord hvilke værktøjer, analyse i RNA seq, ville du bruge TPM, hvis alt drejer sig om at bruge tæller og skubbe det gennem DESeq2
Værktøjer producerer TPM'er, fordi de ikke har de oplysninger (= de andre prøver), der er nødvendige for at udføre normalprøve på tværs af prøver. Manglende det er TPM det bedste, de kan gøre. TPM er også nyttigt til * sammenligninger inden for prøven *: Det kan give dig et nøjagtigt skøn over, hvor meget gener der udtrykkes i en given prøve i forhold til hinanden.
Plz Ret mig, hvis der er forkert her, givet et eksperimentelt design forskellige celletyper fra en normal mus, sige 4 celletyper (3 replikater hver), sekventeret ved hjælp af samme biblioteksforberedelse, men kan være på forskellige tidspunkter. Målet er at kontrollere for sæt af celletypespecifikke udskrifter, du vil bruge TPM, hvor som om du vil tilføje en signifikansparameter (har brug for en værdi) man vil bruge rå tællingsbaseret analyse? Jeg antager, at forvirringen for mig er, når vi bruger ordet "udtryk". Folk bruger TPM og kalder det udtryk, bruger også råoptællinger og kalder det udtryk
Begge er estimater for udtryk givet dataene. Din brugssag lyder fornuftig, selvom jeg generelt foretrækker at bestemme "celletypespecifikke udskrifter" ved at sammenligne forskellige celletyper frem for udelukkende baseret på en enkelt prøve. Hvilket ville antyde at udføre differentiel ekspressionsanalyse.
`Hvilket ville indebære at udføre differentiel ekspressionsanalyse` på?
@novicebioinforesearcher På hvilke datasæt, du ønsker at sammenligne. Det giver sjældent (hvis nogensinde!) Mening at beskrive et gen som værende celletypespecifikt uden at sige "i modsætning til disse andre celletyper". For eksempel kan et celletypespecifikt gen alligevel være ringe udtrykt: så længe det er * helt fraværende * i andre celler, er det celletypespecifikt. Dette er faktisk ofte tilfældet. Du kan derfor ikke * karakterisere mange celletypespecifikke gener uden at sammenligne forskellige celletyper.
Er VST / RLOG normaliseret til transkriptionslængde? Hvis ikke er det muligt at få længden normaliseret VST / RLOG?
@rmf Nej, de normaliserer ikke for transkriptionslængde; begge funktioner ændrer kun * fordelingen * af tællingerne til noget tættere på lineær. Til de formål, hvor du bruger rlog / vst, er det normalt ikke vigtigt at tage højde for transkriptionslængde. Du kan dog anvende yderligere transformation (lad os kalde det rlog-TMP), hvis du har et program, hvor du har brug for krydseksempel såvel som normaliserede værdier inden for prøven.
Vil du sige, at det er ok at gøre noget som `(vst / længde) * (10 ^ 6)` og bruge det til varmekort, hvor jeg faktisk vil sammenligne ekspression af et gen med et andet gen.
@rmf Ja, men i et varmekort skalerer du normalt efter (gen) række alligevel (enten eksplicit eller plottefunktionen udfører inddelingen internt), så normaliseringen pr. Udskriftslængde vil være strengt no-op.


Denne spørgsmål og svar blev automatisk oversat fra det engelske sprog.Det originale indhold er tilgængeligt på stackexchange, som vi takker for den cc by-sa 3.0-licens, den distribueres under.
Loading...