Spørgsmål:
Bedre justering end bowtie2?
rraadd88
2018-06-18 02:27:46 UTC
view on stackexchange narkive permalink

Bowtie2 er sandsynligvis den mest anvendte aligner på grund af dens hastighed. Burrow-wheeler (BW) algoritmer (inklusive bwa ) har tendens til at være hurtigere. De har dog begrænsninger, når det kommer til at tilpasse meget korte læsninger (f.eks. GRNA). At indstille maksimalt antal tilladte mismatches er også kompliceret af frølængden, overlapninger og andre parametre.

Jeg spekulerer på, om der er nogen bedre multifunktionel aligner derude. Kan være med andre algoritmer end BW. En der tillader specielle tilfælde f.eks. tillader shordlæsninger og stort antal mismatches.

Hvor lang er "meget kort"? Bowtie2 er ikke optimeret til <= 36bp forespørgselssekvenser; heller ikke de fleste justeringslinjer er udviklet inden for de sidste 5 år. Bowtie1 eller bwa-aln fungerer bedre.
@user172818 Når du siger "ikke optimeret", mener du så at bruge standardindstillingerne eller mere generelt?
@bli generelt. Justering af 100bp-læsninger er et meget andet problem end at justere <36bp-læsninger.
Hvis jeg har lært en ting at arbejde med bioinformatik gennem årene, er der ikke noget der hedder et "multifunktionelt" eller "generelt bedste" værktøj derude. Forskellige algoritmer er gode til forskellige typer data. Min anbefaling ville være at arrangere din arbejdsgang på en modulær måde og tilslutte den bedste justerer til den type data, du arbejder på, i stedet for at stole på en "bedste" løsning.
En svar:
gringer
2018-06-18 04:55:33 UTC
view on stackexchange narkive permalink

Bowtie2 er ikke længere den hurtigste justering. Laks og Kallisto er meget hurtigere, men er designet til at optimere RNASeq-kortlægning. Deres hastighed opnås ved at undgå en streng base-til-base-tilpasning. Imidlertid kan Kallisto udsende for det meste justerede læser (dvs. kun position uden lokal justering) som pseudo-justeringer. Se her for flere detaljer.

Mens Kallisto laver bootstrapping, der fortolkes af sleuth for forbedret ydeevne i isoform-detektion, kan både Kallisto og Salmon også output tællinger, der svarer til tællinger på læseniveau fra andre programmer, som derefter kan bruges af anden downstream genbaseret differentiel ekspressionsanalysesoftware (f.eks. DESeq2).

HISAT2 er fra samme gruppe som Bowtie2 og gør den samme slags ting, men med et par optimeringer tilføjet ovenpå. Især er det meget bedre til at udarbejde splitlæsninger fra RNASeq-kørsler. Ligesom Bowtie2 vil det foretage lokal tilpasning af læsninger.

For hurtig justering af lange læsninger fungerer minimap2 godt. For høj nøjagtighedstilpasning (men forholdsvis langsommere) fungerer LAST godt.

De fleste bioinformatikere synes at foretrække STAR for ting, som Bowtie2 tidligere blev brugt til . Jeg er endnu ikke overbevist om, at det er et bedre alternativ, og foretrækker i øjeblikket HISAT2 til justering af kortlæsning med høj nøjagtighed.

Udstationeret til kallisto, det er meget godt. Men i øjeblikket er downstream-support begrænset til det andet værktøj fra pachterlaboratoriet til differentiel genekspressionsanalyse, kaldet sleuth.
En fordel ved STAR-aligner inden for bioinformatik og årsagen til, at den bruges i mit arbejde, er muligheden for at læse kimæriske justeringer (til detektering af f.eks. Cirkulært RNA gennem brugerdefineret kodning).
Laks og Kallisto er ikke rigtig aligners og er kun nyttige til RNA-seq, selvom de er gode og meget hurtige. @NatWH Kallisto kan også bruges sammen med DESeq2 eller edgeR.
@Jared Andrews, i det mindste da jeg sidst brugte det, udsender Kallisto kun TPM direkte, mens normaliseringen anvendt af DESeq2 kræver unormaliserede optællinger. Er der indstillinger for at ændre output fra Kallisto?
@NatWH Det udsender også estimerede tællinger. Og du kan se det nævnt som anvendeligt til DESeq2 i [DESeq2-manualen] (https://bioconductor.org/packages/release/bioc/vignettes/DESeq2/inst/doc/DESeq2.html#tximport). Fra kallisto manual: "abundances.tsv er en almindelig tekstfil af overflodestimaterne. Den indeholder ikke bootstrapestimater. Brug --plaintext-tilstanden til at udskrive overfladestimater med almindelig tekst. Alternativt kan kallisto h5dump bruges til at udsende en HDF5-fil til almindelig tekst. Den første linje indeholder en overskrift for hver kolonne, inklusive estimerede optællinger, TPM, effektiv længde. "
@Jared Andrews, ja det er muligt ved at summere over transkriptionens estimerede overflader for at producere heltal-lignende optællinger, men Lior Pachter hævder [her] (https://www.biostars.org/p/143458/#157303) at dette ikke burde være Færdig. Hvad tænker du?
@NatWH Dybest set det samme som svaret på hans kommentar. Vigtigt at bemærke, at disse bekymringer blev rejst for næsten 3 år siden, og både laks og kallisto er blevet opdateret flere gange siden da. Uanset om det er anbefalet af DESeq2-forfatterne selv, er jeg tilbøjelig til at stole på dem - se [deres papir om emnet] (https://f1000research.com/articles/4-1521/v1). Og du skal ikke _ opsummere til antal på genniveau, hvis du ikke vil / ikke stoler på det.
@Jared Andrews okay. Jeg efterlader mine kommentarer op, hvis fremtidige besøgende drager fordel af de links, der er blevet sendt.
Jeg sætter det andet, hvad @JaredAndrews said: Salmon og Kallisto ikke er lineers eller direkte alternativer til Bowtie. Jeg kan ikke, hvordan man ville erstatte pipeline Bowtie-kortlægning -> macs + bigwig med dem, eller stort set alt relateret til sRNA-analyse. En læsejustering vil udsende kortlægningspositionen for en læsning, mens laks og kallisto vil sende sammenfattede skøn over genekspression baseret på læse + transkriptionsegenskaberne. Da OP ikke angiver gen / isoform-ekspression som brugssag, har jeg nedstemt dette svar på grund af dette afsnit.
Kallisto * kan * outputposition. Hvad det ikke gør, er en omhyggelig lokal tilpasning (og spørgsmålet specificerede ikke, om lokal tilpasning var vigtig). Jeg angav andre alternativer, hvor lokal tilpasning * er * vigtig.


Denne spørgsmål og svar blev automatisk oversat fra det engelske sprog.Det originale indhold er tilgængeligt på stackexchange, som vi takker for den cc by-sa 4.0-licens, den distribueres under.
Loading...