Spørgsmål:
Hvorfor udsender de fleste justeringslinjer ikke "X" CIGAR-operationen?
medbe
2017-06-03 04:58:11 UTC
view on stackexchange narkive permalink

Når jeg læser SAM-specifikationen, repræsenterer "X" CIGAR-operatøren en mismatch. Dette virker nyttigt, da vi kan vide, hvor der er uoverensstemmelser uden at se på referencegenomet. Imidlertid udsender mange populære aligners som BWA ikke "X". Hvorfor udelader de "X"?

Mærkeligt nok er oplysningerne om mismatch gemt i MD-koden (i det mindste for BWA), så det ser ud til at have været en bevidst beslutning snarere end et spørgsmål om enkelhed.
De udsender generelt heller ikke `=`.
@DevonRyan Jeg tror, ​​det vil enten output 'M' eller 'X' / `=` så hvis de udelader 'X', vil de også automatisk udelade '='
En svar:
John Marshall
2017-06-03 23:39:38 UTC
view on stackexchange narkive permalink

SAM-formatet havde oprindeligt kun M , I , D , N , S , H og P CIGAR-operatører. Se den originale SAM-specifikation (hvis du kan se Apple Pages-dokumenter) og tabel 1 i Sequence Alignment / Map format og SAMtools (Li et al , 2009). Dette var i tråd med tidligere værktøjer ved hjælp af CIGAR-strenge, især exonerate , der introducerede dem med bare M , I og D -operatorer.

BWA-backtrack blev skrevet samtidig med SAM-formatet i 2008 og 2009 (og udgivet i maj 2009). Dets ChangeLog viser, at det udsendte uoverensstemmelsesoplysninger i et MD -tag fra januar 2009, og at MD blev defineret i SAM-specifikationen for den tid ( og at tagværdiens syntaks var noget i bevægelse i februar 2009). MD -taggen er også beskrevet i den tidlige v1.0-sideformaterede SAM-specifikation.

= og X CIGAR-operatører blev introduceret senere i SAM v1.3 som et resultat af denne lange samtools-devel mailinglistetråd. De tegn, der blev brugt til operatørerne og de første implementeringer, var i det væsentlige på plads i november 2009.

Siden da har = / X -operatorerne ikke rigtig overtaget fra M , som du har set. Der er sandsynligvis en række faktorer, der bidrager til dette:

  • Deres senere introduktion længe efter den grundlæggende M / I / D operatører og MD tag var veletablerede;
  • Måske er de specifikke for SAM og utilgængelige i andre CIGAR-smag;
  • De MD -tag giver stadig flere oplysninger - X fortæller dig ikke, hvad de uoverensstemmende referencebaser var.


Denne spørgsmål og svar blev automatisk oversat fra det engelske sprog.Det originale indhold er tilgængeligt på stackexchange, som vi takker for den cc by-sa 3.0-licens, den distribueres under.
Loading...