Hvordan kan jeg fjerne (ikke-trivielle) dubletter fra en VCF-fil?

terdon

2019-02-27 21:56:46 UTC

view on stackexchange narkive permalink

Dette er relateret til det spørgsmål, jeg stillede her. Overvej en vcf-fil, der indeholder duplikatvarianter, men hvor duplikaterne ikke bare er de samme ting i samme notation, men i stedet er den ene en delmængde af den anden. For eksempel:

  ## fileformat = VCFv4.1 ## reference = foo ## FORMAT = <ID = GT, Number = 1, Type = String, Description = "Genotype" > ## contig = <ID = chr12> # CHROM POS ID REF ALT QUAL FILTER INFO FORMAT Prøve1chr12 529514. AACAC AATAC. PASS. GT 0 / 1chr12 529516. C T. PASS. GT 0/1

Disse to varianter er faktisk de samme. De resulterer i nøjagtig den samme genotype. Ændring af AACAC til AATAC i position 529514 betyder bare at ændre C til T på position 529516.

Er der noget værktøj, der kan registrere sådanne duplikater og fjerne dem? Jeg prøvede vcfuniq fra vcflib , men det ser ikke ud til at genkende dette som en duplikat. Jeg tror, det ser kun på de første 4 felter og betragter kun duplikater af disse varianter med nøjagtigt de samme værdier i de første 4 felter:

  $ ./bin/vcfuniq test.vcf ## fileformat = VCFv4.1 ## reference = foo ## FORMAT = <ID = GT, Number = 1, Type = String, Description = "Genotype" > ## contig = <ID = chr12> # CHROM POS ID REF ALT QUAL FILTER INFO FORMAT Sample1 Sample1 AACAC AATAC. PASS. GT 0 / 1chr12 529516. C T. PASS. GT 0/1

Som forklaret i linket spørgsmål anser EBIs vcf_validator dette imidlertid for ugyldigt. Og det giver ikke rigtig mening at have disse duplikater under alle omstændigheder, så er der nogen måde, jeg kan registrere og fjerne dem på? Fortrinsvis et eksisterende værktøj, men jeg er også åben for script-løsninger.

Dette kompliceres yderligere af tilfælde som denne:

  ## fileformat = VCFv4 .1 ## reference = foo ## FORMAT = <ID = GT, Number = 1, Type = String, Description = "Genotype" >
## contig = <ID = chr12> # CHROM POS ID REF ALT QUAL FILTER INFO FORMAT Prøve1chr12 529514 529514 AACAC AAT, AATAC 0,00. . GT 0 / 1chr12 529516 529516 C T. PASS. GT 0/1

Desværre bliver denne ikke fanget af tilgangen i Daniels smarte script:

  $ kat test2.vcf | foo.py ## fileformat = VCFv4.1 ## reference = foo ## FORMAT = <ID = GT, Number = 1, Type = String, Beskrivelse = "Genotype" > ## contig = <ID = chr12> # CHROM POS ID REF ALT KVALTFILTERINFO FORMAT Eksempel1chr12 529514 529514 AACAC AAT, AATAC 0,00. . GT 0 / 1chr12 529516 529516 C T. PASS. GT 0/1

$ bcftools norm -d ingen -f hg19.fa test.vcf ## fileformat = VCFv4.1 ## FILTER = <ID = PASS, Beskrivelse = "Alle filtre bestået" > ## reference = foo ## FORMAT = <ID = GT, Number = 1 , Type = String, Beskrivelse = "Genotype" > ## contig = <ID = chr12> ## bcftools_normVersion = 1.8 + htslib-1.8 ## bcftools_normCommand = norm -d none -f hg19.fa test.vcf; Dato = Ons 27. feb 16:08:44 2019 # CHROM POS ID REF ALT KVAL FILTERINFO FORMAT Prøve1chr12 529516. C T. PASS. GT 0 / 1Linjer i alt / split / omstillet / sprunget over: 2/0/1/0

$ bcftools norm -m -any -NO z - O v -o - ~ / test2.vcf | bcftools norm -d ingen -f hg19.faLines i alt / split / omstillet / sprunget over: 2/1/0/0 ## fileformat = VCFv4.1 ## FILTER = <ID = PASS, Beskrivelse = "Alle filtre bestået" > ## reference = foo ## FORMAT = <ID = GT, Number = 1, Type = String, Beskrivelse = "Genotype" > ## contig = <ID = chr12> ## bcftools_normVersion = 1.8 + htslib-1.8 ## bcftools_n -NO z-O v-o - test2.vcf; Dato = Ons 27 feb 18:18:32 2019 ## bcftools_normCommand = norm -d ingen -f hg19.fa -; Dato = Ons 27. februar 18:18:32 2019 # CHROM POS ID REF ALT KVAL FILTERINFO FORMAT Eksempel1chr12 529516 529514 CAC T 0. . GT 0 / 1chr12 529516 529514 C T 0. . GT 0/0 Linjer i alt / split / omstillet / sprunget over: 3/0/2/0

#! / Usr / bin / env python3def kanonikaliser (instream): for linje i instream: hvis ikke line.startswith ('#'): værdier = line.split ('\ t') pos = int (værdier [1]) ref, alt = værdier [3: 5] hvis len (ref) > 1 og len ( ref) == len (alt): # Hvor mange bp der skal trimmes ud af slutningen for n, (r, a) i enumerate (zip (ref [:: - 1], alt [:: - 1])): hvis r! = a: revoffset = -1 * n break # Hvor mange bp for at trimme fronten for n, (r, a) i enumerate (zip (ref, alt)): hvis r! = a: offset = n-værdier [1] = str (pos + offset) værdier [3] = ref [offset: revoffset] værdier [4] = alt [offset: revoffset] break line = '\ t'.join (værdier) giver lineif __name__ ==' __main__ ': import sys for line in canonicalize (sys.stdin): print (line, end = '')