Spørgsmål:
Værktøjer til at oprette annoteret tabel over varianter fra VCF
roblanf
2017-08-11 03:44:41 UTC
view on stackexchange narkive permalink

Problemet: Jeg har en VCF-fil, et referencegenom og en masse kommentarer til referencen (gener, gentagne regioner osv.) som GFF- eller BED-filer.

Hvad jeg gerne vil have er et værktøj, der tager alt dette som input og output en tabel- eller komma-afgrænset tabel, der indeholder så meget information som muligt. Potentielle kolonner i output inkluderer:

  1. Type variant (SNV, strukturel osv.)
  2. Detaljer om variant (f.eks. Referencebase, variantbase, dækning, position osv. )
  3. Kommentarer overlappende variant
  4. Kommentarer nær variant (f.eks. er det lige opstrøms for et gen)
  5. Hvis det vises i et kodende område, ændrer det aminosyre.

Der er mange værktøjer, der gør noget lignende . Men for nybegynderen (som mig) er det ikke klart, hvilke værktøjer der er værd at starte med. Da de fleste værktøjer i første omgang gør en lille indsats for at komme i gang, er mit spørgsmål:

Hvilket værktøj kommer tættest på at gøre det, jeg har beskrevet, er kendt for pålideligt og sandsynligvis vil blive vedligeholdt i de næste par år.

Tre svar:
Cotton Seed
2017-08-14 09:20:38 UTC
view on stackexchange narkive permalink

Hagl kan være en mulighed for dig.

Det er aktivt udviklet af et voksende team på Broad. Det er testet grundigt (kontinuerlig integration, kontinuerlig implementering, fejlrapporter får regressionstest, bla bla bla).

Det blev designet til at løse dette problem (blandt andre). Det kan importere en række forskellige formater, herunder VCF, TSV, UCSC BED, JSON og intervalfiler. (Vi har ikke eksplicit støtte til GFF, men vi kan sandsynligvis håndtere dem med generelle faciliteter. Hvis ikke, kontakt os så tilføjer vi support.) Det kan kalde på VEP (og snart Nirvana, Illuminas VEP-omskrivning) . Det har generelle faciliteter til at transformere, filtrere, rense og forespørge om data.

Hvad mere er, vi har kurateret en stor samling af annoteringsressourcer (i øjeblikket ~ 22 databaser med annoteringer + VEP), der er hostet i en offentlig bucket i Google sky og byggede en interaktiv forespørgselbygger til at vælge, hvilke ressourcer du vil bruge. Kontakt os, hvis du vil have os til at tilføje yderligere ressourcer. Du kan læse mere om det her.

Ansvarsfraskrivelse: Jeg arbejder på Hail.

Jeg har efterladt det accepterede svar som FEATnotator, bare fordi det ser ud til at gøre præcis, hvad jeg stillede i spørgsmålet. Men jeg ville sige tak for at lade mig (os?) Vide om Hail, hvilket helt sikkert lyder ekstremt nyttigt. Den aktive udvikling og åbenhed over for funktionsanmodninger er et kæmpe plus.
dkainer
2017-08-11 11:50:41 UTC
view on stackexchange narkive permalink

Jeg har brugt FEATnotator, og jeg tror, ​​det kan give alle de kolonner, du gerne vil se. Der genereres mange outputfiler, men den konsoliderede output har følgende kolonner:

  • Kromosom
  • Position
  • Kolonne_3
  • Consensus_Allele
  • Annotation_Signature
  • Reference_Base
  • Alternate_Base
  • Transition / Transversion SNP_Type
  • Premature_STOP_Gained STOP_Lost
  • START_CODON
  • STOP_CODON
  • SPLICE_SITE
  • InterGenic
  • Gene_Body
  • Intron
  • Exon
  • Kodning
  • UTR
  • Transcription_Start_Site
  • Nærmeste_gen
  • Afstand

her er nogle eksempler på outputposter fra brug af en VCF, referencegenom og GFF-kommentarfil (undskyld med den skøre formatering ... der er mange felter!):

  Chr01 28177 TG NA TG TRANSVERSION NA NEJ NEJ NEJ NEJ JA NEJ NEJ NEJ NEJ NEJ Nej Eucgr.A00211.v2.0 16054Chr01 44876 CG gen: Eucgr.A00211.v2.0 mRNA: Eucgr.A00211.1.v2.0 [intron] CG TRANSVERSION NEJ NEJ NEJ NEJ NEJ NEJ JA JA NEJ NEJ NEJ NEJ NA NAChr01 46819 AG gen: Eucgr.A00211 .v2.0 mRNA: Eucgr.A00211.1.v2.0 CDS: Eucgr.A00211.1.v2.0.CDS.4 [AAA - K = > GAA - E (MISSENSE)] exon: Eucgr.A00211.1 .v2.0.exon.4 AG OVERGANGSMISSEN NEJ NEJ NEJ NEJ NEJ JA NEJ JA JA NEJ NEJ NA NA  
arupgsh
2017-08-11 12:39:25 UTC
view on stackexchange narkive permalink

snpEff er et fantastisk værktøj til kommentering af VCF-filer, og du kan tilføje tilpassede referencesekvenser.

http://snpeff.sourceforge.net/

Vejledning til tilføjelse af brugerdefinerede annoteringsfiler i snpEff

https://gatkforums.broadinstitute.org/gatk/discussion/50/adding-genomic-annotations-using-snpeff-and-variantannotator

Der er en række forud kuraterede annoteringsdatasæt tilgængelige i deres database.



Denne spørgsmål og svar blev automatisk oversat fra det engelske sprog.Det originale indhold er tilgængeligt på stackexchange, som vi takker for den cc by-sa 3.0-licens, den distribueres under.
Loading...