Problemet: Jeg har en VCF-fil, et referencegenom og en masse kommentarer til referencen (gener, gentagne regioner osv.) som GFF- eller BED-filer.
Hvad jeg gerne vil have er et værktøj, der tager alt dette som input og output en tabel- eller komma-afgrænset tabel, der indeholder så meget information som muligt. Potentielle kolonner i output inkluderer:
- Type variant (SNV, strukturel osv.)
- Detaljer om variant (f.eks. Referencebase, variantbase, dækning, position osv. )
- Kommentarer overlappende variant
- Kommentarer nær variant (f.eks. er det lige opstrøms for et gen)
- Hvis det vises i et kodende område, ændrer det aminosyre.
Der er mange værktøjer, der gør noget lignende . Men for nybegynderen (som mig) er det ikke klart, hvilke værktøjer der er værd at starte med. Da de fleste værktøjer i første omgang gør en lille indsats for at komme i gang, er mit spørgsmål:
Hvilket værktøj kommer tættest på at gøre det, jeg har beskrevet, er kendt for pålideligt og sandsynligvis vil blive vedligeholdt i de næste par år.