Spørgsmål:
Er der et punkt i omkalibrering af scores for variantopkald?
Kamil S Jaron
2017-06-01 03:33:00 UTC
view on stackexchange narkive permalink

Den mest variant af kaldende pipeline GATK inkluderer en Base Quality Score Recalibration (BQSR), som kræver en liste over kendte varianter. For nylig er der også gjort noget arbejde til referencekalibrering af scoringer: Lacer og atlas, hvilket er motiveret af at få mest muligt ud af aDNA og datasæt med lav dækning.

Vigtigheden for aDNA forklares i dette foredrag, men det er ikke klart for mig, om / hvordan det er vigtigt, at BQSR er for friske DNA-prøver med anstændig (> 15x) dækning. Især når jeg arbejder med ikke-modelorganismer, og jeg ikke bare kan bruge standardværktøjerne.

Hvor stor indvirkning har omkalibrering af scores på variantopkald? Er der en tommelfingerregel, som det er / er det ikke værd at gøre?

Fire svar:
burger
2017-06-02 03:07:27 UTC
view on stackexchange narkive permalink

Jeg personligt synes ikke BQSR har en enorm indflydelse på variantopkald, men du behøver ikke rigtig gætte. Hvis du kører GATK BQSR, udsender den en tabel og diagrammer over nøjagtigt, hvor mange kvalitetsresultater der justeres. Justeringen vil variere afhængigt af placeringen i den læste og genomiske kontekst (forrige og efterfølgende base). Efter min erfaring er forskellen højst et par punkter, men det bemærkes bestemt.

GATK anbefaler BQSR til både genom- og exome-data, som normalt er meget højere end 15x.

Manuel
2017-06-01 04:27:28 UTC
view on stackexchange narkive permalink

Det er et godt spørgsmål.

Jeg vil sige, at du ikke behøver at bekymre dig om variantkalibrering til

  • lavt antal prøver (f.eks. kun to trioer); Jeg kunne ikke få GTAK-kalibrering af variantscores til at fungere alligevel
  • prøver med høj dækning (f.eks. X Ti genomer med 30x dækning), hvor selve DNA-prøverne er af høj, sammenlignelig kvalitet og er blevet sekvenseret teknologi.

Generelt er det mit indtryk, at mange af de tanker og avancerede statistiske modeller, der er indbygget i GATK, kommer fra de tidligere faser af 1000 Genomes-projektet. Dette betyder (1) lav dækning, (2) forskellige dækningsgenomer (3) sekventeret med forskellige teknologiske versioner efter (4) forskellige prøver og (5) populationssekventering.

Hvis du er i en klinisk indstilling hvor du kun laver 30x sekventering på X Ti-platforme, vil variantkalibrering sandsynligvis ikke hjælpe dig så meget.

På den anden side, hvis du integrerer mange datasæt fra forskellige datacentre og maskineversioner osv. ., variantkalibrering kan være et skud værd.

En god kontrol ville være at se på genotypekvalitetsfordelinger og andre variant- / kvalitetsrelaterede metrics før og efter omkalibrering.

Enhver: bedes rette mig, hvis jeg tager fejl!

Taler du om genkalibrering af basiskvalitetsscore (BQSR) her eller om genkalibrering af variantkvalitetsscore (VQSR)? Jeg tror, ​​at OP henviser til BQSR, men du diskuterer VQSR.
Ja, OP bekræftet. Spørgsmålet handler om BQSR, så jeg er bange for, at du besvarer det forkerte spørgsmål.
* suk * og der tænkte jeg, at jeg kunne bidrage med noget.
vchris_ngs
2017-06-06 16:07:56 UTC
view on stackexchange narkive permalink

Ideelt set blev disse BQSR-metoder lavet under hensyntagen til, hvordan tekniske fejl rent faktisk vil skrue op for basiskvalitetsopkaldene, og hvornår maskinerne stadig var mere i udviklingsfasen, mens de blev brugt til 1000G-projektet. Fra nu af er maskiner stærkere og stærkere, hvor det sandsynligvis ikke vil blive brugt, men vi bruger stadig med listede SNP'er til at finde covariaterne og opbygge en model omkring dataene ved hjælp af informationen med machine learning-tricks til at forbedre kvaliteten af ​​disse basisopkald . Ideelt set bør det være mere hensigtsmæssigt, når der bruges gamle maskiner fra Illumina eller andre standardfirmaer, men med nye maskiner, der er meget kraftfulde og med høj kapacitet, bør de have tendens til at gå ned. Jeg kan ikke huske, om der er foretaget sådanne tests, men jeg ved selvfølgelig, at ny sekventeringsmaskine altid foretager sådanne tests for at vise, at de har reduceret sådanne fejl, men stadig anbefale sådan en BQSR til variantopkald. Nu er problemet listen over SNP'er, dette for mig er det virkelige problem, da den liste, vi bruger, langt fra er guldstandard, og hvis det ikke ordentligt er taget hånd om alt, hvad vi udleder om kvalitet, er stadig rystende. Dette link er ret informativt, men det er et gammelt. Jeg ville virkelig se forbedringer med nye sequencere. Men meget færre mennesker bekymrer sig om sådanne tests i akademisk forskning, og også translationelt laboratorium vil virkelig ikke investere tid og penge på sådanne, medmindre anlægget har nogle bioinformatikere, der altid foretager en sådan test, mens de køber en ny sequencer til instituttet. Med hensyn til klinisk genomik til at finde varianter regner jeg med, at de mest kraftfulde og opdaterede sequencere skal bruges, men er ikke sikre på, om de stadig bruger BQSR, og hvis ja, hvad er den liste, de bruger til at opbygge model for samvariation omkring dataene.

Bemærk, at spørgsmålet er motiveret af ikke-modelorganismeforskning - Jeg kan ikke bruge en liste over kendte varianter, fordi en sådan liste ikke findes for min art. Derfor ville jeg vide, hvor vigtigt det er at kalibrere QS, fordi det generelt er muligt, men ikke bare ved at køre endnu et trin i GATK-pipeline.
Jeg er enig i, at det er en ikke-modelorganisme, og det er derfor, du ikke har nogen sådan liste over varianter. Men da motivationen til fremgangsmåden også var at spørge om BQSR, så sagde jeg. Du kan se på dette https://media.readthedocs.org/pdf/lts-workflows-sm-non-model-toolkit/latest/lts-workflows-sm-non-model-toolkit.pdf om, hvordan du bruger dine HC-varianter af din prøve for at kalibrere igen. Også dette gatlk-link kan også hjælpe. http://gatkforums.broadinstitute.org/gatk/discussion/3286/quality-score-recalibration-for-non-model-organisms. Nu ligger beslutningen på din hånd om at bruge eller sammenligne.
@KamilSJaron til ikke-model er dette en måde at gøre, men hvis din sekventeringsmaskine er ret ny og forbedret nøjagtighed, kan du muligvis også fjerne trinnet. Jeg ville læse publikationer for at se, hvad de gør, men stadig for min skyld ringe uden BQSR og med BQSR med HC-varianter og bruge dem som database og sammenligne for at komme til konklusionen selv. Det er min mening. Det afhænger også af projektets dyd.
Det første link er meget relevant for mit originale spørgsmål: "Mens GATK UnifiedGenotyper lider under indel-opkald uden omkalibrering og justering, fungerer både HaplotypeCaller og FreeBayes lige så godt eller bedre uden disse trin." Tak. Det andet link er også relevant, men jeg har ikke nok individer, der er sekventeret til at vælge deres tilgang til genkalibrering.
@KamilSJaron Jeg er glad for, at det er relevant, men så vil jeg igen sige, at du kan køre både med og uden og foretage et skøn. Da du ikke har mange prøver til at oprette din egen HC SNP-database, kan du også gøre det med strenge strenge SNP'er fra dine individer. Eller da du ikke har meget prøver, skal du bare undgå BQSR-trinnet og trække topvarianter ud og ikke en stor del af varianterne. De bedste varianter, selvom scoren måske ikke er meget nøjagtig, men opkaldene vil stadig være meget sikre og helst sande positive. Jeg antager, afhænger af antallet af varianter, du streamer ned til.
BQSR er stadig relevant, en af ​​grundene til dette er noget nyt illumineringshardware, som NextSeq kun kan udsende binned Q-scoringer, BQSR i det væsentlige "un-bins" Q-scorerne giver mere granularitet, som har sine anvendelser i dyb somatisk variant kald, http://gatkforums.broadinstitute.org/gatk/discussion/4594/beware-of-using-binned-quality-scores-with-some-gatk-procedures. Derudover lider NextSeq af et poly G-problem med høj tillid, BQSR vil også være gavnligt her https://sequencing.qcfail.com/articles/illumina-2-colour-chemistry-can-overcall-high-confidence-g-bases/
Ah nu, det var noget, jeg ikke var opmærksom på, da jeg endnu ikke har været nødt til at støde på NextSeq. Dette er et godt punkt. Derefter skulle OP også tænke på det, og ja, jeg overvejede blot, hvordan BQSR først kom ind i billedet. Men dette er en god fangst for binned Q-scoringer og om poly G-problemet.
Bekir Ergüner
2020-01-22 16:32:17 UTC
view on stackexchange narkive permalink

Hvis BQSR ikke er en mulighed (dvs. ikke-modelorganismer), ville det være bedst at bruge nogle interne kontrolsekvenser såsom PhiX for illumina platform. Selvom dette formodes at være almindelig praksis, ignorerer nogle faciliteter det. I princippet skal maskinerne bruge disse sekvenser som reference, så scoringen bliver mere præcis. Efter min erfaring havde de første 10-15 baser af illumina-læsningerne altid lavere kvalitet. Dette kan let ses i nukleotidfordelingerne. Jeg vil råde til at trimme de første 10-15 baser og kvalitetsbaseret sluttrimningiHvis kvaliteten af ​​de individuelle læsninger er vigtig, såsom f.eks. Lav dækning med ny dækning eller de-novo-genommontering.



Denne spørgsmål og svar blev automatisk oversat fra det engelske sprog.Det originale indhold er tilgængeligt på stackexchange, som vi takker for den cc by-sa 3.0-licens, den distribueres under.
Loading...