Spørgsmål:
Forventet allelfrekvensfordeling af SNV'er i ægte NGS-data
German Demidov
2017-05-22 15:47:44 UTC
view on stackexchange narkive permalink

Jeg har en enorm mængde af ~ 20x humane WGS-prøver, justeret, og alle SNV'er, der blev kaldt med GATK under standard kimlinjeparametre, er indstillet.

Hvad jeg skal gøre er at modellere SNV'er Allele Frequency ( AF) for forskellige underliggende kopienumre. Jeg må hellere give et legetøjseksempel. For en bestemt genomisk region X:

Hvis X præsenteres af 2 kopier for de bestemte prøver, forventer vi, at AF er super tæt på 1 eller til 0,5.

Hvis X præsenteres af 4 kopier, forventer jeg, at en bestemt AF skal være tæt på 0,25, 0,5, 0,75 eller 1.

Selvfølgelig kan jeg bruge Binomial distribution til disse formål. Som vi ved, er fordelingen imidlertid ikke ligefrem binomial på grund af justerings- / sekventeringsforstyrrelser, og den mediane AF for alle heterozygote SNV'er er mere tæt på 0,48, men ikke til 0,5, som vi ville forvente. En anden ting: for høje kopiantal forventer vi højere dækning. Og GATK bruger flere filtre, så jeg formoder, at vi ikke vil se SNV'er med AF som 0,125 (i tilfælde af at segmentet har ploidi 8) - på trods af den super høje dækning der kan GATK muligvis afvise denne "underlige" AF.

Jeg har læst adskillige papirer, der modellerer SNVs AF'er (og jeg er enig i, at Beta Binomial Distribution kan være ret præcis), men jeg var ikke overbevist nok om, at jeg skulle bruge den bestemte modellering. Fra din erfaring (hvis du foretager SNV-opkald), hvilken sandsynlighedsfordeling skal jeg bruge? Hvordan skal jeg estimere parametre for hver af dem (skal jeg forvente for CN4 AF = 0,5 hyppigere end AF = 0,75 eller omvendt, hvordan estimerer jeg det ud fra data)?

UPD: stærk> For nemheds skyld kan vi sige, at vi har mange tidligere identificerede regioner med ploidi, der er forskellige fra CN2, og jeg kan tage disse koordinater fra her. Så jeg kan bruge mere eller mindre "overvåget" indlæring til estimering af parametre.

En svar:
winni2k
2017-06-04 06:17:18 UTC
view on stackexchange narkive permalink

Jeg har ikke nok erfaring til at besvare, hvilken sandsynlighedsfordeling der skal bruges.

Imidlertid spørger disse spørgsmål også, hvordan man estimerer parametrene for distributionerne. Hvis der vælges en binomialfordeling, er Heng Lis papir med titlen "En statistisk ramme for SNP-kald, mutationsopdagelse, tilknytningskortlægning og populationsgenetisk parameterestimering fra sekventeringsdata" 1 sandsynligvis den endelige. Afsnit 2.3.1 i dette papir beskriver en EM-algoritme til estimering af allelfrekvenser fra flere prøver under antagelse af Hardy-Weinberg-ligevægt for vilkårlig, men konstant ploidi.

Ideelt set bruger mest populære værktøjer som GATK også EM-algoritme til posten for at estimere sandsynligheden, mens samtools bruger både EM og Brents metode. De virkelige problemer med opsætningen af ​​ploidy apriori, men er ikke klar over nu værktøjer, der estimerer ploidy og derefter bruger disse oplysninger til SNV-opkald og finder ud af AF. Jeg ved, at værktøjer som ABSOLUTE har magt til at estimere ploidien, men så skal du bruge dem som input til dine senere SNP-opkald. Men jeg regner med, at de fleste værktøjer normalt fungerer med antagelsen med ploidysæt apriori. Dette er hvad der kommer til at tænke mig lige nu.


Denne spørgsmål og svar blev automatisk oversat fra det engelske sprog.Det originale indhold er tilgængeligt på stackexchange, som vi takker for den cc by-sa 3.0-licens, den distribueres under.
Loading...