Jeg har en enorm mængde af ~ 20x humane WGS-prøver, justeret, og alle SNV'er, der blev kaldt med GATK under standard kimlinjeparametre, er indstillet.
Hvad jeg skal gøre er at modellere SNV'er Allele Frequency ( AF) for forskellige underliggende kopienumre. Jeg må hellere give et legetøjseksempel. For en bestemt genomisk region X:
Hvis X præsenteres af 2 kopier for de bestemte prøver, forventer vi, at AF er super tæt på 1 eller til 0,5.
Hvis X præsenteres af 4 kopier, forventer jeg, at en bestemt AF skal være tæt på 0,25, 0,5, 0,75 eller 1.
Selvfølgelig kan jeg bruge Binomial distribution til disse formål. Som vi ved, er fordelingen imidlertid ikke ligefrem binomial på grund af justerings- / sekventeringsforstyrrelser, og den mediane AF for alle heterozygote SNV'er er mere tæt på 0,48, men ikke til 0,5, som vi ville forvente. En anden ting: for høje kopiantal forventer vi højere dækning. Og GATK bruger flere filtre, så jeg formoder, at vi ikke vil se SNV'er med AF som 0,125 (i tilfælde af at segmentet har ploidi 8) - på trods af den super høje dækning der kan GATK muligvis afvise denne "underlige" AF.
Jeg har læst adskillige papirer, der modellerer SNVs AF'er (og jeg er enig i, at Beta Binomial Distribution kan være ret præcis), men jeg var ikke overbevist nok om, at jeg skulle bruge den bestemte modellering. Fra din erfaring (hvis du foretager SNV-opkald), hvilken sandsynlighedsfordeling skal jeg bruge? Hvordan skal jeg estimere parametre for hver af dem (skal jeg forvente for CN4 AF = 0,5 hyppigere end AF = 0,75 eller omvendt, hvordan estimerer jeg det ud fra data)?
UPD: stærk> For nemheds skyld kan vi sige, at vi har mange tidligere identificerede regioner med ploidi, der er forskellige fra CN2, og jeg kan tage disse koordinater fra her. Så jeg kan bruge mere eller mindre "overvåget" indlæring til estimering af parametre.