Moderne simulationssoftware til mutation

Spørgsmål:

Moderne simulationssoftware til mutation

Iakov Davydov

2017-12-08 15:54:57 UTC

view on stackexchange narkive permalink

Der er mange funktioner, der påvirker mutationssandsynligheder, f.eks. CpG-mutationer er 10 gange mere sandsynlige end andre typer mutationer.

Er der en model (helst med software), der kan tage to justerede genomiske regioner, estimere parametre for de neutrale mutation fremkalder og derefter simulerer mutationer for en anden region? Der er selvfølgelig modeller som HKY og GTR, men de er noget forenklede og tager ikke konteksten i betragtning.

En model, jeg fandt, er denne, men det ser ud til, at der er ingen software, der implementerer modellen. Er der noget nyere?

Jeg leder også efter software, der kan tage højde for indels .

Hvor god simuleringen skal være? Skal det omfatte, at i transkriptionsfaktorer og oversatte gener er mindre muteret bortset fra CpG og indeller transverstioner ...? (Jeg kender ikke nogen software, men jeg tror, at ethvert værktøj med en enkelt reference vil have problemer med at estimere gode parametre)

@Llopis ideen er at bruge den på alle regioner med meget svag selektion (f.eks. Intergen ikke-funktionel), kun for at redegøre for mutationsprocessen, ikke selektion, hvilket naturligvis påvirker gener og regulatoriske elementer.

Jeg er ikke sikker på, at disse værktøjer tillader parameterestimering ud fra dataene, men jeg har hørt gode ting om uudslettelig https://academic.oup.com/mbe/article/26/8/1879/980884 og Evolver https: // www.drive5.com/evolver/EvolverUserGuide.pdf

Hjælper dette: https: //www.biorxiv.org/content/early/2017/11/22/223297 Nyt syntetisk-diploid benchmark for nøjagtig variantopkaldsevaluering

FoldX er den nyeste metode til mutationsmodellering (citeret af utallige papirer). Det gør dog ikke nøjagtigt, hvad du vil uden ekstra arbejde.

[MMOS] (http://mmos.ch/) firmaet, der udvikler [Citizen science] (https://en.wikipedia.org/wiki/Citizen_science) løsninger til denne slags opgaver.

En svar:

Michael

2019-04-29 15:56:21 UTC

view on stackexchange narkive permalink

Spørgsmål Jeg formoder, at dette spørgsmål handler om fylogenetik ved methylering, og den fremgangsmåde, som efterforskeren foreslår, ville være den sidste tilgang at bruge.

Resumé stærk > Tilgange til at vurdere fylogenetikken ved methylering i rækkefølge efter præference er:

dN / dS mellem CpG-steder og ikke-CpG-steder,
Et eksplicit molekylur mellem CpG steder og ikke-CpG-steder
En sandsynlighedsrationstest (LRT) baseret på en nulfordeling af mutationer genereret af en Monte Carlo-algoritme

Baggrund / begrundelse De tilgange, du bruger, har eksisteret i lang tid og genererer den tilfældige fordeling af mutationer for en given fylogeni. Dens fylogenetik i omvendt retning og teknikken er kendt som Monte Carlo, du starter med en randomiseret sandsynlighed og sender den gennem en parametreret model for at forudsige aminosyren / nukleotidet. Således er det ML (maks. Sandsynlighed), Bayesian, "fylogenetisk-HMM" i omvendt retning. Det bruges inden for beregninger af sandsynlighedsforholdstest. Modellen bestemmes af en standard ML, Bayesian fylogeny algoritme, dvs. dens cirkulære matematik, fordi der ikke er nogen uafhængig metode til beregning af mutationsadfærden, så den nøjagtige kontekst, du bruger dette til, skal overvejes nøje. > Pakker Der er mange pakker, der udfører denne type Monte Carlo-simulering, SOWHat er god (LRT), og du genererer et stort antal replikerede datasæt (100 eller 1000). Den ene af basisalgoritmerne er "seq-gen", selvom PAML muligvis har implementeret dette.

Overvejelser For at bruge denne fremgangsmåde skal du nøje overveje dit spørgsmål. "Mutationssimuleringerne", når de analyseres via et fylogenetisk program, vil producere de samme parametre, som du oprindeligt indstillede, og træer med stort set samme længde. Hvis du bruger dette til at generere en nulfordeling til en fylogenetisk test, er disse tilgange nyttige, sammenligner du derefter den observerede sandsynlighed med nulfordelingen. Hvis du bruger den til at finde ud af, om mutationshastigheden på CpG-steder er højere end på andre steder, er den ene tilgang blandt en række alternativer.

Ulemper Beregning af en de novo nulfordeling af mutationshastigheden er beregningsmæssigt meget dyr og har derfor tendens til den sidste udførte beregning. Det vil adressere en enkelt hypotese, normalt med hensyn til topologi.

Kernen i problemet For virkelig at gøre det (jeg tror) du vil gøre, har du brug for et uafhængigt mål for mutation og mutation adfærd og det er ikke trivielt at opnå. Du bliver nødt til at overveje det som en maskinlæringsberegning med et formelt træningssæt, jeg ved ikke, om en sådan tilgang er blevet implementeret.

Styrker / resumé Sammenfattende har Monte Carlo fylogenetik simulering en begrænset anvendelse på grund af beregningens cirkularitet, MEN, MEN, hvad jeg har udeladt, er når det er passende det er faktisk en meget kraftig test.

Interessepunkter Jeg kan godt lide befolkningsdynamiske simuleringer inden for Beast, dette bestemt "a priori" og dets potentielle IMO har brug for yderligere udforskning . Imidlertid tror jeg ikke, du ser på, hvordan molekylær epidemiologi kan påvirke methyleringens mutationsadfærd. Jeg har ikke kigget på uudslettelig, men ser interessant ud.

Jeg skulle tale om "processorkrigssimuleringer", men det er sandsynligvis uden for emnet.

Tak for dit svar. Mit spørgsmål handler ikke så meget om fylogenetik ved methylering. Hvad jeg i det væsentlige har brug for er en nulfordeling for neutrale mutationer. MCMC eller maksimal sandsynlighed hjælper meget i betragtning af at der er en model :) Men jeg er ikke opmærksom på en ikke-tidsgenoprettelig model, der tegner sig for sekvenskontekst og indels.

Jeg ved ikke, hvad "sekvenskontekst" er, men ikke-reversibilitet af mutationer (og ved inferenstid) er Beast, alle andre ML eller Bayes (MCMCMC) algoritmer har symmetriske mutationsmatricer. MCMC i Bayes er forskellig fra Monte Carlo, der anvendes til nukleotidsimulering. For at være ærlig er den manglende klarhed i spørgsmålet bekymrende, så jeg kan ikke hjælpe yderligere.

I klassiske fylogenetiske modeller afhænger sandsynligheden for mutation ved position N kun af nukleotidet i denne position og et vist tidsmål. Hvad jeg mener med sekvenskontekst her er det faktum, at sandsynligheden for mutation også vil afhænge af nukleotider og mutationer ved positionerne N-M..N + M. Vi har et væld af empiriske beviser for, at der er [sådan en afhængighed] (https://doi.org/10.1038/ng.3292). Men der er ikke mange modeller, der tegner sig for det (såsom [denne] (https://doi.org/10.1093/molbev/msh039)). Jeg vil forsøge at afklare spørgsmålet og give nogle baggrundsoplysninger der.

Det gør jeg også, men jeg vedder på, at du ikke kan navngive mekanismen. Alligevel gjorde Nick Goldman dette for mange år siden, det er ikke nyt

ⓘ

Denne spørgsmål og svar blev automatisk oversat fra det engelske sprog.Det originale indhold er tilgængeligt på stackexchange, som vi takker for den cc by-sa 3.0-licens, den distribueres under.

Loading...