Hvorfor ligner FASTA-sekvensen for coronavirus DNA, ikke RNA?

Spørgsmål:

Hvorfor ligner FASTA-sekvensen for coronavirus DNA, ikke RNA?

jameshfisher

2020-02-09 23:13:16 UTC

view on stackexchange narkive permalink

Jeg kigger på en genomsekvens til 2019-nCoV på NCBI. De FASTA sekvens ser sådan ud:

  >MN988713.1 Wuhan skaldyr marked lungebetændelse Virusisolatet 2019-nCoV / USA-IL1 / 2020 komplet genomeATTAAAGGTTTATACCTTCCCAGGTAACAAACCAACCAACTTTCGATCTCTTGTAGATCTGTTCTCTAAACGAACTTTAAAATCTGTGTGGCTGTCACTCGGCTGCATGCTTAGTGCACTCACGCAGTATAATTAATAACTAATTACTGTCGTTGACAGGACACGAGTAACTCGTCTATCTTCTGCAGGCTGCTTACGGTTTCGTCCGTG ... ... TTAATCAGTGTGTAACATTAGGGAGGACTTGAAAGAGCCACCACATTTTCACCGAGGCCACGCGGAGTACGATCGAGTGTACAGTGAACAATGCTAGGGAGAGCTGCCTATATGGAAGAGCCCTAATGTGTAAAATTAATTTTAGTAGTGCTATCCCCATGTGATTTTAATAGCTTCTTAGGAGAATGACAAAAAAAAAAAA

Coronavirus er en RNA-virus, så jeg forventede, at sekvensen skulle bestå af AUGC -tegn. Men bogstaverne her er ATGC , der ligner DNA!

Jeg fandt et muligt svar, at dette er sekvensen af et "komplementært DNA". Jeg læste, at

Udtrykket cDNA bruges også, typisk i en bioinformatisk sammenhæng, til at henvise til en mRNA-transkripts sekvens, udtrykt som DNA-baser (GCAT) snarere end RNA-baser (GCAU).

Jeg tror dog ikke på denne teori om, at jeg ser på et cDNA. Hvis dette var sandt, ville slutningen af den sande mRNA-sekvens være ... UCUUACUGUUUUUUUUUUU eller en "poly (U)" -hale. Men jeg tror, at coronavirus har en poly (A) hale.

Jeg fandt også, at starten på alle fremhævede gener begynder med sekvensen ATG . Dette er DNA-ækvivalent med RNA-startkodonet AUG .

Så jeg tror, det jeg kigger på er det ægte mRNA, i 5 '→ 3' retning, men med alle U konverteret til T.

Så er det virkelig det, jeg ser på? Er dette noget formaterings- / repræsentationsproblem? Eller indeholder 2019-nCoV virkelig DNA snarere end RNA?

Undskyld min uvidenhed, men jeg forventede meget mere 'AAA' (3 'poly (A) hale) i slutningen af denne sekvens. Forvirrer jeg flere formater her, eller mangler din sekvens en del? Er dette resultatet af transskription af RNA som DNA?

[skal være 11 tripletter, 33 gange A] (https://bioinformatics.stackexchange.com/q/11227)

Fem svar:

Michael

2020-02-10 01:10:09 UTC

view on stackexchange narkive permalink

Det er den rigtige sekvens for 2019-nCov. Coronavirus er naturligvis en RNA-virus, og faktisk er, så vidt jeg ved, enhver RNA-virus i Genbank til stede som cDNA (AGCT, dvs. thydmin) og ikke RNA (AGCU, dvs. uracil).

Årsagen er simpelt sekventerer vi aldrig direkte fra RNA, fordi RNA er for ustabilt og let nedbrydes af RNase. I stedet transverteres genomet enten ved målrettet revers transkription eller tilfældig amplifikation og omdannes således til cDNA. cDNA er stabilt og er i det væsentlige omvendt transskriberet RNA.

cDNA'et enten sekventeres direkte eller yderligere amplificeres ved PCR og derefter sekventeres. Derfor er sekvensen, vi observerer, cDNA snarere end RNA, således observerer vi thymin snarere end uracil, og det er sådan, det rapporteres.

* Det er virkelig svært at sekvensere direkte fra en patient * Det er gjort ([Direkte RNA-sekventering af komplet influenza A-virusgenom] (https://www.biorxiv.org/content/10.1101/300384v3)) men selvfølgelig der ændrer ikke det rigtige svar her - Næsten al sekventering af RNA-vira sker gennem cDNA.

Hej @iayork, tak Jeg accepterer dens gennemførlige, men f.eks. en risiko er en sjusket våd-lab-fejl, og vRNA nedbrydes, f.eks. vRNA opbevares ved -70oC og har brug for RNase-hæmmere, viral cDNA opbevares ved -20oC, og ingen bryr sig. Nogle gange er der juridiske problemer (disse er patogener).

ATpoint

2020-02-10 01:03:38 UTC

view on stackexchange narkive permalink

De fleste sekventeringseksperimenter, det være sig Illumina-baserede næste generations sekventering eller Sanger-sekventering bruger DNA som skabelon, ikke RNA. Selvom denne virus er RNA-baseret, ville den blive transskriberet omvendt før ethvert sekventeringseksperiment. Derfor er output DNA, og dette er hvad NCBI giver her.

Konrad Rudolph

2020-02-10 22:22:44 UTC

view on stackexchange narkive permalink

Hvis dette var [cDNA], ville slutningen af den sande mRNA-sekvens være ... UCUUACUGUUUUUUUUUUU eller en "poly (U)" -hale.

En cDNA sekvens, måske forvirrende, refererer til kodende streng af cDNA (på trods af at det kaldes "komplementær"). Så mens cDNA er resultatet af omvendt transkribering af RNA til DNA, har det ved konvention den samme strenghed som det originale RNA. Derfor læses det, du ser, i retning 5 ′ → 3 ′ og indeholder en synlig poly (A) hale. At have en enkelt konventionel læseretning for alle arkiverede sekvenser forenkler datahåndtering meget og reducerer fejl.

Faktisk, da cDNA er dobbeltstrenget, er der ingen a priori grund til, at en computerlagret cDNA-sekvens henvis til skabelonstrengen (dvs. den modsatte streng, som syntetiseres fra RNA under omvendt transkription).

Hele (forenklet) synteseproces af cDNA er som følger:

En primer hybridiserer til skabelon-RNA-molekylet.
RNA-skabelonen transskriberes omvendt til DNA ved hjælp af revers transkriptase.
RNA-skabelonen fjernes.
En komplementær streng transskriberes langs (i øjeblikket) enkeltstrenget cDNA, hvilket resulterer i et dobbeltstrenget cDNA-produkt.

gringer

2020-02-11 01:05:23 UTC

view on stackexchange narkive permalink

Det er ikke almindeligt at sekvensere direkte fra RNA, fordi de fleste sekventeringsplatforme ikke har det som en mulighed. Nanopore-sequencere tillader dette, men jeg er ikke bekendt med nogen 2019-nCov-fortryk, der involverer nanopore-RNA-sekventering. Jeg forventer, at det vil ændre sig i løbet af den næste måned.

Der findes kommercielle sæt; der er ingen uoverstigelige tekniske problemer med det. Direkte RNA-sekventering kan udføres lokalt på stedet nær opdagelsesstedet uden prøveoverførsel eller kultur på en USB-drevet enhed, der passer i en lomme (RNA-forberedelse tager ca. 2 timer). Flowceller, der har potentielt infektiøs RNA i sig, kan bortskaffes som biologisk farligt affald. Imidlertid betyder den lethed, hvormed RNA hurtigt kan konverteres til mere stabil cDNA og derefter amplificeres for at skabe en meget højere koncentration DNA-prøve (som er hurtigere / mere effektiv at få resultater fra), at cDNA generelt foretrækkes til sekventering, medmindre det native RNA er behov (f.eks. for at se på RNA-basemodifikationer, der ødelægges, når de konverteres til cDNA).

Der findes et papir om koronavirus direkte RNA-sekventering med nanopore her; Jeg forventer, at 2019-nCoV ville have en lignende vanskelighed. Zika-virussen har en ekstremt lav virusbelastning i humant blod, men er også blevet sekventeret via direkte RNA-sekventering af [omhyggeligt] dyrkede celler (se her).

Uanset om eller ikke er RNA-sekventering faktisk udført, de fleste genetiske dataanalyseprogrammer fungerer kun med A / C / G / T-sekvenser, så det er konventionelt at erstatte U-dele af en RNA-sekvens med T til datalagring. Der er intet tab af information ved at gøre dette, da T erstatter alle Us i RNA-sekvensen.

Tak @gringer Det er værd at bemærke, at RNA-molekylet for mange RNA-vira er et bioterroristmiddel i terrorlovgivning, f.eks. UK tidsplan 5 love. Dette skyldes, at den levende virus kan genvindes, hvis RNA transficeres i cellekultur. cDNA giver en rute for at forhindre dette. 2019-nCov vil næsten helt sikkert blive føjet til Storbritanniens liste ..

science lover

2020-03-25 21:15:47 UTC

view on stackexchange narkive permalink

Jeg har lige søgt på GenBank accepterer nukleotidsekvens, jeg så ikke cDNA nogen steder og i Wuhan Coronavirus nævnes det / mol_type = "genomisk RNA"

Jeg er nysgerrig

Dens tilstedeværelse af thyminresterne (T) snarere end uracil (U) gennem dataene

Velkommen til siden. Dette virker mere som en kommentar end et svar.

ⓘ

Denne spørgsmål og svar blev automatisk oversat fra det engelske sprog.Det originale indhold er tilgængeligt på stackexchange, som vi takker for den cc by-sa 4.0-licens, den distribueres under.

Loading...