Jeg kigger på en genomsekvens til 2019-nCoV på NCBI. De FASTA sekvens ser sådan ud:
>MN988713.1 Wuhan skaldyr marked lungebetændelse Virusisolatet 2019-nCoV / USA-IL1 / 2020 komplet genomeATTAAAGGTTTATACCTTCCCAGGTAACAAACCAACCAACTTTCGATCTCTTGTAGATCTGTTCTCTAAACGAACTTTAAAATCTGTGTGGCTGTCACTCGGCTGCATGCTTAGTGCACTCACGCAGTATAATTAATAACTAATTACTGTCGTTGACAGGACACGAGTAACTCGTCTATCTTCTGCAGGCTGCTTACGGTTTCGTCCGTG ... ... TTAATCAGTGTGTAACATTAGGGAGGACTTGAAAGAGCCACCACATTTTCACCGAGGCCACGCGGAGTACGATCGAGTGTACAGTGAACAATGCTAGGGAGAGCTGCCTATATGGAAGAGCCCTAATGTGTAAAATTAATTTTAGTAGTGCTATCCCCATGTGATTTTAATAGCTTCTTAGGAGAATGACAAAAAAAAAAAA
Coronavirus er en RNA-virus, så jeg forventede, at sekvensen skulle bestå af AUGC
-tegn. Men bogstaverne her er ATGC
, der ligner DNA!
Jeg fandt et muligt svar, at dette er sekvensen af et "komplementært DNA". Jeg læste, at
Udtrykket cDNA bruges også, typisk i en bioinformatisk sammenhæng, til at henvise til en mRNA-transkripts sekvens, udtrykt som DNA-baser (GCAT) snarere end RNA-baser (GCAU).
Jeg tror dog ikke på denne teori om, at jeg ser på et cDNA. Hvis dette var sandt, ville slutningen af den sande mRNA-sekvens være
Jeg fandt også, at starten på alle fremhævede gener begynder med sekvensen ATG
. Dette er DNA-ækvivalent med RNA-startkodonet AUG
.
Så jeg tror, det jeg kigger på er det ægte mRNA, i 5 '→ 3' retning, men med alle U
konverteret til T
.
Så er det virkelig det, jeg ser på? Er dette noget formaterings- / repræsentationsproblem? Eller indeholder 2019-nCoV virkelig DNA snarere end RNA?