Spørgsmål:
Kan exoner være placeret uden for kodningssekvensen?
Cleb
2017-10-20 12:29:16 UTC
view on stackexchange narkive permalink

Jeg har en gff-fil som denne (jeg redigerede navnet):

  scaffold_x source exon 2987526 2987805. -. navn "foobar"; transcriptId 68892scaffold_x kilde CDS 2987526 2987805. - 1 navn "foobar"; proteinId 68892; exonNumber 5scaffold_x kilde exon 2988610 2988745. -. navn "foobar"; transcriptId 68892scaffold_x kilde CDS 2988610 2988745. - 2 navn "foobar"; proteinId 68892; exonNumber 4scaffold_x kilde exon 2989157 2989645. -. navn "foobar"; transcriptId 68892scaffold_x kilde CDS 2989157 2989645. - 2 navn "foobar"; proteinId 68892; exonNumber 3scaffold_x kilde exon 2990903 2991541. -. navn "foobar"; transcriptId 68892scaffold_x kilde CDS 2990903 2991541. - 2 navn "foobar"; proteinId 68892; exonNumber 2scaffold_x kilde stop_codon 2990903 2990905. - 0 navn "foobar" scaffold_x kilde exon 2991587 2992430. -. navn "foobar"; transcriptId 68892scaffold_x kilde CDS 2991587 2992430. - 0 navn "foobar"; proteinId 68892; exonNumber 1scaffold_x kilde start_codon 2992428 2992430. - 0 navn "foobar"  

start_codon er 2992428 2992430 og stop_codon er 2990903 2990905 ; Jeg ville derfor forvente alle eksoner inden for dette interval, dog f.eks. exon 5 findes i 2987526 2987805 som klart ligger uden for dette interval.

Er der noget galt med selve gff-filen, eller er der en sandsynlig forklaring på det?

EDIT :

I det tilsvarende protein fasta finder jeg en aminosyresekvens forbundet med dette prtein-ID og navn:

  >68892 | foobarMHTGD ...  kode> 
Tak for redigering, men det fortæller os ikke noget. Vi har brug for at kende tiltrædelsen af ​​det protein og / eller genet, du ser på. Hvad er `68892`? Er det genet ID? Også, hvorfor ville der ikke være en proteinsekvens forbundet med den? Det er kun UTR'erne, der ikke oversættes, resten af ​​eksoner vil være.
@terdon Se min kommentar under dit svar. Og tak for antydningen; der er faktisk eksoner i den "korrekte" region, som derefter kan oversættes til et protein. Du er velkommen til at udvide dit svar, og så er jeg glad for at acceptere det.
Jeg forstår ikke, hvad der forvirrer dig, for at være ærlig. Jeg vil gerne udvide, men jeg ved ikke i hvilken retning. Det kan være enklere, hvis du kommer ind i [chat] (https://chat.stackexchange.com/rooms/58858/bioinformatics) et sekund og ping mig (`@terdon`) der, så vi kan finde ud af, hvad der forvirrer dig.
Tre svar:
terdon
2017-10-20 13:03:44 UTC
view on stackexchange narkive permalink

Ja, selvfølgelig. Eksoner er ikke begrænset til proteinkodende regioner. Mange UTR'er er i eksoner. Faktisk har du endda forskellige tilfælde af UTR'er, der er flere eksoner og splejses.

Hvad der er mærkeligt i din fil er ikke så meget, at du har eksoner ud over stopkodonet, men at du også har dem markeret som CDS (kodningssekvens). Det er ikke muligt, nej. Selvom der faktisk kan være eksoner i UTR'erne, koder de ikke og bør ikke kaldes CDS. Det er sandsynligvis bare et mindre nomenklaturproblem, og hvad du ser på er en splejset UTR.

Så eksoner (eller delene af eksoner), der falder mellem start- og stopkodonerne, oversættes, mens de, der falder uden for disse regioner, ikke vil være (UTR'er).

For eksempel er dette den eksoniske struktur, der er vist for ENST00000617185, en af ​​udskrifterne af det humane P53-gen:

TP53 exonic structure

Kasserne er exoner og linjerne er introner. De farvede kasser er proteinkodende eksoner, mens de tomme er UTR-eksoner. Bemærk, hvordan de også splejses, og at dette specielle udskrift har 3 ikke-kodende eksoner i 5'-enden og en i 3'-enden.

@Cleb nej, UTR'er oversættes ikke. Men jeg kan ikke rigtig hjælpe, hvis du ikke giver os det gen, du ser på. Rediger dit spørgsmål og fortæl os, hvor dataene kommer fra, så vi også kan sammenligne din gff med det forudsagte protein.
Tak allerede for dit svar (+ 1). Så hvis jeg forstår korrekt, skal disse regioner ikke kode for et protein, korrekt !? Sjov ting er dog, hvis jeg ser på det tilsvarende protein fasta, er der en aminosyresekvens forbundet med det (se min redigering). Men da det ikke er en kodningssekvens, bør dette ikke være tilfældet da?
Desværre er det ikke offentligt tilgængeligt, når jeg googler til gennavnet, får jeg ingen hits. Men for nu er det allerede godt at vide, at der er noget fishy (?) I gang, så jeg kan kontakte forfatterne; ville bare sørge for, at jeg ikke går glip af noget indlysende.
@Cleb der foregår slet ikke noget fishy. Alle (eller i det mindste det store flertal) af proteinkodende udskrifter har utranslaterede regioner (UTR'er), og det er det, du viser. Det betyder ikke, at al udskrift ikke er oversat, kun at UTR-regionerne ikke er oversat. Og hvad mener du, det ikke er offentligt tilgængeligt? Er dette en genforudsigelse? Alle gener er offentligt tilgængelige.
Ja tak for afklaringen, jeg er ikke særlig fortrolig med dette emne, så jeg spørger sandsynligvis et par dumme ting :) Nå, jeg fik filen fra et websted, hvor man kun kan downloade filer, hvis man er registreret og så vidt jeg forstået, må man ikke distribuere oplysningerne uden tilladelse.
Jeg spekulerer på, om CDS uden for start-stop-området har at gøre med forskellige isoformer? Eksonerne har et transkript-id, og CDS-posterne har et protein-id, men start- og stoplinjerne har kun gen-id'er. Kunne være, at CDS-posterne og start / stop_codon entires er fra forskellige transkriptions-isoformer af det samme gen.
Emily_Ensembl
2017-10-20 12:57:49 UTC
view on stackexchange narkive permalink

Disse er de ikke-oversatte regioner (UTR'er). Alle mRNA'er har en 5 'UTR og en 3' UTR. Disse giver ribosomet noget at tage fat på og indeholder ofte vigtige reguleringssteder som miRNA-målsites.

Jeg har ofte undret mig ledigt over det. Er du 100% sikker på, at * alle * mRNA'er har to UTR'er? Eller i det mindste alle pattedyr-mRNA'er for at holde tingene enkle. Langt størstedelen gør det selvfølgelig, men dette er biologi, landet med gråtoner og undtagelser. Er der absolut ingen mRNA'er uden UTR'er?
Ikke alle har identificeret dem (endnu), men funktionelt synes jeg, at UTR'er er nødvendige. Jeg er ingen ekspert på oversættelse, men selv ignorerer jeg det regulatoriske aspekt, tror jeg, de er nødvendige bare for at lade ribosomet hænge fast.
Ja, det er det, jeg også undrer mig over. Jeg er heller ikke en oversættelsesekspert, men jeg kan ikke huske nogen sådan funktion. Det indebærer imidlertid på ingen måde, at der ikke er en, hvorfor jeg troede, jeg ville spørge. Jeg er ret sikker på, at jeg har set udskrifter uden kommenterede UTR'er, men som du siger, kan det bare være en fejl i kommentaren snarere end et reelt biologisk fænomen.
Tak allerede for dit svar (+ 1). Så hvis jeg forstår korrekt, skal disse regioner ikke kode for et protein, da det er en ikke-oversat region, korrekt !? Imidlertid finder jeg i den tilsvarende proteinfasta-fil en aminosekvens, der er knyttet til navnet og protein-ID'et (se min redigering). Hvordan kan det være?
Ja, den kodende region koder for et protein. I hver ende af den kodende region er der en UTR.
holmrenser
2017-10-26 11:34:55 UTC
view on stackexchange narkive permalink

Selvom forklaringen på, at UTR (utranskriberede) regioner kan bestå af flere eksoner, dækker jeg de fleste situationer, synes jeg det er godt at nævne stop codon-gennemlæsning.

Dette ville resultere i en CDS (kodende sekvens) del af dit mRNA (messenger RNA) efter et stopkodon.

Imidlertid, i henhold til gff3 formatspecifikationen, skal dette sandsynligvis kodes forskelligt ved hjælp af SO ( sekvens ontologi) udtryk som SO: 0000697 (gen med stopkodon læst igennem) og SO: 0000883 (stopkodonlæsning).



Denne spørgsmål og svar blev automatisk oversat fra det engelske sprog.Det originale indhold er tilgængeligt på stackexchange, som vi takker for den cc by-sa 3.0-licens, den distribueres under.
Loading...