Jeg har en gff-fil som denne (jeg redigerede navnet):
scaffold_x source exon 2987526 2987805. -. navn "foobar"; transcriptId 68892scaffold_x kilde CDS 2987526 2987805. - 1 navn "foobar"; proteinId 68892; exonNumber 5scaffold_x kilde exon 2988610 2988745. -. navn "foobar"; transcriptId 68892scaffold_x kilde CDS 2988610 2988745. - 2 navn "foobar"; proteinId 68892; exonNumber 4scaffold_x kilde exon 2989157 2989645. -. navn "foobar"; transcriptId 68892scaffold_x kilde CDS 2989157 2989645. - 2 navn "foobar"; proteinId 68892; exonNumber 3scaffold_x kilde exon 2990903 2991541. -. navn "foobar"; transcriptId 68892scaffold_x kilde CDS 2990903 2991541. - 2 navn "foobar"; proteinId 68892; exonNumber 2scaffold_x kilde stop_codon 2990903 2990905. - 0 navn "foobar" scaffold_x kilde exon 2991587 2992430. -. navn "foobar"; transcriptId 68892scaffold_x kilde CDS 2991587 2992430. - 0 navn "foobar"; proteinId 68892; exonNumber 1scaffold_x kilde start_codon 2992428 2992430. - 0 navn "foobar"
Så start_codon
er 2992428 2992430
og stop_codon
er 2990903 2990905
; Jeg ville derfor forvente alle eksoner inden for dette interval, dog f.eks. exon 5 findes i 2987526 2987805
som klart ligger uden for dette interval.
Er der noget galt med selve gff-filen, eller er der en sandsynlig forklaring på det?
EDIT :
I det tilsvarende protein fasta finder jeg en aminosyresekvens forbundet med dette prtein-ID og navn:
>68892 | foobarMHTGD ... kode>