Банк нуклеотидных последовательностей EMBL

1.
a) Дата последнего проиндексированного в системе релиза EMBL - 07.07.2009. Туда включено 108577013 записей.

б) Список классов банка EMBL:
    * ANN: Constructed sequence with annotation - не проиндексирован
    * CON: Constructed sequence - не проиндексирован
    * EST: Expressed Sequence Tag -	62846990 записей
    * GRV: Genome Reviews - не проиндексирован
    * GSS: Genome Survey Sequence - 25905073 записей
    * HTC: High Throughput cDNA sequencing - 549753 записей
    * HTG: High Throughput Genome sequencing - 142473 записей
    * MGA: Mass Genome Annotation - не проиндексирован
    * PAT: Patent - 10439165 записей
    * SET: Project set (EMBL WGS Masters only) - не проиндексирован
    * STD: Standard 7253026 записей
    * STS: Sequence Tagged Site - 1310171 записей
    * TPA: Third Party Annotation - 6520 записей
    * TSA: Transcriptome Shotgun Assembly - 123842 записей
    * WGS: Whole Genome Shotgun - не проиндексирован
в) Список разделов ("Divisions") банка EMBL.
    * ENV: Environmental Samples (Образцы из окружающей среды);           Записей: 4145029 
    * FUN: Fungi (Грибы );                                                Записей: 3942084 
    * HUM: Human (Человек);                                               Записей: 12841544 
    * INV: Invertebrates (Беспозвоночные);                                Записей: 15518735 
    * MAM: Other Mammals (Другие млекопитающие);                          Записей: 9429823 
    * MUS: Mus musculus (Домовая мышь);                                   Записей: 7424621
    * PHG: Bacteriophage (Бактериофаги);                                  Записей: 5865 
    * PLN: Plants (Растения);                                             Записей: 33806044 
    * PRO: Prokaryotes (Прокариоты );                                     Записей: 909986 
    * ROD: Rodents (Грызуны);                                             Записей: 2261678 
    * SYN: Synthetic (Синтетические);                                     Записей: 2671622 
    * TGN: Transgenic (Трансгенные);                                      Записей: 265465 
    * UNC: Unclassified (Неклассифицированные);                           Записей: 3945859 
    * VRL: Viruses (Вирусы);                                              Записей: 827405 
    * VRT: Other Vertebrates (Другие позвоночные);                        Записей: 10581253 

2. Информация о гене FLOT1 из записи BA000025

FT   CDS             join(1199991..1200033,1200313..1200388,1200476..1200566,
FT                   1200847..1200990,1201382..1201501,1201589..1201684,
FT                   1201870..1202022,1211088..1211269,1211461..1211506,
FT                   1211623..1211760,1212002..1212166,1214043..1214072)
FT                   /codon_start=1
FT                   /transl_table=1
FT                   /gene="FLOT1"
Относительно направления, выбранного для записи, ген расположен прямо.
Число кодирующих участков: 12
Длина первого кодирующего участка: 43
Длина последнего кодирующего участка: 30
Длина первого интрона между кодирующими участками: 279
Длина последнего интрона между кодирующими участками: 1877

3. Поиск белка по кодирующему участку гена
Самый длинный кодирующий участок - участок с (1211088..1211269). Его длина составляет 182 нуклеотида. Я вырезал эту последовательность в отдельный файл:
    seqret -sask
    Reads and writes (returns) sequences
    Input (gapped) sequence(s): BA000025.embl
         Begin at position [start]: 1395873
           End at position [end]: 1396114
            Reverse strand [N]:
    output sequence(s) [ba000025.fasta]:
Для поиска белка по заданной нуклеотидной последовательности подходит blastx, Файл, выданный ранее програмой seqret помещён в поле upload file, в поле database выбираем swissprot и нажимаем "blast"
Было найдено 15 белков, из них 4 имеют одинаковое E-value 2e-07.
sp|Q08DN8.1|FLOT1_BOVIN  RecName: Full=Flotillin-1                 54.7    2e-07 
sp|Q5RBL4.1|FLOT1_PONAB  RecName: Full=Flotillin-1                 54.7    2e-07 
sp|Q7YR41.1|FLOT1_PANTR  RecName: Full=Flotillin-1 >sp|Q5TM70....  54.7    2e-07 
sp|O75955.3|FLOT1_HUMAN  RecName: Full=Flotillin-1                 54.7    2e-07 
sp|O08917.1|FLOT1_MOUSE  RecName: Full=Flotillin-1                 53.5    3e-07 
sp|Q9Z1E1.2|FLOT1_RAT  RecName: Full=Flotillin-1; AltName: Ful...  53.5    3e-07 
sp|Q767L6.1|FLOT1_PIG  RecName: Full=Flotillin-1                   52.4    7e-07 
sp|O13127.1|FLOT1_CARAU  RecName: Full=Flotillin-1; AltName: F...  46.2    5e-05
sp|O61491.1|FLOT1_DROME  RecName: Full=Flotillin-1                 42.0    0.001
sp|Q98TZ8.2|FLOT2_DANRE  RecName: Full=Flotillin-2a; AltName: ...  37.4    0.025 
sp|O42305.1|FLOT2_CARAU  RecName: Full=Flotillin-2; AltName: F...  36.6    0.042
sp|Q14254.2|FLOT2_HUMAN  RecName: Full=Flotillin-2; AltName: F...  33.9    0.27  
sp|Q9Z2S9.1|FLOT2_RAT  RecName: Full=Flotillin-2; AltName: Ful...  33.9    0.27  
sp|A6QLR4.1|FLOT2_BOVIN  RecName: Full=Flotillin-2                 32.0    1.0  
sp|O32076.1|YUAG_BACSU  RecName: Full=Uncharacterized protein ...  30.4    3.0  

Найдены белки с очень похожей последовательностью, но из разных организмов, Например, первый белок - FLOT1_BOVIN из организма Bos taurus - домашней коровы.
Белок FLOT1_HUMAN - из организма человека. В этом белке данному мне экзону соответствует участок с 275 по 301 аминокислоту.

4. Характеристика записей EMBL, на которые ссылается запись P0ABH7 банка SwissProt
Идентификатор записи EMBL Тип молекулы Класс данных Раздел EMBL Дата создания
документа
Описание Длина последовательности
AP009048 genomic DNA STD PRO 22-JAN-2006 Escherichia coli str. K12 substr. W3110 DNA, complete genome. 4646332
J01619 genomic DNA STD PRO 25-FEB-1991 Eschericia coli gltA gene, sdhCDAB operon and sucABCD operons, complete sequence. 13063
U00096 genomic DNA STD PRO 23-FEB-2006 Escherichia coli str. K-12 substr. MG1655, complete genome. 4639675
V01501 genomic DNA STD PRO 06-DEC-1983 E. coli gene gltA fragment encoding citrate synthase (EC 4.1.3.7). 755
X00980 genomic DNA STD PRO 07-NOV-1985 E. coli sdhA, sdhC, sdhD gene for flavoprotein and two hydrophobic subunits of the succinate dehydrogenase (SDH; EC1.3.99.1) 3614
Все записи относятся к классу STD и описывают ДНК кишечной палочки. Записи AP009048 и U00096 описывают полный геном бактерии и гораздо длиннее остальных.
Назад