Банк нуклеотидных последовательностей EMBL
1.
a) Дата последнего проиндексированного в системе релиза EMBL - 07.07.2009. Туда включено 108577013 записей.
б) Список классов банка EMBL:
* ANN: Constructed sequence with annotation - не проиндексирован
* CON: Constructed sequence - не проиндексирован
* EST: Expressed Sequence Tag - 62846990 записей
* GRV: Genome Reviews - не проиндексирован
* GSS: Genome Survey Sequence - 25905073 записей
* HTC: High Throughput cDNA sequencing - 549753 записей
* HTG: High Throughput Genome sequencing - 142473 записей
* MGA: Mass Genome Annotation - не проиндексирован
* PAT: Patent - 10439165 записей
* SET: Project set (EMBL WGS Masters only) - не проиндексирован
* STD: Standard 7253026 записей
* STS: Sequence Tagged Site - 1310171 записей
* TPA: Third Party Annotation - 6520 записей
* TSA: Transcriptome Shotgun Assembly - 123842 записей
* WGS: Whole Genome Shotgun - не проиндексирован
в) Список разделов ("Divisions") банка EMBL.
* ENV: Environmental Samples (Образцы из окружающей среды); Записей: 4145029
* FUN: Fungi (Грибы ); Записей: 3942084
* HUM: Human (Человек); Записей: 12841544
* INV: Invertebrates (Беспозвоночные); Записей: 15518735
* MAM: Other Mammals (Другие млекопитающие); Записей: 9429823
* MUS: Mus musculus (Домовая мышь); Записей: 7424621
* PHG: Bacteriophage (Бактериофаги); Записей: 5865
* PLN: Plants (Растения); Записей: 33806044
* PRO: Prokaryotes (Прокариоты ); Записей: 909986
* ROD: Rodents (Грызуны); Записей: 2261678
* SYN: Synthetic (Синтетические); Записей: 2671622
* TGN: Transgenic (Трансгенные); Записей: 265465
* UNC: Unclassified (Неклассифицированные); Записей: 3945859
* VRL: Viruses (Вирусы); Записей: 827405
* VRT: Other Vertebrates (Другие позвоночные); Записей: 10581253
2. Информация о гене FLOT1 из записи BA000025
FT CDS join(1199991..1200033,1200313..1200388,1200476..1200566,
FT 1200847..1200990,1201382..1201501,1201589..1201684,
FT 1201870..1202022,1211088..1211269,1211461..1211506,
FT 1211623..1211760,1212002..1212166,1214043..1214072)
FT /codon_start=1
FT /transl_table=1
FT /gene="FLOT1"
Относительно направления, выбранного для записи, ген расположен прямо.
Число кодирующих участков: 12
Длина первого кодирующего участка: 43
Длина последнего кодирующего участка: 30
Длина первого интрона между кодирующими участками: 279
Длина последнего интрона между кодирующими участками: 1877
3. Поиск белка по кодирующему участку гена
Самый длинный кодирующий участок - участок с (1211088..1211269). Его длина составляет 182 нуклеотида.
Я вырезал эту последовательность в отдельный файл:
seqret -sask
Reads and writes (returns) sequences
Input (gapped) sequence(s): BA000025.embl
Begin at position [start]: 1395873
End at position [end]: 1396114
Reverse strand [N]:
output sequence(s) [ba000025.fasta]:
Для поиска белка по заданной нуклеотидной последовательности подходит blastx,
Файл, выданный ранее програмой seqret помещён в поле upload file, в поле database выбираем swissprot
и нажимаем "blast"
Было найдено 15 белков, из них 4 имеют одинаковое E-value 2e-07.
sp|Q08DN8.1|FLOT1_BOVIN RecName: Full=Flotillin-1 54.7 2e-07
sp|Q5RBL4.1|FLOT1_PONAB RecName: Full=Flotillin-1 54.7 2e-07
sp|Q7YR41.1|FLOT1_PANTR RecName: Full=Flotillin-1 >sp|Q5TM70.... 54.7 2e-07
sp|O75955.3|FLOT1_HUMAN RecName: Full=Flotillin-1 54.7 2e-07
sp|O08917.1|FLOT1_MOUSE RecName: Full=Flotillin-1 53.5 3e-07
sp|Q9Z1E1.2|FLOT1_RAT RecName: Full=Flotillin-1; AltName: Ful... 53.5 3e-07
sp|Q767L6.1|FLOT1_PIG RecName: Full=Flotillin-1 52.4 7e-07
sp|O13127.1|FLOT1_CARAU RecName: Full=Flotillin-1; AltName: F... 46.2 5e-05
sp|O61491.1|FLOT1_DROME RecName: Full=Flotillin-1 42.0 0.001
sp|Q98TZ8.2|FLOT2_DANRE RecName: Full=Flotillin-2a; AltName: ... 37.4 0.025
sp|O42305.1|FLOT2_CARAU RecName: Full=Flotillin-2; AltName: F... 36.6 0.042
sp|Q14254.2|FLOT2_HUMAN RecName: Full=Flotillin-2; AltName: F... 33.9 0.27
sp|Q9Z2S9.1|FLOT2_RAT RecName: Full=Flotillin-2; AltName: Ful... 33.9 0.27
sp|A6QLR4.1|FLOT2_BOVIN RecName: Full=Flotillin-2 32.0 1.0
sp|O32076.1|YUAG_BACSU RecName: Full=Uncharacterized protein ... 30.4 3.0
Найдены белки с очень похожей последовательностью, но из разных организмов,
Например, первый белок - FLOT1_BOVIN из организма Bos taurus - домашней коровы.
Белок FLOT1_HUMAN - из организма человека.
В этом белке данному мне экзону соответствует участок с 275 по 301 аминокислоту.
4. Характеристика записей EMBL, на которые ссылается запись P0ABH7 банка SwissProt
Идентификатор записи EMBL
|
Тип молекулы
|
Класс данных
|
Раздел EMBL
|
Дата создания
документа |
Описание
|
Длина последовательности
|
AP009048 |
genomic DNA |
STD |
PRO |
22-JAN-2006 |
Escherichia coli str. K12 substr. W3110 DNA, complete genome. |
4646332 |
J01619 |
genomic DNA |
STD |
PRO |
25-FEB-1991 |
Eschericia coli gltA gene, sdhCDAB operon and sucABCD operons, complete sequence. |
13063 |
U00096 |
genomic DNA |
STD |
PRO |
23-FEB-2006 |
Escherichia coli str. K-12 substr. MG1655, complete genome. |
4639675 |
V01501 |
genomic DNA |
STD |
PRO |
06-DEC-1983 |
E. coli gene gltA fragment encoding citrate synthase (EC 4.1.3.7). |
755 |
X00980 |
genomic DNA |
STD |
PRO |
07-NOV-1985 |
E. coli sdhA, sdhC, sdhD gene for flavoprotein and two hydrophobic subunits of the succinate dehydrogenase (SDH; EC1.3.99.1) |
3614 |
Все записи относятся к классу STD и описывают ДНК кишечной палочки. Записи AP009048 и U00096
описывают полный геном бактерии и гораздо длиннее остальных.
Назад