Московский Государственный Университет имени М.В.Ломоносова

Факультет Биоинженерии и Биоинформатики

Учебный сайт Сеферяна Мелика

Главная

I Семестр

II Семестр

III Семестр

Проекты

Официальный сайт ФББ

Официальный сайт МГУ

Полезные ссылки

Банк EMBL.

1. а) дата последнего проиндексированного релиза EMBL 07.12.2009, содержит 108577013 записей.

б) Классы банка EMBL.
  • ANN: Constructed sequence with annotation
  • CON: Constructed sequence
  • EST: Expressed Sequence Tag
  • GRV: Genome Reviews
  • GSS: Genome Survey Sequence
  • HTC: High Throughput cDNA sequencing
  • HTG: High Throughput Genome sequencing
  • MGA: Mass Genome Annotation
  • PAT: Patent
  • SET: Project set (EMBL WGS Masters only)
  • STD: Standard
  • STS: Sequence Tagged Site
  • TPA: Third Party Annotation
  • TSA: Transcriptome Shotgun Assembly
  • WGS: Whole Genome Shotgun
из них проиндексированы:
  • EST: 62846990 записей
  • GSS: 25905073 записей
  • HTC: 549753 записей
  • HTG: 142473 записей
  • PAT: 10439165 записей
  • STD: 7253026 записей
  • STS: 1310171 записей
  • TPA: 6520 записей
  • TSA: 123842 записей
Классы ANN, CON, GRV, MGA, SET, WGS - не проиндексированы:

в) Разделы банка EMBL.

обозначение описание число записей
по-английски по-русски
ENV Environmental Samples Образцы из окружающей среды 4145029
FUN Fungi Грибы 3942084
HUM Human Человек 12841544
INV Invertebrates Беспозвоночные 15518735
MAM Other Mammals Другие млекопитающие 9429823
MUS Mus musculus Домовая мышь 7424621
PHG Bacteriophage Бактериофаги 5865
PLN Plants Растения 33806044
PRO Prokaryotes Прокариоты 909986
ROD Rodents Грызуны 2261678
SYN Synthetic Синтетические 2671622
TGN Transgenic Трансгенные 265465
UNC Unclassified Неклассифицированные 3945859
VRL Viruses Вирусы 827405
VRT Other Vertebrates Другие позвоночные 10581253

2. Информация о гене G5C из записи BA000025.

Направление гена относительно записи - прямое
Число кодирующих участков - 4
Длина первого кодирующего участка - 53 нт.
Длина последнего кодирующего участка - 164 нт.
Длина первого интрона - 3673 нт.
Длина последнего интрона - 1980 нт.

3. Поиск белка по кодирующему участку гена.

Самый длинный кодирующий участок в данном гене - 266908..267344 (длина 437 нт)
С помощью программы seqret -sask получен файл с последовательностью этого участка.
Далее подадим этот файл на вход программе BLASTX, которая по нуклеотидной последовательности ищет соответствующие белковые последовательности .

В банке SwissProt программа нашла 5 белков с достаточно низким E-value. Наибольшее сходство у белка LY65C_HUMAN (100% identity), в котором исходному экзону соответствуют аминокислоты в белке с 98 по 150. кроме того в списке находок еще 4 белка LY65C из других организмов (собаки, мыши, крысы и макаки).

4. Ссылки на банк EMBL в записи P0AFU8 банка SwissProt.

С помощью программы entret получен файл, содержащий данную запись.
В ней 4 ссылки на EMBL:

Идентификатор записи EMBL Тип молекулы Класс данных Раздел EMBL Дата создания
документа
Описание Длина последовательности
AP009048 genomic DNA STD PRO 22-JAN-2006 Escherichia coli str. K12 substr. W3110 DNA, complete genome. 4646332
U00096 genomic DNA STD PRO 23-FEB-2006 Escherichia coli str. K-12 substr. MG1655, complete genome. 4639675
U68703 genomic DNA STD PRO 20-SEP-1996 Escherichia coli K-12 MG1655 genome, ribC-pykF region. 14601
X69109 genomic DNA STD PRO 09-NOV-1992 E.coli ribC gene for riboflavin synthase 5969



© Сеферян Мелик, 2008 seferyan_m@mail.ru