Банк нуклеотидных последовательностей EMBL

1.

a) Текущий релиз содержит 108577013 записей и был проиндексирован 7 сентября 2009 года.

b) Список классов банка EMBL:

Название и описание классаКоличество записей в классе
ANN: Constructed sequence with annotationзаписи не проиндексированы
CON: Constructed sequenceзаписи не проиндексированы
EST: Expressed Sequence Tag62846990
GRV: Genome Reviewsзаписи не проиндексированы
GSS: Genome Survey Sequence25905073
HTC: High Throughput cDNA sequencing549753
HTG: High Throughput Genome sequencing142473
MGA: Mass Genome Annotationзаписи не проиндексированы
PAT: Patent10439165
SET: Project set (EMBL WGS Masters only)записи не проиндексированы
STD: Standard7253026
STS: Sequence Tagged Site1310171
TPA: Third Party Annotation6520
TSA: Transcriptome Shotgun Assembly123842
WGS: Whole Genome Shotgunзаписи не проиндексированы

c) Список разделов банка EMBL

Обозначение разделаОписание разделаЧисло записей
ENVПриродные образцы4145029
FUNГрибы3942084
HUMЧеловек12841544
INVБеспозвоночные15518735
MAMДругие млекопитающие9429823
MUSДомовая мышь (Mus musculus)7424621
PHGБактериофаги5865
PLNРастения33806044
PROПрокариоты909986
RODГрызуны2261678
SYNСинтетические2671622
TGNТрансгенные265465
UNCНеклассифицированные3945859
VRLВирусы827405
VRTДругие позвоночные10581253

2.

Информация о гене HLA-G из записи EMBL BA000025:
направление гена относительно направления, выбранного для записи - обратное (комплементарная цепь)
число кодирующих участков - 6
длина первого кодирующего участка - 73
длина последнего кодирующего участка - 5
длина первого интрона между кодирующими участками - 129
длина последнего интрона между кодирующими участками - 445.

3.

Самый длинный кодирующий участок гена HLA-G - это позиции 2111597..2111872. Файл с этой последовательностью: HLA-G_1.fasta.
Для поиска белка по заданной последовательности используем программу blastx: подаем на вход полученную последовательность в fasta-формате, в качестве базы данных, по которой производится поиск, указываем SwissProt. В результате было найдено два белка с наименьшим значением E-value (3e-13):
HLAG_HUMAN - человеческий антиген гистосовместимости класса I, участок 116-206;
HLAG_PANTR - выполняющий такую же функцию белок обыкновенного шимпанзе, участок также 116-206.
Искомый белок - HLAG_HUMAN, поскольку в этом случае идентичность 100% (с белком шимпанзе идентичность 98%, совпало 90 из 91 позиций). Поскольку нуклеотидная последовательность была выделена из человеческого гена, ясно, что искомый белок принадлежит человеку.

4.

При помощи программы entret получим запись SwissProt о белке OTC1_ECOLI: otc1_ecoli.entret.
В этой записи содержится 5 ссылок на банк EMBL:

Идентификатор записи EMBL Тип молекулы Класс данных Раздел EMBL Дата создания
документа
Описание Длина последовательности
J02842 линейная геномная ДНК STD PRO 20-FEB-1989 3'-конец кодирующего орнитинтранскарбамоилазу гена argI бактерии E.coli 1002
X00210 линейная геномная ДНК STD PRO 06-DEC-1983 Принадлежащий E.coli K12 ген argI, кодирующий орнитинтранскарбамоилазу 1085
U14003 геномная ДНК STD PRO 30-NOV-1994 Хромосомный регион Escherichia coli K-12, участок c 92.8 по 00.1 минуту 338534
U00096 геномная ДНК STD PRO 23-FEB-2006 Полный геном Escherichia coli, штамм К-12, подштамм MG1655 4639675
AP009048 геномная ДНК STD PRO 22-JAN-2006 ДНК Escherichia coli, штамм К12, подштамм W3110, полный геном 4646332


Назад