- Сравнение разных записей в EMBL
Заданный мне белок - KAD_ECOLI,AC=P69441.
Был сделан запрос на kodomo-count:
Получила файл с записью SwissProt -
kad_ecoli.entret.
Далее был сделан следующий запрос в
SRS:
((((([embl-AccNumber:X03038*] | [embl-AccNumber:U82664*]) |
[embl-AccNumber:U00096*]) | [embl-AccNumber:AP009048*]) |
[embl-AccNumber:M38777*]) | [embl-AccNumber:D90259*]) |
Результаты - в файле
wgetz. Также на основе полученных данных была заполнена таблица.
Идентификатор записи EMBL |
Тип молекулы |
Класс данных |
Раздел EMBL |
Дата создания
документа |
Описание |
Длина последовательности |
D90259 |
genomic DNA |
STD |
PRO |
01-AUG-1991 |
Escherichia coli K12 genes for adenylate kinase,
ferrochelatase, lipase like enzyme, ORF312, partial and complete cds. |
3576 |
U00096 |
genomic DNA |
STD |
PRO |
23-FEB-2006 |
Escherichia coli K12 MG1655, complete genome. |
4639675 |
AP009048 |
genomic DNA |
STD |
PRO |
22-JAN-2006 |
Escherichia coli W3110 DNA, complete genome. |
4646332 |
X03038 |
genomic
DNA |
STD |
PRO |
28-JAN-1986 |
E. coli adk gene for adenylate kinase |
1055 |
M38777 |
genomic DNA |
STD |
PRO |
23-SEP-1990 |
E.coli sequence of the apt-adk region. |
6820 |
U82664 |
genomic DNA |
STD |
PRO |
19-JAN-1997 |
Escherichia coli minutes 9 to 11 genomic sequence. |
139818 |
Все представленные в таблице молекулы одного типа - геномные ДНК,
принадлежат к одному классу данных - стандартному и к одному разделу
EMBL - PRO, время создания записей - примерно с конца 80-х двадцатого
века по 2000, причём самая рання из записей датирована 28 января 1986
года, самая поздняя - 23 февраля 2006. Кроме того, все эти молекулы
были получены из одного организма - кишечной палочки
Escherichia coli, а длины последовательностей очень различны.
- Сравнение описаний гена Escherichia coli
в двух разных записях EMBL
При помощи запросов entret embl:X03038 -auto и entret embl:D90259 -auto на kodomo-count были получены два файла:
x03038.entret и
d90259.entret, по информации из которых была заполнена следующая таблица.
Последовательности, кодирующие белок KAD_ECOLI в двух
записях банка EMBL
|
I |
II |
ID записи |
X03038 |
D90259 |
Начало гена в записи |
194 |
1 |
Конец гена в записи |
838 |
324 |
Направление гена |
прямое |
прямое |
В графах особенности (FT) в обеих записях написано название гена - adk,
что, как известно из прошлого семестра, соответствует действительности,
белок KAD_ECOLI кодируется геном adk, но длина его последовательности
во второй записи почему-то вдвое короче, чем в первой. Возможно, во
второй записи имеется в виду именно значимая (кодирующая) часть
последовательности? Или ген был предсказан двояко разными
исследователями, тем более что первая запись датирована 1986 годом, а
вторая - 1991. Возможно вторая запись соответствует уточнённым данным.
Для проверки этой догадки были созданы файлы
X03038.fasta и
D90259.fasta. Далее, при помощи программы
needle,
запущенной со стандартными параметрами было получено выравнивание(см.
отчёт).Из выравнивания видно, что вторая последовательность является
ровно половиной первой последовательности и при том эти половины
(вторые) полностью совпадают. Значит, просто секвенировали другой фрагмент генома.
-
Знакомство с записью гена из эукариотического генома
Заданная мне запись EMBL - AE006462, имя гена или его продукта - /gene="gs3".
Для выполнения этого задания была выполнена команда на kodomo-count:
entret embl:AE006462 -auto |
В результате получился файл
ae006462.entret. При детальном изучении файла была обнаружена информация об изучаемом гене.
FT CDS join(12932..13085,13222..13247,14246..14401,16377..16397) FT /codon_start=1 FT /gene="gs3" FT /product="unknown" FT /note="GENSCAN prediction; no supporting evidence known at FT this time" FT /db_xref="UniProtKB/TrEMBL:Q96S36" FT /protein_id="AAK61209.1" FT /translation="MRTELPLPRTRMGETAASRHLGTPGDTWGGVRGEDWETLLHLRDT FT TWGRGQVQAKMQVTDDPPRRGHGFETPEDTWGHVRDEDISGTPGAASPGHLGLTLVRGK FT EEEHRDALTRIQLC"
|
Это прямая цепь, значит, схема гена будет выглядеть следующим образом:
--[12932..13085]--...--[16377..16397]---> |
Число экзонов в гене - 4.
Интересно, что данный ген был предсказан, а подтверждений о его
реальном существовании на сегодняшний день нет, соответственно, его
продукт неизвестен. Однако, в банках данных есть записи о кодируемом
белке -UniProtKB/TrEMBL:Q96S36, его ID - AAK61209.1.
*Определите
длину самого длинного и самого короткого интрона.
*Определите
длину самого длинного и самого короткого экзона.
Для выполнения этого задания был создан файл
EMBL.xls.
|
Самый длинный |
Самый короткий |
Среднее значение |
Интрон |
1974 |
135 |
1035,33 |
Экзон |
155 |
20 |
88,25 |
По отношениям средних значений видно, что в этом гене интроны длинннее экзонов в 11 раз.
Протокол к занятию.
Главная Первый семестр Второй семестр Третий семестр