Банк EMBL.

Заданный мне белок - KAD_ECOLI,AC=P69441.
Был сделан запрос на kodomo-count:
entret sw:P69441 -auto
Получила файл с записью SwissProt - kad_ecoli.entret.
Далее был сделан следующий запрос в SRS:
((((([embl-AccNumber:X03038*] | [embl-AccNumber:U82664*]) | [embl-AccNumber:U00096*]) | [embl-AccNumber:AP009048*]) | [embl-AccNumber:M38777*]) | [embl-AccNumber:D90259*])
Результаты - в файле wgetz. Также на основе полученных данных была заполнена таблица.

Идентификатор записи EMBL Тип молекулы Класс данных Раздел EMBL Дата создания
документа
Описание Длина последовательности
D90259 genomic DNA STD PRO 01-AUG-1991 Escherichia coli K12 genes for adenylate kinase, ferrochelatase, lipase like enzyme, ORF312, partial and complete cds. 3576
U00096 genomic DNA STD PRO 23-FEB-2006 Escherichia coli K12 MG1655, complete genome. 4639675
AP009048 genomic DNA STD PRO 22-JAN-2006 Escherichia coli W3110 DNA, complete genome. 4646332
X03038 genomic DNA STD PRO 28-JAN-1986 E. coli adk gene for adenylate kinase 1055
M38777 genomic DNA STD PRO 23-SEP-1990 E.coli sequence of the apt-adk region. 6820
U82664 genomic DNA STD PRO 19-JAN-1997 Escherichia coli minutes 9 to 11 genomic sequence. 139818

Все представленные в таблице молекулы одного типа - геномные ДНК, принадлежат к одному классу данных - стандартному и к одному разделу EMBL - PRO, время создания записей - примерно с конца 80-х двадцатого века по 2000, причём самая рання из записей датирована 28 января 1986 года, самая поздняя - 23 февраля 2006. Кроме того, все эти молекулы были получены из одного организма - кишечной палочки
Escherichia coli, а длины последовательностей очень различны.

При помощи запросов entret embl:X03038 -auto и entret embl:D90259 -auto на kodomo-count были получены два файла: x03038.entret и d90259.entret, по информации из которых была заполнена следующая таблица.

Последовательности, кодирующие белок KAD_ECOLI в двух записях банка EMBL

I II
ID записи X03038 D90259
Начало гена в записи 194 1
Конец гена в записи 838 324
Направление гена прямое прямое
В графах особенности (FT) в обеих записях написано название гена - adk, что, как известно из прошлого семестра, соответствует действительности, белок KAD_ECOLI кодируется геном adk, но длина его последовательности во второй записи почему-то вдвое короче, чем в первой. Возможно, во второй  записи имеется в виду именно значимая (кодирующая) часть последовательности? Или ген был предсказан двояко разными исследователями, тем более что первая запись датирована 1986 годом, а вторая - 1991. Возможно вторая запись соответствует уточнённым данным.
Для проверки этой догадки были созданы файлы X03038.fasta и D90259.fasta. Далее, при помощи программы needle, запущенной со стандартными параметрами было получено выравнивание(см. отчёт).Из выравнивания видно, что вторая последовательность является ровно половиной первой последовательности и при том эти половины (вторые) полностью совпадают. Значит, просто секвенировали другой фрагмент генома.  Заданная мне запись EMBL - AE006462, имя гена или его продукта - /gene="gs3".
Для выполнения этого задания была выполнена команда на kodomo-count:
entret embl:AE006462 -auto
В результате получился файл ae006462.entret. При детальном изучении файла была обнаружена информация об изучаемом гене.
FT   CDS             join(12932..13085,13222..13247,14246..14401,16377..16397)
FT /codon_start=1
FT /gene="gs3"
FT /product="unknown"
FT /note="GENSCAN prediction; no supporting evidence known at
FT this time"
FT /db_xref="UniProtKB/TrEMBL:Q96S36"
FT /protein_id="AAK61209.1"
FT /translation="MRTELPLPRTRMGETAASRHLGTPGDTWGGVRGEDWETLLHLRDT
FT TWGRGQVQAKMQVTDDPPRRGHGFETPEDTWGHVRDEDISGTPGAASPGHLGLTLVRGK
FT EEEHRDALTRIQLC"
Это прямая цепь, значит, схема гена будет выглядеть следующим  образом:
--[12932..13085]--...--[16377..16397]--->
Число экзонов в гене - 4.
Интересно, что данный ген был предсказан, а подтверждений о его реальном существовании на сегодняшний день нет, соответственно, его продукт неизвестен. Однако, в банках данных есть записи о кодируемом белке -UniProtKB/TrEMBL:Q96S36, его ID - AAK61209.1.    
*Определите длину самого длинного и самого короткого интрона.
*Определите длину самого длинного и самого короткого экзона.
Для выполнения этого задания был создан файл EMBL.xls.
Самый длинный Самый короткий Среднее значение
Интрон 1974 135 1035,33
Экзон 155 20 88,25
По отношениям средних значений видно, что в этом гене интроны длинннее экзонов в 11 раз.

Протокол к занятию.  



Главная  Первый семестр  Второй семестр  Третий семестр