Занятие 2. Банк EMBL
-
Сравнение разных записей в EMBL
В документе SwissProt, описывающем
RIR1_Ecoli, найдены
все ссылки на банк EMBL.
Идентификатор записи EMBL
|
Тип молекулы
|
Класс данных
|
Раздел EMBL
|
Дата создания
документа |
Описание
|
Длина последовательности
|
AP009048 |
genomic DNA |
STD |
PRO |
22-JAN-2006 |
Escherichia coli W3110 DNA, complete genome. |
4646331 |
K02672 |
genomic DNA |
STD |
PRO |
28-JAN-1986 |
Escherichia coli ribonucleoside diphosphate reductase operon, complete sequence. |
8553 |
U00096 |
genomic DNA |
STD |
PRO |
23-FEB-2006 |
Escherichia coli K12 MG1655, complete genome. |
4639674 |
X06999 |
genomic DNA |
STD |
PRO |
16-JUL-1988 |
E. coli nrdA gene |
2286 |
Как видно по описанию, две записи из четырех - полный геном E.coli разных штаммов.
Рибонуклеозид дифосфат редуктаза состоит из 2 субъединиц, каждая из которых закодирована в отдельном гене
(nrdA и nrdB).
Четвертая ссылка, судя по всему, - нуклеотидная последовательность RIR1_Ecoli (ген nrdA), с которым я работал
в первых двух семестрах.
Вторая запись ссылается на оба гена, как nrdA так, и nrdB, кодирующих данный фермент.
-
Сравнение описаний гена Escherichia coli в двух разных записях
EMBL
Для выполнения задания были выбраны записи K02672 и X06999.
K02672 кодирует не только RIR1_Ecoli, но и RIR2_Ecoli.
Последовательности, кодирующие белок
RIR1_Ecoli в двух записях банка EMBL
|
I |
II |
ID записи |
K02672 |
X06999 |
Начало гена в записи |
3505 |
1 |
Конец гена в записи |
5835 |
2286 |
Направление гена |
прямое |
прямое |
Примечания |
* |
- |
*В качестве CDS указан участок последовательности, которая после трансляции станет
"предшественником" RIR1, который, по-видимому, не будет обладать ферментативной активностью(ribonucleoside diphosphate reductase B1 subunit precursor).
Там также указаны 2 участка последовательности, после трансляции которых будут получены "готовые"
RIR1 (ribonucleoside diphosphate reductase B1 subunit alpha polypeptide (участок 3511..5832) и ribonucleoside diphosphate
reductase B1 subunit alpha-prime polypeptide (участок 3583..5832)).
В таблице указаны конец и начало CDS.
Как видно, последовательность из K02672 длиннее на 45 bp. Если рассматривать
нуклеотидные последовательности "готовых" RIR1, то их различие с нуклеотидной последовательностью из записи из X06999 изменится незначительно в cлучае с
ribonucleoside diphosphate reductase B1 subunit alpha polypeptide - оно будет составлять 36 bp.
Если же рассматривать последовательность ribonucleoside diphosphate reductase B1 subunit alpha-prime polypeptide, то она окажется на 38
bp короче, последовательности из X06999.
Сравнительная характеристика выравниваний,сделанных программой needle, нуклеотидной последовательности из X06999 и различных
последовательностей из K02672.
Sequence from K02672 | Identity(%) | Similarity(%) | Length(bp) | Gaps(%) | Score |
ribonucleoside diphosphate reductase B1 subunit precursor | 96.5 | 96.5 | 2346 | 3.2 | 11118.5 |
ribonucleoside diphosphate reductase B1 subunit alpha polypeptide | 96.4 | 96.4 | 2343 | 3.3 | 11088.5 |
ribonucleoside diphosphate reductase B1 subunit alpha-prime polypeptide | 93.3 | 93.3 | 2343 | 6.4 | 10728.5 |
Исходя из полученных данных, можно сделать вывод о том, что в последовательности из X06999 скорей всего в качестве CDS имеется ввиду
ribonucleoside diphosphate reductase B1 subunit precursor.
Интересно, что если транслировать CDS моего белка из X06999 и K02672 и построить выравнивание уже получившихся аминокислотных последовательностей, то
Identity будет составлять еще меньшую величину в 79.3%. Это происходит из-за того, что в нуклеотидной последовательности на
участке 750-950 bp происходит последовательно сдвиг а затем "возврат" рамки считывания. Также имеется сдвиг рамки считывания в районе
1750 bp, не имеющий "возврата".
В качестве иллюстрации приведены ссылки
на соответственно нуклеотидное и аминокислотное выравнивания.
-
Знакомство с записью гена из эукариотического генома
В AL355388 содержится две записи гена с названием RIT1. Для выполнения задания была выбрана первая встретившаяся запись. Во второй имеется на 1 экзон больше, также один из экзонов имеет большую длину. В остальном ген записан одинаково в обоих случаях.
Судя по-всему, в данном случае имеет место альтернативный сплайсинг, т.е. из м-РНК одного и того же гена могут вырезаться разные участки перед синтезом белка.
Вычисления доступны здесь в виде Excel-книги.
|