Главная
I Семестр
II Семестр
III Семестр
IV Семестр
Проекты
Обратная Связь
|
Мембранные белки, транспортные белки
- Построение выравнивания заданного белка и белка-прототипа с разметкой трансмембранных сегментов
- Сравнение нумерации остатков белка-прототипа GRIA2_RAT в UniProt и PDB
Воспользуемся БД PDBsum, предоставляющей краткое схематическое отображение информации о структуре.
Подадим на вход идентификатор PDB 3KG2 белка-прототипа GRIA2_RAT. В записи 3KG2 PDB представлено 4 цепи: A, B, C, D последовательности которых идентичны на 100%
Подведя курсор к выравниванию последовательности в структуре и щелкнув по картинке, получил
окно
с выравниванием последовательности из UniProt (ID - GRIA2_RAT, AC - P19491) и последовательности из PDB (ID - 3KG2).
Преобразуем выравнивание в формат FASTA и импортируем выравнивание в GeneDoc и сохраним его в файле align_1.msf.
Нумерация в двух базах данных не совпадает. В БД PDB последовательность значительно
короче (и на C-конце, и на N-конце). В PDB не представлен учаток белка с 1 по 9, с 545 по 567, а также с 586 по 593 а.о.
Правило перевода нумерации PDB в нумерацию UniProt: №(PDB) = №(UniProt) - 15 (до 381 по PDB), а начиная с 385 остатка №(PDB) = №(UniProt) - 21.
- Построение полного глобального выравнивания заданного белка GRIA3_MACFA
и белка-прототипа GRIA2_RAT
По идентификаторам UniProt получим последовательности заданного белка GRIA3_MACFA и белка-прототипа GRIA2_RAT.
Для этого воспользуемся программой seqret пакета EMBOSS. Сохраним последовательности в файлах gria3_macfa.fasta
и gria2_rat.fasta соответственно.
Глобальное оптимальное выравнивание получено с помощью программы needle (со стандартными параметрами
Gap opening penalty = 10.0, Gap extension penalty = 0.5) пакета EMBOSS. Выравнивание было сохранено в
файле gria_al.needle. Характеристики выравнивания:
# Gap_penalty: 10.0
# Extend_penalty: 0.5
#
# Length: 898
# Identity: 640/898 (71.3%)
# Similarity: 767/898 (85.4%)
# Gaps: 19/898 ( 2.1%)
# Score: 3386.0
Выравнивание было импортировано в GeneDoc и сохранено в файле gria_al.msf
- Разметка трансмембранных сегментов в белке-прототипе GRIA2_RAT по данным БД OPM
Найдем по PDB ID: 3KG2 описание ТМ-сегментов
белка-прототипа GRIA2_RAT в БД OPM
(Orientations of Proteins in Membranes database).
Белок GRIA2_RAT имеет код 1.1.10.01. Изучим подробнее код:
1. - Белок относится к типу трансмембранных белков (Transmembrane)
1.1. - Белок относится к классу альфа-спиральных трансмембранных белков (Alpha-helical transmembrane)
1.1.10. - Белок относится к суперсемейству воротных глутаматных ионых каналов (Glutamate-gated Ion Channel (GIC))
1.1.10.01 - Белок относится к семейству воротных глутаматных ионых каналов (Glutamate-gated Ion Channel (GIC))
На основании описания добавим в созданное в предыдущем пункте выравнивание строчку с разметкой трансмембранных сегментов.
Назовем эту строчку "OPM". Измененное выравнивание сохранено в файле mark.msf.
В строчке "OPM" буквы "H" соответствуют позициям трансмембранных сегментов белка-прототипа
GRIA2_RAT, "+" - позициям цитоплазматических сегментов, "-" - позициям внеклеточных сегментов (в формате .msf отображается как ".").
Как видно из выравнивания, последовательность GRIA2_RAT имеет 4 трансмембранных сегмента.
Большая часть последовательности расположена вне клетки.
- Предсказание топологии заданного белка GRIA3_MACFA с помощью программы TMHMM
Предскажем топологию белка GRIA3_MACFA с помощью сервера TMHMM.
На вход подадим ему файл gria3_macfa.fasta с последовательностью белка в формате FASTA. В
результате чего получили следующее предсказание.
Полученное предсказание добавим к выравниванию файла mark.msf в виде искусственной
последовательности с разметкой трансмембранных спиралей под названием "TMHMM". Полученное выравнивание
сохранено в форматах msf в файлe mark_t.msf.
- Сравнение полученного предсказания с данными OPM
Для сравнения предсказания, полученного с помощью программы TMHMM, с данными OPM был создан скрипт, написанный на языке Perl.
Этот скрипт принимает на вход файл (opm_coord.txt) с описанием всех трансмембранных
сегментов в БД OPM. Координаты всех трансмембранных сегментов сперва были переведены из pdb в координаты белка GRIA2_RAT,
а затем в координаты белка GRIA3_MACFA. И файл (tmhmm.txt), полученный с помощью программы TMHMM.
Программа: mark_count.pl.
Выходной файл программы: result.txt, содержит строки, соответствующие строкам таблицы.
|
Число а.к. остатков |
Всего а.к. остатков |
894 |
Остатки, предсказанные как локализованные в мембране (всего) |
92 |
Правильно предсказали (true positives, TP) |
57 |
Предсказали не то, что нужно (а.о. предсказаны как мембранные, а по данным ОРМ таковыми не являются, false positives, FP) |
35 |
Правильно не предсказали ( не предсказаны, и по данным ОРМ не находятся в мембране, true negatives, TN) |
779 |
Не предсказали то, что нужно (остатки по данным ОРМ находятся в мембране, false negatives, FN) |
23 |
Чувствительность (sensivity) = TP / (TP+FN) |
0.713 (71,3%) |
Специфичность (specificity) = TN / (TN+FP) |
0.957 (95,7%) |
Точность(precision) = TP /(TP+FP) |
0.620 (62%) |
Сверхпредсказание = FP/ (FP+TP) |
0.380 (38%) |
Недопредсказание = FN / (TN+FN) |
0.029 (2,9%) |
Как видно из таблицы, достаточно большая доля (38%) предсказанных трансмембранных сегментов не оказались таковыми. Однако только 2.9%
трансмембранных последовательностей было пропущено при предсказании. В данном случае высока специфичность, а чувствительность и точность оказались ниже.
Предсказаны две из четырех трансмембранных спиралей полностью и одна трансмембранных спираль предсказана частично. N-конец, предсказанный
программой TMHMM находится в клетке, тогда как по данным OPМ он находится вне клетки. С-конец находится в клетке, как по данным
OPМ так и по предсказанию, полученного с помощью программы TMHMM, что немного странно так как при наличие одинакого количества
трансмембранных спиралей и разного расположения N-концов, C-концы также должны располагаться по разному. Возможно это связанно с тем, что
участок (по данным PDB): 584-595 (координаты для белка GRIA3_MACFA: 616-627) располагается в мембране.
|