МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ИМЕНИ М.В.ЛОМОНОСОВА
ФАКУЛЬТЕТ БИОИНЖЕНЕРИИ И БИОИНФОРМАТИКИ

Домашняя страничка Ильи Курочкина

Мембранные белки, транспортные белки

Построение выравнивания заданного белка и белка-прототипа с разметкой трансмембранных сегментов

Сравнение нумерации остатков белка-прототипа GRIA2_RAT в UniProt и PDB

Воспользуемся БД PDBsum, предоставляющей краткое схематическое отображение информации о структуре. Подадим на вход идентификатор PDB 3KG2 белка-прототипа GRIA2_RAT. В записи 3KG2 PDB представлено 4 цепи: A, B, C, D последовательности которых идентичны на 100% Подведя курсор к выравниванию последовательности в структуре и щелкнув по картинке, получил окно с выравниванием последовательности из UniProt (ID - GRIA2_RAT, AC - P19491) и последовательности из PDB (ID - 3KG2). Преобразуем выравнивание в формат FASTA и импортируем выравнивание в GeneDoc и сохраним его в файле align_1.msf. Нумерация в двух базах данных не совпадает. В БД PDB последовательность значительно короче (и на C-конце, и на N-конце). В PDB не представлен учаток белка с 1 по 9, с 545 по 567, а также с 586 по 593 а.о. Правило перевода нумерации PDB в нумерацию UniProt: №(PDB) = №(UniProt) - 15 (до 381 по PDB), а начиная с 385 остатка №(PDB) = №(UniProt) - 21.

Построение полного глобального выравнивания заданного белка GRIA3_MACFA и белка-прототипа GRIA2_RAT

По идентификаторам UniProt получим последовательности заданного белка GRIA3_MACFA и белка-прототипа GRIA2_RAT. Для этого воспользуемся программой seqret пакета EMBOSS. Сохраним последовательности в файлах gria3_macfa.fasta и gria2_rat.fasta соответственно. Глобальное оптимальное выравнивание получено с помощью программы needle (со стандартными параметрами Gap opening penalty = 10.0, Gap extension penalty = 0.5) пакета EMBOSS. Выравнивание было сохранено в файле gria_al.needle. Характеристики выравнивания:

	# Gap_penalty: 10.0
	# Extend_penalty: 0.5
	#
	# Length: 898
	# Identity:     640/898 (71.3%)
	# Similarity:   767/898 (85.4%)
	# Gaps:          19/898 ( 2.1%)
	# Score: 3386.0

Выравнивание было импортировано в GeneDoc и сохранено в файле gria_al.msf

Разметка трансмембранных сегментов в белке-прототипе GRIA2_RAT по данным БД OPM

Найдем по PDB ID: 3KG2 описание ТМ-сегментов белка-прототипа GRIA2_RAT в БД OPM (Orientations of Proteins in Membranes database).

Белок GRIA2_RAT имеет код 1.1.10.01. Изучим подробнее код:
1. - Белок относится к типу трансмембранных белков (Transmembrane)
1.1. - Белок относится к классу альфа-спиральных трансмембранных белков (Alpha-helical transmembrane)
1.1.10. - Белок относится к суперсемейству воротных глутаматных ионых каналов (Glutamate-gated Ion Channel (GIC))
1.1.10.01 - Белок относится к семейству воротных глутаматных ионых каналов (Glutamate-gated Ion Channel (GIC))

На основании описания добавим в созданное в предыдущем пункте выравнивание строчку с разметкой трансмембранных сегментов. Назовем эту строчку "OPM". Измененное выравнивание сохранено в файле mark.msf. В строчке "OPM" буквы "H" соответствуют позициям трансмембранных сегментов белка-прототипа GRIA2_RAT, "+" - позициям цитоплазматических сегментов, "-" - позициям внеклеточных сегментов (в формате .msf отображается как "."). Как видно из выравнивания, последовательность GRIA2_RAT имеет 4 трансмембранных сегмента. Большая часть последовательности расположена вне клетки.

Предсказание топологии заданного белка GRIA3_MACFA с помощью программы TMHMM

Предскажем топологию белка GRIA3_MACFA с помощью сервера TMHMM. На вход подадим ему файл gria3_macfa.fasta с последовательностью белка в формате FASTA. В результате чего получили следующее предсказание. Полученное предсказание добавим к выравниванию файла mark.msf в виде искусственной последовательности с разметкой трансмембранных спиралей под названием "TMHMM". Полученное выравнивание сохранено в форматах msf в файлe mark_t.msf.

Сравнение полученного предсказания с данными OPM

Для сравнения предсказания, полученного с помощью программы TMHMM, с данными OPM был создан скрипт, написанный на языке Perl. Этот скрипт принимает на вход файл (opm_coord.txt) с описанием всех трансмембранных сегментов в БД OPM. Координаты всех трансмембранных сегментов сперва были переведены из pdb в координаты белка GRIA2_RAT, а затем в координаты белка GRIA3_MACFA. И файл (tmhmm.txt), полученный с помощью программы TMHMM.
Программа: mark_count.pl. Выходной файл программы: result.txt, содержит строки, соответствующие строкам таблицы.

	Число а.к. остатков
Всего а.к. остатков	894
Остатки, предсказанные как локализованные в мембране (всего)	92
Правильно предсказали (true positives, TP)	57
Предсказали не то, что нужно (а.о. предсказаны как мембранные, а по данным ОРМ таковыми не являются, false positives, FP)	35
Правильно не предсказали ( не предсказаны, и по данным ОРМ не находятся в мембране, true negatives, TN)	779
Не предсказали то, что нужно (остатки по данным ОРМ находятся в мембране, false negatives, FN)	23
Чувствительность (sensivity) = TP / (TP+FN)	0.713 (71,3%)
Специфичность (specificity) = TN / (TN+FP)	0.957 (95,7%)
Точность(precision) = TP /(TP+FP)	0.620 (62%)
Сверхпредсказание = FP/ (FP+TP)	0.380 (38%)
Недопредсказание = FN / (TN+FN)	0.029 (2,9%)

Как видно из таблицы, достаточно большая доля (38%) предсказанных трансмембранных сегментов не оказались таковыми. Однако только 2.9% трансмембранных последовательностей было пропущено при предсказании. В данном случае высока специфичность, а чувствительность и точность оказались ниже.

Предсказаны две из четырех трансмембранных спиралей полностью и одна трансмембранных спираль предсказана частично. N-конец, предсказанный программой TMHMM находится в клетке, тогда как по данным OPМ он находится вне клетки. С-конец находится в клетке, как по данным OPМ так и по предсказанию, полученного с помощью программы TMHMM, что немного странно так как при наличие одинакого количества трансмембранных спиралей и разного расположения N-концов, C-концы также должны располагаться по разному. Возможно это связанно с тем, что участок (по данным PDB): 584-595 (координаты для белка GRIA3_MACFA: 616-627) располагается в мембране.

МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ИМЕНИ М.В.ЛОМОНОСОВА ФАКУЛЬТЕТ БИОИНЖЕНЕРИИ И БИОИНФОРМАТИКИ