Учебный сайт
Главная Семестры Проекты Обо мне

Выравнивание белков

Нумерация белка-прототипа в UniProt и PDB

На странице БД PDBsum, соответствующей записи 2V50, было получено выравнивание последовательности из UniProt и последовательности из PDB. После переведения выравнивания в fasta формат и импорта в Gendoc был получен файл algn1.msf.
Нумерация в двух БД совпадает, однако последовательность из PDB оказалась короче, чем из UnipProt (N- и С- концевые домены, а также гэп в середине последовательности).

Глобальное выравнивание заданного белка и белка-прототипа

C помощью программы seqret из пакета EMBOSS были извлечены последовательности двух белков (MEXB_PSEAE (белок-прототип) и ACRF_ECOLI) и сохранены в фаста формате. Эти последовательности были выровнены с помощью программы needle. На выходе был получен файл, который можно посмотреть тут

Разметка трансмембранных сегментов в белке-прототипе

В БД OPM была найдена запись 2V50 (белок MEXB_PSEAE). Большая часть аминоксилот белка находится снаружи клетки. В мембране содержится 12 альфа-спиралей. Трансмембранные участки белка были отмечены на выравнивании последовательностей белка MEXB_PSEAE и белка ACRF_ECOLI (которое было импортировано в Gendoc).
На выравнивании отмечены:
зеленым цветом (символ H)........трансмембранные участки
синим цветом (символ +)..........цитоплазматические участки
красным цветом (символ -)........остальные
Участки последовательности из UniProt, которой не соответствуют участки из PDB, цветом не выделялись и были помечены символом "."
Выравнивание можно посмотреть здесь , а также скачать файл с выравниванием здесь
В структуре присутствуют 2 длинных участка, находящиеся вне клетки, которые разделяют 3 группы трансмембранных спиралей: 1 спираль на N-конце, 6 спиралей в середине и 5 на С-конце белка.
* аминокислота триптофан894 по данным OPM входит в цитоплазматическую петлю. Однако, судя по изображению структуры белка в Jmol, все атомы этой аминокислоты находятся в мембране.

Предсказание топологии заданного белка

Для предсказания топологии белка ACRF_ECOLI был использован сервер TMHMM, в котором на вход была подана последовательность белка в fasta формате.
Графическое представление сегментов:
Как видно, большая часть последовательности лежит вне клетки, и ориентация белка относительно мембраны предсказана правильно.
По полученным результатам в выравнивании mark.msf на последовательности ACRF_ECOLI были отмечены предсказанные сегменты (так же, как и для сегментов белка MEXB_PSEAE).
Выравнивание можно посмотреть здесь , а также скачать файл с выравниванием здесь
Как видно на выравнивании, общее расположение трансмембранных участков на обеих последовательностях совпадает (такие же 3 группы участков, разделенных длинными цитоплазматическими участками). Однако вариации в ширине сегментов с разных последовательностей есть.

Сравнение полученного предсказания с данными OPM

C помощью скрипта (текст можно скачать здесь ) на языке Perl было проанализировано предсказание топологии белка ACRF_ECOLI. При работе скрипта использовался файл opm.txt из БД OPM, соответствующий топологии белка MEXB_PSEAE, файл tmhmm.txt - результат работы сервера TMHMM, содержащий пресказание трансмембранный сегментов в белке ACRF_ECOLI, а также файл aligned_proteins.needle, содержащий выравнивание этих двух белков. По результатам работы скрипта была заполнена таблица:

Результаты предсказания топологии мембранного белка ACRF_ECOLI

  Число а.к. остатков
Всего а.к. остатков 1034
Остатки, предсказанные как локализованные в мембране (всего) 276
Правильно предсказали (true positives, TP) 223
Предсказали не то, что нужно (а.о. предсказаны как мембранные, а по данным ОРМ таковыми не являются, false positives, FP) 53
Правильно не предсказали ( не предсказаны, и по данным ОРМ не находятся в мембране, true negatives, TN) 740
Не предсказали то, что нужно (остатки по данным ОРМ находятся в мембране, false negatives, FN) 18
Чувствительность (sensivity) = TP / (TP+FN) 92.5%
Специфичность (specificity) =  TN / (TN+FP)  93.3%
Точность(precision) = TP /(TP+FP) 80.8%
Сверхпредсказание = FP/ (FP+TP) 19.2%
Недопредсказание = FN / (TN+FN) 2.4%
Как видно из таблицы, большая доля предсказанных трансмембранных последовательностей неправильна (хотя число сегментов и их относительное расположение друг отноистельно друга верно), почти 20%. Однако только 2.4% трансмембранных последовательностей было пропущено при предсказании. В данном случае высока специфичность и чувствительность, точность же оказалась ниже.

© Яшина 2009