МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ИМЕНИ М.В.ЛОМОНОСОВА
ФАКУЛЬТЕТ БИОИНЖЕНЕРИИ И БИОИНФОРМАТИКИ

Домашняя страничка Ильи Курочкина

Главная

I Семестр

II Семестр

III Семестр

IV Семестр

Проекты

Обратная Связь

Мембранные белки, транспортные белки

  1. Построение выравнивания заданного белка и белка-прототипа с разметкой трансмембранных сегментов
    1. Сравнение нумерации остатков белка-прототипа GRIA2_RAT в UniProt и PDB
    2. Воспользуемся БД PDBsum, предоставляющей краткое схематическое отображение информации о структуре. Подадим на вход идентификатор PDB 3KG2 белка-прототипа GRIA2_RAT. В записи 3KG2 PDB представлено 4 цепи: A, B, C, D последовательности которых идентичны на 100% Подведя курсор к выравниванию последовательности в структуре и щелкнув по картинке, получил окно с выравниванием последовательности из UniProt (ID - GRIA2_RAT, AC - P19491) и последовательности из PDB (ID - 3KG2). Преобразуем выравнивание в формат FASTA и импортируем выравнивание в GeneDoc и сохраним его в файле align_1.msf. Нумерация в двух базах данных не совпадает. В БД PDB последовательность значительно короче (и на C-конце, и на N-конце). В PDB не представлен учаток белка с 1 по 9, с 545 по 567, а также с 586 по 593 а.о. Правило перевода нумерации PDB в нумерацию UniProt: №(PDB) = №(UniProt) - 15 (до 381 по PDB), а начиная с 385 остатка №(PDB) = №(UniProt) - 21.

    3. Построение полного глобального выравнивания заданного белка GRIA3_MACFA и белка-прототипа GRIA2_RAT
    4. По идентификаторам UniProt получим последовательности заданного белка GRIA3_MACFA и белка-прототипа GRIA2_RAT. Для этого воспользуемся программой seqret пакета EMBOSS. Сохраним последовательности в файлах gria3_macfa.fasta и gria2_rat.fasta соответственно. Глобальное оптимальное выравнивание получено с помощью программы needle (со стандартными параметрами Gap opening penalty = 10.0, Gap extension penalty = 0.5) пакета EMBOSS. Выравнивание было сохранено в файле gria_al.needle. Характеристики выравнивания:
      	# Gap_penalty: 10.0
      	# Extend_penalty: 0.5
      	#
      	# Length: 898
      	# Identity:     640/898 (71.3%)
      	# Similarity:   767/898 (85.4%)
      	# Gaps:          19/898 ( 2.1%)
      	# Score: 3386.0
      
      Выравнивание было импортировано в GeneDoc и сохранено в файле gria_al.msf

    5. Разметка трансмембранных сегментов в белке-прототипе GRIA2_RAT по данным БД OPM
    6. Найдем по PDB ID: 3KG2 описание ТМ-сегментов белка-прототипа GRIA2_RAT в БД OPM (Orientations of Proteins in Membranes database).

      Белок GRIA2_RAT имеет код 1.1.10.01. Изучим подробнее код:
      1. - Белок относится к типу трансмембранных белков (Transmembrane)
      1.1. - Белок относится к классу альфа-спиральных трансмембранных белков (Alpha-helical transmembrane)
      1.1.10. - Белок относится к суперсемейству воротных глутаматных ионых каналов (Glutamate-gated Ion Channel (GIC))
      1.1.10.01 - Белок относится к семейству воротных глутаматных ионых каналов (Glutamate-gated Ion Channel (GIC))

      На основании описания добавим в созданное в предыдущем пункте выравнивание строчку с разметкой трансмембранных сегментов. Назовем эту строчку "OPM". Измененное выравнивание сохранено в файле mark.msf. В строчке "OPM" буквы "H" соответствуют позициям трансмембранных сегментов белка-прототипа GRIA2_RAT, "+" - позициям цитоплазматических сегментов, "-" - позициям внеклеточных сегментов (в формате .msf отображается как "."). Как видно из выравнивания, последовательность GRIA2_RAT имеет 4 трансмембранных сегмента. Большая часть последовательности расположена вне клетки.

    7. Предсказание топологии заданного белка GRIA3_MACFA с помощью программы TMHMM
    8. Предскажем топологию белка GRIA3_MACFA с помощью сервера TMHMM. На вход подадим ему файл gria3_macfa.fasta с последовательностью белка в формате FASTA. В результате чего получили следующее предсказание. Полученное предсказание добавим к выравниванию файла mark.msf в виде искусственной последовательности с разметкой трансмембранных спиралей под названием "TMHMM". Полученное выравнивание сохранено в форматах msf в файлe mark_t.msf.

  2. Сравнение полученного предсказания с данными OPM
  3. Для сравнения предсказания, полученного с помощью программы TMHMM, с данными OPM был создан скрипт, написанный на языке Perl. Этот скрипт принимает на вход файл (opm_coord.txt) с описанием всех трансмембранных сегментов в БД OPM. Координаты всех трансмембранных сегментов сперва были переведены из pdb в координаты белка GRIA2_RAT, а затем в координаты белка GRIA3_MACFA. И файл (tmhmm.txt), полученный с помощью программы TMHMM.
    Программа: mark_count.pl. Выходной файл программы: result.txt, содержит строки, соответствующие строкам таблицы.

      Число а.к. остатков
    Всего а.к. остатков 894
    Остатки, предсказанные как локализованные в мембране (всего) 92
    Правильно предсказали (true positives, TP) 57
    Предсказали не то, что нужно (а.о. предсказаны как мембранные, а по данным ОРМ таковыми не являются, false positives, FP) 35
    Правильно не предсказали ( не предсказаны, и по данным ОРМ не находятся в мембране, true negatives, TN) 779
    Не предсказали то, что нужно (остатки по данным ОРМ находятся в мембране, false negatives, FN) 23
    Чувствительность (sensivity) = TP / (TP+FN) 0.713 (71,3%)
    Специфичность (specificity) =  TN / (TN+FP)  0.957 (95,7%)
    Точность(precision) = TP /(TP+FP) 0.620 (62%)
    Сверхпредсказание = FP/ (FP+TP) 0.380 (38%)
    Недопредсказание = FN / (TN+FN) 0.029 (2,9%)

    Как видно из таблицы, достаточно большая доля (38%) предсказанных трансмембранных сегментов не оказались таковыми. Однако только 2.9% трансмембранных последовательностей было пропущено при предсказании. В данном случае высока специфичность, а чувствительность и точность оказались ниже.

    Предсказаны две из четырех трансмембранных спиралей полностью и одна трансмембранных спираль предсказана частично. N-конец, предсказанный программой TMHMM находится в клетке, тогда как по данным OPМ он находится вне клетки. С-конец находится в клетке, как по данным OPМ так и по предсказанию, полученного с помощью программы TMHMM, что немного странно так как при наличие одинакого количества трансмембранных спиралей и разного расположения N-концов, C-концы также должны располагаться по разному. Возможно это связанно с тем, что участок (по данным PDB): 584-595 (координаты для белка GRIA3_MACFA: 616-627) располагается в мембране.


© 2008, Илья Курочкин