Главная страница > Второй семестр > Работа с программой BLASTP 

Работа с программой BLASTP


    Поиск белка по его последовательности

    Был проведен поиск последовательностей, сходных с GLMS E.coli, в банке данных SwissProt (поиск осуществлялся с помощью программы BLASTP, использовалась матрица замен аминокислотных остатков BLOSUM62). В выдаче программы порядковый номер GLMS E.coli равен 1, вес выравнивания составляет 1160 бит (3001), E-value равно 0. Вес выравнивания входной последовательности с остальными находками меньше 1160 бит (программа не выявила ни одного белка, полностью идентичного GLMS E.coli).
    Кроме того, был осуществлен поиск последовательностей, сходных с GLMS E.coli, в банке данных PDB. PDB-код первой в списке находки — 2BPJ (цепи A и B); вес выравнивания составляет 1160 бит (3001), E-value равно 0. Входная последовательность и находка послностью идентичны: начало и конец выравнивания для каждой последовательности соответствует первому и последнему аминокислотным остаткам (с номерами 1 и 608), процент совпадений составляет 100%. Следовательно, 2BPJ представляет собой трехмерную структуру GLMS E.coli.


    Поиск белка по его гомологу

    Был осуществлен поиск последовательности GLMS E.coli по последовательности его гомолога GLMS Thiobacillus ferrooxidans в банке данных SwissProt (использовалась программа BLASTP, матрица замен BLOSUM62, Gap Existence Penalty = 11, Gap Extension Penalty = 1). В выдаче программы порядковый номер белка GLMS E.coli равен 18, вес выравнивания составляет 587 бит (1513), E-value равно 4*10–167. Достаточно низкое значение E-value свидетельствует о высокой степени гомологии последовательностей GLMS E.coli и GLMS T.ferrooxidans. В выравнивании номера начального и конечного аминокислотных остатков входной последовательности равны 1 и 610, номера начального и конечного аминокислотных остатков находки — 2 и 609; процент совпадений составляет 52%.
    Находка с порядковым номером 1 представляет собой последовательность белка, поданного на вход (GLMS T. ferrooxidans).


    Поиск белка по фрагментам его последовательности

    Был проведен поиск последовательности GLMS E.coli по искусственной последовательости, составленной из двух его фрагментов, в банке данных SwissProt (использовалась программа BLASTP, матрица замен BLOSUM62, Gap Existence Penalty = 11, Gap Extension Penalty = 1). В выдаче программы порядковый номер GLMS E.coli равен 10, вес выравнивания составляет 32.7 бит (73), E-value равно 0.25. В выравнивании номера начального и конечного аминокислотных остатков входной последовательности равны 1 и 12, номера начального и конечного аминокислотных остатков находки — 72 и 83; процент совпадений составляет 100%.
    Следует отметить, что программа BLASTP выровняла только один из двух совпадающих фрагментов искусственной последовательности и последовательности GLMS E.coli. В связи с этим первыми в выдаче идут те белки, у которых несколько аминокислотных остатков, следующих за первым совпадающим фрагментом, похожи на первые аминокислотные остатки второго совпадающего фрагмента (сходство обусловлено случайными совпадениями). Подробнее о причинах таких ошибок см. "Программы построения глобального и локального выравнивания", раздел "Выравнивание последовательностей, содержащих общие участки".
    Ошибка может быть исправлена путем уменьшения Gap Extension Penalty. К сожалению, ни один из интерфейсов не позволяет провести поиск при значениях Gap Extension Penalty, меньших единицы.


    Разные пользовательские интерфейсы BLAST

    Поиск последовательностей, сходных с GLMS E.coli, был повторен с использованием интерфейсов EBI и Пастеровского института. Наиболее существенные особенности каждого из них, а также интерфейса NCBI, приведены ниже.

      Интерфейс EBI
    • Возможность использовать матрицы замен BLOSUM62 и BLOSUM80
    • Параметры Gap Existence Penalty и Gap Extension Penalty можно изменять в более широком интервале значений
    • E-value можно выбирать только из семи фиксированных значений
    • Возможность выбора между просмотром результатов в текущем окне и их пересылкой на адрес электронной почты
    • Наиболее удобное (на мой взгляд) оформление выдачи программы: возможность одновременно просматривать выравнивания и записи банка данных
      Интерфейс Пастеровского института
    • Фиксированная матрица замен
    • Фиксированные значения параметров Gap Existence Penalty и Gap Extension Penalty
    • Для просмотра результатов поиска необходимо использовать электронную почту
    В целом наиболее удачным я считаю интерфейс EBI, который и использовал для выполнения последнего задания.


    Является ли BLAST инструментом для поиска ортологов?

    С помощью программы BLASTP был проведен поиск последовательностей, сходных с последовательностью RbsR Bacillus subtilis (использовалась матрица замен BLOSUM62, Gap Existence Penalty = 11, Gap Extension Penalty = 1). Среди первых 20-ти находок в названии шести (включая RbsR B.subtilis) стоит слово RbsR (из 19-ти белков пять оказались ортологами белка, который был подан на вход). Остальные 14 находок представляют собой ДНК-связывающие белки различных организмов (в том числе и B.subtilis, см. табл. 1). Так как их последовательности сходны с последовательностью RbsR B.subtilis, можно предположить, что они являются паралогами белка, который был подан на вход (то есть возникли в результате дупликации гена из общего предшественника в одном организме, один из белков продолжил выполнять исходную функцию, а другой под действием случайных мутаций был модифицирован для выполнения другой функции). По-видимому, белок-предшественник содержал ДНК-связывающий домен, так как все найденные паралоги представляют собой репрессоры различных оперонов (то есть в результате модификации происходила замена тех аминокислотных остатков, которые отвечают за узнавание конкретной последовательности ДНК).
    Таким образом, программа BLASTP представляет собой инструмент для поиска гомологов входных последовательностей. Среди находок встречаются как ортологи, так и паралоги, причем BLASTP не дает возможности их различать. Следовательно, для того, чтобы осуществить поиск ортологов, необходимо иметь критерий, который позволит выделить их среди всех найденных гомологов (в данном случае критерием являлось присутствие в названии белка слова RbsR).



Таблица 1. Последовательности, сходные с RbsR B.subtilis (приведены первые 20 находок программы BLASTP; каждая строка соответствует группе ортологов; белки, находящиеся на разных строках, являются паралогами).

Функция белка
Названия организмов
Ribose operon repressor (RbsR)
Bacillus subtilis, Bacillus halodurans, Lactococcus lactis, Pasteurella multocida, Shigella flexneri, Escherichia coli
Sucrose operon repressor (ScrR)
Pediococcus pentosaceus, Streptococcus mutans
Catabolite control protein A (Glucose-resistance amylase regulator)
Bacillus subtilis, Staphylococcus xylosus, Bacillus megaterium, Staphylococcus epidermidis (strain ATCC 12228), Staphylococcus epidermidis (strain ATCC 35984 / RP62A)
HTH-type transcriptional regulator regA
Clostridium saccharobutylicum, Clostridium acetobutylicum
HTH-type transcriptional regulator degA (Degradation activator)
Bacillus subtilis
HTH-type transcriptional repressor cytR
Shigella flexneri, Escherichia coli K-12, Escherichia coli O6, Escherichia coli O157:H7


© Куравский Михаил Львович, 2006