1.
Провели итеративный поиск по банку Swiss-Prot программой Psi-Blast.
Параметры при поиске: порог E-value = 0.005.
Результаты сведены в таблицу.
ID белка | AC белка | Число итераций | Для первой итерации | Для последней итерации | ||||
Число находок выше порога | Худшее E-value выше порога | Лучшее E-value ниже порога | Число находок выше порога | Худшее E-value выше порога | Лучшее E-value ниже порога | |||
MINC_ECOLI | P18196 | 4 | 126 | 0.004 | 0.005 | 158 | 0.003 | 0.007 |
SSRP_ECOLI | P0A832 | 2 | 449 | 3e-10 | 5.0 | 449 | 8e-31 | 0.62 |
NUSB_ECOLI | P0A780 | 4 | 327 | 0.003 | 0.008 | 388 | 2e-12 | 0.031 |
PSTS_ECOLI | P0AG82 | 3 | 24 | 4e-04 | 0.002 | 33 | 2e-14 | 0.003 |
Первое, с чем мы столкнулись выполняя это задание, это то, что для первой аминокислотной последовательности даже после 5 итераций
список последовательностей не стабилизировался (как решили это см. ниже).
Первая аминокислотная последовательность есть аминокислотная последовательность белка MINC_ECOLI, который ингибирует процесс деления клетки.
Для того, чтобы разобраться, как работает Psi-Blast, на примере этой последовательности рассмотрим основные закономерности, а именно: как изменяется E-value в зависимости от количества итераций.
Посмотрим за изменением E-value на примере белков MINC_ECOLI, имеющего самый маленький E-value, MINC_BACCR и MINC_LISIN, которые не вошли в список при первой итерации.
ID белка | Номер итерации | |||
1 | 2 | 3 | 4 | |
MINC_ECOLI | 4e-134 | 2e-92 | 2e-82 | 4e-79 |
MINC_BACCR | 0.014 | 2e-20 | 3e-36 | 1e-42 |
MINC_LISIN | 0.005 | 5e-15 | 6e-25 | 2e-32 |
Из приведенной таблицы видно, что при увеличении итераций значение E-value лучшей находки ухудшается, в то время как значение E-value средних белков улучшается, что и следовало ожидать, так как при последующих обращениях к Psi-Blast поиск новых последовательностей идет уже по выравненным последовательностям.
Также можно заметить из первой таблицы, что разрыв между значениями E-value лучшей находки ниже порога и E-value худшей - выше порога от итерации к итерации увеличивается.
Белок SSRP_ECOLI специфически связывается с тмРНК и нужен для стабильной ассоциации тмРНК с рибосомами.
Этот список был создан сразу, даже количество последовательностей не менялось, как можно видеть из таблицы 1.
Также можно обратить внимание на очень хорошо выраженную в данном случае разницу значений E-value.
Белок NUSB_ECOLI - один из белков, важных для формации РНК полимеразного антитерминального комплекса в присутствии антитерминального белка N из вирусной частицы lambda Phage.
Участвует в процессе терминации транскрипции. Присоединяется к мотиву РНК boxA.
В этом случае последовательность сошлась после 4 итерации.
О белке PSTS_ECOLI можно подробнее узнать из работ 1 семестра.
При поиске было задано E-value = 0.001, так как после 3 итерации в список попадает белок Y280_STAMF (E-value = 0.001), который принадлежит бактериальному семейству белков, связывающих растворенные вещества ("Belongs to the bacterial solute-binding protein 1 family. WtpA subfamily"), подсемейство WtpA, очевидно,
не имеющего ничего общего с траннспортом фосфат-ионов. Далее наблюдается полное расхождение списка, поэтому мы "убираем" этот белок, уменьшив значение E-value до 0.001.
Как видно, список этих последовательностей оказался небольшим.
2.
Как уже было сказано, после 5 итераций список последовательностей белка MINC_ECOLI не стабилизировался. 5 итерация была выполнена, но результат только ухудшился (более того, установленная закономерность изменения E-value нарушилась), поэтому я решила не вносить его в таблицу. Такой ошибочный результат связан с тем, что после 3 итерации в список попала последовательность белка FRMA_PASPI, не имеющая никакого отношения к семейству белков minC, с E-value = 0.001, т.е. едва "преодолев" порог. Следом в список вошли "неверные" последовательности, что и привело к такому результату.
Но если не "пустить" эту последовательность, ужесточив порог до E-value = 0.001(критическое значение), то итерации сходятся уже на 3 стадии.