PSI-BLAST

  1. Проведём работу с четырьмя аминокислотными последовательностями. Первые 3 последовательности имеют в Swiss-Prot номера доступа P18196, P0A832, P0A780; четвёртая - последовательность моего белка, AC: P15043. Для этих последовательностей проведём итеративный поиск по банку Swiss-Prot программой PSI-BLAST. При поиске всем параметрам (кроме банка поиска и программы) оставим значения по умолчанию. Выполним до пяти итераций, пока появятся новые последовательности выше порога 0,005 на E-value (остановимся, если после пятой итерации список не стабилизируется).

    По результатам проведённых итераций заполним таблицу:

    ID белка AC белка Число итераций Для первой итерации Для последней итерации
    Число находок выше порога (0,005) Худшее E-value выше порога Лучшее E-value ниже порога Число находок выше порога (0,005) Худшее E-value выше порога Лучшее E-value ниже порога
     MINC_ECOLI  P18196  5  126  0.004  0.005  239  0.003  0.007
     SSRP_ECOLI  P0A832  2  449  3e-10  5.0  449  8e-31  0.62
     NUSB_ECOLI  P0A780   4  327  0.003  0.008  388  2e-12  0.031
     RECQ_ECOLI  P15043  1  935  0.005  0.005  935  0.005  0.005
     

    1. Для самой первой итерации PSI_BLAST нашёл 126 схожих белков выше порога 0.005. После третьей итерации на 1 изменилось число находок. Проделав 5 итераций, мы так и не добились стабилизации списка.

      Теперь что касается "разрывов" между значениями E-value у худшей находки выше порога и лучшей находки ниже порога. А также обратим внимание на то, как он меняется от итерации к итерации в каждом из случаев. Для начала проследим изменение E-Value для худшей находки выше порога: 0.004 - 7e-07 - 0.001 - 0.003 - 0.003. Как видно, от итерации к итерации изменение e-value немонотонное, для последних двух итераций e-value стабилизируется. Теперь то же самое, только для лучшей находки ниже порога: 0.005 - 0.008 - 0.010 - 0.007 - 0.007. E-value сначала монотонно возрастает, а потом тоже стабилизируется. Разрывы между E-value лучших и худших находок не сказать чтобы сильно существенны, но всё же присутствуют. В частности самый большой разрыв при второй итерации. Для лучшей находки ниже порога он составляет 0.008, а для худшей находки выше порога - 7e-07, то есть разница в целых 4 порядка.

    2. При первой итерации PSI_BLAST нашёл 449 схожих белков. На этот раз список стабилизировался уже со второй итерации. К этому выводу я пришла по отсутствию значков "New" на странице результатов после второй итерации.

      E-value для худших находок выше порога для двух первых итераций: 3e-10 - 8e-31. Для лучших находок ниже порога: 5.0 - 0.62. E-value с повышением числа итераций уменьшается, причём уменьшается существенно. Разрыв между E-value для лучшей находки ниже порога и худшей находки выше порога велик для обеих итераций.

    3. Результат первой итерации - 327 находок. Худшая находка выше порога: 0.003, лучшая находка ниже порога: 0.008. В результате второй итерации худшая находка выше порога: 0.006, лучшая находка ниже порога: 0.002. Последующие 2 итеграции привели к стабилизации списка.

      От второй итерации к четвёртой E-value худших находок выше порога изменяется следующим образом: 0.003 - 5e-07 - 2e-12 - 0.006. Разрыв между E-value разных итераций довольно высок. Изменение E-value лучших находок тоже неравномерное: 0.008 - 0.002 - 0.017 - 0.031. Разрыв между ними не настолько большой, как в предыдущем случае.

    4. Для четвёртой последовательности "сходящейся" итерации не нашлось. В результате первой итерации было найдено множество гомологов из разнообразных семейств. E-value худшей находки выше порога составляет здесь 0.005. Для моего белка нашлось слишком много белков с параметром E-value < 0.005. Для того, чтобы получить результат, я указала максимальное число последовательностей, равное 20000. Поэтому последущие итерации BLAST отказывался совершать, постоянно выдавал ошибку. Поэтому я решила на первой итерации закончить.



  2. Теперь для первой последовательности, для которой итерации "не сошлись" проведём поиск снова, изменив порог с 0,005 на 0,001. На этот раз итерации "сошлись" уже с третьего раза. Максимальный порог, который мы должны брать для того, чтобы список "сошелся", должен быть равен 0.001. Если поставить порог меньше E-value новой находки (в данном случае это белок P39450)на любой итерации с порогом равным 0.005 или с заниженным порогом, эта находка не войдёт. Но если понизить порог слишком сильно, могут не войти белки-гомологи.