Буду работать с четырьмя аминокислотными последовательностями. Первые три последовательности - P18196, P0A832, P0A780; четвёртая – последовательность моего белка – P21888. Для этих последовательностей белков проведу итеративный поиск по банку Swiss-Prot программой PSI-BLAST. При поиске всем параметрам (кроме банка поиска и программы) оставляю значения по умолчанию. Выполнию до пяти итераций, пока появляются новые последовательности выше порога 0,005 на E-value (если после пятой итерации список не стабилизировался – остановимся).
ID белка | AC белка | Число итераций | Для первой итерации | Для последней итерации | ||||
Число находок выше порога (0,005) | Худшее E-value выше порога | Лучшее E-value ниже порога | Число находок выше порога (0,005) | Худшее E-value выше порога | Лучшее E-value ниже порога | |||
MINC_ECOLI | P18196 | 5 | 126 | 0.004 | 0.005 | 239 | 0.003 | 0.007 |
SSRP_ECOLI | P0A832 | 2 | 449 | 3e-10 | 5.0 | 449 | 8e-31 | 0.62 |
NUSB_ECOLI | P0A780 | 4 | 327 | 0.003 | 0.008 | 388 | 2e-12 | 0.031 |
SYC_ECOLI | P21888 | 5 | 696 | 0.005 | 0.006 | 3692 | 0.005 | 0.006 |
В первый раз PSI-BLAST нашёл 126 белков, E-value которых выше порога 0.005. При последующей итерации увеличилось число схожих белков на 21. После третьей итерации – найдена 1 новая находка. Этот белок из другого семейства - FRMA. Дальнейшие итерации приводят к появлению большого количества белков из других семейств. Даже после 5 итераций стабилизации списка не произошло. Разрывы между значениями E-value у худшей находки выше порога и лучшей. Посмотрим изменение E-Value для лучшей находки выше порога: 0.005 - 0.008 - 0.010 - 0.007 - 0.007. для худшей находки выше порога: 0.004 - 7e-07 - 0.001 - 0.003 - 0.003. Разрывы между E-value лучших и худших находок не являются особо большими. Самый большой разрыв наблюдаем при второй итерации - примерно в 4 порядка.
При первой итерации PSI-BLAST обнаружил 449 белков. Присутствуют белки многих семейств. Список стабилизируется уже со второй итерации (не было новых белков). Разрыв между E-value для худших находок выше порога: 3e-10 - 8e-31. Для лучших: 5.0 - 0.62. Разрыв между E-value для худшей и лучшей находок велик.
После первой итерации найдено 327 находок. Примерно половина относится к семейству NUSB, а другая – к семейству RSMB. После второй итерации появляются семейства Y1407, RSMB. Следующие 2 итерации приводят к появлению различных родов из последних семейств. E-value худших находок сначала убывает, потом увеличивается, потом резко возрастает: 0.003 - 5e-07 - 2e-12 - 0.006. Разрыв между E-value разных итераций высок. Изменение E-value лучших находок так же неравномерное: 0.008 - 0.002 - 0.017 - 0.031. Разрыв между ними не настолько большой, как в предыдущем.
Для последовательности исследования моего белка "сходящейся" итерации не нашлось после пятой итерации(по заданию ограничимся на ней). В результате первой итерации найденные белки относятся к семейству SYC и SYC1, SYC2. В дальнейших итерациях список семейств белков увеличивается. E-value худшей находки выше порога составляет здесь 0.005. Лучшие находоки выше порога - 0.006. В начале у белка SYC_ECOLI E-value было 0.0, даже после второй и третей итераций оставалоь тоже значение. Уже в пятой итерации значение стало равным 1e-124. Похожее увеличение наблюдалось и у остальных белков.
Для последовательности для белка MINC_ECOLI (для нее итерации "не сошлись") проведем поиск снова, изменив порог с 0,005 на 0,001. В этот раз уже при третьей итерации нет новых белков, то есть она сходится уже со второго раза. Я считаю, что это связано с тем, что, меняя порог итерации, теперь в список выше порога не включается тот белок, который отличался по семейству (FRMA). Поэтому максимальное значение порога в данном случае 0.001.
Провожу измененный поиск (порог 0.001) для последовательности белка SYC_ECOLI. Даже теперь после 5 итерации не сошлось, но количество новых последовательностей значительно меньше. Необходимый порог, чтобы последовательности ходились, равен 1e-22.
Второй семестр