Работа с PSI-BLAST

Основные задания

Первое задание

Буду работать с четырьмя аминокислотными последовательностями. Первые три последовательности - P18196, P0A832, P0A780; четвёртая – последовательность моего белка – P21888. Для этих последовательностей белков проведу итеративный поиск по банку Swiss-Prot программой PSI-BLAST. При поиске всем параметрам (кроме банка поиска и программы) оставляю значения по умолчанию. Выполнию до пяти итераций, пока появляются новые последовательности выше порога 0,005 на E-value (если после пятой итерации список не стабилизировался – остановимся).

ID белка AC белка Число итераций Для первой итерации Для последней итерации
Число находок выше порога (0,005) Худшее E-value выше порога Лучшее E-value ниже порога Число находок выше порога (0,005) Худшее E-value выше порога Лучшее E-value ниже порога
MINC_ECOLI P18196 5 126 0.004 0.005 239 0.003 0.007
SSRP_ECOLI P0A832 2 449 3e-10 5.0 449 8e-31 0.62
NUSB_ECOLI P0A780 4 327  0.003 0.008 388 2e-12 0.031
SYC_ECOLI P21888 5 696 0.005 0.006 3692 0.005 0.006

В первый раз PSI-BLAST нашёл 126 белков, E-value которых выше порога 0.005. При последующей итерации увеличилось число схожих белков на 21. После третьей итерации – найдена 1 новая находка. Этот белок из другого семейства - FRMA. Дальнейшие итерации приводят к появлению большого количества белков из других семейств. Даже после 5 итераций стабилизации списка не произошло. Разрывы между значениями E-value у худшей находки выше порога и лучшей. Посмотрим изменение E-Value для лучшей находки выше порога: 0.005 - 0.008 - 0.010 - 0.007 - 0.007. для худшей находки выше порога: 0.004 - 7e-07 - 0.001 - 0.003 - 0.003. Разрывы между E-value лучших и худших находок не являются особо большими. Самый большой разрыв наблюдаем при второй итерации - примерно в 4 порядка.

При первой итерации PSI-BLAST обнаружил 449 белков. Присутствуют белки многих семейств. Список стабилизируется уже со второй итерации (не было новых белков). Разрыв между E-value для худших находок выше порога: 3e-10 - 8e-31. Для лучших: 5.0 - 0.62. Разрыв между E-value для худшей и лучшей находок велик.

После первой итерации найдено 327 находок. Примерно половина относится к семейству NUSB, а другая – к семейству RSMB. После второй итерации появляются семейства Y1407, RSMB. Следующие 2 итерации приводят к появлению различных родов из последних семейств. E-value худших находок сначала убывает, потом увеличивается, потом резко возрастает: 0.003 - 5e-07 - 2e-12 - 0.006. Разрыв между E-value разных итераций высок. Изменение E-value лучших находок так же неравномерное: 0.008 - 0.002 - 0.017 - 0.031. Разрыв между ними не настолько большой, как в предыдущем.

Для последовательности исследования моего белка "сходящейся" итерации не нашлось после пятой итерации(по заданию ограничимся на ней). В результате первой итерации найденные белки относятся к семейству SYC и SYC1, SYC2. В дальнейших итерациях список семейств белков увеличивается. E-value худшей находки выше порога составляет здесь 0.005. Лучшие находоки выше порога - 0.006. В начале у белка SYC_ECOLI E-value было 0.0, даже после второй и третей итераций оставалоь тоже значение. Уже в пятой итерации значение стало равным 1e-124. Похожее увеличение наблюдалось и у остальных белков.

Второе задание

Для последовательности для белка MINC_ECOLI (для нее итерации "не сошлись") проведем поиск снова, изменив порог с 0,005 на 0,001. В этот раз уже при третьей итерации нет новых белков, то есть она сходится уже со второго раза. Я считаю, что это связано с тем, что, меняя порог итерации, теперь в список выше порога не включается тот белок, который отличался по семейству (FRMA). Поэтому максимальное значение порога в данном случае 0.001.

Провожу измененный поиск (порог 0.001) для последовательности белка SYC_ECOLI. Даже теперь после 5 итерации не сошлось, но количество новых последовательностей значительно меньше. Необходимый порог, чтобы последовательности ходились, равен 1e-22.

Второй семестр
На начальную страницу


©Пискунова Юлия 2008