МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ИМЕНИ М.В.ЛОМОНОСОВА
ФАКУЛЬТЕТ БИОИНЖЕНЕРИИ И БИОИНФОРМАТИКИ

Домашняя страничка Ильи Курочкина

Главная

I Семестр

II Семестр

Проекты

Обратная Связь

PSI-BLAST

  • Задание 1

    Искал гомологов по банку Swiss-Prot при помощи программы PSI-BLAST ( http://blast.ncbi.nlm.nih.gov/Blast.cgi ) для 4 последовательностей белков. Для каждого из них выполнял до пяти итераций, пока появлялись новые последовательности выше порога 0.005 на E-value (если список стабилизировался раньше, останавливался на этом).

    Таблица гомологов, полученных с помощью PSI-BLAST

    ID белка AC белка Число итераций Для первой итерации Для последней итерации
    Число находок выше порога (0,005) Худшее E-value выше порога Лучшее E-value ниже порога Число находок выше порога (0,005) Худшее E-value выше порога Лучшее E-value ниже порога
    MINC_ECOLI P18196 5 126 0.004 (A8FFT6) 0.005 (Q92BG9) 239 0.003 (Q64415) 0.007 (Q57911)
    SSRP_ECOLI P0A832 2 449 3e-10 (Q4A5T2) 5.0 (Q8DEJ0) 449 8e-31 (Q4A5T2) 0.62 (Q00401)
    NUSB_ECOLI P0A780 4 327 0.003 (P72943) 0.008 (Q1RHG4) 388 2e-12 (P45679) 0.031 (Q8TVM4)
    RSUA_ECOLI P0AA43 5 66 1e-09 (Q4UL59) 0.31 (Q5E9Z1) 993 0.001 (O26142) 0.006 (Q2NFZ4)

    На каждой итерации PSI-BLAST создает позиционно-специфичную матрицу для подсчета веса выравнивания и делает следущее выравнивание по новой матрице. Первое же выравнивание делается по стандартному алгоритму Blastp. При этом E-value лучшей находки увеличивается от итерации к итерации (например для P0AA43 E-value менялся от 1 к 5 итерации: 8e-135, 2e-90, 5e-73, 6e-61, 9e-52), для первой итерации лучшая находка соответсвует заданному белку, однако затем меньшее E-value может набирать другой белок, (например для P0AA43: на первой итерации E-value P0AA43 - 8e-135, а на 5 итерации - 9e-52, в то время как найденный P45124 - 6e-53, имел на первой итерации 3e-75).

    Разрыв между значениями E-value у худшей находки выше порога и лучшей - ниже порога от итерации к итерации изменяется по-разному в разных случаях:
    Для P0AA43 на первой итерации был разрыв (0.31-1e-09), а далее по мере увеличения количества белков он уменьшается, для 2-ой (0.006-0.005), для 3-ей (0.005-0.005), для 4-ой (0.006-0.005), для 5-ой (0.006-0.001). Как видно разрыв становится примерно одинаковым по мере увеличения количества белков.
    Для P0A832 на первой итерации разрыв (5.0-3e-10), дальше он увеличивается на 2-ой (0.62-8e-31), на 3-ей (0.3-3e-31).
    Для P0A780 на первой (0.008-0.003), (0.006-0.004), (0.017-5e-07), (0.031-2e-12) - разрыв уменьшается , за исключением последней итерации.

    Для средней находки: например для P0AA43 найденный Q8Z7G6 с 1-ой по 5-ую итерацию имеет E-value 6e-12, 3e-47,2e-42, 2e-35, 1e-31 сначала мы имеем резкое уменьшение E-value, а затем оно потихоньку растет.

  • Задание 2

    Для последовательностей (MINC_ECOLI и RSUA_ECOLI), для которых итерации "не сошлись", произвел поиск вновь, изменив порог с 0.005 на 0.001.

    Произвел поиск со значением E-value=0.001 для последовательности (MINC_ECOLI) и обнаружил, что третья итерация оказалась "сходящейся". Это произошло в связи с тем, что с таким параметром порога после третьей итерации в список не попал белок P39450(FRMA_PASPI) , относящийся совершенно к другому семейству белков, E-value которого составляет 0.001. Таким образом, максимальный параметр порога, при котором итерация будет "сходящейся", и будет составлять 0.001 (при больших порогах белок P39450 попадет в список и повлечет за собой множество других несхожих с MINC_ECOLI белков).

    Для P0AA43 с порогом 0.001 - итерации не сходятся, находятся не только родственные белки (как и RSUA_ECOLI т.е. псевдоуридин синтазы), но и многие другие, например белки выполняющие другие функции (30S ribosomal protein S4), также содержащие S4 РНК-связывающий домен, на каждой итерации их находится все больше. Если поставить порог низким например 1e-20, то итерации сходятся уже на 3-ем шаге, но не находится очень много родственных белков, даже относящихся к данному семейству. Если увеличить E-value порога (например до 1e-10), то находится много белков данного семейства, а также один белок(Q12362, DRAP deaminase) и итерации сходятся на седьмом шаге.


© 2008,Илюха Курочкин,Inc