Учебный сайт Шиндяпиной А.В.

Программа BLASTP.




При выполнении первых двух упражнений воспользовалась web-интерфейсом к BLASTP на сервере NCBI: http://www.ncbi.nlm.nih.gov/blast/ . Непосредственно на страницу поиска можно перейти по этой ссылке .

1. Поиск гипотетических гомологов изучаемого белка в разных БД.

Для поиска использовала запись моего белка в fasta-формате.

Таблица 1. Результаты поиска гипотетических гомологов белка xxxx_Ecoli

  Поиск по БД Swiss-Prot Поиск по БД PDB Поиск по БД "nr"
1. Лучшая находка
Идентификатор БД PTHP_ECOLI 2JEL NP_288977.1
E-value 2*10 -42 2*10 -43 5*10 -41
Вес (в битах) 169 169 169
% идентичности 100% 100% 100%
Найдены ли другие белки с теми же значениями E-value и веса в битах?
Найлено 5 таковых.PTHP_SALTY PTHP_ECO57 PTHP_ECOL6 PTHP_SALTI PTHP_SHIFL Найдено 11. Например, 3EZE Найдено 189. Например, NP_311314.1
2. Сколько хороших кандидатов в гомологи найдено? 19 24 366
2. "Худшая" находка (последняя в выдаче с E-value примерно 1.0)
Номер находки в списке описаний (Descriptions) 59 32 2106
Идентификатор БД PTFX2_ECOLI 2ANR ZP_03498462.1
E-value 0,98 4,4 8,6
Вес (в битах) 31,6 25,8 33,1
% идентичности 29% 44% 23%
% сходства 44% 66% 36%
Длина выравнивания 78 27 80
Координаты выравнивания (номера первых и последних а.о.) Для pthp_ecoli 11-83, для ptfx2_ecoli 12-69 pthp_ecoli 57-83, 2ANR 149-175 2-81 и 14-93
% гэпов 10% 0% 0%

Удалось ли найти изучаемый белок в Swiss-Prot и "nr", а его структуру в PDB?
Да, во всех трех случаях. АС (ACCESSION) в Swiss-Prot - P0AA04, в "nr" - NP_288977, в PDB - 2JEL_P.
Cравните параметры выравнивания изучаемого белка с самим собой при поиске по разным БД и объясните различия.
Параметр E_value увеличивается или уменьшается в зависимости от того насколько соответственно больше или меньше в банках последовательностей и структур.
Cравните число потенциальных гомологов при поиске по разным БД и поясните причину различий.
Число гомологов различно, т.к в разных БД разное количество последовательностей и структур.
Cравните "худшие" находки при поиске по разным БД: совпадают ли они? если нет, то почему? какая из "худших" самая хорошая?
Как видно из данных талицы, они не совпадают. Это можно объяснить опять же разным количеством последовательностей и структур в разных БД. Из разной длины выравнивания вытекают разные значения для веса выравнивания, % идентичности и сходства. Самая хорошая из трех - находка из SwissProt с E-value 0,98.

2. Поиск гипотетических гомологов изучаемого белка с фильтром по таксонам

Моя задача была найти гипотетического гомолога в организме таксона как можно более филогенетически далекого от моего. Для этого было предложено перебрать таксоны в следующемпорядке: Homo sapiens, Archaea, Actinobacteria, Alteromonadales, Vibrionaceae (расположены в порядке приближения к E.coli). E value должен быть меньше 0,01. Первым белок был найден в таксоне Actinobacteria. На основании данных заполнила следующую таблицу.
  Homo sapiens,Archaea Actinobacteria
Находка из филогенетически дальних от E.coli таксонов.
Наличие "хороших" гомологов(Descriptions) Нет в базе SwissProt Есть
Номер находки в списке описаний (Descriptions) - 1
Идентификатор БД - PTHP_STRCO
E-value - 2*10-7
Вес (в битах) - 49,3
% идентичности - 30
% сходства - 54
Длина выравнивания - 84
Координаты выравнивания (номера первых и последних а.о.) - pthp_ecoli 1-83 PTHP_STRCO 1-84
% гэпов - 1

3.Поиск белка по его фрагменту.

Для поиска взяла фрагмент, кторый уже использавала в первом задании 2 блока: >seq2 TFTITAETGIHARPATQLV
В результате был найден белок, содержащий эту последовательность и заполнена Таблица №3.
  Поиск по фрагменту Поиск по полной
последовательности
АС лучшей находки PTHP_BACHD PTHP_BACHD
E-value 3*10-10 2*10-42
Вес (в битах) 62,1 170
Найдены ли другие белки с теми же значениями E-value и веса в битах?
нет нет

В отличии от выравнивания по фрагменту, выравнивание по полной последовательности имеет меньший e-value. По формуле E=l*L*K*e-λS, где E - E.value, l - длина последовательности, L - объем банка, K и λ некоторые константы, зависящие только от используемой матрицы, S - вес выравнивания. Очевидно, что при увеличении веса выравнивания уменьшается E-value.

На последнем листе поиска нашла выравнивание изучаемого мною белка Pthp_ecoli и белка Pthp_bachd. Выглядит оно следующим образом:
 Здесь Query - белок pthp_bachd, а Sbjct - мой белок pthp_ecoli.

Query  1   MAEKTFTITAETGIHARPATQLVNKAGQYSSEITLEYKGKAVNLKSIMGVMSLGVGKGAQVTIKAEGSDEAEALKGIEEVIKE  83
           M ++  TITA  G+H RPA Q V +A  ++SEIT+   GK+ + KS+  + +LG+ +G  VTI AEG DE +A++ + +++ E    
Sbjct  1   MFQQEVTITAPNGLHTRPAAQFVKEAKGFTSEITVTSNGKSASAKSLFKLQTLGLTQGTVVTISAEGEDEQKAVEHLVKLMAE  83


Выравнивание, сделанное мною в работе "Пробные выравнивания", соответствует следующему фрагменту полученного выравнивания:
TFTITAETGIHARPATQLV
  TITA  G+H RPA Q 
EVTITAPNGLHTRPAAQF
Они совпадают.

4. Сравнение выравниваний, выданных программой BLASTP, с оптимальными глобальным и локальным выравниваниями.

Полученное выравнивание с помощью программы Blastp было построено при штрафах за гэп 11 и за продление гэпа 1. Ниже приведено это выравнивание.
 Query  1   MAEKTFTITAETGIHARPATQLVNKAGQYSSEITLEYKGKAVNLKSIMGVMSLGVGKGAQVTIKAEGSDEAEALKGIEEVIKE  83  
            M ++  TITA  G+H RPA Q V +A  ++SEIT+   GK+ + KS+  + +LG+ +G  VTI AEG DE +A++ + +++ E     
 Sbjct  1   MFQQEVTITAPNGLHTRPAAQFVKEAKGFTSEITVTSNGKSASAKSLFKLQTLGLTQGTVVTISAEGEDEQKAVEHLVKLMAE  83  
                                                                                                          
      (Query - pthp_bachd, Sbjct - pthp_ecoli.)                                   
      
Выр.1

Также с помощью программы Putty я получила оптимальные глоольное и локальные выравнивания с параметрами штрафа за гэп 10 и продление гэпа 0,5.

Изображение глобального выравнивания:

Выр.2

Изображение локального выравнивания:

Выр.3

Выравнивания очень похожи, за исключением того, что выравниваие полученное программой Blastp (выр.1) и оптимальное локальное выравнивание (выр.3) имеют длину 83 построены для а.о. с 1 по 83 обоих белков. А оптимальное глобальное выравнивание (выр.2) построено естественно для всей длины обоих белков (длина выравнивания-87) с 1 по 85 а.о. для pthp_ecoli и с 1 по 87 а.о. для pthp_bachd.

©, "ООО Шиндяпина 2008"