• Поиск гипотетических гомологов изучаемого белка в разных БД
  • Таблица 1. Результаты поиска гипотетических гомологов белка CISY_ECOLI

      Поиск по БД Swiss-Prot Поиск по БД PDB Поиск по БД "nr"
    1. Лучшая находка (в принципе должна соответствовать заданному белку)
    Идентификатор БД  CISY_ECOLI  1OWB  NP_415248
    E-value  0.0  0.0  0.0
    Вес (в битах)  898  892  898
    % идентичности  100%  100%  100%
    Найдены ли другие белки с теми же значениями E-value и веса в битах?
    Если найдены, то укажите общее число и приведите один идентификатор (любой, но желательно Swiss-Prot ID)
     нет  нет  нет
    2. Сколько хороших кандидатов в гомологи найдено? (число находок в списке описаний, Descriptions, с E-value < 1E-10)  104  21  3208
    2. "Худшая" находка (последняя в выдаче с E-value < 1)
    Номер находки в списке описаний (Descriptions)  112  22  3214
    Идентификатор БД  HEMH_RICTY  1CSC  ref|ZP_04944926.1|
    E-value  0.28  7e-24  0.86
    Вес (в битах)  36.6  107  39.3
    % идентичности  27  25  27
    % сходства  42  43  23.1
    Длина выравнивания  342  433  471
    Координаты выравнивания
    Query 19-154
    Sbjct 106-236
    
    Query 25-33
    Sbjct 414-427
    
    Query 256-327
    Sbjct 364-431
    
    % гэпов  21  13  12

    В кратком комментарии к таблице

  • Поиск гипотетических гомологов изучаемого белка с фильтром по таксонам
  • Моей задачей было для изучаемого белка E. coli найти лучшего гомолога в организмах таксона, филогенетически как можно более далекого от E. coli.
    Я выбирал из следующих таксонов: Homo sapiens, Archaea, Actinobacteria, Alteromonadales, Vibrionaceae (приведены в порядке приближения к E. coli). В этом же порядке я проверял их на наличие гипотетического гомолога (критерий: E-value<0,001).Поиск по банку SwissProt сразу же закончился, так как гомолог с E-value равным 2e-24 был найден в организме человека.

    Таблица 2. Гипотетический гомолог белка, найденный в Swiss-Prot (Организм - Homo Sapiens)

    Идентификатор БД CISY_HUMAN
    E-value 2e-24
    Вес (в битах) 110
    % идентичности 26
    % сходства 45
    Длина выравнивания 466
    Координаты выравнивания (номера первых и последних а.о. Сначала - первые Query и Sbjct, после ";" последние)
    Query 22-57
    Sbjct 414-454
    
    % гэпов 14%

  • Поиск белка по его фрагменту
  • С помощью Blast я провел поиск белка в SwissProt по фрагменту:
    >seq2 EINAMDKALILYTDHEVPASTTAA
    На страничке запроса BLASTP я ввел в окошко "Query sequence" этот фрагмент и провел поиск по Swiss-Prot. Был найден единственный белок с совпавшей последовательностью:
    AC = P80148, ID = CISY_SULSO
    Я получил последовательность этого белка с помощью программы seqret пакета EMBOSS.
    Последовательность белка в fasta
    Осуществив поиск в Swiss-Prot по полной последовательности, я обнаружил, что значения веса и E-value отличаются от значений, выданных на предыдущий запрос. Это связано с тем, что длина полной последовательности больше.

    Таблица 3. Результаты поиска белка в Swiss-Prot по фрагменту последовательности

      Поиск по фрагменту Поиск по полной
    последовательности
    АС лучшей находки  P80148  P80148
    E-value  2e-15  0.0
    Вес (в битах)  79.1  771
    Найдены ли другие белки с теми же значениями E-value и веса в битах?
     нет  нет

    В результатах поиска по полной последовательности я нашёл и мой белок P0ABH7, вот так выглядит выравнивание белка P80148 и P0ABH7:
    Query       16   TNLTFIDGEKGILRYRGYNIEDLVNYGSYEETIYLMLYGKLPTKKELNDLKAKLNEEYEV  75
                     + +TFIDG++GIL +RG+ I+ L    +Y E  Y++L G+ PT+++ ++ K  +     +
    Sbjct       55   SKITFIDGDEGILLHRGFPIDQLATDSNYLEVCYILLNGEKPTQEQYDEFKTTVTRHTMI  114
    
    Query       76   PQEVLDTIYLMPKEADAIGLLEVGTAALASIDKNFKWKENDKEKAIS---IIAKMATLVA  132
                      +++    +   +++  + ++   T ALA+   +     N + + I+   +++KM T+ A
    Sbjct       115  HEQITRLFHAFRRDSHPMAVMCGITGALAAFYHDSLDVNNPRHREIAAFRLLSKMPTMAA  174
    
    Query       133  NVYRRKEGNKPRIPEPSDSFAKSFLLASFAREPTTDEIN-----AMDKALILYTDHEVPA  187
                       Y+   G     P    S+A +FL   F+      E+N     AMD+ LIL+ DHE  A
    Sbjct       175  MCYKYSIGQPFVYPRNDLSYAGNFLNMMFSTPCEPYEVNPILERAMDRILILHADHEQNA  234
    
    Query       188  STTAALVAASTLSDMYSSLTAALAALKGPLHGGAAEEAFKQFIEIGDPNRVQNWFND-KV  246
                     ST+    A S+ ++ ++ + A +A+L GP HGGA E A K   EI     +  +    K 
    Sbjct       235  STSTVRTAGSSGANPFACIAAGIASLWGPAHGGANEAALKMLEEISSVKHIPEFVRRAKD  294
    
    Query       247  VNQKNRLMGFGHRVYKTYDPRAKIFKKLALTLIERNADARRYFEIAQKLEELGIKQ--FS  304
                      N   RLMGFGHRVYK YDPRA + ++    +++         E+A +LE + +    F 
    Sbjct       295  KNDSFRLMGFGHRVYKNYDPRATVMRETCHEVLKELGTKDDLLEVAMELENIALNDPYFI  354
    
    Query       305  SKGIYPNTDFYSGIVFYALGFPVYMFTALFALSRTLGWLAHIIEYVEEQHRLIRPRALYV  364
                      K +YPN DFYSGI+  A+G P  MFT +FA++RT+GW+AH  E   +  ++ RPR LY 
    Sbjct       355  EKKLYPNVDFYSGIILKAMGIPSSMFTVIFAMARTVGWIAHWSEMHSDGMKIARPRQLYT  414
    
    Query       365  GPEYQEYVSIDKR  377
                     G E +++ S  KR
    Sbjct       415  GYEKRDFKSDIKR  427
    

  • Сравнение выравниваний, выданных программой BLASTP, с оптимальными глобальным и локальным выравниваниями.
  • Я сравнил предыдущее выравнивание, выданное BLASTP,
    а) с оптимальным частичным выравниванием;
    б) с оптимальным полным выравниванием последовательностей тех же белков.
    Вот результаты:
    1) BLASTP
     Method: Compositional matrix adjust. 
     Length=427
     Identities = 126/373 (33%)
     Positives = 205/373 (54%)
     Gaps = 11/373
     Score =  225 bits (574),  
     Expect = 3e-58 
    
    2)Оптимальное частичное выравнивание с помощью water
    # Aligned_sequences: 2
    # Aligned_sequences: 2
    # 1: CISY_SULSO
    # 2: CISY_ECOL6
    # Matrix: EBLOSUM62
    # Gap_penalty: 10.0
    # Extend_penalty: 0.5
    #
    # Length: 380
    # Identity:     130/380 (34.2%)
    # Similarity:   208/380 (54.7%)
    # Gaps:          25/380 ( 6.6%)
    # Score: 577.0
    

    Это выравнивание отличается от выданного BLASTP двумя фрагментами, которые для наглядности я обвёл красным. Все параметры оптимального локального выравнивания выше чем параметры предыдущего (см. таблицу в конце), так как оно короче и вес 2х выделенных фрагментов выше чем вес выравнивания тех же участков в BLAST
    3)Оптимальное полное выравнивание с помощью needle
    # Aligned_sequences: 2
    # 1: CISY_SULSO
    # 2: CISY_ECOL6
    # Matrix: EBLOSUM62
    # Gap_penalty: 10.0
    # Extend_penalty: 0.5
    #
    # Length: 434
    # Identity:     131/434 (30.2%)
    # Similarity:   211/434 (48.6%)
    # Gaps:          64/434 (14.7%)
    # Score: 572.0
    

    Это выравнивание отличается от выданного BLASTP участком с 144 по 158 позицию выравнивания, то есть Query 105-114 и Sbjct 144-153
    Этот же участок не совпал в предыдущем выравнивании (локальном)
    Также это выравнивание длиннее, участок с Query 1-15; Sbjct 1-54 отсутствует в выравнивании BLASTP. Длина увеличена, поэтому все показатели: идентичность, сходство, гэпы - меньше.

    Таблица 4. Сравнение выравниваний белков CISY_SULSO и CISY_ECOL6 , выданных программой BLASTP, с оптимальными глобальным и локальным выравниваниями.

      Построенное BLASTP Оптимальное локальное Оптимальное глобальное
    Score 574 577 572
    Длина выравнивания 427 380 434
    Процент идентичности 126/373 (33%) 130/380 (34.2%) 131/434 (30.2%)
    Процент сходства 205/373 (54%) 208/380 (54.7%) 211/434 (48.6%)

    Назад