МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ИМЕНИ М.В.ЛОМОНОСОВА
ФАКУЛЬТЕТ БИОИНЖЕНЕРИИ И БИОИНФОРМАТИКИ

Домашняя страничка Ильи Курочкина

Главная

I Семестр

II Семестр

Проекты

Обратная Связь

BLASTP

  • 1) Поиск гипотетических гомологов изучаемого белка в разных БД

    Таблица 1а. Результаты поиска гипотетических гомологов белка rsuA_Ecoli

      Поиск по БД Swiss-Prot Поиск по БД PDB Поиск по БД "nr"
    1. Лучшая находка (в принципе должна соответствовать заданному белку)
    Идентификатор БД RSUA_ECOLI 1KSK NP_288766
    E-value 7e-135 9e-133 1e-133
    Вес (в битах) 479 468 479
    % Идентичности 100% 98% 100%
    Найдены ли другие белки с теми же значениями E-value и веса в битах?
    Если найдены, то укажите общее число и приведите один идентификатор (любой, но желательно Swiss-Prot ID)
    Не найдено 3; 1KSL (эта одна и таже структура, но с ней связаны различные лиганды) 85; NP_311102
    Сколько хороших кандидатов в гомологи найдено? (число находок в списке описаний, Descriptions, с E-value<=1E-10) 65 5 2282
    2. "Худшая" находка (последняя в выдаче с E-value<1.0)
    Номер находки в списке описаний (Descriptions) 72 8 2592
    Идентификатор БД ARY1_CHICK 1V9F YP_146684
    E-value 0.68 0.85 0.99
    Вес (в битах) 33.9 29.6 37.4
    % Идентичности 20% 22% 24%
    % Сходство 37% 42% 44%
    Длина выравнивания 162 195 154
    Координаты выравнивания (номера первых и последних а.о.) 63 и 216 у RSUA_ECOLI
    129 и 281 у ARY1_CHICK
    24 и 198 у 1KSK
    61 и 247 у 1V9F
    63 и 195 у NP_288766
    92 и 244 у YP_146684
    % Гэпов 10% 14% 14%

    Таблица 1б. Краткие комментарии к таблице

    Вопрос Краткий ответ
    Удалось ли найти изучаемый белок в "SwissProt" и "nr", а его структуру в PDB? Мне удалось найти мой белок во всех 3-х базах данных.
    Сравнить параметры выравнивания изучаемого белка с самим собой при поиске по разным БД и объясните различия (если они есть, конечно) Различия в выравнивании с самим собой наблюдается только в PDB. Главное различие - это мутация, информация о которой имеется в записи банка PDB, но не содержится в банке "SwissProt". Это мутация заключается в том, что все метионины заменены на селенметионины.
    Сравнить число потенциальных гомологов при поиске по разным БД и поясните причину различий Число потенциальных гомологов белка, найденных в трех разных базах данных, различно. В PDB содержится наименьшее число гомологов. Так как эта база содержит в себе информацию о третичной структуре, и ее объем не так велик, как у "nr" или "SwissProt". В "SwissProt" больше гомологов, так как она включает в себя многочисленные исследования белков, но содержит только проверенные данные. Наибольшее число гомологов найдено в базе "nr": она имеет наибольший объем. Так как в ней содержится информацию из различных баз данных, в том числе "SwissProt" и PDB, но без повторений.
    Сравните "худшие" находки при поиске по разным БД: совпадают ли они? Если нет, то почему? Какая из "худших" самая хорошая? Все "худшие" гомологи оказались различными. Это объясняется размерами БД. А лучший из "худших" содержится в "SwissProt". БД "SwissProt" и PDB изначально различны и несвязаны между собой. Наибольшее число "худших" гомологов содержится в "nr", у 16 записей e-value равно 1.0. У них одинаковый вес, но различаются: длины выравнивания, %идентичности, %сходства и % гэпов. Поэтому я взял e-value равное 0.99, при котором содержится всего одна запись.
  • 2) Поиск гипотетических гомологов изучаемого белка с фильтром по таксонам

    Я выполнил поиск по SwissProt в таксонах Homo sapiens, Archaea не было обнаружено ни одного гомолога моего белка, c учетом критерия: E-value<0.001. Но выполнив поиск по таксону Actinobacteria я обнаружил несколько гомологов моего белка.

    Таблица 2. Результаты поиска гипотетических гомологов белка rsuA_Ecoli в классе Actinobacteria

    Поиск по БД Swiss-Prot  
    Идентификатор БД Y1738_MYCBO
    E-value 4e-25
    Вес (в битах) 109
    % Идентичности 34%
    % Сходство 48%
    Длина выравнивания 236
    Координаты выравнивания (номера первых и последних а.о.) 1 и 230 у RSUA_ECOLI
    14 и 248 у Y1738_MYCBO
    % гэпов 2%
    Найдены ли другие белки с теми же значениями E-value и веса в битах?
    Если найдены, то укажите общее число и приведите один идентификатор (любой, но желательно Swiss-Prot ID)
    2; Y1711_MYCTU
    Сколько хороших кандидатов в гомологи найдено? (число находок в списке описаний, Descriptions, с E-value<=1E-10) 3
  • 3) Поиск белка по его фрагменту

    Фрагмент некоторого белка, который был мне выдан на первом занятии, представленный в fasta-формате:
     
    >seq2
    VRGTKKLFHVGRLDADTEGLMLLTNDGE
    

    В результате поиска в BLASTP было найдено два белка с ID: Y1738_MYCBO, Y1711_MYCTU и AC: P65843, P65842. Последовательности представлены в fasta-формате, а подчеркиванием выделен фрагмент, который мне достался:
    
    >Y1738_MYCBO P65843 
    MMAEPEESREPRGIRLQKVLSQAGIASRRAAEKMIVDGRVEVDGHVVTELGTRVDPQVAV
    VRVDGARVVLDDSLVYLALNKPRGMHSTMSDDRGRPCIGDLIERKVRGTKKLFHVGRLDA
    DTEGLMLLTNDGELAHRLMHPSHEVPKTYLATVTGSVPRGLGRTLRAGIELDDGPAFVDD
    FAVVDAIPGKTLVRVTLHEGRNRIVRRLLAAAGFPVEALVRTDIGAVSLGKQRPGSVRAL
    RSNEIGQLYQAVGL
    
    >Y1711_MYCTU P65842 
    MMAEPEESREPRGIRLQKVLSQAGIASRRAAEKMIVDGRVEVDGHVVTELGTRVDPQVAV
    VRVDGARVVLDDSLVYLALNKPRGMHSTMSDDRGRPCIGDLIERKVRGTKKLFHVGRLDA
    DTEGLMLLTNDGELAHRLMHPSHEVPKTYLATVTGSVPRGLGRTLRAGIELDDGPAFVDD
    FAVVDAIPGKTLVRVTLHEGRNRIVRRLLAAAGFPVEALVRTDIGAVSLGKQRPGSVRAL
    RSNEIGQLYQAVGL
    

    Таблица 3. Результаты поиска белка в SwissProt по фрагменту последовательности

      Поиск по фрагменту Поиск по полной
    последовательности
    АС лучшей находки P65843 P65843
    E-value 5e-19 8e-142
    Вес (в битах) 91.0 502
    Найдены ли другие белки с теми же значениями E-value и веса в битах?
    P65842 P65842

    Сравнивая поиск по фрагменту и полной последовательности мы наблюдаем отличия, но это вполне естественно. Так как вес выравнивания складывается из весов замен а.о., поэтому если длина выравнивания фрагмента короче длины выравнивания всей последовательности, то вес разный. А E-value также зависит от веса выравнивания и длины, которые в данном случае различны.

    Ниже приведено выравнивание полных последовательностей этих белков при помощи BLAST (Query это RSUA_ECOLI, а Sbjct - Y1738_MYCBO, либо Y1711_MYCTU). Подчеркиванием выделены фрагменты локального выравнивания.

    E-value = 1e-23
    Identities(Идентичность)= 81/236 (34%)
    Positives(Сходство) = 115/236 (48%)
    Gaps(Гэпы) = 7/236 (2%)
    Длина = 236
    Score(Вес) =  109 бит (273)
    
    Query  1    MRLDKFIAQQLGVSRAIAGREIRGNRVTVDGEIVRNAAFKLLPEHDVA-YDGNPLAQQHG  59
                +RL K ++Q    SR  A + I   RV VDG +V     ++ P+  V   DG  +     
    Sbjct  14   IRLQKVLSQAGIASRRAAEKMIVDGRVEVDGHVVTELGTRVDPQVAVVRVDGARVVLDDS  73
    
    Query  60   PRYFMLNKPQG-YVCSTDDPDHPTVLYFLDEPV--AWKLHAAGRLDIDTTGLVLMTDDGQ  116
                  Y  LNKP+G +   +DD   P +   ++  V    KL   GRLD DT GL+L+T+DG+
    Sbjct  74   LVYLALNKPRGMHSTMSDDRGRPCIGDLIERKVRGTKKLFHVGRLDADTEGLMLLTNDGE  133
    
    Query  117  WSHRITSPRHHCEKTYLVTLESPVADDTAEQFAKGVQLHNEKDLTKP-AVLEVI-TPTQV  174
                 +HR+  P H   KTYL T+   V          G++L +        AV++ I   T V
    Sbjct  134  LAHRLMHPSHEVPKTYLATVTGSVPRGLGRTLRAGIELDDGPAFVDDFAVVDAIPGKTLV  193
    
    Query  175  RLTISEGRYHQVKRMFAAVGNHVVELHRERIGGITLDADLAPGEYRPLTEEEIASV  230
                R+T+ EGR   V+R+ AA G  V  L R  IG ++L     PG  R L   EI  +
    Sbjct  194  RVTLHEGRNRIVRRLLAAAGFPVEALVRTDIGAVSLGKQ-RPGSVRALRSNEIGQL  248
    

    В выравнивании те фрагменты, которые я сравнивали с помощью GeneDoc, имеют следующие номера а.о. : 89-116 для RSUA_ECOLI(Query) и 106-133 для Y1738_MYCBO(Sbjct). Но выравнивание при помощи BLAST и мое выранивание не совпадают. Ниже приведено мое выравнивание:

    Если бы я выравнивал при помощи BLAST, то мне пришлось бы вставить гэпы, в результате чего уменьшился бы вес. Выравнивания не совпадают так, как не совпадают начальные позиции. И для того чтобы сравнять эти позиции и сделать похожем на мое выравнивание BLAST ставит гэпы.

  • 4) Сравнение выравниваний, выданных программой BLASTP, с оптимальными глобальным и локальным выравниваниями

    Я выполнил выравнивания в программах BLASTP, needle, stretcher, matcher и water при значениях параметров, стандартных для BLASTP: штраф за начало гэпа 11, а за продление 1.

    Таблица 4. Сравнение выравниваний

      BLASTP needle stretcher matcher water
    Вес 273 275 243 276 276
    Длина выравнивания 236 255 255 236 236
    Идентичность 81/236
    (34%)
    81/255
    (31.8%)
    82/255
    (32.2%)
    81/236
    (34.3%)
    81/236
    (34.3%)
    Сходство 115/236
    (48%)
    115/255
    (45.1%)
    116/255
    (45.5%)
    115/236
    (48.7%)
    115/236
    (48.7%)
    Количество Гэпов 7/236
    (2%)
    25/255
    (9.8%)
    25/255
    (9.8%)
    7/236
    (3.0%)
    7/236
    (3.0%)
    Координаты выравнивания(номера первых и последних а.о.)
    Первая пара для RSUA_ECOLI, вторая для Y1738_MYCBO
    1-230
    14-248
    1-231
    1-254
    1-231
    1-254
    1-230
    14-248
    1-230
    14-248

    Оптимальное глобальное выравнивание с помощи программы needle

    
    RSUA_ECOLI         1 -------------MRLDKFIAQQLGVSRAIAGREIRGNRVTVDGEIVRNA     37
                                      :||.|.::|....||..|.:.|...||.|||.:|...
    Y1738_MYCBO        1 MMAEPEESREPRGIRLQKVLSQAGIASRRAAEKMIVDGRVEVDGHVVTEL     50
    
    RSUA_ECOLI        38 AFKLLPEHDVA-YDGNPLAQQHGPRYFMLNKPQG-YVCSTDDPDHPTVLY     85
                         ..::.|:..|. .||..:.......|..||||:| :...:||...|.:..
    Y1738_MYCBO       51 GTRVDPQVAVVRVDGARVVLDDSLVYLALNKPRGMHSTMSDDRGRPCIGD    100
    
    RSUA_ECOLI        86 FLDEPV--AWKLHAAGRLDIDTTGLVLMTDDGQWSHRITSPRHHCEKTYL    133
                         .::..|  ..||...||||.||.||:|:|:||:.:||:..|.|...||||
    Y1738_MYCBO      101 LIERKVRGTKKLFHVGRLDADTEGLMLLTNDGELAHRLMHPSHEVPKTYL    150
    
    RSUA_ECOLI       134 VTLESPVADDTAEQFAKGVQLHNEKDLTKP-AVLEVIT-PTQVRLTISEG    181
                         .|:...|..........|::|.:....... ||::.|. .|.||:|:.||
    Y1738_MYCBO      151 ATVTGSVPRGLGRTLRAGIELDDGPAFVDDFAVVDAIPGKTLVRVTLHEG    200
    
    RSUA_ECOLI       182 RYHQVKRMFAAVGNHVVELHRERIGGITLDADLAPGEYRPLTEEEIASVV    231
                         |...|:|:.||.|..|..|.|..||.::|... .||..|.|...||..:.
    Y1738_MYCBO      201 RNRIVRRLLAAAGFPVEALVRTDIGAVSLGKQ-RPGSVRALRSNEIGQLY    249
    
    RSUA_ECOLI       231 -----    231
                              
    Y1738_MYCBO      250 QAVGL    254
    
    

    Данное выравнивание практически полностью совпадает с выравниванием BLASTP при одинаковых значениях параметров. За исключением первых 13 колонок и 6 последней, которых нет при выравнивание с помощью BLASTP и одного маленького учатка. Участки которые отличаются подчеркнуты. Рассмотрим этот маленький участок:
    BLASTP: RSUA_ECOLI   -T        needle: RSUA_ECOLI   T-
            Y1738_MYCBO  PG                Y1738_MYCBO  PG
     
    По матрице весов замен BLOSUM62 я определил, что замены T-G и T-P имеют вес: -2 и -1. Поэтому это отличие не значительно.

    Оптимальное глобальное выравнивание с помощи программы stretcher

    
                                10        20        30       
    RSUA_E M-------------RLDKFIAQQLGVSRAIAGREIRGNRVTVDGEIVRNA
           :             :: : ..:    ::  : . :   :: ::: .:   
    Y1738_ MMAEPEESREPRGIRLQKVLSQAGIASRRAAEKMIVDGRVEVDGHVVTEL
                   10        20        30        40        50
    
            40         50        60        70         80     
    RSUA_E AFKLLPEHDVA-YDGNPLAQQHGPRYFMLNKPQG-YVCSTDDPDHPTVLY
             .. :.  :   ::  .       :  ::::.: .   .::   : .  
    Y1738_ GTRVDPQVAVVRVDGARVVLDDSLVYLALNKPRGMHSTMSDDRGRPCIGD
                   60        70        80        90       100
    
              90         100       110       120       130   
    RSUA_E FLDEPVAW--KLHAAGRLDIDTTGLVLMTDDGQWSHRITSPRHHCEKTYL
            ..  :    ::   :::: :: ::.:.:.::. .::.  : :   ::::
    Y1738_ LIERKVRGTKKLFHVGRLDADTEGLMLLTNDGELAHRLMHPSHEVPKTYL
                  110       120       130       140       150
    
               140       150       160        170        180 
    RSUA_E VTLESPVADDTAEQFAKGVQLHNEKDLTKP-AVLEVIT-PTQVRLTISEG
            :.   :          :..: .        ::.. :   : ::.:. ::
    Y1738_ ATVTGSVPRGLGRTLRAGIELDDGPAFVDDFAVVDAIPGKTLVRVTLHEG
                  160       170       180       190       200
    
                 190       200       210       220       230 
    RSUA_E RYHQVKRMFAAVGNHVVELHRERIGGITLDADLAPGEYRPLTEEEIASV-
           :   :.:. :: :  :  : :  :: ..:     ::  : :   ::  . 
    Y1738_ RNRIVRRLLAAAGFPVEALVRTDIGAVSLGKQ-RPGSVRALRSNEIGQLY
                  210       220       230        240         
    
                
    RSUA_E ----V
               .
    Y1738_ QAVGL
         250    
    
    

    Данное выравнивание слегка отличается от выравнивания BLASTP. Участки которые отличаются подчеркнуты. Вес выравнивания в данном случае существенно ниже, чем при выравнивание с помощью needle, так как здесь гэпы стоят не в самом начале, когда они не засчитываются, а после первого а.о., поэтому они снижают вес. Аналогичная ситуация и в конце. А участок:
    BLASTP or needle: RSUA_ECOLI   --AW         stretcher: RSUA_ECOLI   AW--
                      Y1738_MYCBO  RGTK                    Y1738_MYCBO  RGTK
    
    По матрице весов замен BLOSUM62 я определил, что замены A-T,W-K и A-R,W-G в сумме имеют одинаковый вес. Поэтому это не значительное отличие.

    Оптимальное глобальное выравнивание с помощи программы matcher

    
                   10        20        30        40          
    RSUA_E MRLDKFIAQQLGVSRAIAGREIRGNRVTVDGEIVRNAAFKLLPEHDVA-Y
           .:: : ..:    ::  : . :   :: ::: .:     .. :.  :   
    Y1738_ IRLQKVLSQAGIASRRAAEKMIVDGRVEVDGHVVTELGTRVDPQVAVVRV
                20        30        40        50        60   
    
          50        60        70         80        90        
    RSUA_E DGNPLAQQHGPRYFMLNKPQG-YVCSTDDPDHPTVLYFLDEPVAW--KLH
           ::  .       :  ::::.: .   .::   : .   ..  :    :: 
    Y1738_ DGARVVLDDSLVYLALNKPRGMHSTMSDDRGRPCIGDLIERKVRGTKKLF
                70        80        90       100       110   
    
            100       110       120       130       140      
    RSUA_E AAGRLDIDTTGLVLMTDDGQWSHRITSPRHHCEKTYLVTLESPVADDTAE
             :::: :: ::.:.:.::. .::.  : :   :::: :.   :      
    Y1738_ HVGRLDADTEGLMLLTNDGELAHRLMHPSHEVPKTYLATVTGSVPRGLGR
               120       130       140       150       160   
    
            150       160        170        180       190    
    RSUA_E QFAKGVQLHNEKDLTKP-AVLEVIT-PTQVRLTISEGRYHQVKRMFAAVG
               :..: .        ::.. :   : ::.:. :::   :.:. :: :
    Y1738_ TLRAGIELDDGPAFVDDFAVVDAIPGKTLVRVTLHEGRNRIVRRLLAAAG
               170       180       190       200       210   
    
              200       210       220       230
    RSUA_E NHVVELHRERIGGITLDADLAPGEYRPLTEEEIASV
             :  : :  :: ..:     ::  : :   ::  .
    Y1738_ FPVEALVRTDIGAVSLGKQ-RPGSVRALRSNEIGQL
               220       230        240        
    
    

    Данное выравнивание чуть-чуть отличается от выравнивания BLASTP. Участки которые отличаются подчеркнуты. Как я уже выяснил выше: что замены A-T,W-K и A-R,W-G в сумме имеют одинаковый вес. Поэтому это не значительное отличие.

    Оптимальное глобальное выравнивание с помощи программы water

    
    RSUA_ECOLI         1 MRLDKFIAQQLGVSRAIAGREIRGNRVTVDGEIVRNAAFKLLPEHDVA-Y     49
                         :||.|.::|....||..|.:.|...||.|||.:|.....::.|:..|. .
    Y1738_MYCBO       14 IRLQKVLSQAGIASRRAAEKMIVDGRVEVDGHVVTELGTRVDPQVAVVRV     63
    
    RSUA_ECOLI        50 DGNPLAQQHGPRYFMLNKPQG-YVCSTDDPDHPTVLYFLDEPV--AWKLH     96
                         ||..:.......|..||||:| :...:||...|.:...::..|  ..||.
    Y1738_MYCBO       64 DGARVVLDDSLVYLALNKPRGMHSTMSDDRGRPCIGDLIERKVRGTKKLF    113
    
    RSUA_ECOLI        97 AAGRLDIDTTGLVLMTDDGQWSHRITSPRHHCEKTYLVTLESPVADDTAE    146
                         ..||||.||.||:|:|:||:.:||:..|.|...||||.|:...|......
    Y1738_MYCBO      114 HVGRLDADTEGLMLLTNDGELAHRLMHPSHEVPKTYLATVTGSVPRGLGR    163
    
    RSUA_ECOLI       147 QFAKGVQLHNEKDLTKP-AVLEVIT-PTQVRLTISEGRYHQVKRMFAAVG    194
                         ....|::|.:....... ||::.|. .|.||:|:.|||...|:|:.||.|
    Y1738_MYCBO      164 TLRAGIELDDGPAFVDDFAVVDAIPGKTLVRVTLHEGRNRIVRRLLAAAG    213
    
    RSUA_ECOLI       195 NHVVELHRERIGGITLDADLAPGEYRPLTEEEIASV    230
                         ..|..|.|..||.::|... .||..|.|...||..:
    Y1738_MYCBO      214 FPVEALVRTDIGAVSLGKQ-RPGSVRALRSNEIGQL    248
    
    

    Данное выравнивание практически полностью совпадает с выравниванием BLASTP при одинаковых значениях параметров. За исключением одного участка, который мы уже рассматривали выше.


    Таким образом, выравнивания этих белков с помощью BLASTP и программами пакета EMBOSS (needle, stretcher, matcher и water) практически не отличаются при одинаковых параметрах для штрафов за гэпы. Но один учаток BLASTP выравнивает по другому по сравнению с программами пакета EMBOSS, что для меня осталось загадкой, но скорей всего это связано с отличием алгоритмов данных программ. Как можно заметить из таблицы, что отношения для идентичности, сходства и количества гэпов одинаковы, но с другой стороны если вычислять эти характеристики в процентах, BLASTP и программы пакета EMBOSS дают разные результаты. Исходя из этого наблюдения можно сделать вывод, что BLASTP считает целую часть, а программы пакета EMBOSS пользуются стандартными правилами округления.


© 2008,Илюха Курочкин,Inc