Множественное выравнивание последовательностей.



  1. Ознакомление с программой Muscle
  2.  Задача - получить выравнивание вирусных белков, называемых "дельта-антигенами", посредством программы muscle и посмотреть на него в GeneDoc.

    Для начала получим файл с последовательностями дельта-антигенов в формате fasta. Чтобы получить последовательности дельта-антигенов из банка Swiss-Prot, воспользуемся SRS. Все дельта-антигены происходят из вирусов рода"Deltavirus" и имеют в описании слово "delta". Поэтому в SRS можно создать запрос к банку Swiss-Prot, а затем сохранить найденные последовательности в fasta-формате. Полученный в SRS запрос: ([swissprot-Taxonomy:delta*] & [swissprot-Taxonomy:Deltavirus*]), нашлось 34 белка.

    Полученный файл: delta.fasta.

    Картинку с выравниванием последовательностей можно посмотреть здесь: picture

    Затем импортируем файл в GenDoc, данные последовательности не выровнены, но сходство их всё же можно заметить.

    Выровняем последовательности. Для этого выполним команду muscle -in delta.fasta -out delta_aligned.fastacd.

    Полученный файл: delta_aligned.fastacd

    Изображение выравнивания: picture

    Последовательности практически совпадают, картинка невыровненных последовательностей мало отличается от картинки выровненных по этой причине. Поменялась последовательность самих белков (не аминокислот), представленных для выравнивания. В множественном выравнивании по сравнению с "выравниванием" невыровненных последовательностей намного больше консервативных участков. По нему можно точно утверждать, что в выравнивании представлены гомологи одного белка RECQ_ECOLI.

  3. Выравнивание набора гомологов своего белка
  4. Для начала найдём гомологов по следующим критериям:
    1. E-value сходства по данным выравниваниям — не более одной тысячной (тем самым эти белки являются достоверными гомологами);
    2. Выравнивания имеют процент идентичности не более 90 (белки не слишком близки к моему белку);
    3. Желательно, чтобы последовательности были не слишком близки и друг к другу тоже.

      BlastP выдал следующие белки:

      sp|P15043.5|RECQ_ECOLI  RecName: Full=ATP-dependent DNA helica...  1266    0.0  
      sp|Q9CL21.1|RECQ_PASMU  RecName: Full=ATP-dependent DNA helica...   784    0.0  
      sp|P71359.1|RECQ_HAEIN  RecName: Full=ATP-dependent DNA helica...   782    0.0  
      sp|P50729.1|RECQ_BACSU  RecName: Full=ATP-dependent DNA helica...   290    6e-78
      sp|P73421.1|RECQ_SYNY3  RecName: Full=ATP-dependent DNA helica...   232    3e-60
      sp|Q81IT9.2|CSHA_BACCR  RecName: Full=DEAD-box ATP-dependent R...  89.4    3e-17
      


      Список идентификаторов:
      sw:RECQ_ECOLI 
      sw:RECQ_SYNY3
      sw:RECQ_BACSU
      sw:RECQ_PASMU
      sw:CSHA_BACSU
      sw:RECQ_HAEIN 
      


      Воспользовавшись программой seqret, я получила последовательности белков в формате fasta.

      Полученный файл: myproteins.fasta

      Следующий шаг - импорт полученной fasta-последовательности в GenDoc. В результате получилось выравнивание:



      Полученный файл: myproteins.msf

      Отметим наиболее консервативные участки:

      Координаты по RECQ_ECOLI Координаты по выравниванию
      17-62 30-76
      65-90 84-109
      143-155 166-177
      219-262 251-294
      263-341 297-374


      Возможно, что не имеют биологического смысла следующий участок выравниваний:

                  601                                                650 
      CSHA_BACSU  ...GKGKSNN RSSYDKKRSN DRRSSGDRRQ KKSY...... .......... 
      RECQ_SYNY3  ILVAFGDNSP AAR......R PCGTCDNCLV GRC....... .......... 
      RECQ_BACSU  LYEQKGERSK MAPLDSWSSE LHRIFSLQTV GELN...... .......... 
      RECQ_ECOLI  TLIEMAEQMP ITASEMLSVN GVGMRKLERF GKPFMALIRA H....VDGDD 
      RECQ_PASMU  TLQEMAQYQP TTKAEMLAIN GVGATKFERF AQPFMQIIQQ HKKVLTQHEP 
      RECQ_HAEIN  TLQEMAQYMP TSNIEMLQIN GVGSIKLERF GQPFMALIQE HKAILANAQN 
      
                  651     656 
      CSHA_BACSU  ......     
      RECQ_SYNY3  ......     
      RECQ_BACSU  ......     
      RECQ_ECOLI  ....EE     
      RECQ_PASMU  PLSLES     
      RECQ_HAEIN  ....ND