Полученный файл: delta.fasta.
Картинку с выравниванием последовательностей можно посмотреть здесь: picture
Затем импортируем файл в GenDoc, данные последовательности не выровнены, но сходство их всё же можно заметить.
Выровняем последовательности. Для этого выполним команду muscle -in delta.fasta -out delta_aligned.fastacd.
Полученный файл: delta_aligned.fastacd
Изображение выравнивания: picture
Последовательности практически совпадают, картинка невыровненных последовательностей мало отличается от картинки выровненных по этой причине. Поменялась последовательность самих белков (не аминокислот), представленных для выравнивания. В множественном выравнивании по сравнению с "выравниванием" невыровненных последовательностей намного больше консервативных участков. По нему можно точно утверждать, что в выравнивании представлены гомологи одного белка RECQ_ECOLI.
sp|P15043.5|RECQ_ECOLI RecName: Full=ATP-dependent DNA helica... 1266 0.0 sp|Q9CL21.1|RECQ_PASMU RecName: Full=ATP-dependent DNA helica... 784 0.0 sp|P71359.1|RECQ_HAEIN RecName: Full=ATP-dependent DNA helica... 782 0.0 sp|P50729.1|RECQ_BACSU RecName: Full=ATP-dependent DNA helica... 290 6e-78 sp|P73421.1|RECQ_SYNY3 RecName: Full=ATP-dependent DNA helica... 232 3e-60 sp|Q81IT9.2|CSHA_BACCR RecName: Full=DEAD-box ATP-dependent R... 89.4 3e-17
sw:RECQ_ECOLI sw:RECQ_SYNY3 sw:RECQ_BACSU sw:RECQ_PASMU sw:CSHA_BACSU sw:RECQ_HAEIN
Полученный файл: myproteins.fasta
Следующий шаг - импорт полученной fasta-последовательности в GenDoc.
В результате получилось выравнивание:
Полученный файл: myproteins.msf
Отметим наиболее консервативные участки:
Координаты по RECQ_ECOLI | Координаты по выравниванию |
17-62 | 30-76 |
65-90 | 84-109 |
143-155 | 166-177 |
219-262 | 251-294 |
263-341 | 297-374 |
601 650 CSHA_BACSU ...GKGKSNN RSSYDKKRSN DRRSSGDRRQ KKSY...... .......... RECQ_SYNY3 ILVAFGDNSP AAR......R PCGTCDNCLV GRC....... .......... RECQ_BACSU LYEQKGERSK MAPLDSWSSE LHRIFSLQTV GELN...... .......... RECQ_ECOLI TLIEMAEQMP ITASEMLSVN GVGMRKLERF GKPFMALIRA H....VDGDD RECQ_PASMU TLQEMAQYQP TTKAEMLAIN GVGATKFERF AQPFMQIIQQ HKKVLTQHEP RECQ_HAEIN TLQEMAQYMP TSNIEMLQIN GVGSIKLERF GQPFMALIQE HKAILANAQN 651 656 CSHA_BACSU ...... RECQ_SYNY3 ...... RECQ_BACSU ...... RECQ_ECOLI ....EE RECQ_PASMU PLSLES RECQ_HAEIN ....ND