Cравнение аминокислотных и нуклеотидных последовательностей соответствующих генов

Краткая информация о выборке
Белковая последовательность Нуклеотидная последовательность ID находки
1CHEY_ECOLI AAG56872 100%
2Q5PMY2_SALPA AAV76927 97%
3CHEY_YEREN AAK40116 91%
4Q669T6_YERPS CAH21635 90%
5Q7NSH8_CHRVO AAQ61109 70%
6Q9AAK6_CAUCR AAK22577 52%
7Q43RF8_SOLUS EAM55416 40%
     Выборка семи аминокислотных последовательностей была сделана с помощью программы BLAST-сервера EBI. Поиск производился по последовательности CHEY_ECOLI. Процент процент идентичности гомологов в выборке уменьшается в такой последовательности: 100%, 97%, 91, 90%, 70%, 52%, 40%.
Различия в последовательностях белков CHEY_ECOLI и Q5PMY2_SALPA
Номера нуклеотидов Триплет Последовательность Аминокислота
151-153 TAT CHEY_ECOLI Y
TTT Q5PMY2_SALPA F
160-162 GTT CHEY_ECOLI V
ATT Q5PMY2_SALPA I
226-228 GGC CHEY_ECOLI G
AGC Q5PMY2_SALPA S
     С помощью программы needle мы построили два полных выравнивания: для белков p1 и p2 (оба длиной 129 а.о.), а также для их кодирующих последовательностей (g1 и g2, соответственно).
	needle p1.fasta p2.fasta -outfile p1p2.msf -aformat3 msf -auto
	needle g1.fasta g2.fasta -outfile g1g2.msf -aformat3 msf -auto
	
     Эти выравнивания можно найти в файлах:
p1p2.msf
g1g2.msf
     Сравнив эти два белка, мы нашли, что их аминокислотные последовательности отличаются только по трем позициям: 51, 54, 76.
Синонимичные замены в последовательностях генов CHEY_ECOLI и Q5PMY2_SALPA, касающиеся либо первого, либо второго нуклеотида триплета
Номера нуклеотидов Триплет Последовательность Аминокислота
73-75 CTG CHEY_ECOLI L
TTA Q5PMY2_SALPA L
136-138 TTG CHEY_ECOLI L
CTT Q5PMY2_SALPA L
202-204 TTG CHEY_ECOLI L
CTG Q5PMY2_SALPA L
     Всего синонимичных замен в последовательностях этих двух генов - 63. 60 из них затрагивают третью позицию в триплете. Соотношение синонимичных и несинонимичных замен 63/3, т.е. 21. Давайте попробуем объяснить это. Мы знаем, что для многих кодонов выполняется следующее правило: замены в третьей позиции синонимичны, а в первой и второй - нет. Поэтому, если придерживаться этого правила и предположить мутации в разных позициях кодона равновероятными, то несинонимичных замен должно быть в два раза больше, чем синонимичных. Если учесть все особенности генетического кода, то синонимичных и несинонимичных должно быть примерно поровну. Это часто можно наблюдать в реальности. Если число несинонимичных замен очень мало, в отличие от синонимичных, то мы можем предположить наличие сильного стабилизирующего отбора по данному белку. Такая картина наблюдается и в нашем случае. Это не странно: белок участвует в весьма важных регуляторных процессах.
Матрица нуклеотидных замен
  A T G C
A   3 20 3
T     6 20
G       14
C        
     Из этих данных видно, что число транзиций больше числа трансверсий. Это весьма логично. Т.к. репаративная система намного лучше распознает трансверсии, чем транзиции. Это важно для сохранения нормальной пространственной структуры ДНК. Замена маленького пиримидина на большой пурин очень сильно влияет на структуру ДНК, чаще всего деструктивно, и поэтому мутанты с трансверсиями часто оказываются нежизнеспособными.
     На основе попарного Identity для аминокислотных и нуклеотидных последовательностей выборки был построен график зависимости процента совпадений нуклеотидных последовательностей от аминокислотных (синяя линия на графике). Она отличается от такого же графика для гемагглютинина вируса гриппа (красная линия на графике). Причин этого можно назвать несколько:
  • Ген гемагглютинина эволюционирует достаточно быстро, стабилизирующий отбор не имеет решающего занчения. Ген CHEY подвергается действию стабилизирующего отбора. Из-за этого график для CHEY расположен ниже в области 70-100% Prot_ID. Т.е. для любого фиксированного значения Prot_ID из этой области, значение Gene_ID меньше у кривой CHEY, чем у гемагглютинина. Т.к. большое количество накапливающихся синонимичных замен в нуклеотидных последовательностях не отражается на соответствующих аминокислотных последовательностях.
  • Коренное различие последовательности белка CHEY и гемагглютинина: для кодонов разных аминокислот существует разное количество синонимичных замен.
  • Ген гемагглютинина находится под контролем и обрабатывается вирусными и эукариотическими ферментами, а белок CHEY - бактериальными.


© Решетов Денис, 2005