Оценка давления на ген белка SYD_ECOLI
Биологическая задача состоит в том, чтобы оценить давление отбора на ген заданного белка в период, начиная с момента расхождения кишечной палочки и холерного вибриона.

Подготовка данных:


Последовательность гена aspS
Последовательность белка SYD_ECOLI
Был проведен поиск ортологов c помощью пакета BLAST, использовалась программа protein blast и алгоритм blastp.
В указанном организме Vibrio cholerae был найден ортолог SYD_VIBCH, который имел Identity 70% и похожую аннотацию в UniProt, то есть также как и мой белок являлся аспартил-тРНК синтетазой.
Последовательность белка SYD_VIBCH
Последовательность гена aspS в найденном ортологе

Построение выравниваний


С помощью программы needle были построены белковое и нуклеотидное выравнивания.
Как видно Identity белкового выравнивания 75%, а Identity нуклеотидного выравнивания 71.3%.
Возможно, различия в значениях Identity могут объясняться неоднозначностью генетического кода.
Что же касается гэпов, то в нуклеотидном выравнивании оно составляет 2%, а в белковом 0.5%.
Соответственно, в отличие от белкового выравнивания, при создании которого брались стандартные параметры, при построении нуклеотидного были проведены эксперименты по тому как влияет изменение параметров на показатель Identity и количество гэпов.
Свести количество гэпов до минимума удалось добиться при увеличении значения штрафа за открытие гэпа до 25, а значения штрафа за удлинение гэпа до 8 , при этом ID составило 69.9%, а количество гэпов значительно снизилось до 0.2%.
Как известно, при большом количестве гэпов в нуклеотидном выравнивании рамка считывания будет постоянно сдвигаться, и возможность разбить правильно на кодоны и рассчитать ka/ks будет сведена до минимума.
Полученное выравнивание можно посмотреть здесь.
Несмотря на то, что в белковом выравнивании процент гэпов несколько выше, чем в нуклеотидном, как видно из полученных данных, процент идентичности в белковом выравнивании выше, то есть, по идее, оно должно быть лучше.

PAL2NAL


PAL2NAL - программа, которая преобразует множественное выравнивание последовательностей белков и соответствующие ДНК (или мРНК) последовательностей в нуклеотидное выравнивание.
Программа автоматически выбирает соответствующую нуклеотидную последовательность, даже если входная последовательность ДНК содержит нетранслируемые, polyA "хвосты".
В дальнейшем нуклеотидное выравнивание может быть подвергнуто вычислению синонимичных (Ks) и несинонимичных (Ka) замен.

Построение выравнивания с разбивкой на кодоны


Под заголовком Run PAL2NAL находятся 2 окна, в первое вводим множественное белковое выравнивание, а во второе - нуклеотидные последовательности.
Чтобы получить выравнивание генов с разбивкой на кодоны, отмечаем пункт Output format: Codon with Amino acid .
Результаты можно увидеть ниже:
PAL2NAL output

              M   R   T   E   Y   C   G   Q   L   R   L   S   H   V   G   Q   Q   V   T   L
SYD_ECOLI     atg cgt aca gaa tat tgt gga cag ctc cgt ttg tcc cac gtg ggg cag cag gtg act ctg
              M   R   S   H   Y   C   G   H   L   N   K   S   L   V   G   Q   T   V   E   L
SYD_VIBCH     atg cgt agc cat tat tgt ggt cac ctg aac aag tcc ttg gta gga caa act gta gag ctg

              C   G   W   V   N   R   R   R   D   L   G   S   L   I   F   I   D   M   R   D
SYD_ECOLI     tgt ggt tgg gtc aac cgt cgt cgt gat ctt ggt agc ctg atc ttc atc gat atg cgc gac
              C   G   W   V   N   R   R   R   D   L   G   G   L   I   F   I   D   M   R   D
SYD_VIBCH     tgc ggc tgg gtt aat cgc cgt cgt gat tta ggc ggt ctg atc ttc att gat atg cga gat

              R   E   G   I   V   Q   V   F   F   D   P   D   R   A   D   A   L   K   L   A
SYD_ECOLI     cgc gaa ggt atc gtg cag gta ttt ttc gat ccg gat cgt gcg gac gcg tta aag ctg gcc
              R   E   G   I   V   Q   V   V   V   D   P   D   M   A   D   V   F   A   V   A
SYD_VIBCH     cgt gaa ggt att gtt cag gta gta gtg gat ccg gat atg gcg gat gta ttc gcc gtg gct

              S   E   L   R   N   E   F   C   I   Q   V   T   G   T   V   R   A   R   D   E
SYD_ECOLI     tct gaa ctg cgt aat gag ttc tgc att cag gtc acg ggc acc gta cgt gcg cgt gac gaa
              N   Q   L   R   S   E   F   C   I   K   L   T   G   E   V   R   A   R   P   E
SYD_VIBCH     aac caa ctg cgt agc gaa ttc tgt atc aaa ttg acc ggt gaa gtg cgt gcg cgt cca gaa

              K   N   I   N   R   D   M   A   T   G   E   I   E   V   L   A   S   S   L   T
SYD_ECOLI     aaa aat att aac cgc gat atg gcg acc ggc gaa atc gaa gtg ctg gcg tcc tcg ctg act
              S   Q   V   N   K   E   M   A   T   G   E   V   E   L   L   A   R   S   L   E
SYD_VIBCH     agc caa gtc aat aaa gag atg gca acc ggt gaa gta gaa ctg ttg gca cgt agc ctt gag

              I   I   N   R   A   D   V   L   P   L   D   S   N   H   V   N   T   E   E   A
SYD_ECOLI     atc atc aac cgc gca gat gtt ctg ccg ctt gac tct aac cac gtc aac acc gaa gaa gcg
              I   I   N   R   S   D   V   L   P   L   D   F   N   Q   K   N   S   E   E   Q
SYD_VIBCH     atc att aac cgt tca gat gtt ctg ccg ctc gat ttc aac caa aag aac tca gaa gag caa

              R   L   K   Y   R   Y   L   D   L   R   R   P   E   M   A   Q   R   L   K   T
SYD_ECOLI     cgt ctg aaa tac cgc tac ctc gac ctg cgt cgt ccg gaa atg gct cag cgc ctg aaa acc
              R   L   K   Y   R   Y   L   D   L   R   R   P   E   M   S   D   R   I   K   L
SYD_VIBCH     cgc ctc aag tac cgt tat ttg gat ctg cgt cgc cca gag atg agt gac cgc att aaa ctg

              R   A   K   I   T   S   L   V   R   R   F   M   D   D   H   G   F   L   D   I
SYD_ECOLI     cgc gct aaa atc acc agc ctg gtg cgc cgt ttt atg gat gac cac ggc ttc ctc gac atc
              R   A   K   A   S   S   F   V   R   R   F   L   D   T   H   G   F   L   D   I
SYD_VIBCH     cgt gcg aaa gcc tca agc ttt gta cgc cgt ttc ttg gat aca cac ggt ttc ctt gat atc

              E   T   P   M   L   T   K   A   T   P   E   G   A   R   D   Y   L   V   P   S
SYD_ECOLI     gaa act ccg atg ctg acc aaa gcc acg ccg gaa ggc gcg cgt gac tac ctg gtg cct tct
              E   T   P   V   L   T   K   A   T   P   E   G   A   R   D   Y   L   V   P   S
SYD_VIBCH     gaa acc cca gtg ttg acc aaa gcg aca cca gaa ggt gcg cgt gac tac cta gta cca agc

              R   V   H   K   G   K   F   Y   A   L   P   Q   S   P   Q   L   F   K   Q   L
SYD_ECOLI     cgt gtg cac aaa ggt aaa ttc tac gca ctg ccg caa tcc ccg cag ttg ttc aaa cag ctg
              R   V   H   K   G   S   F   Y   A   L   P   Q   S   P   Q   L   F   K   Q   L
SYD_VIBCH     cgt gta cac aaa ggc agt ttc tac gcg ctg cca caa tca cca cag ctg ttt aaa cag cta

              L   M   M   S   G   F   D   R   Y   Y   Q   I   V   K   C   F   R   D   E   D
SYD_ECOLI     ctg atg atg tcc ggt ttt gac cgt tac tat cag atc gtt aaa tgc ttc cgt gac gaa gac
              L   M   M   S   G   F   D   R   Y   Y   Q   I   V   K   C   F   R   D   E   D
SYD_VIBCH     ctg atg atg tct ggc ttt gat cgt tat tac caa atc gta aaa tgt ttc cgt gac gaa gat

              L   R   A   D   R   Q   P   E   F   T   Q   I   D   V   E   T   S   F   M   T
SYD_ECOLI     ctg cgt gct gac cgt cag cct gaa ttt act cag atc gat gtg gaa act tct ttc atg acc
              L   R   A   D   R   Q   P   E   F   T   Q   I   D   I   E   T   S   F   M   T
SYD_VIBCH     ttg cgc gct gac cgt caa cca gaa ttc acc cag atc gat att gaa acc tct ttc atg acc

              A   P   Q   V   R   E   V   M   E   A   L   V   R   H   L   W   L   E   V   K
SYD_ECOLI     gcg ccg caa gtg cgt gaa gtg atg gaa gcg ctg gtg cgt cat ctg tgg ctg gaa gtg aag
              A   E   Q   V   R   A   V   T   E   K   M   I   R   E   M   W   L   E   L   L
SYD_VIBCH     gca gaa caa gta cgc gca gtg act gag aag atg att cgt gaa atg tgg ctt gaa ctg ctg

              G   V   D   L   G   D   F   P   V   M   T   F   A   E   A   E   R   R   Y   G
SYD_ECOLI     ggt gtg gat ctg ggc gat ttc ccg gta atg acc ttt gcg gaa gca gaa cgc cgt tat ggt
              N   V   D   L   G   D   F   P   I   M   P   Y   S   E   A   M   R   R   F   G
SYD_VIBCH     aat gtg gat ctg ggc gat ttt cca atc atg cct tac agc gaa gcg atg cgt cgt ttc ggc

              S   D   K   P   D   L   R   N   P   M   E   L   T   D   V   A   D   L   L   K
SYD_ECOLI     tct gat aaa ccg gat ctg cgt aac ccg atg gaa ctg act gac gtt gct gat ctg ctg aaa
              S   D   K   P   D   L   R   N   P   M   E   L   V   D   V   A   D   L   L   K
SYD_VIBCH     tca gac aag cca gat ctg cgt aac cca atg gag ttg gtg gat gtg gcg gat ctg ctg aaa

              S   V   E   F   A   V   F   A   G   P   A   N   D   P   K   G   R   V   A   A
SYD_ECOLI     tct gtt gag ttt gct gta ttt gca ggt ccg gcg aac gat ccg aaa ggt cgc gta gcg gct
              D   V   D   F   K   V   F   S   G   P   A   N   D   P   K   G   R   V   A   A
SYD_VIBCH     gac gtc gat ttc aaa gtg ttc tct ggt cca gcg aac gat cca aaa ggc cgc gtt gct gca

              L   R   V   P   G   G   A   S   L   T   R   K   Q   I   D   E   Y   G   N   F
SYD_ECOLI     ctg cgc gtt ccg ggc ggc gca tcg ctg acc cgt aag cag atc gac gaa tac ggt aac ttc
              L   C   I   P   G   G   A   A   L   T   R   K   Q   I   D   E   Y   T   A   F
SYD_VIBCH     ctg tgc atc cca ggt ggc gca gca ctg act cgt aaa caa att gat gag tac acc gca ttt

              V   K   I   Y   G   A   K   G   L   A   Y   I   K   V   N   E   R   A   K   G
SYD_ECOLI     gtt aaa atc tac ggc gcg aaa ggt ctg gct tac atc aaa gtt aac gaa cgc gcg aaa ggt
              V   A   I   Y   G   A   K   G   L   A   W   L   K   V   N   D   L   A   A   G
SYD_VIBCH     gtg gct att tac ggc gca aaa ggc ttg gca tgg ctg aaa gtc aac gat ttg gct gcg ggc

              L   E   G   I   N   S   P   V   A   K   F   L   N   A   E   I   I   E   D   I
SYD_ECOLI     ctg gaa ggt atc aac agc ccg gta gcg aag ttc ctt aat gca gaa atc atc gaa gac atc
              M   E   G   I   Q   S   P   V   A   K   F   L   T   E   E   I   I   Q   A   I
SYD_VIBCH     atg gaa ggt att caa tcg cct gta gcg aaa ttc ctc act gaa gag atc att caa gcg att

              L   D   R   T   A   A   Q   D   G   D   M   I   F   F   G   A   D   N   K   K
SYD_ECOLI     ctg gat cgt act gcc gcg caa gat ggc gat atg att ttc ttc ggt gcc gac aac aag aaa
              I   E   R   T   Q   A   Q   T   G   D   I   I   L   F   G   A   D   S   A   K
SYD_VIBCH     atc gag cgt act caa gcg caa act ggc gat atc att ctg ttc ggt gcc gat tct gcc aaa

              I   V   A   D   A   M   G   A   L   R   L   K   V   G   K   D   L   G   L   T
SYD_ECOLI     att gtt gcc gac gcg atg ggt gca ctg cgc ctg aaa gtg ggt aaa gac ctt ggt ctg acc
              V   V   A   E   A   L   G   A   L   R   L   K   A   G   K   E   L   G   I   T
SYD_VIBCH     gtg gtt gct gaa gcg ctg ggc gca ctg cgt ctg aaa gcg ggt aaa gag ttg ggt att act

              D   E   S   K   W   A   P   L   W   V   I   D   F   P   M   F   E   D   D   G
SYD_ECOLI     gac gaa agc aaa tgg gca ccg ctg tgg gtt atc gac ttc ccg atg ttt gaa gac gac ggt
              N   E   S   A   W   A   P   L   W   V   V   D   F   P   M   F   E   S   D   D
SYD_VIBCH     aat gaa tcg gcg tgg gct cca ttg tgg gtc gtg gat ttc cca atg ttc gaa agc gat gat

              E   G   G   L   T   A   M   H   H   P   F   T   S   P   K   D   M   T   A   A
SYD_ECOLI     gaa ggc ggc ctg acg gca atg cac cat ccg ttc acc tca ccg aaa gat atg acg gct gca
              E   G   N   V   A   A   M   H   H   P   F   T   S   P   L   N   L   S   P   E
SYD_VIBCH     gaa ggt aac gtg gca gcg atg cac cac cca ttc aca tcc cct ctg aac ctc tct cct gag

              E   L   K   A   A   P   E   N   A   V   A   N   A   Y   D   M   V   I   N   G
SYD_ECOLI     gaa ctg aaa gct gca ccg gaa aat gcg gtg gcg aac gct tac gat atg gtc atc aat ggt
              Q   L   K   A   N   P   E   E   A   L   S   N   A   Y   D   M   V   L   N   G
SYD_VIBCH     cag ttg aaa gcc aac cca gaa gag gcg ctg tca aac gct tac gat atg gta ttg aac ggc

              Y   E   V   G   G   G   S   V   R   I   H   N   G   D   M   Q   Q   T   V   F
SYD_ECOLI     tac gaa gtg ggc ggt ggt tca gta cgt atc cat aat ggt gat atg cag cag acg gtg ttt
              Y   E   V   G   G   G   S   V   R   I   H   N   A   E   M   Q   S   A   V   F
SYD_VIBCH     tac gaa gtc ggt ggt ggt tca gtc cgt att cac aac gca gaa atg caa tca gcc gta ttt

              G   I   L   G   I   N   E   E   E   Q   R   E   K   F   G   F   L   L   D   A
SYD_ECOLI     ggt att ctg ggt atc aac gaa gag gaa cag cgc gag aaa ttc ggc ttc ctg ctc gac gct
              D   I   L   G   I   T   P   E   E   Q   R   L   K   F   G   F   L   L   D   A
SYD_VIBCH     gac att ctg ggt atc acg cca gaa gag caa cgt ctc aag ttt ggt ttc ctg ctc gat gcg

              L   K   Y   G   T   P   P   H   A   G   L   A   F   G   L   D   R   L   T   M
SYD_ECOLI     ctg aaa tac ggt act ccg ccg cac gca ggt ctg gca ttc ggt ctt gac cgt ctg acc atg
              L   K   F   G   T   P   P   H   A   G   L   A   F   G   L   D   R   L   V   M
SYD_VIBCH     ctg aag ttt ggt acg cca cca cac gca ggt ctg gca ttt ggt ctg gat cgt ctg gtg atg

              L   L   T   G   T   D   N   I   R   D   V   I   A   F   P   K   T   T   A   A
SYD_ECOLI     ctg ctg acc ggc acc gac aat atc cgt gac gtt atc gcc ttc ccg aaa acc acg gcg gca
              L   L   C   G   T   E   N   I   R   D   V   I   A   F   P   K   T   T   A   A
SYD_VIBCH     ctg ctg tgc ggt acg gaa aac atc cgt gat gtc att gcc ttc ccg aaa acg aca gcc gcc

              A   C   L   M   T   E   A   P   S   F   A   N   P   T   A   L   A   E   L   S
SYD_ECOLI     gcg tgt ctg atg act gaa gca ccg agc ttt gct aac ccg act gca ctg gct gag ctg agc
              A   C   L   M   T   D   A   P   S   L   A   N   P   A   A   L   E   E   L   A
SYD_VIBCH     gcg tgt cta atg acc gat gca cca agt ttg gca aac cct gcc gcc ctc gaa gag ttg gcg

              I   Q   V   V   K   K   A   E   N   N   -   -
SYD_ECOLI     att cag gtt gtg aag aag gct gag aat aac --- ---
              I   -   A   V   K   L   A   T   K   D   K   A
SYD_VIBCH     att --- gcg gtc aag ctt gca acg aaa gat aaa gcg


Cледует обратить внимание, что данная программа, в отличие от needle, строит выравнивание без гэпов и более того указывает кодируемую аминокислоту для каждого кодона.
Для получения значений KS и КА, необходимо выбрать пункт Remove gaps, inframe stop codons: yes
затем Calculate KS and KA: yes (valid only if the input is a pair of sequences)
KS = 1.7180 
KA = 0.1924 
KA/KS = 0.1120 

Итак, как мы видим, в результате мы получили отношение KA/KS, которое сильно меньше единицы, то есть можно сделать вывод, что на ген моего белка SYD_ECOLI в период, начиная с момента расхождения кишечной палочки и холерного вибриона, действует отрицательный или стабилизирующий отбор.
На главную
На страницу четвертого семестра
©Вахрушева Анна Алексеевна