Оценка давления на ген белка SYD_ECOLI
Биологическая задача состоит в том, чтобы оценить давление отбора на ген заданного белка в период, начиная с момента расхождения
кишечной палочки и холерного вибриона.
Подготовка данных:
Последовательность гена aspS
Последовательность белка SYD_ECOLI
Был проведен поиск ортологов c помощью пакета BLAST, использовалась программа protein blast и алгоритм blastp.
В указанном организме Vibrio cholerae был найден ортолог SYD_VIBCH, который имел Identity 70% и похожую аннотацию в UniProt, то есть также как и мой белок являлся аспартил-тРНК синтетазой.
Последовательность белка SYD_VIBCH
Последовательность гена aspS в найденном ортологе
Построение выравниваний
С помощью программы needle были построены белковое и нуклеотидное выравнивания.
Как видно Identity белкового выравнивания 75%, а Identity нуклеотидного выравнивания 71.3%.
Возможно, различия в значениях Identity могут объясняться неоднозначностью генетического кода.
Что же касается гэпов, то в нуклеотидном выравнивании оно составляет 2%, а в белковом 0.5%.
Соответственно, в отличие от белкового выравнивания, при создании которого брались стандартные параметры, при построении нуклеотидного
были проведены эксперименты по тому как влияет изменение параметров на показатель Identity и количество гэпов.
Свести количество гэпов до минимума удалось добиться при увеличении значения штрафа за открытие гэпа до 25, а значения штрафа за удлинение гэпа до 8 , при этом ID составило 69.9%, а количество гэпов значительно снизилось до 0.2%.
Как известно, при большом количестве гэпов в нуклеотидном выравнивании рамка считывания будет постоянно сдвигаться, и возможность разбить правильно на кодоны и рассчитать ka/ks будет сведена до минимума.
Полученное выравнивание можно посмотреть здесь.
Несмотря на то, что в белковом выравнивании процент гэпов несколько выше, чем в нуклеотидном, как видно из полученных данных, процент идентичности в белковом выравнивании выше, то есть, по идее, оно должно быть лучше.
PAL2NAL
PAL2NAL - программа, которая преобразует множественное выравнивание последовательностей белков и соответствующие ДНК (или мРНК) последовательностей в нуклеотидное выравнивание.
Программа автоматически выбирает соответствующую нуклеотидную последовательность, даже если входная последовательность ДНК содержит нетранслируемые, polyA "хвосты".
В дальнейшем нуклеотидное выравнивание может быть подвергнуто вычислению синонимичных (Ks) и несинонимичных (Ka) замен.
Построение выравнивания с разбивкой на кодоны
Под заголовком Run PAL2NAL находятся 2 окна, в первое вводим множественное белковое выравнивание, а во второе - нуклеотидные последовательности.
Чтобы получить выравнивание генов с разбивкой на кодоны, отмечаем пункт Output format: Codon with Amino acid .
Результаты можно увидеть ниже:
PAL2NAL output
M R T E Y C G Q L R L S H V G Q Q V T L
SYD_ECOLI atg cgt aca gaa tat tgt gga cag ctc cgt ttg tcc cac gtg ggg cag cag gtg act ctg
M R S H Y C G H L N K S L V G Q T V E L
SYD_VIBCH atg cgt agc cat tat tgt ggt cac ctg aac aag tcc ttg gta gga caa act gta gag ctg
C G W V N R R R D L G S L I F I D M R D
SYD_ECOLI tgt ggt tgg gtc aac cgt cgt cgt gat ctt ggt agc ctg atc ttc atc gat atg cgc gac
C G W V N R R R D L G G L I F I D M R D
SYD_VIBCH tgc ggc tgg gtt aat cgc cgt cgt gat tta ggc ggt ctg atc ttc att gat atg cga gat
R E G I V Q V F F D P D R A D A L K L A
SYD_ECOLI cgc gaa ggt atc gtg cag gta ttt ttc gat ccg gat cgt gcg gac gcg tta aag ctg gcc
R E G I V Q V V V D P D M A D V F A V A
SYD_VIBCH cgt gaa ggt att gtt cag gta gta gtg gat ccg gat atg gcg gat gta ttc gcc gtg gct
S E L R N E F C I Q V T G T V R A R D E
SYD_ECOLI tct gaa ctg cgt aat gag ttc tgc att cag gtc acg ggc acc gta cgt gcg cgt gac gaa
N Q L R S E F C I K L T G E V R A R P E
SYD_VIBCH aac caa ctg cgt agc gaa ttc tgt atc aaa ttg acc ggt gaa gtg cgt gcg cgt cca gaa
K N I N R D M A T G E I E V L A S S L T
SYD_ECOLI aaa aat att aac cgc gat atg gcg acc ggc gaa atc gaa gtg ctg gcg tcc tcg ctg act
S Q V N K E M A T G E V E L L A R S L E
SYD_VIBCH agc caa gtc aat aaa gag atg gca acc ggt gaa gta gaa ctg ttg gca cgt agc ctt gag
I I N R A D V L P L D S N H V N T E E A
SYD_ECOLI atc atc aac cgc gca gat gtt ctg ccg ctt gac tct aac cac gtc aac acc gaa gaa gcg
I I N R S D V L P L D F N Q K N S E E Q
SYD_VIBCH atc att aac cgt tca gat gtt ctg ccg ctc gat ttc aac caa aag aac tca gaa gag caa
R L K Y R Y L D L R R P E M A Q R L K T
SYD_ECOLI cgt ctg aaa tac cgc tac ctc gac ctg cgt cgt ccg gaa atg gct cag cgc ctg aaa acc
R L K Y R Y L D L R R P E M S D R I K L
SYD_VIBCH cgc ctc aag tac cgt tat ttg gat ctg cgt cgc cca gag atg agt gac cgc att aaa ctg
R A K I T S L V R R F M D D H G F L D I
SYD_ECOLI cgc gct aaa atc acc agc ctg gtg cgc cgt ttt atg gat gac cac ggc ttc ctc gac atc
R A K A S S F V R R F L D T H G F L D I
SYD_VIBCH cgt gcg aaa gcc tca agc ttt gta cgc cgt ttc ttg gat aca cac ggt ttc ctt gat atc
E T P M L T K A T P E G A R D Y L V P S
SYD_ECOLI gaa act ccg atg ctg acc aaa gcc acg ccg gaa ggc gcg cgt gac tac ctg gtg cct tct
E T P V L T K A T P E G A R D Y L V P S
SYD_VIBCH gaa acc cca gtg ttg acc aaa gcg aca cca gaa ggt gcg cgt gac tac cta gta cca agc
R V H K G K F Y A L P Q S P Q L F K Q L
SYD_ECOLI cgt gtg cac aaa ggt aaa ttc tac gca ctg ccg caa tcc ccg cag ttg ttc aaa cag ctg
R V H K G S F Y A L P Q S P Q L F K Q L
SYD_VIBCH cgt gta cac aaa ggc agt ttc tac gcg ctg cca caa tca cca cag ctg ttt aaa cag cta
L M M S G F D R Y Y Q I V K C F R D E D
SYD_ECOLI ctg atg atg tcc ggt ttt gac cgt tac tat cag atc gtt aaa tgc ttc cgt gac gaa gac
L M M S G F D R Y Y Q I V K C F R D E D
SYD_VIBCH ctg atg atg tct ggc ttt gat cgt tat tac caa atc gta aaa tgt ttc cgt gac gaa gat
L R A D R Q P E F T Q I D V E T S F M T
SYD_ECOLI ctg cgt gct gac cgt cag cct gaa ttt act cag atc gat gtg gaa act tct ttc atg acc
L R A D R Q P E F T Q I D I E T S F M T
SYD_VIBCH ttg cgc gct gac cgt caa cca gaa ttc acc cag atc gat att gaa acc tct ttc atg acc
A P Q V R E V M E A L V R H L W L E V K
SYD_ECOLI gcg ccg caa gtg cgt gaa gtg atg gaa gcg ctg gtg cgt cat ctg tgg ctg gaa gtg aag
A E Q V R A V T E K M I R E M W L E L L
SYD_VIBCH gca gaa caa gta cgc gca gtg act gag aag atg att cgt gaa atg tgg ctt gaa ctg ctg
G V D L G D F P V M T F A E A E R R Y G
SYD_ECOLI ggt gtg gat ctg ggc gat ttc ccg gta atg acc ttt gcg gaa gca gaa cgc cgt tat ggt
N V D L G D F P I M P Y S E A M R R F G
SYD_VIBCH aat gtg gat ctg ggc gat ttt cca atc atg cct tac agc gaa gcg atg cgt cgt ttc ggc
S D K P D L R N P M E L T D V A D L L K
SYD_ECOLI tct gat aaa ccg gat ctg cgt aac ccg atg gaa ctg act gac gtt gct gat ctg ctg aaa
S D K P D L R N P M E L V D V A D L L K
SYD_VIBCH tca gac aag cca gat ctg cgt aac cca atg gag ttg gtg gat gtg gcg gat ctg ctg aaa
S V E F A V F A G P A N D P K G R V A A
SYD_ECOLI tct gtt gag ttt gct gta ttt gca ggt ccg gcg aac gat ccg aaa ggt cgc gta gcg gct
D V D F K V F S G P A N D P K G R V A A
SYD_VIBCH gac gtc gat ttc aaa gtg ttc tct ggt cca gcg aac gat cca aaa ggc cgc gtt gct gca
L R V P G G A S L T R K Q I D E Y G N F
SYD_ECOLI ctg cgc gtt ccg ggc ggc gca tcg ctg acc cgt aag cag atc gac gaa tac ggt aac ttc
L C I P G G A A L T R K Q I D E Y T A F
SYD_VIBCH ctg tgc atc cca ggt ggc gca gca ctg act cgt aaa caa att gat gag tac acc gca ttt
V K I Y G A K G L A Y I K V N E R A K G
SYD_ECOLI gtt aaa atc tac ggc gcg aaa ggt ctg gct tac atc aaa gtt aac gaa cgc gcg aaa ggt
V A I Y G A K G L A W L K V N D L A A G
SYD_VIBCH gtg gct att tac ggc gca aaa ggc ttg gca tgg ctg aaa gtc aac gat ttg gct gcg ggc
L E G I N S P V A K F L N A E I I E D I
SYD_ECOLI ctg gaa ggt atc aac agc ccg gta gcg aag ttc ctt aat gca gaa atc atc gaa gac atc
M E G I Q S P V A K F L T E E I I Q A I
SYD_VIBCH atg gaa ggt att caa tcg cct gta gcg aaa ttc ctc act gaa gag atc att caa gcg att
L D R T A A Q D G D M I F F G A D N K K
SYD_ECOLI ctg gat cgt act gcc gcg caa gat ggc gat atg att ttc ttc ggt gcc gac aac aag aaa
I E R T Q A Q T G D I I L F G A D S A K
SYD_VIBCH atc gag cgt act caa gcg caa act ggc gat atc att ctg ttc ggt gcc gat tct gcc aaa
I V A D A M G A L R L K V G K D L G L T
SYD_ECOLI att gtt gcc gac gcg atg ggt gca ctg cgc ctg aaa gtg ggt aaa gac ctt ggt ctg acc
V V A E A L G A L R L K A G K E L G I T
SYD_VIBCH gtg gtt gct gaa gcg ctg ggc gca ctg cgt ctg aaa gcg ggt aaa gag ttg ggt att act
D E S K W A P L W V I D F P M F E D D G
SYD_ECOLI gac gaa agc aaa tgg gca ccg ctg tgg gtt atc gac ttc ccg atg ttt gaa gac gac ggt
N E S A W A P L W V V D F P M F E S D D
SYD_VIBCH aat gaa tcg gcg tgg gct cca ttg tgg gtc gtg gat ttc cca atg ttc gaa agc gat gat
E G G L T A M H H P F T S P K D M T A A
SYD_ECOLI gaa ggc ggc ctg acg gca atg cac cat ccg ttc acc tca ccg aaa gat atg acg gct gca
E G N V A A M H H P F T S P L N L S P E
SYD_VIBCH gaa ggt aac gtg gca gcg atg cac cac cca ttc aca tcc cct ctg aac ctc tct cct gag
E L K A A P E N A V A N A Y D M V I N G
SYD_ECOLI gaa ctg aaa gct gca ccg gaa aat gcg gtg gcg aac gct tac gat atg gtc atc aat ggt
Q L K A N P E E A L S N A Y D M V L N G
SYD_VIBCH cag ttg aaa gcc aac cca gaa gag gcg ctg tca aac gct tac gat atg gta ttg aac ggc
Y E V G G G S V R I H N G D M Q Q T V F
SYD_ECOLI tac gaa gtg ggc ggt ggt tca gta cgt atc cat aat ggt gat atg cag cag acg gtg ttt
Y E V G G G S V R I H N A E M Q S A V F
SYD_VIBCH tac gaa gtc ggt ggt ggt tca gtc cgt att cac aac gca gaa atg caa tca gcc gta ttt
G I L G I N E E E Q R E K F G F L L D A
SYD_ECOLI ggt att ctg ggt atc aac gaa gag gaa cag cgc gag aaa ttc ggc ttc ctg ctc gac gct
D I L G I T P E E Q R L K F G F L L D A
SYD_VIBCH gac att ctg ggt atc acg cca gaa gag caa cgt ctc aag ttt ggt ttc ctg ctc gat gcg
L K Y G T P P H A G L A F G L D R L T M
SYD_ECOLI ctg aaa tac ggt act ccg ccg cac gca ggt ctg gca ttc ggt ctt gac cgt ctg acc atg
L K F G T P P H A G L A F G L D R L V M
SYD_VIBCH ctg aag ttt ggt acg cca cca cac gca ggt ctg gca ttt ggt ctg gat cgt ctg gtg atg
L L T G T D N I R D V I A F P K T T A A
SYD_ECOLI ctg ctg acc ggc acc gac aat atc cgt gac gtt atc gcc ttc ccg aaa acc acg gcg gca
L L C G T E N I R D V I A F P K T T A A
SYD_VIBCH ctg ctg tgc ggt acg gaa aac atc cgt gat gtc att gcc ttc ccg aaa acg aca gcc gcc
A C L M T E A P S F A N P T A L A E L S
SYD_ECOLI gcg tgt ctg atg act gaa gca ccg agc ttt gct aac ccg act gca ctg gct gag ctg agc
A C L M T D A P S L A N P A A L E E L A
SYD_VIBCH gcg tgt cta atg acc gat gca cca agt ttg gca aac cct gcc gcc ctc gaa gag ttg gcg
I Q V V K K A E N N - -
SYD_ECOLI att cag gtt gtg aag aag gct gag aat aac --- ---
I - A V K L A T K D K A
SYD_VIBCH att --- gcg gtc aag ctt gca acg aaa gat aaa gcg
Cледует обратить внимание, что данная программа, в отличие от needle, строит выравнивание без гэпов и более того указывает кодируемую аминокислоту для каждого кодона.
Для получения значений KS и КА, необходимо выбрать пункт Remove gaps, inframe stop codons: yes
затем Calculate KS and KA: yes (valid only if the input is a pair of sequences)
KS = 1.7180
KA = 0.1924
KA/KS = 0.1120
Итак, как мы видим, в результате мы получили отношение KA/KS, которое сильно меньше единицы, то есть
можно сделать вывод, что на ген моего белка SYD_ECOLI в период, начиная с момента расхождения кишечной палочки и холерного
вибриона, действует отрицательный или стабилизирующий отбор.
На главную
На страницу четвертого семестра
©Вахрушева Анна Алексеевна