Сравнение гомеодоменов гомеобелков семейства "paired" у Drosophila melanogaster и Anopheles gambiae

Автор: Литвинова Е.Ю.
Руководители: Спирин С.А., Алексеевский А.В.

В работе произведен поиск ортологов гомеобелков семейства "paired" у Drosophila melanogaster и Anopheles gambiae.

Введение

Гомеодомен - это консервативный ДНК-связывающий домен, входящий в состав многих эукариотических факторов транскрипции [1]. Гомеобелки - это белки содержащие гомеодомены. Они участвуют в регуляции ключевых процессов развития и гомеостаза. Гомеодомены состоят примерно из 60 аминокислотных остатков, в белке они обычно расположены вблизи C-конца.

Существуют различные классификации гомеодоменов [2]. При классификации учитывается степень сходства последовательностей гомеодоменов, присутствие других белковых доменов в гомеобелке и наличие тех или иных характерных последовательностей аминокислот вблизи гомеодомена. Данная работа проводилась на гомеодоменах семейства "paired".

Белки, принадлежащие к классу paired влияют на первичные функции развития. Они определяются присутствием гомеодомена, сходного с кодируемым Drosophila prd геном, и характеризуются неизменными аминокислотными остатками, отличающими их от других классов гомеодоменов.

Гомеодомен, кодируемый геном Drosophila prd является основополагающим в классе paired, также парный белок (кодируемый Drosophila prd геном) был первым, в котором был обнаружен другой тип ДНК-связывающей структуры - парный домен.

В гомеодомене класса paired должно присутствовать по крайней мере 5 из 6-ти диагностических аминокислотных остатков: P26, D27, E32, R44, Q46, A54.

Традиционно гомеобелки класса paired делят на три подкласса, различающиеся по 50-й позиции гомеодомена, которая играет ключевую роль в определении ДНК-связывающей специфичности.

PAX или prd-type имеют гомеодомен с серином в 50-й позиции и второй ДНК-связывающий - парный домен.

K50 prd-like характеризуются серином в 50-й позиции. У них отсутствует парный домен.

Q50 prd-like содержат глутамин в 50-й позиции и у них также отсутствует парный домен.

Но исследования последовательностей гомеодоменов, проведенные Brigitte Galliot и др. [3], показали, что филогенетический анализ не поддерживает данную классификацию, поэтому она была несколько пересмотрена. Они делят класс paired на 2 подкласса: Prd-like тип, включающий K50 и Q50, и Pax-type, который содержит S50 и парный домен .

Плодовая мушка Drosophila melanogaster и малярийный комар Anopheles gambiae были выбраны в качестве объектов исследования по причине того, что их геномы полностью секвенированы[4,5]; кроме того большое количество белков D.melanogaster аннотированы в банке Swiss-Prot.

Цель работы - найти парные гомеодомены в геноме комара, проследить эволюцию гомеодоменов гомеобелков семейства paired и сравнить доменный состав полных белков.


Методика

В работе использовались данные баз SwissProt, TrEMBL [6], Anobase, Pfam. Также были использованы программы пакета EMBOSS [7]: ehmmbuild, ehmmsearch, emma, eneighbor, eprotdist и сервисы SRS и DotHelix.

    Этапы работы:
  1. Получен список аннотированных гомеобелков D.melanogaster, принадлежащих к семейству "paired" согласно аннотации базы данных SwissProt.
  2. Средствами SRS [8] из них выделены гомеодомены. Программой emma пакета EMBOSS создано их выравнивание. В двух случаях обнаружено несоответствие выравниванию границ гомеодомена, указанных в SwissProt, которое было исправлено.
  3. По этому выравниванию программой ehmmbuild был построен HMM-профиль. Программой ehmmsearch по этому профилю были просканированы белки D.melanogaster в SwissProt (для определения порога), а затем в TrEMBL. Тем самым найдены гомеодомены D.melanogaster семейства "paired", представленные в банках последовательностей.
  4. Поскольку банк TrEMBL является избыточным, из полученного списка были удалены повторы (см. таблица 1). Из исследования также удалены 2 последовательности гомеодоменов (HMBC_DROME и Q9W5M4), содержащие менее 5 диагностических аминокислотных остатков, несмотря на то, что в базе Swiss-Prot они описаны как paired белки.
  5. Программой BLAST базы AnoBase найдены три ближайших гомолога для каждого из гомеодоменов белков D.melanogaster среди предсказанных белков A.gambiae в Anobase. Для обозначения гомологов был использован ID соответствующего белка D.melanogaster и порядковый номер гомолога, например Q8T0V5_AG1 обозначает ближайшего гомолога белка Q8T0V5. Из списка находок удалены 100%-е совпадения.
  6. Все гомеодомены выравнены, и с помощью eprotdist и eneighbor (метод UPGMA) пакета EMBOSS, построено дерево (см. рис.1).
  7. Для аннотированных белков D.melanogaster получен список всех остальных доменов (см. рис.1).
  8. Проведен поиск других доменов неаннотированных белков D.melanogaster по Pfam (см. рис.1).
  9. На основании анализа дерева выбраны 12 пар белков, гомеодомены которых предположительно ортологичны, и сделаны их парные выравнивания программой DotHelix.
  10. На основе данных этих выравниваний построено 2 таблицы:
    • Таблица 2, в которой отражено расширение участка полного совпадения в районе гомеодомена.
    • Таблица 3, в которой отмечены гомологичные мотивы в координатах гомеодомена (к координате гомеодомена было прибавлено 400, чтобы, в случае когда участок гомологии находится перед ним, не получать отрицательных значений).


Результаты

  1. Было обнаружено 26 различных гомеодоменов семейства "paired" у D.melanogaster и 19 у A.gambiae по данным Swiss-Prot, из которых были удалены 4 последовательности A.gambiae и 2 последовательности D.melanogaster по несоответствию диагностических аминокислотных остатков. Итог: 24 последовательности D.melanogaster и 15 последовательностей A.gambiae.
  2. Обнаружено 4 пары гомеодоменов, не имеющих различий в последовательности: aristaless(AL_DROME), orthodenticle (Ocelliless protein)(HMOC_DROME), orthopedia (OTP_DROME), CG32532 protein(Q9VWH1).
  3. Обнаружено 8 пар вероятно ортологичных гомеодоменов, последовательности которых несколько различны: goosecoid (GSC_DROME), D-PTX1 (PIX1_DROME) и 6 неаннотированных.
  4. Остальные 12 гомеодоменов изучаемого семейства из D.melanogaster не имеют явных ортологов в A.gambiae.
  5. В результате анализа полных последовательностей белков выяснено, что те 4 пары, которые не различаются по последовательности гомеодомена, также имеют значительное сходство вне его. При этом участок полного совпадения в районе гомеодомена расширяется минимум на 3 аминокислотных остатка (в случае HMOC_DROME) и максимум на 51 (в случае Q9VWH1) (см. Таблица 2).
  6. Парное выравнивание показало, что все остальные домены(OAR, PAIRED BOX), которые есть в белках D.melanogaster, присутствуют и в белках A.gambiae, гомеодомены которых ортологичны соответсвующим D.melanogaster.
  7. Из остальных 8 пар, гомеодомены которых ортологичны, 5 имеют участки сходства вне гомеодомена(см. Таблица 3).


Обсуждение

Сравнение наборов гомеодоменов семейства paired у D.melanogaster и A.gambiae

Различие в количестве гомеодоменов у D.melanogaster и у A.gambiae, вероятно, свидетельствует о произошедших эволюционных изменениях, таких как дупликация или потеря генов.
Анализируя дерево, можно выделить два эволюционных пути расхождения гомеодоменов D.melanogaster и A.gambiae.
Первый путь - эволюция гомеодоменов в двух разных организмах от единого предшественника с сохранением общности функции, без дупликаций генов. На филогенетическом дереве о таком пути свидетельствует наличие отдельных ветвей, заканчивающихся парой листьев, на одном из которых гомеодомен D.melanogaster, а на другом A.gambiae . При этом, чем более удален узел с этими листьями от других узлов, тем более вероятна ортологичность доменов. Всего было обнаружено 12 пар ортологов.
Отметим, что эти пары ортологов эволюционировали с разной скоростью. Было обнаружено 4 пары, скорость эволюции которых нулевая, то есть гомеодомены D.melanogaster и A.gambiae абсолютно идентичны и не произошло ни одной мутации относительно общего предшественника. У оставшихся 8 пар скорость эволюции отличается от нуля, то есть гомеодомены несколько отличаются друг от друга, но меньше, чем от остальных.
Второй путь - эволюция гомеодоменов с возможными дупликациями, потерями генов. В этом случае на дереве гомеодомены D.melanogaster и A.gambiae образуют группы, в которых нельзя выделить явных ортологов. Такие группы содержат неравное число гомеодоменов исследуемых организмов, например, 3 гомеодомена D.melanogaster и 2 гомеодомена A.gambiae.
К тому же нельзя исключить неправильное предсказание кодирующих участков, ошибки секвенирования и т. д. (которые вероятнее встретить в недавно секвенированном геноме A.gambiae, чем в геноме хорошо изученного объекта - D.melanogaster), однако даже такими ошибками нельзя полностью объяснить наблюдаемую картину.


Участки гомологии гомеобелков с ортологичными гомеодоменами

Парное выравнивание полных гомеобелков показало, что участок гомологии обычно выходит за границы гомеодомена. Домены OAR и PAIRED BOX, которые есть в белках D.melanogaster, присутствуют и в белках A.gambiae, гомеодомены которых ортологичны соответсвующим D.melanogaster. Кроме этих аннотированных доменов в большинстве исследованных белков присутствуют и другие неаннотированные участки гомологии.


Приложение

Таблица 1
Таблица 2
Таблица 3

Рис.1

Дерево гомеодоменов
Желтым выделены белки, у которых есть домен OAR;
зеленым выделены белки, у которых есть парный домен;
синие кружки обозначают пары предполагаемых ортологов.


Список литературы:

  1. Леднева Р.К. и др. Структурные аспекты взаимодействия гомеодоменов с ДНК, Молекулярная биология т.35 (2001).
  2. Banerjee-Basu S., Baxevanis A.D. Molecular evolution of the homeodomain family of transcription factors, Nucleic Acids Research 29 (2001).
  3. Galliot B., C. De Vargas, Miller D. Evolution of homeobox genes: Q50 Paied-like genes founded the Paired class, Dev Genes Evol 209 (1999).
  4. Adams M.D. et al. The genome sequence of D.melanogaster , Science 287 (2000).
  5. Holt R.A. et al. The genome sequence of Malaria Mosquito Anopheles gambiae, Science 298 (2002).
  6. Boeckmann B. et al.The Swiss-Prot protein knowledgebase and its supplement TrEMBL in 2003. Nucleic Acids Res. 31:365-370(2003).
  7. Rice,P. Longden,I. and Bleasby,A. "EMBOSS: The European Molecular Biology Open Software Suite", Trends in Genetics June 16 (2000).
  8. Etzold T, Ulyanov A, Argos P. SRS: information retrieval system for molecular biology data banks. Methods Enzymol 266 (1996).