Зачетное задание

Задание

Был получен фрагмент генома Regiella insecticola из записи EMBL AC192956 с заданным началом (35001), длиной 7000 нуклеотидов. Определим, где в этом фрагменте закодированы белки, похожие на известные белки бактерии Escherichia coli штамма K12.

  1. Инструменты для решения поставленной задачи.

    Полный протеом E. coli получим из Swiss-Prot:
    seqret sw:*_ECOLI
    В результате был получен файл с последовательностью всех белков бактерии.
    Создадим индексные файлы для поиска программами пакета BLAST:
    formatdb -i 3mg1_ecoli.fasta -p T -n ec
  2. Получение всех открытых рамок считывания длиной не менее 240 нуклеотидов.

    Воспользуемся программой getorf из пакета EMBOSS, используя стандартный для бактерий (bacterial) генетический код и считая открытой рамкой последовательность, начинающуюся со старт-кодона и заканчивающуюся стоп-кодоном:
    getorf -table 11 -minsize 240 -find 1 -sequence AC192956.fasta
    Получаем файл с 15 открытым рамками считывания.
  3. Поиск сходных последовательностей.

    Воспользуемся программой Blastp, Ограничим поиск по E-value: E-value < 0.001
    blastall -p blastp -d ec -i ac192956.orf -m 8 -e 0.001 -o homologs.txt
    Получен файл со списком находок. Каждая строчка таблицы начинается названием рамки считывания, полученной в результате трансляции фрагмента генома. Далее каждая строчка содержит информацию о найденной сходной последовательности в протеоме E. coli, среди которой и E-value находки.
    Скрипт для подсчёта числа находок для каждой рамки считывания. Файл, полученный с помощью скрипта, представляет собой столбец чисел, каждое из которых - количество находок для каждой рамки считывания. Результат всей работы представлен в таблице Excel.
    Рамка считывания № начала во фрагменте № конца во фрагменте Направление Число сходных последовательностей в протеоме E. coli с E-value < 0.001 Идентификатор самого близкого из найденных белков E. coli E-value находки
    AC192956_1 1 336 прямое 1 SYP_ECOLI 6E-31
    AC192956_2 278 1297 прямое 4 TALB_ECOLI 4E-150
    AC192956_3 1432 2427 прямое 5 SYK3_ECOLI 5E-126
    AC192956_6 6484 6999 прямое 2 INSH5_ECOLI 5E-40
    AC192956_8 5963 5511 обратное 1 CODB_ECOLI 0,0004
  4. Гипотетические гены во фрагменте 35001 - 42000 записи AC192956.

    Изобразим схематически положение открытых рамок, для которых нашлись сходные последовательности в E. coli На схеме в квадратных скобках направление цепи ДНК обозначено как => для прямого, или <= для обратного, также указано краткое название белка E. coli и координаты границ открытой рамки в изучаемом фрагменте.
    3'------------------------------------------------------------------------[<= codb, 5963-5511]--------------------------5'
    
    5'[=> syp, 1-336]--
    5'----------[=> talb, 278-1297]--[=> syk3, 1432-2427]---------------------------------------------[=> insh5, 6484-6999]-3'
    
    В одном участке наблюдается перекрывание генов SYP_ECOLI и TALB_ECOLI (с координатами 1-336 и 278-1297 соответственно)
  5. Взаимное расположение предполагаемых генов данного фрагмента и гомологичных им генов в геноме кишечной палочки.

    С помощью программы entret была получена запись EMBL AP009048 с полным геномом кишечной палочки. Изобразим схематически расположение генов пяти гомологичных белков в геноме E. coli (обозначения на схеме те же).
    3'-[<- SYP_ECOLI, 217057..218775]----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------5'
    5'---------------------------------[-> CODB_ECOLI, 354146..355405]-----------------[-> INSH5_ECOLI, 1428462..1431442]-----[-> TALB_ECOLI, 2577656..2579659]----------------------[-> SYK3_ECOLI, 4380191..4381198]-3'
    
    Гены в R. Insecticola расположены довольно близко друг к другу, в отличие от гомологичных им генов в Escherichia coli Возможно, соответствующие белки в рассматриваемых бактериях имеют общее происхождение, но их расположение говорит об их неконсервативности. Скорей всего, это связано с различнымиэволюционными процессами, такими как с миграция генов или вставление различных плазмид

    Назад