учебный сайт Вероники Владыкиной

Отчетное задание по второму блоку

на главную
1 семестр
2 семестр
3 семестр
проекты
официальный сайт ФББ
Итак, перед нами стоит следующая задача: получите фрагмент генома Regiella insecticola из заданной записи EMBL с заданным началом, длиной 7000 нуклеотидов. Определить, где в этом фрагменте закодированы белки, похожие на известные белки бактерии Escherichia coli штамма K12.
  1. Для начала, с помощью команды entret достанем из базы EMBL заданную запись. Из записи с помощью программы seqret -sask вырежем наш фрагмент.
    Далее нам нужен протеом E.Coli.
    Для того, чтобы его получить воспользуемся командой seqret sw:*_ECOLI, так мы достанем из базы SwissProt все известные белки E.Coli.
    Получим протеом E.Coli в fasta-формате. Теперь по этому протеому нужно сделать банк для последующей работы с BLAST. Для этого пользуемся командой formatdb -i ecoli.fasta -p T -n ec
  2. Теперь имеет смысл найти все возможные открытые рамки считывания (будем рассматривать рамки длиной >=240) нашего фрагмента. Это делается с помощью программы getorf -minsize 240 -table 11 -find 1.
    У нас получилось 15 открытых рамок считывания (скачать полученный файл)
  3. Теперь, когда все заготовки готовы, можно пуcтить поиск гомологов нашего фрагмента по банку из протеома E.Coli.
    Это можно сделать с помощью программы blastx.
    Будем использовать параметр -m со знаачением 8, чтобы получить удобный табличный вывод.
    Далее используем команду grep и возможности Exel, чтобы посмотреть сколько находок для каждой рамки считывания (скачать скрипт, скачать таблицу)
  4. Ниже приведены результаты для тех рамок, для которых результат поиска был положителен:
    рамка		начало	конец	направление	число сходных		идентификатор самой 	E-value самой 
    						последовательностей в 	близкой находки		близкой находки
    						E.Coli (E-value<0,001)	
    >AC200763_1 	36	326	прямое		1			RRMT_ECOLI		3,00E-37				
    >AC200763_10	6301	4313	обратное	3			TKT1_ECOLI		0,00E+00			
    >AC200763_12	3797	2694	обратное	4			INSF_ECOLI		1,00E-11		
    >AC200763_13	2641	1661	обратное	7			BIOA_ECOLI		1,00E-119		
    >AC200763_15	797	537	обратное	1			ZAPB_ECOLI		3,00E-22	
    
  5. Теперь изобразим схематически положение на фрагменте тех открытых рамок, для которых нашлись сходные последовательности в E. coli:

    Гипотетические гены во фрагменте 70001–77000 записи AC200763 (нумерация ведется с 1, относительно начала фрагмента)

    
    3'------------------------------------------[<= ZAPB_ECOLI, 537-797]---------[<= BIOA_ECOLI, 1661-2641]-[<= INSF_ECOLI, 2694-3797]--------[<= TKT1_ECOLI, 43314-6301]-------5'
    
    5'----[=> RRMT_ECOLI, 2168556-2169422]--------------------------------------------------------------------------------------------------------------------------------------3'
    
  6. Сравним это полученное расположение предполагаемых генов с взаимным расположением соответствующих генов в E.Coli:
    
    3'---------------------------------[<= RRMT_ECOLI, 2938165-2939265]--[<= TKT1_ECOLI, 3077666-3079657]----------------------------------------------------------------------------------5'
    
    5'----[=> INSF_ECOLI, 36-326]-----------------------------------------------------------------------------[=> BIOA_ECOLI, 3217516-3218895]---------[=> ZAPB_ECOLI, 4116538-4116783]----3'
    

    Таким образом, мы можем видеть, что расположение белков абсолютно различно и никакой консервативности в их расположении не наблюдается
Владыкина 2008