|
Итак, перед нами стоит следующая задача: получите фрагмент генома Regiella insecticola из заданной записи EMBL с заданным началом, длиной 7000 нуклеотидов. Определить, где в этом фрагменте закодированы белки, похожие на известные белки бактерии Escherichia coli штамма K12.
- Для начала, с помощью команды entret достанем из базы EMBL заданную запись. Из записи с помощью программы seqret -sask вырежем наш фрагмент. Далее нам нужен протеом E.Coli. Для того, чтобы его получить воспользуемся командой seqret sw:*_ECOLI, так мы достанем из базы SwissProt все известные белки E.Coli.
Получим протеом E.Coli в fasta-формате. Теперь по этому протеому нужно сделать банк для последующей работы с BLAST. Для этого пользуемся командой formatdb -i ecoli.fasta -p T -n ec
- Теперь имеет смысл найти все возможные открытые рамки считывания (будем рассматривать рамки длиной >=240) нашего фрагмента. Это делается с помощью программы getorf -minsize 240 -table 11 -find 1. У нас получилось 15 открытых рамок считывания (скачать полученный файл)
- Теперь, когда все заготовки готовы, можно пуcтить поиск гомологов нашего фрагмента по банку из протеома E.Coli. Это можно сделать с помощью программы blastx. Будем использовать параметр -m со знаачением 8, чтобы получить удобный табличный вывод.
Далее используем команду grep и возможности Exel, чтобы посмотреть сколько находок для каждой рамки считывания (скачать скрипт, скачать таблицу)
- Ниже приведены результаты для тех рамок, для которых результат поиска был положителен:
рамка начало конец направление число сходных идентификатор самой E-value самой
последовательностей в близкой находки близкой находки
E.Coli (E-value<0,001)
>AC200763_1 36 326 прямое 1 RRMT_ECOLI 3,00E-37
>AC200763_10 6301 4313 обратное 3 TKT1_ECOLI 0,00E+00
>AC200763_12 3797 2694 обратное 4 INSF_ECOLI 1,00E-11
>AC200763_13 2641 1661 обратное 7 BIOA_ECOLI 1,00E-119
>AC200763_15 797 537 обратное 1 ZAPB_ECOLI 3,00E-22
- Теперь изобразим схематически положение на фрагменте тех открытых рамок, для которых нашлись сходные последовательности в E. coli:
Гипотетические гены во фрагменте 70001–77000 записи AC200763 (нумерация ведется с 1, относительно начала фрагмента)
3'------------------------------------------[<= ZAPB_ECOLI, 537-797]---------[<= BIOA_ECOLI, 1661-2641]-[<= INSF_ECOLI, 2694-3797]--------[<= TKT1_ECOLI, 43314-6301]-------5'
5'----[=> RRMT_ECOLI, 2168556-2169422]--------------------------------------------------------------------------------------------------------------------------------------3'
- Сравним это полученное расположение предполагаемых генов с взаимным расположением соответствующих генов в E.Coli:
3'---------------------------------[<= RRMT_ECOLI, 2938165-2939265]--[<= TKT1_ECOLI, 3077666-3079657]----------------------------------------------------------------------------------5'
5'----[=> INSF_ECOLI, 36-326]-----------------------------------------------------------------------------[=> BIOA_ECOLI, 3217516-3218895]---------[=> ZAPB_ECOLI, 4116538-4116783]----3'
Таким образом, мы можем видеть, что расположение белков абсолютно различно и никакой консервативности в их расположении не наблюдается
|