МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ИМЕНИ М.В.ЛОМОНОСОВА
ФАКУЛЬТЕТ БИОИНЖЕНЕРИИ И БИОИНФОРМАТИКИ

Домашняя страничка Ильи Курочкина

Главная

I Семестр

II Семестр

III Семестр

Проекты

Обратная Связь

Зачетное задание по BLAST

  • Дано: неаннотированный фрагмент генома бактерии Regiella insecticola

  • Задача: определить, где в данном фрагменте закодированы белки, похожие на известные белки бактерии E.coli

  • Для выполнения поставленной задачи, сперва вырежем интересующий фрагмент генома Regiella insecticola из заданной записи EMBL AC200764 (нуклеотиды с 1 по 7000) с помощью команды:
    seqret -sask
    Input (gapped) sequence(s): ac200764.fasta
    Begin at position [start]: 1
    End at position [end]: 7000
    Reverse strand [N]: n
    output sequence(s) [ac200764.fasta]: myseq.fasta

  • Затем получил полный протеом бактерии Escherichia coli штамма K12 из Swiss-Prot с помощью команды:
    seqret sw:*_ecoli
    и проиндексируем его для дальнейшей работы
    formatdb -i 3mg1_ecoli.fasta -n base -p T

  • Для того что бы определить, закодированы ли на данном участки белки, похожие на известный необходимо:
    Сперва нужно получить трансляцию всех открытых рамок считывания длиной не менее 240 нуклеотидов при условии использования стандартного бактериального генетического кода, считая открытой рамкой считывания последовательность между старт- и стоп-кодонами:
    getorf -sequence myseq.fasta -minsize 240 -table 11 -find 1
    Всего было найдено 15 рамок, из них 6 на прямой цепи и соответственно 9 на обратной.

    Теперь определим количество белков с такими рамками в протеоме Escherichia coli K-12. Воспользуемся программой blastp, которая производит поиск белковых последовательностей, используя в качестве входа белковые последовательности:
    blastall -p blastp -d base -i myseq.orf -e 0.001 -o count_m.txt -m 8
    В результате получили файл, в котором содержиться информация о белках Е.сoli, имеющих такие же рамки считывания как и в данном нам фрагменте.

  • Полученный результат запишем в книге Excel, включающей информацию обо всех открытых рамках считывания в моём фрагменте генома. Для этого с помощью программы grep (поиск строки ">") и перенаправлением вывода, извлёк: имена открытых рамок в моём фрагменте, начала и концы рамок, а также их направление. Затем добавим эту информацию в книгу Excel. Затем с помощью Excel создал столбец с командами программы grep для подсчёта количества строк (-c), содержащих имя каждой рамки в выходном файле программы blast с перенаправлением вывода. Для того чтобы, для рамки AC200764_1 не находились также и рамки AC200764_10 - AC200764_15, необходимо было поставить знак '\>', означающий конец слова. В результате чего получил скрипт, а получившиеся в результате его запуска количество находок для каждой последовательности я скопировал в книгу Excel (PROTEIN).

  • Исходя из полученных выше данных можно составить таблицу предполагаемых генов (включающая только те ORF, для которых найден хотя бы один гомолог):

    Название рамки Начало Конец Направление Число находок BLAST с E-value < 0.001 Идентификатор лучшей находки E-value лучшей находки
    AC200764_5 5886 6635 Прямое 3 GPMA_ECOLI e-107
    AC200764_6 6693 6998 Прямое 1 ZITB_ECOLI 2e-05
    AC200764_11 3408 4385 Обратное 1 RS2_ECOLI 3e-119
    AC200764_12 2446 3363 Обратное 1 EFTS_ECOLI 3e-110
    AC200764_13 1363 2199 Обратное 1 PYRH_ECOLI 5e-112
    AC200764_14 651 1229 Обратное 1 RRF_ECOLI 3e-67
    AC200764_15 1 624 Обратное 1 DXR_ECOLI 1e-71

    Таким образом, сходные последовательности E.coli нашлись для 7 рамок, из них 2 лежат на прямой цепи, а 5 на комплементарной. Перекрывающихся генов нет.

  • Взаимное расположение гипотетических генов во фрагменте 1-7000 записи EMBL AC200764

    3' [<=DXR, 1-624]--[<=RRF, 651-1229]--[<=PYRH, 1363-2199]--[<=EFTS, 2446-3363]- 5'
                                                                                                        
    5' ---------------------------------------------------------------------------- 3'
                                                                                                        
    
    3' -[<=RS2, 3408-4385]--------------------------------------------------------- 5'
    
    5' ------------------------------------[=>GPMA, 5886-6635]--[=>ZITB, 6693-6998] 3'
    
    Белки названы в соответствии с таковыми у E.coli.

  • Сравнение расположения предполагаемых генов данного фрагмента и гомологичных им генов в геноме E.coli

    Я получил запись с полным геномом бактерии E.coli c помощью команды:
    entret embl:u00096
    В этой записи я нашёл гены E.coli, гомологичные предпологаемым генам в моём фрагменте, и записал их положения в геноме в таблицу:

    Идентификатор Название гена Начало Конец Направление
    GPMA_ECOLI gpmA 786066 786818 Обратное
    ZITB_ECOLI zitB 783105 784046 Обратное
    RS2_ECOLI rpsB 189874 190599 Прямое
    EFTS_ECOLI tsf 190857 191708 Прямое
    PYRH_ECOLI pyrH 191855 192580 Прямое
    RRF_ECOLI frr 192872 193429 Прямое
    DXR_ECOLI dxr 193521 194717 Прямое

    На основание таблицы построил взаимное расположение генов в E.coli
    3' -------------------------------------------------------------------------------------------------- 5'
                                                                                                        
    5' ----[=>RS2, 189874-190599]-[=>EFTS, 190857-191708]-[=>PYRH, 191855-192580]-[=>RRF, 192872-193429]- 3'
                                                                                                        
    
    3' -----------------------------------------------[<=ZITB, 783105-784046]---[<=GPMA, 786066-786818]-- 5'
    
    5' -[=>DXR, 193521-194717]--------------------------------------------------------------------------- 3'
    

    Схема наглядно показывает, что исследуемые гены в E.coli частично сгруппированы:
    • zitB, gpmA
    • rpsB, tsf, pyrH, frr, dxr
    Внутри каждой группы гены распологаются на одних и тех же цепях ДНК относительно друг друга. Так, гены rpsB, tsf, pyrH, frr и dxr образуют очень плотную группу, они расположены в том же порядке, что и в Regiella insecticola, и расположены на другой цепи по сравнению с другими 2 генами. В свою очередь, у генов zitB и gpmA сохраненяется порядок, но идут они не так плотно как в Regiella insecticola (шли друг за другом), в E.coli же между ними располагаются 2 гена (ybgS и aroG).

    Таким образом, можно сделать вывод о необходимости расположения данных генов внутри группы рядом друг с другом. Возможно это связано с тем, что гены имеют функциональную связь.


© 2008, Илья Курочкин