Зачетное задание по BLAST



  1. С помощью программы Seqret из базы данных SwissProt был получен полный протеом E.coli
    Для поиска гомологов программой BLAST были получены индексные файлы:

    formatdb -i ecoli.fasta - p T -n index

  2. Из полученного фрагмента генома Regiella insecticola (7001-14001) были извлечены трансляции всех открытых рамок считывания (orf) длиной не менее 240 нуклеотидов с использованием стандартного для бактерий генетического кода:

    getorf -sequence fragment.fasta -table 11 -find 1 -minsize 241

    где -table 11 - стандартный для бактерий генетический код, -find 1 - рамка считывания, начинающаяся со старт-кодона и заканчивающаяся стоп-кодоном.

    В результате был получен файл: fragment.orf
    Всего нашлось 20 рамок считывания.

  3. В процессе выполнения 3-его задания была составлена таблица: скачать

    Для нахождения гомологов с E-Value<0.001 была введена следующая команда:

    blastall -p blastp -d index -i fragment.orf -m 8 -o blastp.fasta

    Выходной файл: blastp.fasta

    Составленный в процессе заполнения скрипт: скрипт

    Затем для открытых рамок, для которых былы найдена хотя бы одна сходная последовательность, была составлена следующая таблица:

    Идентификатор ORF Начало во фрагменте Конец во франменте Направление цепи Число находок Идентификатор белка - ближайшего гомолога E-value лучшей находки
    >AC200763_3 1901 2623 прямое 1 YHGF_ECOLI 1e-90
    >AC200763_4 2566 3498 прямое 1 YHGF_ECOLI 3e-126
    AC200763_5 3458 4093 прямое 5 PNP_ECOLI 9e-07
    AC200763_10 6996 6664 прямое 1 RL13_ECOLI 4e-54
    AC200763_11 6661 6254 прямое 1 RS9_ECOLI 3e-64
    AC200763_13 5548 4874 обратное 1 SSPA_ECOLI 5e-74
    AC200763_14 4865 4365 обратное 1 SSPB_ECOLI 2e-36
    AC200763_18 1503 787 обратное 25 PHOB_ECOLI 9e-30
    AC200763_19 829 119 обратное 1 ENVZ_ECOLI 1e-90
    AC200763_20 296 3 обратное 3 CPXA_ECOLI 2e-06



    Гипотетические гены во фрагменте 7001-14001 записи AC200763.
    (Координаты идут относительно длины фрагмента (т.е. 1 - его начало)).
    
    5'-------------------------------------------------[=> YHGF_ECOLI, 1901-2623]---[=> PNP_ECOLI, 3458-4093]--------------------------[=> RS9_ECOLI, 6254-6661]---[=> RL13_ECOLI, 6664-6996]------3'
    								 --[=>=YHGF_ECOLI, 2566-3498]--(перекрывание)
    
    			--[<=ENVZ_ECOLI, 119-829]--(перекрывание) 
    3'-[<=CPXA_ECOLI, 3-296]-----[<=DNAA_ECOLI, 787-1503]---------------[<=SSPB_ECOLI, 4365-4865]-------[<=SSPA_ECOLI, 4874-5548]------------------------------------------------------------------5'
                                                                
    
    
    Гены в геноме E.coli
    (Координаты по записи EMBL u00096).
    
    5'-------------------[=> YHGF_ECOLI, 3535407..3537728]----------------------------------------------------------------------------------------------------------------------------------------------------------3'
                                            
    
                     								--[=< RL13_ECOLI, 3376245..3376673]-(перекрывание)
    3'-----[=< PNP_ECOLI, 3307055..3309190]-[<=SSPA_ECOLI, 3374804..3375442]--[=< RS9_ECOLI, 3375837..3376229]--[=< YHGF_ECOLI, 3532538..3533890]--[<=DNAA_ECOLI, 3880349..3881752]-[<=CPXA_ECOLI, 4101625..4102998]-5'
    
    

    Pасположение белков абсолютно различно и никакой консервативности в их расположении не наблюдается