На страницу III-ого семестра

Работа с пакетом BLAST

  1. Поиск в неаннотированном геноме генов, кодирующих белки, похожие на BIOB_Ecoli
  2. Для решения данной задачи наиболее подходящей программой является TBLASTN, поскольку она предназначена для поиска гомологов данного белка в неаннотированных нуклеотидных последовательностях. Для имеющегося неаннотированного генома Pasteurella multocida (...) с помощью программы formatdb были созданы индексные файлы. Команда для создания индексных файлов выглядит следющим образом:

    formatdb -p F -n pm -i pm_genome.fasta

    После создания индексных файлов запустили программу tblastn:

    blastall -p tblastn -d pm -i BIOB.fasta -o tblastn.txt

    По результатам работы программы заполнили следующую таблицу.

    Поиск гомологов xxx_Ecoli Геном Pasteurella multocida Геном Vibrio cholerae Геном Pseudomonas aeruginosa
    Характеристика лучшей находки:      
         E-value находки 1*10-111 1*10-140 1*10-139
      координаты выравнивания(-ий)
    в записи генома
    3570..4490 1506..2543 2378..3412
    AC соответствующей записи EMBL AE006074 AE004192 AE004487 (заменен AE004091 12 июля 2006)
      Координаты CDS в записи EMBL (если они есть) 3510..4520 1497..2549 2360..3418
      AC UniProt в записи EMBL (если есть) Q9CNP8 Q9KSZ4 Q9I618
    Число находок с Е-value<0,01
    1 2 1
    Поиск в 3-х геномах одновременно
    Е-value лучшей находки при поиске в 3-х геномах в 3-х геномахи 1*10-110 1*10-140 1*10-139
    Число находок с Е-value<0,01
    в 3-х геномахи
    1 2 1

    Были также созданы другие индексные файлы, созданные на основе всех 3-х геномов сразу.
    Следует заметить, что как при поиске в одном конкретном геноме, так и в 3-х геномах сразу, количество находок не изменилось, также e-value лучшей находки изменилось только для генома Pasteurella multocida. Изменение e-value, очевидно, можно связать с увелиением банка, по которому ведется поиск.

  3. Поиск гомологов с помощью программы BLASTN
  4. Осуществим аналогичный поиск, что и предыдущем пункте, по 3-м геномам только с помощью программы blastn:

    blastall -p blastn -d 3g -i BIOB_gene1.fasta -o blastn_3g.txt

    Найдено 98 находок, из них 2 с e-value < 0.01, лучшая находка e-value 9*10-25. В лучшей находке длина выравнивания 233 пары нуклеотидов, вес выравнмвания 113 бит, процент совпадения 81%.

    >embl|AE004192|AE004192 Vibrio cholerae O1 biovar eltor str. N16961
                chromosome I, section 100 of 251 of the complete
                chromosome.
              Length = 12891
    
     Score =  113 bits (57), Expect = 9e-25
     Identities = 189/233 (81%)
     Strand = Plus / Plus
    
                                                                            
    Query: 646  ccggaaagcgtgccaatcaacatgctggtgaaggtgaaaggcacgccgcttgccgataac 705
                |||||||| ||||| |||||||||||||| || |||||||| || || || |   |   |
    Sbjct: 2142 ccggaaagtgtgccgatcaacatgctggtcaaagtgaaaggtacaccactggaacaagtc 2201
    
                                                                            
    Query: 706  gatgatgtcgatgcctttgattttattcgcaccattgcggtcgcgcggatcatgatgcca 765
                |||||||| ||  ||||||||||| | ||    |||||||| ||||| || |||||||| 
    Sbjct: 2202 gatgatgtggaaccctttgattttgtgcgtttgattgcggtagcgcgcattatgatgccg 2261
    
                                                                            
    Query: 766  acctcttacgtgcgcctttctgccggacgcgagcagatgaacgaacagactcaggcgatg 825
                |  |||   || |||||||| || ||||||||| ||||||| || ||||  |||||| ||
    Sbjct: 2262 aaatctgcggttcgcctttcagctggacgcgagaagatgaatgagcagatgcaggcgctg 2321
    
                                                                     
    Query: 826  tgctttatggcaggcgcaaactcgattttctacggttgcaaactgctgaccac 878
                |||||||||||||| || || ||||||||||||||||||||||||||||||||
    Sbjct: 2322 tgctttatggcaggagccaattcgattttctacggttgcaaactgctgaccac 2374
    
    			
    Участок выравненой последовательности из банка лежит в гене VC1112. Далее следует аннотация соответствующего фрагмента генома из записи EMBL.
    FT   gene            1497..2549
    FT                   /gene="VC1112"
    FT   CDS             1497..2549
    FT                   /codon_start=1
    FT                   /transl_table=11
    FT                   /gene="VC1112"
    FT                   /product="biotin synthase"
    FT                   /note="similar to GB:J04423 SP:P12996 PID:145425 PID:490219
    FT                   GB:U00096; identified by sequence similarity; putative"
    FT                   /db_xref="GOA:Q9KSZ4"
    FT                   /db_xref="HSSP:P12996"
    FT                   /db_xref="InterPro:IPR002684"
    FT                   /db_xref="InterPro:IPR006638"
    FT                   /db_xref="InterPro:IPR007197"
    FT                   /db_xref="InterPro:IPR010722"
    FT                   /db_xref="UniProtKB/TrEMBL:Q9KSZ4"
    FT                   /protein_id="AAF94271.1"
    FT                   /translation="MEVRHNWTVAEVKALLDKPFMDLLFEAQQVHRLHHPHNHVQVSTL
    FT                   LSIKTGACPEDCKYCPQSAHYRTDVDKERLMEVERVLDAAQKAKNSGSTRFCMGAAWKN
    FT                   PKERDMPLLKEMIRGVKDMGLETCMTLGMLTPDQAQQLAQAGLDYYNHNLDTSPEFYGN
    FT                   IITTRTYQDRLDTLSHVRDAGMKICSGGIIGMGESTNDRAGLLVELANLPTHPESVPIN
    FT                   MLVKVKGTPLEQVDDVEPFDFVRLIAVARIMMPKSAVRLSAGREKMNEQMQALCFMAGA
    FT                   NSIFYGCKLLTTPNPAEDSDMLLFKKLGINREQVAQKPDEITENELLDRVVERVAARPT
    FT                   ASDLFYDAAL"
    Исследуя полученые результаты можно сделать вывод, что и в первом и во втором упражнениях, программы справились с задачей и обнаружили гомологи.

© Sedliarov Vitaliy