На главную третьего семестра    На главную

Банк EMBL

  1. Создание индексных файлов для работы с локальными версиями программ семейства BLAST

    Были созданы индексные файлы пакета BLAST (vc.nhr, vc.nin и vc.nsq) для поиска по полному геному холерного вибриона (Vibrio cholerae) из файла vc_genome.fasta, включающего последовательности из EMBL. Для этого использовалась команда:
    formatdb -i vc_genome.fasta -p F -n vc
    Аналогично были созданы индексные файли для геномов Pasteurella multocida и синегнойной палочки (Pseudomonas aeruginosa):
    formatdb -i pa_genome.fasta -p F -n pa
    formatdb -i pm_genome.fasta -p F -n pm

  2. Поиск в неаннотированном геноме генов, кодирующих белки, похожие на заданный

    Для решения данной задачи использовалась программа TBLASTN, предназначенная для поиска гомологов белка в неаннотированных нуклеотидных последовательностях. Для этого использовались команды:
    blastall -p tblastn -d vc -i BioA_ECOLI.fasta -o vcres.txt
    blastall -p tblastn -d pa -i BioA_ECOLI.fasta -o pares.txt
    blastall -p tblastn -d pm -i BioA_ECOLI.fasta -o pmres.txt

    Следующая таблица заполнена по результатам поиска

    Поиск гомологов BioA_ECOLI Геном Vibrio cholerae Геном Pasteurella multocida Геном Pseudomonas aeruginosa
    Характеристика лучшей находки: Vibrio cholerae O1 biovar eltor str. N16961 chromosome I, section 100 of 251 of the complete chromosome.

    Длина 12891 н.о.

    Score = 577 bits (1486)

    Pasteurella multocida subsp. multocida str. Pm70 section 194 of 204 of the complete genome.

    Длина 10742 н.о.

    Score = 485 bits (1248)

    Pseudomonas aeruginosa PAO1, section 40 of 529 of the complete genome.

    Длина 13987 н.о.

    Score = 303 bits (776)

         E-value находки e-165 e-138 3e-83
      координаты выравнивания(-ий)
    в записи генома
    1361..87 5268..6527 4350..3013
    AC соответствующей записи EMBL AE004192 AE006227 AE004479
      Координаты CDS в записи EMBL (если они есть) complement(84..1370) 5145..6551 запись была заменена на AE004091
      AC UniProt в записи EMBL (если есть) Q9KSZ5 Q9CJU1 запись была заменена на AE004091
    Число находок с Е-value<0,01
    6 3 (все) 13
    Результаты поиска по 3м генам вместе:
    Характеристика лучшей находки: Vibrio cholerae O1 biovar eltor str. N16961 chromosome I, section 100 of 251 of the complete chromosome.

    Длина 12891 н.о.

    Score = 577 bits (1486)

    Е-value лучшей находки e-165
    координаты выравнивания(-ий)
    в записи генома
    1361..87
    AC соответствующей записи EMBL AE004192
    Координаты CDS в записи EMBL (если они есть) complement(84..1370)
    AC UniProt в записи EMBL Q9KSZ5
    Число находок с Е-value<0,01 22

    Лучшая находок при поиске по 3м геномам вместе оказалась лучшей находкой при поиске по геному Vibrio cholerae. Вторая находка - лучшая находка при поиске по геному Pasteurella multocida, и третья находка - лучшая находка при поиске по геному Pseudomonas aeruginosa. Это говорит о том, что Vibrio cholerae ближе к E.coli, чем Pasteurella multocida и Pseudomonas aeruginosa

    При поиске по трем геномам вместе число находок с Е-value<0,01 увеличилось за счет суммирования всех находок с Е-value<0,01 при поисках по геномам отдельно, так как находки которые были при поиске по геномам в отдельности так и остались, а новые хорошие надодки не возникли и возникнуть не могли.

  3. Аналогичный поиск сразу в нескольких геномах

    Для создания индексных файлов BLAST для поиска по трем геномам Vibrio cholerae, Pasteurella multocida и Pseudomonas aeruginosa сразу была выполнена следующая команда

    formatdb -i 'vc_genome.fasta pa_genome.fasta pm_genome.fasta' -p F -n 3g
    
    С помощью выбранной ранее программы TBLASTN проведен поиск по трем геномам.
    blastall -p tblastn -d 3g -i BioA_ECOLI.fasta -o 3genres.txt
    По результатам поиска были добавлены последние строчки к таблице выше. E-value лучшей находки остался прежним, но увеличилось число находок с E-value < 0,01 относительно поиска по каждому из геномов.

  4. Поиск гомологов с помощью программы BLASTN

    Использовался файл a11524.fasta с гeном белка BioA_ECOLI. Пролводился поиск гомологов гена bioA в трёх геномах программой BLASTN. Использовавшаяся команда
    blastall -p blastn -d 3g -i a11524.fasta -o bioA.txt
    E-value лучшей находки 2e-16.

    Соответствующее выравнивание:

                                                                       
    Query: 898 gaagccggttgctttatgcatgggccaacttttatgggcaatccgctggcctgcgcggca 957
               ||||| || |||||||||||||| |||||||||||||||||||||||||| |||||||  
    Sbjct: 476 gaagcaggctgctttatgcatggcccaacttttatgggcaatccgctggcttgcgcggtg 417
    
                          
    Query: 958 gcaaacgccag 968
               |||| ||||||
    Sbjct: 416 gcaagcgccag 406 
    
    Запись EMBL AE004192, геном Vibrio cholerae O1 biovar eltor str. N16961 chromosome I, section 100 of 251 of the complete chromosome. Длина 12891 н.о. Характеристики выравнивания:
    Score = 85.7 bits (43), Expect = 2e-16
    Identities = 64/71 (90%)
    
    Находка полностью идентична лучшей находке при поиске по геному Vibrio cholerae. В записи EMBL AE004192 участку выравнивания соответствует фрагмент с координатами complement(84..1370), кодирующий ген VC1111.


©Dzhanibekova Anastasia