Главная страница Первый семестр Второй семестр

Третий семестр

Программы пакета BLAST для работы с нуклеотидными последовательностями.

  1. Поиск в геноме участков, кодирующих белки, похожие на заданный
  2. Я знаю аминокислотную последовательность моего белка из Escherichia coli K-12. Задача — определить, закодированы ли похожие белки в геноме другого организма, не пользуясь аннотацией генома.

    Я создала в своей рабочей директории(BLAST) индексные файлы пакета BLAST для поиска по заданному геному.
    Для этого я зашла на kodomo-count, перешла в свою рабочую директорию(BLAST) и использовала программу

    formatdb -i pm_genome.fasta -p F -n pm.

    Где параметр -i означает имя входящего файла, -p тип последовательности (белок/нуклеотиды), -n первую часть имен трех выходящих файлов(в моем случае pm от Pasteurella multocida).

    Я выбрала для решения данной задачи программу TBLASTN из пакета BLAST и провела с ее помощью поиск с порогом на E-value 0,001, используя команду

    blastall -p tblastn -d pm -i sequences.fasta -o out.txt -e 0.001

    По результатам поиска получен файл out.txt и заполнена таблица.

    Поиск гомологов белка NAGB_ECOLI в геноме бактерии Pasteurella multocida.

    Число находок с Е-value<0,001 2
    Характеристика лучшей находки:  
       E-value находки e-114
    AC соответствующей записи EMBL AE006126
    Координаты выравнивания(-ий) в записи EMBL 3829-3032
    Координаты CDS в записи EMBL (если есть) (complement)3829-3026
    AC UniProt для этого CDS (если есть) Q9CMF4


  3. Аналогичный поиск сразу в нескольких геномах
  4. Я создала в своей директории индексные файлы BLAST для поиска по по полному геному бактерии Pasteurella multocida, а также по геномам Salmonella typhimurium и Xanthomonas campestris. С помощью TBLASTN провела поиск по трем геномам. Результат в файле outall.txt.
    По результатам предыдущего упражнения лучшей была находка AE006126 Pasteurella multocida с Score=403 и E-Value=e-114. Всего было 2 находки с E-value < 0,001.
    В этом упражнении картина не очень изменилась. Всего стало 3 находки, лучшая из которых AE008727| Salmonella typhimurium LT2 с Score=494 и E-Value= e-140. Значения AE006126 Pasteurella multocida(лидера предыдущего упражнения) практически не изменились - Score=403 и E-Value=e-113.

  5. Поиск гомологов с помощью программы BLASTN
  6. Был создан файл с последовательностью из генома E.coli, кодирующей мой белок.

    Я поискала гомологов этого гена в трёх геномах программой BLASTN. Первый раз без указания E-value, результат в файле af052007.txt. Всего получилось 40 находок, у лучшей (AE008727 AE006468 |AE008727| Salmonella typhimurium LT2) E-value=0.0, Score=658, Identities = 85%. Выравнивание находится в файле.
    Второй раз я искала с указанием E-value=0.001. Результат в файле eaf052007.txt. Я получила 2 находки. По-прежнему лучшая - AE008727 AE006468 |AE008727| Salmonella typhimurium LT2 с E-value=0.0, Score=658, Identities = 85%. Эти две находки были первыми в поиске без указания E-value.Значения Score последующих находок значительно меньше - у следующей 68, так что по-настоящему гомологичен только первый найденный ген, ну и может второй, так как он в обоих случаях появился и его E-value=3e-11, тоже немного. Выравнивание находится в файле, оно полностью совпадает с предыдущим.
    Исследуемый ген - nagB, чьим продуктом является N-acetylglucosamine-6-phosphate isomerase (Н-ацетилглюкосамин-6-фосфат изомераза).
    В предыдущих упражнениях на вход программы подавалась аминокислотная последовательность. В упражнении 3 - нуклеотидная. Во всех случаях было найдено примерно одинаковое количество находок (2-3), причем во всех трех упражнениях фигурирует последовательность AE006126 Pasteurella multocida, а во 2 и 3 упражнении еще AE008727| Salmonella typhimurium LT2, которая и является наиболее возможным гомологом. Различаются в упражнениях только значения E-value и Score.



©MARIA KUZNETSOVA,2008