Программы пакета BLAST для работы с нуклеотидными последовательностями

  1. Работа с программой getorf пакета EMBOSS
  2. Файл с записью D89965 банка EMBL

    Команда

     tfm getorf
    
    выдает полное описание команды getorf.

    Команда

     getorf -minsize 30 -table 11 -find 1 -sequence d89965.entret
    позволяет получить набор трансляций всех открытых рамок данной последовательности длиной более 30 нуклеотидов, считая открытой рамкой последовательность триплетов, начинающуюся со старт-кодона и заканчивающуюся стоп-кодоном, при использовании бактериального кода.

    Параметры :
    -find = принимает параметры от 0 до 6.

              0 транслирует рамку между стоп кодонами.
              1 транслирует рамку между старт и стоп кодоном.
              2 ищет нуклеотидную  рамку между стоп кодонами.
              3 ищет нуклеотидную  рамку между старт и стоп кодоном.
              4 нуклеотидная рамка фланкирующая к старт кодону
              5 нуклеотидная рамка фланкирующая к инициаторному стоп кодону
              6 нуклеотидная рамка фланкирующая к завершающему стоп кодону    

    -table = принимает параметра от 0 до 23.Коды для разных групп организмов (11 - для бактерий)
    -minsize = минимальная длина рамки(в нуклеотидах)


    Выходной файл программы.

    Из найденных открытых рамок приведённой в записи CDS соответствует 5 рамка, 13 рамка - приведенной в Swiss-Prot.

    2.Поиск некодирующих последовательностей программой BLASTN.

    1. Необходимо определить сколько гомологов каждой из тРНК E.coli находит программа BLASTN в геноме родственной бактерии (Pasteurella multocida)

    Для этого запускаем программу blast по банку из генома бактерии (без указания порога E-value)
    blastall -p blastn -d pm -i trna_ecoli.fasta -o trna.txt -m 9

    2. Нужно просмотреть выходной файл и придумать, как (для данной последовательности из trna_ecoli.fasta) запустить grep так, чтобы на выходе получилось число - количество находок именно для данной последовательности.
    grep "valV" trna.txt -c
    Результат: 32
    "valV" - выбранная последовательность,
    trna.txt - файл для поиска,
    -c - показывать только число находок.

    3. Нужно создать колонку из названий входных последовательностей командой:
    grep ">" trna_ecoli.fasta > names
    Информацию из файла names импортируем в Excel.
    Необходимо создать скрипт из команд, выдающих число находок для каждой последовательности.
    Файл script.scr написан в редакторе Far и сохранен в соответствующем формате.
    Сделаем файл исполняемым:
    chmod +x script.scr
    Запуск файла: ./script.scr
    Получаем файл trnacount.txt со столбцом цифр. Импортируем этот результат в Exel.
    Повторим поиск, на этот раз указав порог на E-value, равный 0.001.
    blastall -p blastn -d pm -i trna_ecoli.fasta -o trna_ev.txt -m 9 -e 0.001
    Создадим скрипт:script2.scr
    Запустим его:
    ./script2.scr
    Получаем файл trnacount2.txt со столбцом цифр. Добавляем в отчётную таблицу соответствующий столбец. Получили файл trna.xls

    3.Поиск некодирующих последовательностей программой megablast.

    1. Поиск гомологичных тРНК при помощи программы megablast.
    megablast -d pm -i trna_ecoli.fasta -o megablast.txt -m 9

    2.Поиск гомолочичных тРНК при помощи программы discontigous megablast.
    megablast -d pm -i trna_ecoli.fasta -o discontig.txt -m 9 -D 2 -t 21 -W 12 -N 2

    Где параметры :
    -D = тип выдачи результатов (2-стандартная выдача бласт)
    -t = длина последовательности (с учетом "разрывов")
    -W = длина слова. Если W кратно 4, то это гарантирует нахождение наилучших совпадений для длины слова W+3. Eсли W не кратно 4, то будет рассмотрено ближайшее кратное 4 значение (по формуле 4*i+2 и 4*i). -N Discontiguous template type: coding (0), non-coding (1), or both (2)
    Далее я создала скрипты для файлов megablast.txt и discontig.txt: script3.scr и script4.scr соответственно.


    Отчетный Excel-файл: trna.xls

    4. Анализ результатов.

    В одном из полученных при выполнении заданий 2 и 3 выходных файлов BLAST была выбрана пара из tRNA E.coli и найденного в геноме другой бактерии гомологичного участка glyW - AE006138 (10908-10983). Эта пара находится программой BLASTN и не находится программой megablast.
    Возможно megablsat не находит многие последовательности потому, что эта программа сравнивает две близкие и малоотличающиеся последовательности, несовпадения в которых могли возникнуть из-за ошибок при секвенировании.

    Последовательность из файла trna_ecoli.fasta

    >glyW
    gcgggaatagctcagttggtagagcacgaccttgccaaggtcggggtcgc
    gagttcgagtctcgtttcccgctcca

    С помощью seqret гомологичный участок был вырезан в файл ae006138.fasta

    >AE006138 Pasteurella multocida subsp. multocida str. Pm70 section 105 of 204 of the complete genome.
    gcgggaatagctcagttggtagagcacaaccttgccaaggttggggtcgcgagttcgagc
    ctcgtttcccgctcca

    Далее программой needle были выровнены две последовательности:

    needle glyW.fasta ae006138.fasta aln.needle

    Результат:aln.needle

    Мы наблюдаем практически полное совпадение.

    В записи EMBL гомологичный участок проаннотирован следующим образом:

    FT gene 10905..11369
    FT /gene="ccmH_1"
    FT /locus_tag="PM0012"
    FT CDS 10905..11369
    FT /codon_start=1
    FT /transl_table=11
    FT /gene="ccmH_1"
    FT /locus_tag="PM0012"
    FT /product="CcmH"
    FT /db_xref="InterPro:IPR005616"
    FT /db_xref="UniProtKB/TrEMBL:Q9CPM5"
    FT /protein_id="AAK02096.1"
    FT /translation="MKKLTALFLLCLSFSSLAAIEGVQFSSTQQEKDYHALTQELRCPQ
    FT CQNNNIADSNATIAVDMRHKVLELLQEGKSKQDVVNFMVERYGHFVTYDPPLTVATVSL
    FT WVIPALFVILGFRLLFRRHTKQVVTAQASEPRLSDEQKQRLQRLLQEKKE"

    5. Поиск некодирующих последовательностей программой Fasta.

    Необходимо было проделать работу, аналогичную заданиям 2 и 3, используя для поиска программу fasta35.

    1. Для начала была запущена программа fasta35 по всем тРНК Ecoli:

     
        fasta35 trna_ecoli.fasta pm_genome.fasta 6 < fasta_answers.txt
        
    
    Файл fasta_answers.txt - ответы для интерактивного режима программы.

    В результате получили файлы с выдачей программы для каждой тРНК.

    2. Затем я создала 2 скрипта: fasta_script.scr и fasta_script1.scr.
    Первый скрипт считает строки содержащие "Pasteurella multocida" и E-value < 0.0001.
    Второй скрипт считает количество находок с 0.0001 < E-value < 0.001
    В результате работы скриптов я получила файлы result.txt и result2.txt. Я сложила количества находок, записанных в этих файлах и внесла результат в последний столбик таблицы trna.xls.

    Программа FASTA нашла больше кандидатов в гомологи (с E-value < 0.001) для каждой тРНК, чем BLASTN.


    <<Обратно на третий семестр

    <<Обратно на главную страницу

    ©Лелекова Мария,2008