МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ИМЕНИ М.В.ЛОМОНОСОВА
ФАКУЛЬТЕТ БИОИНЖЕНЕРИИ И БИОИНФОРМАТИКИ

Домашняя страничка Ильи Курочкина

Главная

I Семестр

II Семестр

III Семестр

Проекты

Обратная Связь

Программы пакета BLAST для работы с нуклеотидными последовательностями

  • 1. Поиск в геноме участков, кодирующих белки, похожие на заданный

    Даны аминокислотная последовательность белка RSUA_ECOLI из Escherichia coli K-12 и геном бактерии Pasteurella multocida. Для поиска по заданному геному с помощью программы formatdb созданы индексные файлы пакета BLAST.

    formatdb -i pm_genome.fasta -n index -p F
    где параметр: -i = файл для которого создаются индексные файлы; -p = тип файла (T- белковый, F-нуклеодитный); -n = базовое имя.

    Для определения, закодированы ли похожие белки в геноме другого организма, следует воспользоваться программой TBLASTN, которая производит поиск по полученной нуклеотидной базе, используя на вход последовательность белка. Поиск производился с порогом на E-value=0,001.

    blastall -p tblastn -d index -i rsua_ecoli.fasta -e 0.001 -o rsua.out
    где параметр: -p = имя программы из пакета BLAST; -d = базовое имя индексных файлов; -i = Query Sequence, то что будем искать в fasta-формате; -e = порог E-value; -o = имя выходного файла.

    Полученный результат поиска приведен в таблице ниже.

    Поиск гомологов белка RSUA_ECOLI в геноме Pasteurella multocida

    Число находок с Е-value < 0,001 3
    Характеристика лучшей находки:  
       E-value находки 1e-72
    Название геномной последовательности Pasteurella multocida subsp. multocida str. Pm70 section 1 of 204 of the complete genome.
    Координаты выравнивания(-ий) в найденной последовательности 3461-4147
  • 2. Нахождение записи EMBL по последовательности с помощью программы BLASTN

    AC записи нынешнего релиза EMBL, в которую попадает найденная последовательность гена гомолога вашего белка: AE004439. Программе Blastn была подана последовательностью того участка генома, который был найден в предыдущем упражнении как лучший. В результате чего получил следующий результат. Были также определены координаты этого гена согласно аннотации EMBL (3401-4087). Имеющаяся нформация о соответствующем участке в поле FT:

    FT   CDS             3461..4159
    FT                   /codon_start=1
    FT                   /transl_table=11
    FT                   /gene="rsuA_1"
    FT                   /locus_tag="PM0003"
    FT                   /product="RsuA"
    FT                   /db_xref="GOA:Q9CPN4"
    FT                   /db_xref="HSSP:1KSK"
    FT                   /db_xref="InterPro:IPR002942"
    FT                   /db_xref="UniProtKB/Swiss-Prot:Q9CPN4"
    FT                   /protein_id="AAK02087.1"
    FT                   /translation="MRLDKFLAENTGLTRSQANKVLKQSAVTVNGHVEKNGAQKVSQTD
    FT                   EICLEGEHLPWVSAGQYLMLYKPQGYVCSHEDGDYPTIYQFFDYPLAGKLHSAGRLDVD
    FT                   TTGLVLLTDDGKWSHRITSPKHHCEKTYLVTLADPVESHYQQACAEGMLLRGEKTPTKP
    FT                   ATLEILDDYNVNLTISEGRYHQVKRMFAALGNKVVGLHRWKIGQIELDDRLAEGEYRSL
    FT                   SAEEIATFNK"
    

    Координаты CDS: 3461-4159
    Запись банка Uniprot, которой она соответствует: Q9CPN4

  • 3. Поиск гомологов с помощью программы BLASTN

    Создаeм fasta-файл с последовательностью из генома E.coli, кодирующей белок rsua. Для этого надо взять одну из записей EMBL, на которую ссылается ваша запись Swiss-Prot, в моем случае это была U00096, найти в ней координаты соответствующей CDS и вырезать последнюю программой seqret в отдельный файл. Далее производим поиск гомологов этого гена в геноме Pasteurella multocida с помощью программы BLASTN.

    blastall -p blastn -d index -i rsu_g.fasta -e 0.001 -o rsua_g.out

    При ограничении на E-value 0,001 была найдена одна последовательность из Pasteurella multocida (AE006034). Эта же находка являлась лучшей и в поске по белковой последовательности. Последующие находки имееют очень большое E-value, поэтому делать вывод о том, кодируют ли эти участи схожие белки нельзя.

    Сравнение результатов полученных с помощью програм Tblastn и Blastn

    Характеристики Tblastn Blastn
    Количество находок с Е-value < 0,001 3 1
    Количество находок с Е-value < 10.0 7 19
    E-value лучшей находки 1e-72 3e-04
    Координаты выравнивания в записи EMBL для лучшей находки 3461-4147 3839-3867
    Длина выравнивания 687 29
    Вес (Score) лучшей находки 265 42.1

    Можно сделать вывод о том, что аминокислотная последовательность более консервативна, в отличии от генетического кода. Возможно это связано с тем, что одна и та же аминокислота может кодироваться несколькими треплетами.

    Таким образом, программы Tblastn и Blastn могут использоваться в аннотировании геномов, в частности Tblastn в поиске гомологов данной последовательности, а Blastn помогает в поиске конкретной последовательности.


© 2008, Илья Курочкин