Пакет BLAST





 1. Создание индексных файлов для работы с локальными версиями программ семейства BLAST

На сервере kodomo-count я посмотрел подсказку к программе formatdb. Мне надо изучить параметры:
-i файл, который подается на вход
-p нужен, чтобы указывать, последовательность какого рода в файле, аминокислот (T) или нуклеотидов (F)
-n нужен для указания расширений nhr, nin и nsq

Значит, для тех файлов с геномами, которые лежат в директории /home/export/samba/public/tmp команды будут выглядеть таким образом:

formatdb -i vc_genome.fasta -p F -n vc
formatdb -i pa_genome.fasta -p F -n pa 

formatdb -i pm_genome.fasta -p F -n pm
 

Получились файлы vc.nhr, vc.nin и vs.nsq и аналогичные для других геномов


2. Поиск в неаннотированном геноме генов, кодирующих белки, похожие на DAPB_ECOLI

Примечание: 3-й пункт задания рассматривается здесь же.

TBLASTN (пакет BLAST) наиболее подходит для моего исследования.
Команда, которую я использовал:

blastall -p tblastn -d vc -i DAPB_ECOLI.fasta -o result.txt
так же пробовал для pa и pm

Для поиска сразу по трем геномам я сделал следующее:
- заменил путь к файлу и объединил три файла соответственно переменными genpath и genomes, после выполнения команды
formatdb -i "$genomes" -n 3g -p F получил на выходе файлы: 3g.nhr, 3g.nin и 3g.nsq.

Ниже приведена таблица с результатами.

Поиск гомологов xxx_Ecoli Геном Vibrio cholerae *Геном Pseudomonas aeruginosa *Геном Pasteurella multocida
Характеристика лучшей находки:  Vibrio cholerae O1 biovar eltor str. N16961
chromosome I, section 218 of 251 of the complete
chromosome.
Length = 22201
Score = 326 bits (835)
Pseudomonas aeruginosa PAO1, section 450 of
529 of the complete genome.
Length = 11415
Score = 304 bits (779)
Pasteurella multocida subsp. multocida str.
Pm70 section 77 of 204 of the complete genome.
Length = 10184
Score = 349 bits (896)
     E-value находки  2e-90 8e-84 8e-98
координаты выравнивания(-ий)
в записи генома
 1078-275 8116-7322 3245-2430
E-value лучшей находки при поиске по трем геномам сразу

4e-97 из генома Pasteurella multocida
5e-90 из генома Vibrio cholerae
2e-83 из генома Pseudomonas aeruginosa
(изменение (ухудшение) связано, по-видимому, с увеличением банка поиска, в любом случае речь идет об очень маленьких значениях, поэтому это не смертельно )

AC соответствующей записи EMBL  AE004310

AE004889 (согласно EMBL был заменен на AE004091 11 июля 2006)

AE006110
  Координаты CDS в записи EMBL (если они есть)

 complement(272..1081)

 -

complement(2427..3239)

AC UniProt в записи EMBL (если есть)  Q9KPH7  - P57867
Число находок с Е-value<0,01
 1 2 1
Число находок с Е-value<0,01 при поиске сразу по трём геномам

3

Находка с лучшим e-value оказалась из генома Pasteurella multocida, однако он все же больше, нежели при сравнивании только с геномом Pasteurella multocida. Но степень -97, поэтому это не критично.


3. Поиск гомологов с помощью программы BLASTN

Для того, чтобы провести поиск по трем геномам
использовалась команда: blastall -p blastn -d 3g -i gene_dapb.fasta -o result3g_blastn.txt

Было 3 находки с e-value < 0,01:

  • Vibrio cholerae - Score 94 e-value 7e-19 (лучшая)
  • Pseudomonas aeruginosa - Score 48 e-value 4e-05
  • Pasteurella multocida - Score 46 e-value 2e-04
>embl|AE004310|AE004310 Vibrio cholerae O1 biovar eltor str. N16961
           chromosome I, section 218 of 251 of the complete
           chromosome.
          Length = 22201

 Score = 93.7 bits (47), Expect = 7e-19
 Identities = 80/91 (87%)
 Strand = Plus / Minus

                                                                       
Query: 497 ttaagctgctggagaaagcagccaaagtgatgggtgactacaccgatatcgaaattattg 556
           |||| |||||||| ||||| |||||||||||||||||||||   ||||||||||| ||||
Sbjct: 684 ttaaactgctggaaaaagccgccaaagtgatgggtgactactgtgatatcgaaatcattg 625

                                          
Query: 557 aagcacatcatagacataaagttgatgcgcc 587
           |||| |||||| | |||||||| ||||||||
Sbjct: 624 aagctcatcatcgccataaagtcgatgcgcc 594