1. Создание индексных файлов для
работы с локальными версиями программ
семейства BLAST
На сервере kodomo-count я посмотрел подсказку
к программе formatdb. Мне надо изучить
параметры:
-i файл, который подается на вход
-p нужен, чтобы указывать,
последовательность какого рода в файле,
аминокислот (T) или нуклеотидов (F)
-n нужен для указания расширений nhr, nin и nsq
Значит, для тех файлов с геномами,
которые лежат в директории /home/export/samba/public/tmp
команды будут выглядеть таким образом:
formatdb -i vc_genome.fasta -p F
-n vc
formatdb -i pa_genome.fasta -p F -n pa
formatdb -i pm_genome.fasta -p F -n pm
Получились
файлы vc.nhr, vc.nin
и vs.nsq и
аналогичные для других геномов
2. Поиск в
неаннотированном геноме генов, кодирующих
белки, похожие на DAPB_ECOLI
Примечание: 3-й пункт задания
рассматривается здесь же.
TBLASTN (пакет BLAST) наиболее подходит для
моего исследования.
Команда, которую я использовал:
blastall -p tblastn -d vc -i
DAPB_ECOLI.fasta -o result.txt
так же пробовал для pa и pm
Для поиска сразу по трем
геномам я сделал следующее:
- заменил путь к файлу и объединил три
файла соответственно переменными genpath и
genomes, после выполнения команды
formatdb -i "$genomes" -n 3g -p F получил
на выходе файлы: 3g.nhr,
3g.nin и 3g.nsq.
Ниже приведена таблица с результатами.
Поиск гомологов xxx_Ecoli |
Геном
Vibrio cholerae |
*Геном
Pseudomonas aeruginosa |
*Геном
Pasteurella multocida |
Характеристика лучшей находки: |
Vibrio cholerae O1 biovar eltor str. N16961
chromosome I, section 218 of 251 of the complete
chromosome.
Length = 22201
Score = 326 bits (835) |
Pseudomonas aeruginosa PAO1, section 450 of
529 of the complete genome.
Length = 11415
Score = 304 bits (779) |
Pasteurella multocida subsp. multocida str.
Pm70 section 77 of 204 of the complete genome.
Length = 10184
Score = 349 bits (896) |
|
E-value находки |
2e-90 |
8e-84 |
8e-98 |
координаты выравнивания(-ий)
в записи генома |
1078-275 |
8116-7322 |
3245-2430 |
E-value
лучшей находки при поиске по трем геномам сразу |
4e-97 из генома Pasteurella multocida 5e-90 из генома Vibrio cholerae 2e-83 из генома Pseudomonas aeruginosa (изменение (ухудшение) связано, по-видимому, с увеличением банка поиска, в любом случае речь идет об очень маленьких значениях, поэтому это не смертельно ) |
AC соответствующей записи EMBL |
AE004310 |
AE004889 (согласно EMBL был
заменен на AE004091 11 июля 2006)
|
AE006110 |
|
Координаты CDS в записи EMBL (если они есть) |
complement(272..1081)
|
- |
complement(2427..3239)
|
AC UniProt в записи EMBL (если есть) |
Q9KPH7 |
- |
P57867 |
Число находок с Е-value<0,01
|
1 |
2 |
1 |
Число
находок с Е-value<0,01 при поиске сразу
по трём геномам
|
3 |
Находка с лучшим e-value оказалась из генома
Pasteurella multocida, однако он все же больше,
нежели при сравнивании только с геномом Pasteurella multocida.
Но степень -97, поэтому это не критично.
3. Поиск
гомологов с помощью программы BLASTN
Для того, чтобы провести поиск по трем
геномам
использовалась команда: blastall
-p blastn -d 3g -i gene_dapb.fasta -o result3g_blastn.txt
Было 3 находки с e-value < 0,01:
- Vibrio cholerae - Score
94 e-value 7e-19 (лучшая)
- Pseudomonas aeruginosa - Score 48 e-value 4e-05
- Pasteurella multocida - Score
46 e-value 2e-04
>embl|AE004310|AE004310 Vibrio cholerae O1 biovar eltor str. N16961
chromosome I, section 218 of 251 of the complete
chromosome.
Length = 22201
Score = 93.7 bits (47), Expect = 7e-19
Identities = 80/91 (87%)
Strand = Plus / Minus
Query: 497 ttaagctgctggagaaagcagccaaagtgatgggtgactacaccgatatcgaaattattg 556
|||| |||||||| ||||| ||||||||||||||||||||| ||||||||||| ||||
Sbjct: 684 ttaaactgctggaaaaagccgccaaagtgatgggtgactactgtgatatcgaaatcattg 625
Query: 557 aagcacatcatagacataaagttgatgcgcc 587
|||| |||||| | |||||||| ||||||||
Sbjct: 624 aagctcatcatcgccataaagtcgatgcgcc 594
|