formatdb -i xc_genome.fasta -n index -p F blastall -p tblastn -d index -i P0ABH7.fasta -e 0.001 > P0ABH7.outНа выходе получился файл P0ABH7.out
Число находок с Е-value<0,001 | 2 | |
Характеристика лучшей находки: | ||
E-value находки | e-160 | |
Название геномной последовательности | AE012440 AE008922 Xanthomonas campestris pv. campestris str. ATCC 33913, section 348 of 460 of the complete genome. | |
Координаты выравнивания(-ий) в найденной последовательности | 10423-9152 |
seqret -sask Reads and writes (returns) sequences Input (gapped) sequence(s): xc_genome.fasta:AE012440 Begin at position [start]: 9152 End at position [end]: 10423 Reverse strand [N]: Y output sequence(s) [ae012440.fasta]:Выходной файл - ae012440.
entret embl:AM920689 -autoИнформация о заданном участке в поле FT:
FT CDS 1090280..1091638 FT /transl_table=11 FT /gene="gltA" FT /locus_tag="xcc-b100_0951" FT /product="citrate (Si)-synthase" FT /function="Citrate synthase" FT /EC_number="2.3.3.1" FT /db_xref="GOA:B0RPB4" FT /db_xref="InterPro:IPR019810" FT /db_xref="UniProtKB/TrEMBL:B0RPB4" FT /protein_id="CAP50299.1" FT /translation="MPWTSITCLPMWDQAPSTEGAYTVSDLDQVTLNAGDKSVVLPVLK FT PTLGNDCVDISKLTKETGLFTYDSGFTATASCKSAITYIDGDNGVLLYRGYPIEQLAEK FT SSFLEVSYLLMNGELPTADEFKKFDHEVTHHTMMHESLKNFLGGFRHDAHPMAMLAGSV FT ASLSAFYHDTLDLNDPEQRRQAAIRLIAKVPTLAAAAYRYSIGWPIRYPRNNLNYVDRF FT LHMMFEVPSEPLEINPVVAKALDLLFILHADHEQNASTSTVRLVGSTGANPYASVAAGI FT TALWGPAHGGANEAVLKMLEEIGTADNVESAVAKAKDKNSSFRLMGFGHRVYKNFDPRA FT KIIREMTHKVLGELGVNDPLLEVALKLEEAALKDDYFVQRKLYPNVDFYSGLIYKALNI FT PVEMFTVMFAIARTAGWVSHWLEQQVDPEMKIGRPRQIYTGYDKRDYTDAGKR"Координаты CDS: 1090280..1091638
entret embl:V01501 -autoВ записи содержались координаты CDS: 460..>755
seqret "embl:V01501[460:755]"Был получен файл с последовательностью. Далее программой BLASTN был проведён поиск гомологов этого гена в геноме Xanthomonas campestris:
blastall -p blastn -d index -i v01501.fasta > v01501.outБыл получен файл v01501.out
Аминокислотная последовательность | Нуклеотидная последовательность | ||
---|---|---|---|
Число находок с Е-value<0.001 | 2 | 0 | |
Характеристика лучших находок: | |||
E-value находки | e-160 | 0.073 | |
Длина находки | 1272 | 17 | |
Процент совпадений | 60 | 100 |
Очевидно, поиск по аминокислотной последовательности намного лучше. При поиске по нуклеотидной последовательности находятся только короткие участки, причём такие же участки находятся и в негомологичных последовательностях. Это связано с тем, что гены кодируются всего четырьмя буквами. Кроме того, код ДНК вырожден, т.е. большая часть аминокислот представлена более чем одним кодоном, поэтому при поиске по нуклеотидной последовательности, многие гомологи "теряются".
entret embl:d89965 -autoБыла запущена программа getorf со следующими параметрами:
getorf -minsize 30 -find 1 -table 11Получили файл d89965.orf 5 рамка соответствует CDS, а 13 - записи Swiss-Prot (P0A7B8).
blastall -p blastn -d index -i trna_ecoli.fasta -m 8 > t1.txtТеперь повторим то же самое, но поставим порог E-value < 0.001
blastall -p blastn -d index -i trna_ecoli.fasta -m 8 -e 0.001 > t2.txtВ результате получены 2 таблицы: t1.txt без ограничений и t2.txt с E-value < 0.001
grep ">" trna_ecoli.fasta
=СЦЕПИТЬ("grep -c '";B3;">' t1.txt >> list.txt")В получившейся таблице 2 столбца: один с названиями всех тРНК, второй - с текстом команд, которые будут использоваться в нашем скрипте.
chmod +x trna_linux.scr
./trna_linux.scrВ результате работы скрипта был получен файл list.txt, содержащий только количества находок.
megablast -d index -i trna_ecoli.fasta -m 8 > trna_megablast.fastaскрипт для Megablast
megablast -d index -i trna_ecoli.fasta -m 8 -D 2 -t 18 -W 11 -N 1 > trna_discontigous.fastaскрипт для Discontigous megablast
seqret -sask Reads and writes (returns) sequences Input (gapped) sequence(s): xc_genome.fasta:ae012274 Begin at position [start]: 10086 End at position [end]: 10106 Reverse strand [N]: y output sequence(s) [ae012274.fasta]: valW_xc.fastaЗатем вырежем в отдельный файл тРНК бактерии. Построим выравнивание программой needle:
needle valW.fasta valW_xc.fasta valW.needleХарактеристики выравнивания:
Length: 77 Identity: 20/77 (26.0%) Similarity: 20/77 (26.0%) Gaps: 56/77 (72.7%) Score: 96.0Программа BLASTN ищет по словам длины 11, а megablast - 28. Поскольку в выравнивании нет 28 совпавших нуклеотидов, megablast не нашёл этот участок.