Создание скрипта. Для начала приведем несколько строчек из уже созданного скрипт,
а затем поясним полученное.
seqret orf2.fasta:KPN2Jun2003_1 stdout | blastall -p blastp -d 3mgt -e 0.001 |grep -c Identities >> count.txt
seqret orf2.fasta:KPN2Jun2003_2 stdout | blastall -p blastp -d 3mgt -e 0.001 |grep -c Identities >> count.txt
seqret orf2.fasta:KPN2Jun2003_3 stdout | blastall -p blastp -d 3mgt -e 0.001 |grep -c Identities >> count.txt
seqret orf2.fasta:KPN2Jun2003_4 stdout | blastall -p blastp -d 3mgt -e 0.001 |grep -c Identities >> count.txt
seqret orf2.fasta:KPN2Jun2003_5 stdout | blastall -p blastp -d 3mgt -e 0.001 |grep -c Identities >> count.txt
Скрипт - это текстовый файл, который операционная система понимает как последовательно выполняемые
команды. Каждая команда в скрипте приводится в виде отдельной строки. Итак, надо создать текстовый
файл, в котором каждая строка представляла бы собой конвейер, аналогичный написанному в
предыдущем пункте, но с очередным ORF'ом в качестве входной последовательности.
Придется сначала создать вход для blastall программой seqret, в результате получаем
seqret orf2.fasta:KPN2Jun2003_N (где N в моем случае числа от 1 до 36), то есть из моего файла
orf2.fasta выбираем необходимую строчку. Результат - на стандартный вывод идет
только последовательность
с нужным именем. (Все программы EMBOSS могут выдать свой результат на stdout, если задать
"stdout" в качестве имени выходного файла, следствием чего в строке следует stdout).
А далее идет уже собственно команда, которая конвеерно передается на grep,
и мы получаем требуемый результат (важно, что не надо вводить имени файла, а так же то, что
расстояние между отдельными частями скрипта должно соответствовать команде UNIX).
В результате мы получаем скрипт файл.
Гипотетические гены в исследуемом фрагменте
Рассмотрим результаты, полученные при использовании скрипта.
Взглянув на таблицу Excel, мы можем убедиться, что наши участки пердположительных
генов не пересекаются, что очень хорошо (только в одном месте есть небольшое перекрывание). Генов
9. На странице res2 таблицы EXCEL вы можете найти данные о возможных белковых последовательностях,
которые встретились в моем участке нуклеотидной последовательности. Получались они таким образом:
бралась строчка из скрипта, но теперь, мы не перенаправляли файл на подсчет, а просто сохраняли
выравнивние в файле, таким образом было получено 9 файлов содержащих локальные выравнивания,
затем выбирались наилучшие выравнивания с белковыми последовательностями, а для них в
аннотированном геноме ECOLI искались уже названия генов (для гена fimC соответствовало второе
выравнивание, то есть не лучшее, но, во-первых, лучшее выравнивание не сильно отличалось,
во-вторых, в описаниях было сказано, что белки схожи). Задачу можно было бы облегчить, создав
еще один скрипт файл, который бы доставал необходимые выравнивания в файлы.
Рассмотрим теперь, что мы получили, в глаза сразу бросаются гены из группы fim (fimA,fimC,fimD,fimZ,
fimF), важно и то что гены fimA, C, D идут в той же последовательности, что и в геноме кишечной
палочки, что можно говорить о сцепленности генов и взаимной их работе, у нас был участок пересечения
генов (в таблице обозначено красным цветом), но как оказалось ген который там возможно был
закодирован, является гипотетическим (Hipotetical protein), и в моем варианте
расположения в последовательности генов его использовать не будем. Далее следуют опять же, по-видимому,
сцепленные гены fimD и fimF, оторые и в ECOLI шли в той же последовательности. Кроме этих хороших
(похожих на правду) результатов, были получены также данные о некоторых начальных генах, но об
этом уже сложно что-либо сказать, так как в кишечной палочке они расположены далеко друг
от друга.
3'------------------------------------------------------------[<=ген fliY, 1156 - 2052]---5'
5'-[=>ген hdhA, 10 - 318]-----------------------------------------------------------------3'
3'----------------------------------------------------------------------------------------5'
5'-[=> ген fimZ, 2262 - 2969]-----[ => ген fimA, 3034-3621]------[ =>ген fimC, 3666-4331]-3'
3'----------------------------------------------------------------------------------------5'
5'--[ => ген fimD, 4361 - 6898]-----------------------------------------------------------3'
3'-----------------------[ <= ген fimD, 9039 - 7948]------------[ <= ген fimF, 9997-9050]-5'
5'----------------------------------------------------------------------------------------3'
Эта схема еще раз показывает, что выделенные оранжевым и красным группы генов похожи на сцепленные.
Таким образом, мы видим, что при помощи программы Blast (можно было пользоваться различными
программами из этого пакета) можно искать гены в не аннотированных последовательностях,
но для полной уверенности, что наша работа имеет смысл, необходимы экспериментальные подтверждения
гипотез, которые возникают при использовании программы BLAST.