Занятие 5 (зачетное) Что кодирует фрагмент нуклеотидной последовательности?

На главную страницу семестра

Дано: фрагмент не аннотированного генома бактерии Klebsiella pneumoniae (последовательность генома. а границы фрагментов и вариант задания 3909583 - 3919582 (10000 нуклеотидов) . Дан также протеом и геном бактерии-прототипа.

Последовательность действий:

Получили данные об исследуемой нуклеотидной последовательности. Получили данные о нуклеотидной последовательности Escherichia coli K-12.
Получили заданный фрагмент генома Klebsiella pneumoniae из файла kpn_genome.fasta с помощью программы seqret.
Вытащили при помощи команды seqret sw:*_ECOLI из банка SwissProt последовательности всех белков, имеющих ID, заканчивающееся на ECOLI. Поскольку кишечная палочка - хорошо изученный организм, практически весь её протеом помещён в SwissProt. Файл вы можете посмотреть здесь.
По полученному банку данных белковых последовательностей создали индексные файлы с общим названием 3mgt.
Также были созданы индексные файлы для нуклеотидной последовательности ecoli ( правда они не использовались, так как мы пошли по другому пути поиска, а именно по протеомному, хотя можно было искать и по нуклеотидным последовательностям).
Пои помощи программы getorf пакета EMBOSS предназначенной для поиска открытых рамок считывания в исследуемой нуклеотидной последовательности, получили возможные белковые последовательности, при этом трансляции всех открытых рамок считывания были длиной не менее 240 нуклеотидов. При этом использовался стандартный для бактерий (bacterial) генетический код, открытой рамкой считывали последовательность, начинающуюся со старт-кодона и заканчивающуюся стоп-кодоном. Получили файл orf1.fasta
При помощи команды grep вывели в файл res1.txt cоздали список ORF-ов исследуемого фрагмента и импортировали его в Excel. В этом списке присутствует вся нужная информация, кроме информации о сходных последовательностях из SwissProt.
Теперь мы непосредственно подошли к задаче. Надо выбрать программу для поиска. Необходимым требованиям удовлетворяет программа BLASTP, которая будет искать последовательности из исследуемого участка схожие с участками из аннотированного белка.
Для поиска одного белка в нашей базе данных необходимо выполнить команду:
blastall -p blastp -d 3mgt -i filename.fasta -e 0.001 -o result.txt.
Для белка DPO3E_ECOLI(мой белок)программа находит необходимые схожие участки (один хороший, а один не очень).
При помощи программы grep посчитали, сколько соответствует находок (искали по слову Identities), результат совпал с реальным.
Теперь чтобы мы могли сразу получить результат, без предварительного получения файла результатов, нам необходимо создайте конвейер blastall > grep, который сразу (без создания выходного файла BLAST) выдает число находок. Это можно выполнить командой:
blastall -p blastp -d 3mgt -i filename.fasta -e 0.001|grep -c Identities
Создание скрипта. Для начала приведем несколько строчек из уже созданного скрипт, а затем поясним полученное.
```
seqret orf2.fasta:KPN2Jun2003_1  stdout | blastall  -p blastp -d 3mgt -e 0.001  |grep -c Identities >> count.txt
seqret orf2.fasta:KPN2Jun2003_2  stdout | blastall  -p blastp -d 3mgt -e 0.001  |grep -c Identities >> count.txt
seqret orf2.fasta:KPN2Jun2003_3  stdout | blastall  -p blastp -d 3mgt -e 0.001  |grep -c Identities >> count.txt
seqret orf2.fasta:KPN2Jun2003_4  stdout | blastall  -p blastp -d 3mgt -e 0.001  |grep -c Identities >> count.txt
seqret orf2.fasta:KPN2Jun2003_5  stdout | blastall  -p blastp -d 3mgt -e 0.001  |grep -c Identities >> count.txt
```
Скрипт - это текстовый файл, который операционная система понимает как последовательно выполняемые команды. Каждая команда в скрипте приводится в виде отдельной строки. Итак, надо создать текстовый файл, в котором каждая строка представляла бы собой конвейер, аналогичный написанному в предыдущем пункте, но с очередным ORF'ом в качестве входной последовательности. Придется сначала создать вход для blastall программой seqret, в результате получаем seqret orf2.fasta:KPN2Jun2003_N (где N в моем случае числа от 1 до 36), то есть из моего файла orf2.fasta выбираем необходимую строчку. Результат - на стандартный вывод идет только последовательность с нужным именем. (Все программы EMBOSS могут выдать свой результат на stdout, если задать "stdout" в качестве имени выходного файла, следствием чего в строке следует stdout). А далее идет уже собственно команда, которая конвеерно передается на grep, и мы получаем требуемый результат (важно, что не надо вводить имени файла, а так же то, что расстояние между отдельными частями скрипта должно соответствовать команде UNIX). В результате мы получаем скрипт файл.
Гипотетические гены в исследуемом фрагменте
Рассмотрим результаты, полученные при использовании скрипта.
Взглянув на таблицу Excel, мы можем убедиться, что наши участки пердположительных генов не пересекаются, что очень хорошо (только в одном месте есть небольшое перекрывание). Генов 9. На странице res2 таблицы EXCEL вы можете найти данные о возможных белковых последовательностях, которые встретились в моем участке нуклеотидной последовательности. Получались они таким образом: бралась строчка из скрипта, но теперь, мы не перенаправляли файл на подсчет, а просто сохраняли выравнивние в файле, таким образом было получено 9 файлов содержащих локальные выравнивания, затем выбирались наилучшие выравнивания с белковыми последовательностями, а для них в аннотированном геноме ECOLI искались уже названия генов (для гена fimC соответствовало второе выравнивание, то есть не лучшее, но, во-первых, лучшее выравнивание не сильно отличалось, во-вторых, в описаниях было сказано, что белки схожи). Задачу можно было бы облегчить, создав еще один скрипт файл, который бы доставал необходимые выравнивания в файлы.

Рассмотрим теперь, что мы получили, в глаза сразу бросаются гены из группы fim (fimA,fimC,fimD,fimZ, fimF), важно и то что гены fimA, C, D идут в той же последовательности, что и в геноме кишечной палочки, что можно говорить о сцепленности генов и взаимной их работе, у нас был участок пересечения генов (в таблице обозначено красным цветом), но как оказалось ген который там возможно был закодирован, является гипотетическим (Hipotetical protein), и в моем варианте расположения в последовательности генов его использовать не будем. Далее следуют опять же, по-видимому, сцепленные гены fimD и fimF, оторые и в ECOLI шли в той же последовательности. Кроме этих хороших (похожих на правду) результатов, были получены также данные о некоторых начальных генах, но об этом уже сложно что-либо сказать, так как в кишечной палочке они расположены далеко друг от друга.
```
3'------------------------------------------------------------[<=ген fliY, 1156 - 2052]---5'

5'-[=>ген hdhA, 10 - 318]-----------------------------------------------------------------3'




3'----------------------------------------------------------------------------------------5'

5'-[=> ген fimZ, 2262 - 2969]-----[ => ген fimA, 3034-3621]------[ =>ген fimC, 3666-4331]-3'





3'----------------------------------------------------------------------------------------5'

5'--[ => ген fimD, 4361 - 6898]-----------------------------------------------------------3'




3'-----------------------[ <= ген fimD, 9039 - 7948]------------[ <= ген fimF, 9997-9050]-5'

5'----------------------------------------------------------------------------------------3'
```
Эта схема еще раз показывает, что выделенные оранжевым и красным группы генов похожи на сцепленные.

Таким образом, мы видим, что при помощи программы Blast (можно было пользоваться различными программами из этого пакета) можно искать гены в не аннотированных последовательностях, но для полной уверенности, что наша работа имеет смысл, необходимы экспериментальные подтверждения гипотез, которые возникают при использовании программы BLAST.

Занятие 5 (зачетное) Что кодирует фрагмент нуклеотидной последовательности?

Последовательность действий:

Гипотетические гены в исследуемом фрагменте