Главная страница > Третий семестр > Предсказание генов в участке генома бактерии Yersinia intermedia  

Предсказание генов в участке генома бактерии Yersinia intermedia


Выполненные действия

С помощью программы seqret был получен фрагмент генома Yersinia intermedia длиной 7000 bp(1-7000 в записи EMBL AALF01000001).

Команда: seqret AALF01000001.embl -sask

Для проведения поиска из SwissProt был получен полный протеом E.coli. Данная операция была выполнена также с помощью программы seqret.

Команда: seqret sw:*_ecoli > proteom_ecoli.txt

По полученному полному протеому E.coli были созданы индексные файлы. Данная операция была выполнена с помощью программы formatdb

Команда: formatdb -i proteom_ecoli.txt -p T -n ec

Далее с помощью программы getorf было произведено извлечение из моего фрагмента трансляций всех открытых рамок считывания, длиной не менее 240 нуклеотидов.

Команда:getorf -sequence genome.fasta -outseq orf.txt -table 11 -minsize 240 -find 1

После этого был создан скрипт, позволяющий осуществить следующую последовательность действий:


Обоснование выбора программы и типа данных, по которым велся поиск

Основная цель данного занятия - по заданному участку генома Yersinia intermedia, определить кодирует ли этот участок что-либо из похожее на какой-либо белок из E.coli. Как видно из вышеописанных команд, поиск производился по белковым последовательностям(для построения локального выравнивания использовалась программа BLASTP). Почему же была выбрана программа BLASTP, а не TBLASTN? Во-первых, это было сделано для уменьшения времени на выполнение задания. Так как BLASTP строит локальные выравнивания для белковых последовательностей, чья длина обычно составляет не более не более тысячи аминокислотных остатков, то сам процесс построения займет у нее гораздо меньше времени, чем он занял бы у TBLASTN, которая обычно оперирует нуклеотидными последовательностями длиной более миллиона оснований(т.е. сначала транслирует их в шести рамках, а потом полученные трансляты еще и выравнивает с каждой открытой рамкой считывания). Во-вторых, программа TBLASTN может давать некоторое количество ложных находок за счет случайных совпадений, что при оперировании такими большими числами не исключено.

Но, с другой стороны, BLASTP зачастую дает достаточно "туманные" координаты генов. Это вполне объяснимо. Ведь зачастую в клетке функционируют белки не полностью соответствующие их нуклеотидной последовательности. После трансляции они зачастую(кроме, наверное некоторых белков цитоскелета, которые синтезируются на свододных рибосомах) попадают в эндоплазматический ретикулум, а затем в комплекс Гольджи, где с ними могут происходить различные изменения: от ацетилирования, фосфорилирования, гликозилирования до отщепления специфическими пептидазами небольших фрагментов белка с N-терминального конца. Именно посттрансляционная модификация и не дает определить координаты гена с помощью BLASTP со стопроцентной точностью.

Таким образом оптимальным вариантом определения кодирует ли фрагмент генома что-либо, было бы сопоставление результатов работы двух программ: BLASTP и TBLASTN.

Для 21 открытой рамки считывания, найденной в данном фрагменте длиной 7000 bp было найдено всего лишь 4 схожих последовательности(то бишь гена) у E.coli(3 принадлежат одной открытой рамке считывания, а 1 другой). Более того длина 2 схожих последовательности у E.coli более 7000 bp(эти две схожих последовательности представляют собой ген yeeJ) и не имеет смысла включать кусок гена во фрагмент, т.к. ген не будет находиться в нем полностью. Таким образом у нас остается две сходных последовательности(гены ychO и eaeH). Интересно, что ген eaeH в записи Escherichia coli K12 MG1655 даже толком не аннотирован. И координаты этих двух генов в выравнивании практически совпадают(см. выравнивание одной рамки). Данное обстоятельство может быть вызвано большим сходством белков, кодирующихся данными генами. Таким образом мне осталось выбрать из этих двух генов ген с меньшей e-value(у ychO e-value=1e-76, а у eaeH e-value=2e-55), что я и сделал. Гипотетический ген в данном фрагменте 1-7000:

Таблица1.


3'-------------------------------------------------5'

5'-------------[=>ген ychO, 1670-3943]-------------3'


Что касается расположения схожих генов у E.coli, то можно сказать, что гены располагаются в совершенно разных учасках генома. Интересно, что гены ychO и eaeH тоже отдалены друг от друга. Это необычно, поскольку обычно гены очень схожих белков(как по структуре так и по функции) располагаются рядом(по крайней мере у эукариот),например, глобиновые гены, гены гистонов и рРНК человека, которые имеют кластерную структуру(т.е. сразу несколько генов располагаются друг за другом в одном небольшом участке ДНК - кластере). Расположение этих же генов в геноме E.coli представлено в Таблице2.

Таблица2.


3'---------------------------------------------------------------------------------------------5'

5'--[=>ген eaeH, 313581-314452]--[=>ген ychO, 1273007-1274401]--[=>ген yeeJ, 2042935-2050038]--3'


© Алипер Александр Миронович