Анализ деревьев, содержащих паралоги.
Особенности работы с нуклеотидными последовательностями.

1. Построение дерева по нуклеотидным последовательностям.

Построим филогенетическое дерево бактерий, выбранных в прошлых заданиях, используя последовательности РНК малой субъединицы рибосомы (16S rRNA). Для этого найдем последовательности 16S рибосомальной РНК каждой из бактерий.

В записи EMBL, описывающей полный геном бактерии, найдем соответствующую "особенность" (FT), она имеет ключ (FTkey) "rRNA" и
в описании: /note="16S rRNA". Ссылку на запись EMBL, описывающую полный геном, проще всего найти в записи Swiss-Prot, описывающей какой-нибудь белок. Часто в геноме имеется несколько копий рРНК, берем только одну.

Переместим все последовательности в единый файл в fasta-формате, с названиями, отвечающими организмам, и произведем их выравнивание программой muscle, получим выровненные последовательности.

Воспользуемся программой из пакета PHYLIP на kodomo-count -- fdnaml. На выходе получаем скобочную версию дерева и изображение:

Дерево от "верного" отличается вынесением ветки ERWCT по отношению к (((SALTY:,ECOLI),YERPE),PROMH), оно также отличается от других построенных деревьев (с использованием последовательностей) - неправильное расположение ERWCT. Конечно, огорчает,что не получилось совпадения ни с одним из деревьев, но это весьма ожидаемо, так как мутации в н.к. могут быть и скрытыми.

2. Построение и анализ дерева, содержащего паралоги.

Найдем в бактериях, выбранных ранее, достоврные гомологи белка FTSH_ECOLI.

Для того, чтобы найти гомологов в заданных организмах, воспользуемся файлом proteo.fasta, в нем находятся забиси банка UniProt по предоставленным протеобактериям.

Вначале получим файл с последовательностью белка FTSH_ECOLI в fasta-формате с помощью команды:

seqret sw:FTSH_ECOLI

Получили файл с последовательностью белка. Теперь проведем поиск программой BLASTP гомологов (с порогом на E-value 0,0001) и отберем по мнемонике видов только те находки, которые относятся к отобранным нами бактериям.

Для этого сначала создадим индексные файлы пакета BLAST, для этого воспользуемся командой:

formatdb -i proteo.fasta -p T -n index

Далее проводим поиск гомологов программой BLASTP c порогом E-value, равным 0.0001, с помошью команды:

blastall -p blastp -d index -i ftsh.fasta -o pblast.fasta -e 0.0001

На выходе получили файл с гомологами белка FTSH_ECOLI. Теперь выберем из них те, которые мы отобрали в первом задании, полученный файл сохраним.

Теперь с помощью программы seqret получим последовательности выбранных белков. Полученный файл подадим на вход muscle и получим выровненные последоваельности.
Затем используя программу fprotpars, получили филогенитическое дерево гомологов и его скобочную модель.

Если внимательно просмотреть это дерево, то легко понять, что оно повторяет деревья, построенные с помощью UPGMA, Neighbor-Joining, fprotpars в первом задании.

Если считать, что дерево реконструированно верно, то мы можем указать ортологи и паралоги.

Два гомологичных белка будем называть ортологами, если они а) из разных организмов; б) разделение их общего предка на линии, 
ведущие к ним, произошло в результате видообразования. Два гомологичных белка из одного организма будем называть паралогами.

Ортологи:

HSLU_SALTY и HSLU_ECOLI;
Q6D9B8_ERWCT и Q0WBE7_YERPE;
Q8KKT3_RHIEC и B5FCR8_VIBFM.

Паралоги:

HSLU_SALTY и FTSH_SALTY;
HSLU_VIBFM и B5FCR8_VIBFM;
Q0WBE7_YERPE и HSLU_YERPE.


©Пискунова Юлия 2010