Построение дерева по нуклеотидным последовательностямНеобходимо добыть последовательности 16S рибосомальной РНК каждой из бактерий, которые были выбраны при выполнении предыдущего задания.Из записей EMBL, соответствующих геномам отобранных ранее бактерий, для каждой из них была извлечена последовательность одной из 16S рРНК.
Все последовательности были собраны в один файл.
После этого они были выровнены с помощью программы muscle. muscle -in 16s.fasta -out 16s_aligned.fasta Полученное выравнивание: смотреть
Затем выравнивание было подано на вход программам, реконструирующим филогенетическое дерево. Первой была выполнена команда: fdnaml -sequence 16s_aligned.fasta Дерево, полученное программой fdnaml:
+---AGRRK_RNA +-----1 | +--RHOS4_RNA | | +YERPE_RNA | +-----5 | | | +-ECOLI_RNA 2--3 +--4 | | +-ERWCT_RNA | | | +----PSEAE_RNA | +-------RALPJ_RNA Потом я выполнила команду: fdnapars -sequence 16s_aligned.fasta Дерево, полученное программой fdnapars:
+-ECOLI_RNA +---4 | | +YERPE_RNA +--3 +--5 | | +-ERWCT_RNA | | | +----PSEAE_RNA | | +------RHOS4_RNA 1-----2 | +-----AGRRK_RNA | +-----RALPJ_RNAС помощью программы fprotdist была получена матрица расстояний для этих последовательностей: fdnadist -sequence 16s_aligned.fasta
RALPJ_RNA 0.000000 0.256243 0.260088 0.208818 0.232543 0.228903 0.225732 AGRRK_RNA 0.256243 0.000000 0.126167 0.228093 0.243902 0.251076 0.254306 RHOS4_RNA 0.260088 0.126167 0.000000 0.199664 0.239584 0.242342 0.226821 PSEAE_RNA 0.208818 0.228093 0.199664 0.000000 0.176693 0.173772 0.181109 ERWCT_RNA 0.232543 0.243902 0.239584 0.176693 0.000000 0.051043 0.045336 ECOLI_RNA 0.228903 0.251076 0.242342 0.173772 0.051043 0.000000 0.055912 YERPE_RNA 0.225732 0.254306 0.226821 0.181109 0.045336 0.055912 0.000000Далее эту матрицу расстояний подаем на вход программе ffitch: ffitch 16s_aligned.fdnadist Полученное дерево выглядит следующим образом:
+ECOLI_RNA +----4 ! ! +-YERPE_RNA +-3 +-5 ! ! +ERWCT_RNA ! ! ! +----PSEAE_RNA ! ! +----AGRRK_RNA 2---1 ! +---RHOS4_RNA ! +------RALPJ_RNA
Все неукорененные деревья по множеству нетривиальных ветвей совпадают с правильным, изображенным на картинке ниже.
Построение и анализ дерева, содержащего паралогиСледующей задачей было найти гомологов белка FTSH_ECOLI в выбранных организмах. Чтобы найти гомологов в заданных организмах, я воспользовалась файлом proteo.fasta на диске P, там лежат записи банка UniProt, относящиеся к протеобактериям, перечисленным в таблице к заданию 1. Необходимо провести поиск программой BLASTP гомологов (с разумным порогом на E-value, скажем, 0,0001) и отобрать по мнемонике видов только те находки, которые относятся к отобранным вами бактериям. Сначала были созданы индексные файлы пакета BLAST для поиска по набору белков: formatdb -i proteo.fasta -p T -n prot Далее была запущена программа BLASTP с пороговым значением E-value 0,0001: blastall -p blastp -d prot -i ft.fasta -o out.txt -e 0.0001, где ft.fasta - последовательность FTSH_ECOLI Результат работы программы можно посмотреть здесь Найденные гомологи: FTSH_ECOLI, FTSH_SALTY, Q6D9B8_ERWCT, Q0WBE7_YERPE, Q9HV48_PSEAE, B9J9H1_AGRRK, B2UGP9_RALPJ, Q3J045_RHOS4, B2UE66_RALPJ, B2UIS9_RALPJ, Q9I5R4_PSEAE, B9JPL8_AGRRK, B2U6W7_RALPJ, HSLU_RALPJ, B9JD33_AGRRK, HSLU_RHOS4, HSLU_YERPE, HSLU_PSEAE, HSLU_ECOLI.Последовательности гомологов можно просмотреть здесь Последовательности находок были преобразованы программой muscle: muscle -in gomologi.fasta -out gomologi_aligned.fasta После этого полученный файл был предоставлен программе fprotpars: fprotpars -sequence gomologi_aligned.fasta Программа предложила дерево такого вида:
+-----FTSH_ECOLI +-16 ! ! +--Q6D9B8_ERW +-15 +-17 ! ! +--Q0WBE7_YER +----14 ! ! ! +--------Q9HV48_PSE ! ! +----13 +-----------B2UGP9_RAL ! ! ! ! +--Q3J045_RHO +-11 +-------------12 ! ! +--B9J9H1_AGR ! ! +--------------------9 ! +--B2UIS9_RAL ! ! +-------------------10 ! ! +--B2UE66_RAL ! ! ! +--------------------------B2U6W7_RAL +--6 ! ! +--B9JPL8_AGR ! ! +--------------8 ! ! ! +--Q9I5R4_PSE ! ! ! ! ! ! +--HSLU_ECOLI ! +-----------------------------7 +-----5 1 ! ! +--HSLU_YERPE ! ! +--4 ! ! ! ! +--HSLU_PSEAE ! +-----2 +-----3 ! ! +--HSLU_RALPJ ! ! ! +-----------HSLU_RHOS4 ! +--------------------------------------------------B9JD33_AGR remember: this is an unrooted tree! requires a total of 7862.000Если считать реконструкцию последнего дерева верной, тогда :
Паралоги - 2 гомологичных белка из одного организма. |