Построение и анализ дерева, содержащего паралоги
Необходимо найти в своих бактериях достоверные гомологи белка FTSH_ECOLI и построить дерево этих гомологов.
Чтобы найти гомологов в заданных организмах, я воспользовалась файлом proteo.fasta (на диске P), там лежат записи банка UniProt,
относящиеся к протеобактериям, перечисленным в таблице к заданию 1.
Мне необходимо провести поиск программой BLASTP гомологов (с разумным порогом на E-value, скажем, 0,0001)
и отобрать по мнемонике видов только те находки, которые относятся к отобранным вами бактериям.
Сначала я создала индексные файлы пакета BLAST для поиска по набору белков:
formatdb -i proteo.fasta -p T -n prot
Затем создала отдельный файл с последовательностью FTSH_ECOLI
ftsh.fasta
Потом запустила программу BLASTP с пороговым значением E-value 0,0001:
blastall -p blastp -d prot -i ft.fasta -o out.txt -e 0.0001
Программа выдала следующий результат.
Я отобрала по мнемонике видов только те находки, которые относятся к отобранным мной бактериям.:
FTSH_SALTY;B4F2B3_PROMH;Q9KU86_VIBCH;B5FA73_VIBFM;A1IR46_NEIMA;Q9XBG5_BRAJA;Q1BXC9_BURCA;
Q1BNJ2_BURCA;Q89BR3_BRAJA;B5FCR8_VIBFM;HSLU_BRAJA;Q89KG3_BRAJA;HSLU_SALTY;HSLU_VIBFM;HSLU_PROMH.
Далее было проведено выравнивание последовательностей гомологов программой muscle.
Затем полученный файл я предоставила программе fprotpars, использовав команду
fprotpars -sequence gomolog_aligned.fasta
Полученное дерево:
+--HSLU_SALTY
+-14
+-13 +--HSLU_PROMH
! !
+-12 +-----HSLU_VIBFM
! !
+-------------------------11 +--------HSLU_BRAJA
! !
! +-----------Q89KG3_BRA
!
! +-----------------Q1BXC9_BUR
! !
! +--8 +--------------A1IR46_NEI
! ! ! !
+-10 ! ! ! +--Q9KU86_VIB
! ! ! +--9 +-----7
! ! ! ! ! +--B5FA73_VIB
! ! ! ! +--6
! ! +--3 ! ! ! +--B4F2B3_PRO
! ! ! ! +--4 +-----5
! ! ! ! ! +--FTSH_SALTY
1 ! ! ! !
! +--------------2 ! +-----------Q9XBG5_BRA
! ! !
! ! +--------------------Q1BNJ2_BUR
! !
! +-----------------------Q89BR3_BRA
!
+-----------------------------------------B5FCR8_VIB
Можно выделить примеры пар ортологов: 14ая ветвь - HSLU_SALTY и HSLU_PROMH; 13ая-12ая ветви - HSLU_VIBFM и HSLU_BRAJA.
Пример пары паралогов: 7ая ветвь - Q9KU86_VIB и B5FA73_VIB.
Примечание. Два гомологичных белка будем называть ортологами, если они
а) из разных организмов; б) разделение их общего предка на линии, ведущие к ним, произошло в результате видообразования.
Два гомологичных белка из одного организма будем называть паралогами.