| |||||||||||||||
  |   |
Программы пакета BLAST для работы с нуклеотидными последовательностями1. Поиск в геноме участков, кодирующих белки, похожие на заданныйЗадан белок OTC1_ECOLI из Escherichia coli K-12. Имеем аминокислотную последовательность этого белка: otc1_ecoli.fasta.Для поиска в геноме Xanthomonas campestris участков, кодирующих сходные с заданным белки, будем использовать программу TBLASTN. Создадим в рабочей директории индексные файлы BLAST для нужного генома: formatdb -i xc_genome.fasta -n xc -p FПорог E-value устанавливаем равным 0,001. В командную строку вводим следующее: blastall -p tblastn -d xc -i otc1_ecoli.fasta -o homologs.txt -e 0.001В результате получаем файл с результатами поиска: homologs.txt. По данным из этого файла заполним таблицу: Поиск гомологов белка OTC1_ECOLI в геноме Xanthomonas campestris
2. Нахождение записи EMBL по последовательности с помощью программы BLASTNСоздадим с помощью программы seqret файл с последовательностью лучшей находки из прошлого задания: sequence.fasta.Затем проведем поиск этой последовательности по банку "EMBL standard prokaryote" на сайте EBI (http://www.ebi.ac.uk/Tools/). Из списка результатов выберем первую последовательность (AC записи в EMBL: CP000050). Выравнивание первой находки с последовательностью, по которой проводился поиск, находится здесь. Видно, что нам необходим участок последовательности с координатами 2263153 - 2264151. Теперь при помощи entret создадим соответствующий файл EMBL (cp000050.entret), а в нем в поле FT найдем указанный участок последовательности: FT gene 2263144..2264163 FT /locus_tag="XC_1869" FT /note="XC1869" FT CDS 2263144..2264163 FT /codon_start=1 FT /transl_table=11 FT /locus_tag="XC_1869" FT /product="ornithine carbamoyltransferase" FT /db_xref="GOA:Q4UVJ1" FT /db_xref="InterPro:IPR006131" FT /db_xref="UniProtKB/TrEMBL:Q4UVJ1" FT /protein_id="AAY48932.1" FT /translation="MSLKHFLNTQDWSRAELDALLTQAALFKRNKLGSELKGKSIALVF FT FNPSMRTRTSFELGAFQLGGHAVVLQPGKDAWPIEFNLGTVMDGDTEEHIAEVARVLGR FT YVDLIGVRAFPKFVDWSKDREDQVLKSFAKYSPVPVINMETITHPCQELAHALALQEHF FT GTPDLRGKKYVLTWTYHPKPLNTAVANSALTIATRMGMDVTLLCPTPDYILDERYMDWA FT AQNVAESGGSLQVSHDIDSAYAGADVVYAKSWGALPFFGNWEPEKPIRDQYQHFIVDER FT KMALTNNGVFSHCLPLRRNVKATDAVMDSPNCIAIDEAENRLHVQKAIMAALVGQSRP"Как видим, искомый участок является частью аннотированной кодирующей последовательности, координаты которой 2263144..2264163. Эта CDS соответствует записи Q4UVJ1 в UniProt и кодирует орнитинкарбамоилтрансферазу. 3. Поиск гомологов с помощью программы BLASTNСначала получаем последовательность из генома E. coli, кодирующую исследуемый белок OTC1_ECOLI. Для этого при помощи entret получим запись EMBL c кодом доступа X00210 (см. задание по EMBL, пункт 4):entret embl:X00210 -autoВ результате получен файл x00210.entret. Отсюда узнаем координаты CDS - это позиции 81..1085. Затем из записи EMBL вырезаем участок последовательности с этими координатами: seqret "embl:X00210[81:1085]"Получен файл с нужной нам последовательностью: x00210.fasta. Далее при помощи BLASTN будем искать гомологи этого гена в геноме Xanthomonas campestris: blastall -p blastn -d xc -i x00210.fasta -o homologs2.txtЗдесь предел значения E-value указывать не будем. В результате найдено 17 последовательностей с неприлично высокими значениями E-value: у первых двух находок 1.0, у остальных 4.0 (см. в файле homologs2.txt). Рассмотрим первую из находок с E-value = 1.0: >AE012538 AE008922 Xanthomonas campestris pv. campestris str. ATCC 33913, section 446 of 460 of the complete genome. Length = 10676 Score = 32.2 bits (16), Expect = 1.0 Identities = 16/16 (100%) Strand = Plus / Plus Query: 280 gcccgcgtgcttggtc 295 |||||||||||||||| Sbjct: 6703 gcccgcgtgcttggtc 6718Лучшая находка BLASTN не совпадает с лучшей находкой TBLASTN из п.1, они находятся в разных сегментах генома (здесь это 446-й, в п.1 был 240-й). Как видим, BLASTN находит практически идентичные, но очень короткие участки последовательностей. Сходства между более-менее удаленными друг от друга гомологами эта программа не видит: в списке результатов нет двух последовательностей, найденных в пункте 1 программой TBLASTN. В отличие от TBLASTN, здесь выравниваются не аминокислотные, а нуклеотидные последовательности, и не учитывается то, что разные триплеты могут кодировать одну и ту же аминокислоту. Кроме того, при выравнивании аминокислотных последовательностей учитывается также сходство аминокислот в случае неидентичности, а здесь выравниваются только одинаковые нуклеотиды. 4. Работа с программой getorf пакета EMBOSSПри помощи программы entret получим файл с записью D89965 банка EMBL: d89965.entret.entret embl:D89965 -autoЗатем, пользуясь бактериальныи кодом, получим из этой записи набор трансляций всех открытых рамок (ORF) данной последовательности длиной более 30 нуклеотидов. Открытой рамкой будем считать последовательность триплетов, начинающуюся со старт-кодона и заканчивающуюся стоп-кодоном. Для этого в командную строку вводим следующую команду: getorf -table 11 -find 1Минимальный размер рамки в 30 нуклеотидов задан по умолчанию. Выходной файл: d89965.orf. Данная запись EMBL ссылается на запись Swiss-Prot с кодом доступа P0A7B8. Ей соответствует 13-я рамка. Кроме того, 5-я рамка соответствует CDS, приведенной в рассматриваемой записи EMBL. 5. Поиск некодирующих последовательностей программой BLASTNВ файле trna_ecoli.fasta лежат последовательности всех тРНК, проаннотированных в полном геноме E.coli K12. Задача — определить, сколько гомологов каждой из тРНК находит программа BLASTN в геноме родственной бактерии Xanthomonas campestris.Вначале при помощи blastn найдем сходные последовательности в заданном геноме: blastall -p blastn -d xc -i trna_ecoli.fasta -m 8 -o rna.txtВыходной файл: rna.txt. Далее при помощи grep найдем число находок для каждой последовательности тРНК из E.coli. Для этого сначала нужно получить список этих тРНК командой grep ">" trna_ecoli.fasta >> names.txt(список лежит в файле names.txt), затем для каждой последовательности из списка ввести команду grep -c 'valV' rna.txt >> counter.txtИз списка таких команд для всех тРНК, пользуясь функцией Excel CONCATENATE ("СЦЕПИТЬ"), составляем скрипт Теперь проведем еще один поиск с пороговым E-value = 0.001. Результаты поиска находятся в файле rna2.txt. Аналогично при помощи скрипта script2.scr получим для каждой тРНК E.coli число находок с заданным пороговым E-value (в файле counter2.txt). Таблица Excel с результатами обоих поисков: trna.xls 6. Поиск некодирующих последовательностей программой megablastНеобходимо повторить предыдущее задание, используя вместо BLASTN megablast. Для этого нужно ввести команду:megablast -d xc -i trna_ecoli.fasta -m 8 > mb.txtВыходной файл: mb.txt Discontigous megablast: megablast -d xc -i trna_ecoli.fasta -m 8 -W 11 -t 16 -N 1 > mb_d.txtВыходной файл: mb_d.txt Для discontigous megablast дополнительно указываем следующие значения опций: -t - длина слов из тРНК, которые будут искаться в геноме (может равняться 16, 18 либо 21, мы выберем 16); -W - длина слов из генома бактерии, по которым идет поиск последовательности (может равняться 11 или 12, выбираем 11); -N - задает тип разрывов в матрице (может принимать значения 0, 1, 2, мы выберем 1). Далее при помощи скриптов script3.scr и script4.scr получим из выдач megablast списки чисел находок и добавим эти данные в таблицу trna.xls. Сравнение результатов megablast и blastall Возьмем тРНК leuZ, которую нашел BLASTN и не нашел megablast. BLASTN выровнял с этой тРНК (позиции 1-45) участок генома Xenthomonas campestris AE012315 (позиции 5511-5555, т.е. это участок прямой цепи): >AE012315 AE008922 Xanthomonas campestris pv. campestris str. ATCC 33913, section 223 of 460 of the complete genome. Length = 11231 Score = 42.1 bits (21), Expect = 8e-05 Identities = 39/45 (86%) Strand = Plus / Plus Query: 1 gcccggatggtggaatcggtagacacaagggatttaaaatccctc 45 |||||| ||| | ||| ||||||| ||||||| |||||||||||| Sbjct: 5511 gcccgggtggcgaaattggtagacgcaagggacttaaaatccctc 5555При помощи seqret вырежем эти участки в отдельные файлы:leuZ.fasta и AE012315.fasta и выровняем их с помощью needle: needle leuZ.fasta AE012315.fasta leuZ.needleПолучилось выравнивание: ######################################## # Program: needle # Rundate: Tue 29 Dec 2009 13:44:49 # Commandline: needle # [-asequence] leuZ.fasta # [-bsequence] AE012315.fasta # [-outfile] leuZ.needle # Align_format: srspair # Report_file: leuZ.needle ######################################## #======================================= # # Aligned_sequences: 2 # 1: leuZ # 2: AE012315 # Matrix: EDNAFULL # Gap_penalty: 10.0 # Extend_penalty: 0.5 # # Length: 45 # Identity: 39/45 (86.7%) # Similarity: 39/45 (86.7%) # Gaps: 0/45 ( 0.0%) # Score: 171.0 # # #======================================= leuZ 1 gcccggatggtggaatcggtagacacaagggatttaaaatccctc 45 ||||||.|||.|.|||.|||||||.|||||||.|||||||||||| AE012315 1 gcccgggtggcgaaattggtagacgcaagggacttaaaatccctc 45Видим, что гэпов нет вообще и процент идентичности довольно высок (86,7%). При этом E-value меньше 0,001. Это говорит о том, что это выравнивание биологически осмысленно. Эти гомологичные участки не были найдены megablast'ом, т.к. в выравнивании нет полностью совпадающих участков длины 28. Таким образом, megablast нельзя применять для поиска таких коротких последовательностей. Нужный нам участок генома Xanthomonas campestris - позиции 2463969 - 2464013. Он проаннотирован так: FT gene 2463969..2464052 FT /locus_tag="XCC2091" FT tRNA 2463969..2464052 FT /locus_tag="XCC2091" FT /product="tRNA-Leu" FT /note="Found by tRNAscan" Назад |