1. Работа с программой getorf пакета EMBOSS

Выполнена команда:

getorf -sequence d89965.fasta -minsize 30 -table 0 -find 1 -outseq d89965.orf

Программа getorf осуществляет поиск открытых рамок считывания последовательности

 -sequence d89965.fasta              	файл с последовательностью на вход
-minsize 30 минимальная длина рамки (по умолчанию 30)
-table 0 таблица генетических кодов (можно не писать, по уполчанию 0)
-find 1 открытая раамка считывания включает стоп-кодон
-outseq d89965.orf файл с результатом
Пользуясь поиском BLASTP кодирующей последовательности, приведенной в поле FT записи d89965, в выдаче getorf, получил:
Subject= D89965.1_5 [163 - 432] Rattus norvegicus mRNA for RSS, complete cds.

Length=90


 Score =  190 bits (482),  Expect = 1e-54, Method: Compositional matrix adjust.
 Identities = 90/90 (100%), Positives = 90/90 (100%), Gaps = 0/90 (0%)

Query  1   MALMHFQFTFKQFEQRKSIRSTARKARDDFVVVQTADLFHVAFHYGIAQRGLTITSDDHM  60
           MALMHFQFTFKQFEQRKSIRSTARKARDDFVVVQTADLFHVAFHYGIAQRGLTITSDDHM
Sbjct  1   MALMHFQFTFKQFEQRKSIRSTARKARDDFVVVQTADLFHVAFHYGIAQRGLTITSDDHM  60

Query  61  AVTAYAYYSCHELTPWLRIQSTNPVQKYGA  90
           AVTAYAYYSCHELTPWLRIQSTNPVQKYGA
Sbjct  61  AVTAYAYYSCHELTPWLRIQSTNPVQKYGA  90
Таким образом, рамка D89965.1_5 соответствует кодирующей последовательности.
Последовательности из Swiss-Prot соответствует 9 рамка.
Query= sp|P0A7B8|HSLV_ECOLI ATP-dependent protease subunit HslV
OS=Escherichia coli (strain K12) GN=hslV PE=1 SV=2

Length=176

Subject= D89965.1_9 [294 - 1] (REVERSE SENSE) Rattus norvegicus mRNA for RSS,
complete cds.

Length=98


 Score =  200 bits (509),  Expect = 2e-57, Method: Compositional matrix adjust.
 Identities = 98/98 (100%), Positives = 98/98 (100%), Gaps = 0/98 (0%)

Query  28   MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDR  87
            MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDR
Sbjct  1    MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDR  60

Query  88   MLRKLEALLAVADETASLIITGNGDVVQPENDLIAIGS  125
            MLRKLEALLAVADETASLIITGNGDVVQPENDLIAIGS
Sbjct  61   MLRKLEALLAVADETASLIITGNGDVVQPENDLIAIGS  98

Такое несоответствие можно объяснить тем, что кодирующая последовательность в записи EMBL была определена неправильно: вместо крысы, возможно, была отсеквенирована кишечная палочка, которая жила в её пищеварительном тракте. На SwissProt мы полагаемся, так как это курируемая база данных.

2. Поиск гомологов некодирующих последовательностейпрограммой BLASTN

Файл с результатами

3. Поиск гомологов при измененных параметрах программы BLASTN

1)
blastn -query trna_bacsu.fasta -db hh -out trna2.fasta -evalue 0.01 -task blastn -outfmt 7 -reward 5 -penalty -4 -gapopen 10 -gapextend 6
		  
2)
 
blastn -query trna_bacsu.fasta -db hh -out trna3.fasta -evalue 0.01 -task blastn -outfmt 7 -reward 5 -penalty -4 -gapopen 10 -gapextend 6 -word_size 4
          
3)
  
blastn -query trna_bacsu.fasta -db hh -out trna4.fasta -evalue 0.01 -task blastn -outfmt 7  -word_size 4 
          

Файл с результатами

4. Анализ результатов

При изменении весовой матрицы до значений -reward 5 и -penalty -4 от 2 и -3 по умолчанию соответственно в некоторых случаях произошло увеличение числа гомологов, хотя даже были и уменьшения (это можно объяснить тем, что при поиске (2,-3) были найдены короткие полностью совпадающие фрагменты, которые при поиске (5,-4) не выделяются, так как воспринимаются случайными - их evalue больше). При сокращении -word_size от 11 по умолчанию до 4 и при использовании -reward 5 и -penalty -3 число гомологов для всех query резко подскачило, и это ясно, так как чем короче слова образуются в ходе работы BLAST, тем большее число последовательностей может быть подобрано. Увеличение также наблюдается и без использования -reward 5 и -penalty -4.

Для выравнивания выбрана такая находка, которая находится программой BLAST при одном наборе параметров -по умолчанию - и не находитсяпри другом (-reward 5 и -penalty -4), так нам интересны гомологи, обладающие пусть даже и отдаленной идентичностью.
#=======================================
#
# Aligned_sequences: 2
# 1: CP002213
# 2: BSn5_t20966
# Matrix: EDNAFULL
# Gap_penalty: 10.0
# Extend_penalty: 0.5
#
# Length: 81
# Identity:      50/81 (61.7%)
# Similarity:    50/81 (61.7%)
# Gaps:           9/81 (11.1%)
# Score: 139.0
# 
#
#=======================================

CP002213           1 -gggatgtagctcagcttggtagag----cacctggtttgggaccagggg     45
                      ||..||||||||||||.|.|||||    |.||||.|    .|.|..|.|
BSn5_t20966        1 gggcctgtagctcagctggttagagcgcacgcctgat----aagcgtgag     46

CP002213          46 gtcgcatgttcaaatcgtgtcatcccgacca     76
                     ||||...||||.|.||...|||..||.||||
BSn5_t20966       47 gtcggtggttcgagtccactcaggcccacca     77
Выравнивание показывает, что последовательности гомологичны. Высокая идентичность наблюдается в нескольких участках, что, предположительно, связано с достаточно консервативной пространственной структурой тРНК, вариабельные участки - (1) видовые особенности разных бактерий. Стоит отметить, что у Bacillus тРНК изолейциновая, а у Paenibacillus polymyxa пролиновая, как показывает аннотация ниже, - это (2) причина различий..
Проаннотирован в EMBL так: /product="tRNA-Pro".