Программа getorf. Поиск гомологов некодирующих последовательностей.


Работа с программой getorf пакета EMBOSS.


Команда: getorf -sequence D89965.fasta -minsize 30 -table 0 -find 1 -outseq D89965.orf
Программа производит поиск открытых рамок чтения. Использовались следующие параметры:
 -minsize 30  				минимальная длина рамки (по умолчанию 30)

 -table 0         			таблица генетических кодов (можно не писать, по уполчанию 0) 

 -find 1           			открытая раамка считывания включает стоп-кодон

 -outseq D89965.orf 			файл  с результатом

В поле FT приведена следующая последовательность:
     FT   CDS             163..435
     FT                   /translation="MALMHFQFTFKQFEQRKSIRSTARKARDDFVVVQTADLFHVAFHY
     FT                   GIAQRGLTITSDDHMAVTAYAYYSCHELTPWLRIQSTNPVQKYGA"

Ей соответствует рамка
>D89965_5 [163 - 432] Rattus norvegicus mRNA for RSS, complete cds.
MALMHFQFTFKQFEQRKSIRSTARKARDDFVVVQTADLFHVAFHYGIAQRGLTITSDDHM
AVTAYAYYSCHELTPWLRIQSTNPVQKYGA

Из последовательности Swiss-Prot c помощью BLASTP получили:
Query= sp|P0A7B8|HSLV_ECOLI ATP-dependent protease subunit HslV
OS=Escherichia coli (strain K12) GN=hslV PE=1 SV=2

Length=176

Subject= D89965_9 [294 - 1] (REVERSE SENSE) Rattus norvegicus mRNA for RSS,
complete cds.

Length=98


 Score =  200 bits (509),  Expect = 2e-57, Method: Compositional matrix adjust.
 Identities = 98/98 (100%), Positives = 98/98 (100%), Gaps = 0/98 (0%)

Query  28   MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDR  87
            MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDR
Sbjct  1    MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDR  60

Query  88   MLRKLEALLAVADETASLIITGNGDVVQPENDLIAIGS  125
            MLRKLEALLAVADETASLIITGNGDVVQPENDLIAIGS
Sbjct  61   MLRKLEALLAVADETASLIITGNGDVVQPENDLIAIGS  98

Поиск гомологов некодирующих последовательностей программой BLASTN.


blastn -task blastn -query trna_bacsu.fasta -db sa -outfmt 7 -out trna1.fasta -evalue 0.01
  • Результат

    Поиск гомологов при изменённых параметрах программы BLASTN.


    blastn -task blastn -query trna_bacsu.fasta -db sa -outfmt 7 -out trna2.fasta -evalue 0.01 -reward 5 -penalty -4 -gapopen 10 -gapextend 6
    blastn -task blastn -query trna_bacsu.fasta -db sa -outfmt 7 -out trna3.fasta -evalue 0.01 -reward 5 -penalty -4 -gapopen 10 -gapextend 6 -word_size 4
    blastn -task blastn -query trna_bacsu.fasta -db sa -outfmt 7 -out trna4.fasta -evalue 0.01 -word_size 4
  • Результат

    Анализ результатов.


    При замене весовой матрицы, количество гомологов не изменилось или увеличелось (однако есть редкие сключения с уменьшениями)
    При укорочении "слова" произошло увеличение количества гомологов, из-за увеличения вероятности нахождения такого "слова".
    Была выбрана находка из списка по умолчанию, но отсутствовавшая в выдаче со сменой матрицы. Плучен только идентичный участок. Это может объяснятся как простым совпадением, в силу малых размеров, так и высокой консервативностью важного участка тРНК (например сайта узнавания аминоацил тРНК синтетазы или антикодона).
    ########################################
    # Program: needle
    # Rundate: Wed  2 Nov 2011 02:15:30
    # Commandline: needle
    #    -asequence al766843.fasta
    #    -bsequence ser-t-rna.fasta
    #    -outfile ned.needle
    # Align_format: srspair
    # Report_file: ned.needle
    ########################################
    
    #=======================================
    #
    # Aligned_sequences: 2
    # 1: AL766849
    # 2: BSn5_t20970
    # Matrix: EDNAFULL
    # Gap_penalty: 10.0
    # Extend_penalty: 0.5
    #
    # Length: 93
    # Identity:      19/93 (20.4%)
    # Similarity:    19/93 (20.4%)
    # Gaps:          74/93 (79.6%)
    # Score: 95.0
    # 
    #
    #=======================================
    
    AL766849           0 --------------------------------------------------      0
                                                                           
    BSn5_t20970        1 ggaggaatacccaagtccggctgaagggatcggtcttgaaaaccgacagg     50
    
    AL766849           1 --------------cgggggttcgaatccctct----------     19
                                       |||||||||||||||||||          
    BSn5_t20970       51 ggtgtcaaagcccgcgggggttcgaatccctcttcctccgcca     93
    
    
    #---------------------------------------
    #---------------------------------------
    

    © Nikolay Kondratev