На главную страницу второго семестра.

Занятие 3. Выравнивания. Работа с программой GeneDoc.


  1. Построение выравнивания двух коротких искусственных последовательностей.


Построено выравнивание искусственной последовательности, взятой из списка, с первыми 60-тью остатками ARGB_ECOLI.. Результаты сохранены в файле first_aln.txt.

  • Вычисление "веса" выравнивания.

  • Добавлены к выравниванию, полученному при выполнении задания 1, третья строчка, содержащая следующие символы: звездочку *, если буквы в данной позиции совпали, точку, если они разные, и минус -, если одна из последовательностей содержит гэп.
    Вычисление веса производилось по формуле:
    W = M - X - G
    где M - число позиций выравнивания, в которых обе буквы одинаковы; X - число позиций выравнивания, в которых буквы разные, G - число гэпов.
    Значение веса записано в файле first_aln.txt (ниже самого выравнивания).
    *Изменения в выравнивании никак не смогут увеличить вес выравнивания. В самом деле:
    W = M - X - G
    Также M + X = l, где l - число остатков в короткой последовательности (в даном случае, 60 остатков моего белка). С другой стороны:
    G + X + M = L, где L - число остатков в длинной последовательности, (в нашем случае - в мутантной последовательности)
    Имеем: G = L - l
    W = 2M - l - (L - l) <=> W = 2M - L (1)
    По формуле (1) видно, что при данном М совпавших аминокислот для повышения W можно лишь сократить число остатков в длинной последовательности: но чтобы сохранить максимальное число совпавших аминокислот, достаточно уменьшить размер "лишних последовательностей", находящихся в длинной последовательности, когда в последовательностей из 60-ти аминокислот моего белка на месте этих вставок - геп.Тогда как раз можно повысить W.

  • Построение выравнивания двух реальных последовательностей.

  • Выравнивание построено в файле second_aln.msf с выполнением необходимых условий. В качестве сравниваемой последовательности с ARGB_ECOLI выбрана последовательность из Vibrio cholerae по данным банка Uniref100: uniref100|UniRef100_UPI00005F4A91|UniRef100_UPI00005F4A91 COG0548: Acetylglutamate kinase
    В банке UniprotKB последовательность имеет код uniprot|Q9KNT7.
    *А вот это выравнивание можно улучшить, если ввести, аналогично первому выравниванию, знак несовпадающих аминокислот и штраф за них: то есть в тех местах выравнивания, где образуются симметрично расположенные гэпы в первой и во второй последовательностях (например, не совпали две аминокислоты, тогда нам надо поставить два гэпа: один в одну последовательность. другой - в другую), взять и убрать эти гэпы, а вместо них "штрафануть" выравнивание за несовпадающие аминокислоты, а не как за гэпы.



    ©Володя Рудько