Kodomo

Пользователь

Решение к Практикуму 1, задание 5

こんにちは! Здесь я представлю свои шаги решения данной задачи. Для неё я, кстати, выбрал ген белка S SARS-CoV-2.

1. Сперва необходимо посмотреть примерные диапазоны нахождения старт- и стоп-кодонов. Для старт-кодона выберем диапазон [21500:21700]. Выполним необходимые команды на сервере kodomo и получим следующий результат. (NB!:Большинство строк, полученных в результате выполнения команд, я вырезал, поставил на их месте ..., так как они избыточны, и оставил только то, что нас интересует.:)

fuzznuc -pattern ATG '/P/y20/SARS-CoV-2.fasta[21500:21700]' -stdout
...
...
  Start     End  Strand Pattern     Mismatch Sequence
  21536   21538       + pattern:ATG        . ATG
  21563   21565       + pattern:ATG        . ATG
...
...

Заметим, что позиции старт-кодонов отличаются в кратное 3 количество раз, поэтому выберем тот, что ближе к началу гена на схеме, т.е. ATG(21563-21565). (имея пока команды из подсказки, можем руководствоваться только такой логикой)

P.S.: как я уже увидел в замечаниях, данный выбор обоснован тем, что между этими кодонами находится TSL последовательность, поэтому первый ATG вырезается, но я не уверен, что, используя методы из подсказки, можно это обнаружить. Возможно, если при выполнении практикума позволительно обращаться к последовательности SARS-CoV-2, то можно руководствоваться и этой логикой.

2. Теперь аналогично найдем и для стоп-кодонов TAA, TAG, TGA (диапазон [25300:25500])

TAA:

fuzznuc -pattern TAA '/P/y20/SARS-CoV-2.fasta[25300:25500]' -stdout
...
...
Start     End  Strand Pattern     Mismatch Sequence
  25382   25384       + pattern:TAA        . TAA
  25430   25432       + pattern:TAA        . TAA
...
...

TAG:

fuzznuc -pattern TAG '/P/y20/SARS-CoV-2.fasta[25300:25500]' -stdout
...
...
# Pattern_name Mismatch Pattern
# pattern             0 TAG
#
# Complement: No
...
...

TGA:

fuzznuc -pattern TGA '/P/y20/SARS-CoV-2.fasta[25300:25500]' -stdout
...
...
  Start     End  Strand Pattern     Mismatch Sequence
  25330   25332       + pattern:TGA        . TGA
  25333   25335       + pattern:TGA        . TGA
  25345   25347       + pattern:TGA        . TGA
  25406   25408       + pattern:TGA        . TGA
  25436   25438       + pattern:TGA        . TGA
  25446   25448       + pattern:TGA        . TGA
...
...

3. На данном этапе нам нужно найти стоп-кодон, для этого нужно проверить, попадает ли каждый из найденных нами триплета в рамку считывания нашего старт-кодона. Для этого выполним следующее(python 3.8.5):

TAA:

for i in [25384,25432]:
        print((i-21563+1)/3)

        
1274.0
1290.0

TGA:

for i in [25332,25335,25347,25408,25438,25448]:
        print((i-21563+1)/3)

        
1256.6666666666667
1257.6666666666667
1261.6666666666667
1282.0
1292.0
1295.3333333333333

Для того, чтобы выбрать стоп-кодон, нужно посмотреть, какому кодону соответствует наименьшее целое значение. Здесь это 1274, которому соответствует кодон TAA(25382-25384).

Вывод

Координатами гена S-белка SARS-CoV-2 является [21563:25384]

Вот и всё! Чтобы вернуться назад, нажмите сюда → Назад

P.S.: За что дают бонусы?

cat_rennaisance