Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2014

Здесь приведены все задания блока 3.

Задание 1. Сравнить состав систем рестрикции-модификации, закодированных в двух штаммах одного вида

И.Русинов

Материал:

  1. Геном из БД NCBI
  2. Фрагменты генома из метагенома кишечника человека

Метод: Существование системы рестрикции-модификации предсказывается по ее следам в геноме: недопредставленности сайтов рестрикции.

Системы рестрикции-модификации (Р-М) - это один из механизмов защиты прокариот от чужеродной ДНК, например, бактериофагов. Система Р-М умеет распознавать определенные короткие последовательности ДНК (сайты рестрикции) и гидролизовать ДНК, если эти последовательности не метилированы. В ДНК клетки все сайты рестрикции заметилированы, а в ДНК фагов - нет. Поэтому клеточная ДНК остается невредимой, а ДНК фагов гидролизуется. Но иногда в процессе метилирования сайтов рестрикции случаются ошибки и геном бактерии может быть гидролизован. Из-за этого бактерии выгодно содержать в геноме как можно меньше сайтов узнавания систем Р-М, чтобы уменьшить вероятность случайного гидролиза.

Отбор против сайтов в геноме можно обнаружить, сравнив наблюдаемое число сайтов с ожидаемым числом. Например, можно вычислить отношение наблюдаемое/ожидаемое число сайтов (контраст), и если это отношение меньше 1, значит встретилось меньше сайтов, чем ожидалось. Обнаружив такие "избегаемые" сайты можно предсказать, какие системы Р-М бактерия содержит (или содержала в недавнем прошлом).

Бактерии достаточно быстро меняют набор систем Р-М. Поэтому даже бактерии (или археи) одного вида могут содержать разный набор систем Р-М в разных популяциях.

Ваша задача - сравнить предполагаемые (по избеганию сайтов) наборы систем Р-М в полном геноме бактерии из NCBI и наборе контигов того же вида из метагенома кишечника человека.

Этап 1. Найдите избегаемые сайты рестрикции в геноме выданной бактерии или археи

Все файлы и папки, указанные ниже, располагаются на диске P: в папке y14/term4/pr10

Здесь можно посмотреть, кому какая бактерия досталась.

Файл sites.list содержит список всех (ну почти :) ) известных сайтов систем Р-М типа II (основной тип). Вам нужно:

Этап 2. Найдите избегаемые сайты рестрикции в наборе контигов из метагенома

Последовательности контигов в fasta формате (сжатые с помощью gzip) лежат в папке wgs_fasta. Вам нужно сделать все то же самое, что и в предыдущем пункте, но для последовательностей контигов.

Этап 3. Сравните полученные списки избегаемых сайтов

Укажите в отчете, сколько избегаемых сайтов найдено только в полном геноме, сколько - только в контигах, и сколько и там и там. Сделайте вывод о том, какая из бактерий (архей) содержала больше систем Р-М, и возможные причины этого, учитывая, что организмы очень близкие, и что один из них жил в кишечнике человека. Где жил второй (полный геном) можете попробовать узнать на сайте NCBI в соответствующей записи базы данных Nucleotide.

Задание 2. Найдите последовательности Шайн – Дальгарно в геноме бактерии или археи, данном вам в первом семестре.

ААл

Результат должен быть представлен на сайте. Должен включать:

Ссылки на выдачу программы не принимаются!

Будьте добры, разберитесь с выдачей; выберите то, что нужно, и представьте в отчете на своем сайте.

Указания

мин_координата

макс_координата

ориентация

ID_фрагмента

остальное

В качестве ID_фрагмента можно оставить AС гена; остальное – product. Такой файл можно сделать в Excel.

(*) Дополнительное задание. Опишите дополнительные возможности сервиса MEME suit или доступного по ссылке

ААл


Задание 3. Определите сайты связывания данного транскрипционного фактора в данном участке хромосомы человека

Д.Бредихин

Указания

Файлы .fastq с ридами Illumina, полученные в результате сhip-seq эксперимента, разделены на отдельные файлы, соответствующие участкам хромосом. Они лежат в директории /srv/databases/ngs/chipseq_y14 на диске P. Соответствие между студентами и файлами см. здесь

Для работы используйте свои поддиректории в директории ngs, заведенные в прошлом семестре. Предварительно удалите из них старые файлы.

Задание 4. В геноме человека найдите три гена, транскрипция которых инициируется с помощью TATA-бокс связывающего белка, и один - без сигнала TATA-бокса в промоторной области

ААл

TATA-бокс связывающий фактор TBP - архейный и эукариотический белок, узнающий восьминуклеотидный сигнал в ДНК с консенсусом TATAWAAR(Faiger et al., 2005).

Он является одним из ключевых ДНК-узнающих белков при образовании на промоторе генов комплекса TFIID инициации транскрипции с помощью Pol II(Lauder et al., 2016). Тем не менее, лишь часть промоторов имеет сигнал TATA-box, связываемый TBP.

См. литературу также на диске P: в директории семестра.

Отчет должен включать:

Указания.