Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2016

Этапы выполнения

  1. Этой осенью произошло изменение структуры баз данных на сайте NCBI. Я описываю современный способ доступа к файлам. Ниже стрелочка "=>" значит переход по ссылке.

    1. Найдите базу данных Genome на сайте NCBI (Google: NCBI Genome) => Browse by organism. Введите название вашей бактерии или археи (напр., Bacillus subtilis) => Search by organism => по имени организма

    2. На странице организма откройте список геномов (=> list), выберите ваш геном по названию штамма и перейдите по ссылке из колонки FTP (последней). Вы попадаете в директорию с файлами, относящимися к вашему геному. Если нет кнопки list (потому, что только один геном этого вида секвенирован), то

на странице генома щелкайте по ссылке в строке Assemly,потом - Download assembly GeneBank или Refseq - все равно. См также подсказки к пр.12

  1. Вам нужно скачать и разархивировать файл feature_table.txt. Импортируйте файл в Excel (см. инструкцию) и превратите в плоскую таблицу нужного формата.

  2. Удалите строки "gene", так как они для прокариот не информативны. Для этого в меню Данные установите фильтр, отфильтруйте строчки "gene" и удалите.
  1. Создайте отдельный лист с гистограммой длин всех белков. Напишите, белки какой длины встречаются чаще всего. Опишите особенности распределения белков по длинам, которые показались вам интересными/удивительными/странными.
  2. Создайте отдельный лист с таблицей распределения генов белков и РНК по цепочкам. Заполнение таблицы - функциями.