Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2019

Инструкции по выполнению зачётных заданий блока 3

Имеется сайт с инструкциями по Excel планета Excel. Но уж очень много всего...

В нашей инструкции см. основные действия: импорт данных, выделение, удаление и вставка строк и столбцов, переход к краю заполненного диапазона, поиск и замена, ввод формул, функция ВПР (VLOOKUP), форматирование ячеек, вставка сводной таблицы, сохранение работы.

Соответствие между английскими и русскими названиями команд Excel

Какие файлы надо сделать доступными для проверки

XXXXXXX замените на вашу фамилию, написанную латинскими буквами

  1. Файл XXXXXXX_review.pdf с миниобзором протеома бактерии
  2. Файл XXXXXXX_suppl.xlsx с сопроводительными материалами к обзору
  3. Файл XXXXXXX_exercises.xlsx c упражнениями, демонстрирующими умения, которые не были использованы при подготовке отчета.

Как сделать зачётные файлы доступными для проверки

На вашей wiki странице сделайте подстраницу /block3.

На подстранице поместите ссылки на все файлы для проверки. Формат ссылки [[адрес|что за файл]].

Примеры ссылок. Можете проверить как они работают на моей wiki странице.

1) [[https://drive.google.com/file/d/1OTgpx15NF-oK_5PnZoPams0ajZyl3K27/view?usp=sharing| Программа конференции MCCMB'19]]

2) [[https://docs.google.com/spreadsheets/d/1uE_2WVSoEZjDsFyCaxF0gQi69GkURyCFxe89UUvAKF8/edit#gid=0&fvid=1237299542| хромосомная таблица]]

3) [[https://kodomo.fbb.msu.ru/~aba/term1/akadem1_1sem.docx|список студентов набора y19]]

Можно поставить

Открою секрет: public_html - единственная ваша директория, которая может быть видна в интернет. Ее можно использовать только в учебных целях. Во втором семестре объяснят как именно использовать. Пока не следует делать в public_html веб страницы, даже если умеете. Дождитесь второго семестра.


Как скачать хромосомную таблицу своей бактерии или археи

Ниже стрелочка "→" значит переход по ссылке.

  1. Найдите базу данных Genome на сайте NCBI (Google: NCBI Genome) → Browse by organism. Введите название вашей бактерии или археи (напр., Bacillus subtilis) → Search.
  2. Если полученный список содержит более одной строчки, то выберите ту, в которой в колонке Level стоит полностью черный кружок.
  3. В колонке FTP пройдите по ссылке, помеченной буквой G или синим ромбиком. Попадаете в директорию с файлами, относящимися к вашему геному.

Запасной вариант. Найти строчку вида Assembly: GCA_000767275.3 ASM76727v3 и из нее составить адрес так: 
ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCA/000/767/275/
там найти нужную директорию, после чего перейти к п. 4.
  1. Вам нужно скачать и разархивировать файл feature_table.txt.gz.
  2. Импортируйте файл в Excel (см. инструкцию)

  3. Назовите страницу chr_table
  4. Сохраните файл в формате Excel (.xlsx)


Подсказка по превращению хромосомной таблицы в плоскую таблицу генов

Хромосомная таблица содержит два вида строк (что неудобно, но тут уж ничего не поделаешь)

Строки gene, они то нам и нужны. Строка, следующая за строкой gene, это:

Эту вторую строку буду называть gene2, будь это CDS или tRNA и т.д. Информацию из этой строки тоже надо привязать к гену.

Строка gene и следующая за ней строка gene2 имеют один и тот же идентификатор locus_tag. Мы используем это.

Предлагаю поступить так.

  1. Создать страницу genes
  2. На странице chr_table с помощью фильтра (меню данные) выделить только строки gene
  3. Скопировать видимую часть таблицы (включая заголовки) и вставить на страницу genes
  4. Создать страницу gene2 и вставить в нее все строки, кроме строк gene
  5. Для того чтобы переносить данные из gene2 в genes надо в gene2 общий идентификатор locus_tag поставить в первую колонку.Сделайте это.
  6. Используйте команду ВПР (VLOOKUP) для перенесения данных в новые колонки таблицы genes.
    • первый аргумент — ключ locus_tag из таблицы genes, который надо искать в таблице gene2
    • второй аргумент — вся таблица gene2, начиная от колонки с locus_tag; координаты таблиц должны быть указаны, например, так $A$2:$V$4596, или можно указать только столбцы, например так $A:$V
    • третий аргумент — номер колонки в таблице gene2, из которой брать данные; колонка locus_tag имеет номер 1, следующая 2 и т.д.
    • четвертый аргумент — ЛОЖЬ (False); можно поставить 0, т.к. как логическая переменная 0 = ЛОЖЬ
    • расставьте доллары перед адресами аргументов так, чтобы формула распространялась вниз и направо правильно.

[для смышлёных: на месте третьего аргумента можно поставить команду СТОЛБЕЦ(ячейка), ячейка должна быть такой, чтобы СТОЛБЕЦ() имел правильное числовое значение и правильно модифицировался при распространении формулы вправо]

  1. Если есть гены без locus_tag, придумайте, что с ними делать (и обязательно опишите это в отчёте): можно выбросить, можно сохранить на отдельном листе, можно придумать им собственные уникальные идентификаторы (легко отличимые от locus_tag), ...
  2. Проверьте, что все получилось
  3. Запишите следующую информацию, которую нужно включить в раздел "Материалы и методы":
    • assembly
    • genomic_accession; все, если есть разные ДНК в таблице; в этом случае укажите что это за ДНК — из колонок seq_type и chromosome страницы chr_table;
  4. Приведите таблицу в подобающий вид. Удалите пустые колонки, колонки, в которых значения во всех строках повторяют значения из другой колонки (из повторяющихся колонок оставьте одну). Переставьте колонки в удобном порядке. По моему мнению нужно оставить такие колонки:
    1. locus_tag как основной идентификатор строки
    2. class
    3. feature
    4. genomic_accession (идентификатор ДНК — на случай, если в геноме две или более молекул ДНК)
    5. start
    6. end
    7. strand
    8. product_accession (из gene2)
    9. name (из gene2)
    10. attributes (из gene2)
  5. Отсортируйте строки по genomic_accession, затем по возрастанию координаты гена start.
  6. Приведите таблицу в удобный для рассмотрения вид.
  7. Сохраните формулу как текст в примечании к ячейке из заголовка
  8. Убейте формулы, оставьте значения. Ctrl+A, Ctrl+C, щёлкаете правой кнопкой мыши в левую верхнюю ячейку, Специальная вставка (Paste specieal), вставить значения (Values).

Если все сделано правильно, сохраните для раздела Материалы и методы все возможности Excel, которые использовали: фильтр, сортировка, связь таблиц, оформление простой таблицы, адресация с использованием $, распространение формул, что еще? Они будут зачтены, если всё сделано правильно.


(*) Как скачать дополнительные данные о белках