Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2023

Инструкции по выполнению ДЗ_7

1. Импорт таблицы особенностей

  1. Создайте Google sheet со всеми нужными страницами
    1. Скорректированная инструкция по загрузке ...feature_table.txt на страницу Google sheet

    2. Скопируйте текст из вашего файла с особенностями в Google sheet на страницу feature_tables
      • Note. ВАЖНО каким редактором вы открываете файл ...feature_table.txt См. ссылку из 1.a.Чтобы избежать ошибки, лучше следуйте инструкции на первой странице файла по этой ссылке. Получится таблица с колонками без дополнительных усилий, потому что в файле ...feature_table разделители полей — табуляторы (tab). Табуляторы как разделители колонок в ЭТ используются по умолчанию.
    3. ВАЖНО: строки полученной таблицы соответствуют объектам разного типа с частично различающимися списками полей. Тип объекта указан в колонке features.
  2. Вставьте колонку с идентификаторами строк
    1. Вставьте колонку левее колонки A
    2. Назовите её line_id
    3. В ячейку A2 вставьте 1, в ячейку A3 — 2

    4. Выделите A2 и A3. Нажмите на значок справа снизу в выделенном. Ячейки колонки A заполнятся арифметической прогрессией, угаданной программой по выделению.
    5. Другой вариант: в A2 вставьте формулу =A1+1 и распространите её до конца таблицы
  3. Определите сколько объектов каждого из типов
    1. Скопируйте колонку features на страницу tmp
    2. Удалите повторяющиеся значения
    3. Вычислите сколько объектов каждого типа. Используйте формулу =countif(диапазон,значение) перевод =счётесли(диапазон,значение)
    4. Результат сохраните на своей wiki странице - пригодится для мини-обзора
  4. Скопируйте строки CDS на страницу proteins
    1. Выделите всю таблицу
    2. Выделите ТОЛЬКО строки CDS с помощью фильтра по features
    3. Скопируйте всё выделенное и вставьте на страницу proteins
    4. Поверните названия колонок на 90
  5. Проведите ревизию колонок. Удалите пустые колонки и колонки не несущие информации — значения одинаковы во всех строках.
    1. Выделите таблицу protein-cds, установите фильтр на все колонки ( Data → Create filters)

    2. По очереди проверяйте все фильтры на все колонки, нажимая на треугольнички справа от каждого называния колонок. Смотрите какие и сколько значений в колонке. Например, в колонке features значения во всех строках CDS. Да, объекты отобраны по этому признаку и CDS есть в названии страницы. Удалите колонку features
    3. Note. Колонки product_accession и non-redundant_refseq обычно совпадают во всех строках. В обоих содержится идентификатор последовательности белка в базах последовательностей белков. Чтобы не делать лишней работы оставьте обе, но ориентируйтесь на product_accession. Помните, что теоретически очень редко могут быть отличия. Объясню почему: в базу данных non-redundant_refseq из белков со 100% идентичными последовательностями из разных штаммов включается ТОЛЬКО ОДНА. У не взятых в refseq идентификатор non-redundant_refseq как раз и указывает на взятую в refseq последовательность, даже если она из другого организма.

2. Загрузка файла с кодирующими последовательностями

Включаю для возможного использования в мини-обзоре

Нужный файл .. cds_from-genomic.fna скачивается с того же сайта вашей бактерии или археи, что файлы ...feature_table.txt и ...genomic.fna.gz. Его следует положить в ранее созданную вами папку genome

2023/1/hints7 (последним исправлял пользователь sas 2023-10-30 15:26:06)