Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2014

1. Карта сходства двух геномов

blast2seq

2. Нуклеотидный пангеном

Описываю действия, считая, что пакет NPG-explorer установлен на компьютере. Например, он установлен на kodomo.

Особенность интерфейса NPG-explorer состоит в том, что все файлы лежат в одной директории и имеют фиксированные имена. Поэтому имена входных и выходных файлов, как правило, не указываются. Все программы должны быть запущены из специально созданной директории, содержащей созданный вами файл genomes.tsv

План действий коротко

#

Действие/команда

Результат

0

Выбрать геномы для сравнения

 —

1

Зайти на kodomo или установить NPG-explorer на свой компьютер

 —

2

Создать новую директорию

Для примера, ricketssii_npg

3

Создать файл genomes.tsv в директории ricketssii_npg

Файл с информацией откуда брать последовательности геномных ДНК и аннотации генов

4

npge -g npge.conf

Файл npge.conf с параметрами; в нем можно изменять значения параметров

5

npge Prepare

Скачать и переименовать геномные ДНК

6

npge Examine

Файл examine/identity_recommended.txt с оценкой сходства геномов

7

Коррекция параметров WORKERS, MIN_IDENTITY (возможно, и MIN_LENGTH)

WORKERS = 1 для kodomo; MIN_IDENTITY в соответствии с рекомендацией, п.6

7

npge MakePangenome

Нуклеотидный пангеном в файле pangenome/pangenome.bs

8

npge PostProcessing

Много файлов с аналитической информацией о пангеноме

9

qnpge

Визуализация пангенома

  1. Рекомендации

    • Скачайте таблицу геномов прокариот (см. семестр I)

    • Откройте в Excel, отфильтруйте по колонке status значения "complete genomes" и "chromosomes"
    • Выберите геномы, скопируйте информацию, нужную для genomes.tsv
    • Если не хотите сложностей, то выбирайте геномы из одной хромосомы, в пределах до 5 MB
      • Можно взять штаммы видов Yersinia pestis, Rickettsia rickettsii, Helicobacter pylori и др.
    • Если не боитесь сложностей, то выбирайте любые геномы, например, родственные вашей бактерии/архее
      • допустимы геномы с двумя и более хромосомами, и плазмидами и т.п.
      • геномы разных видов одного рода иногда имеют приемлемое сходство - доля консервативных позиций > 0.9 - тогда их можно взять

        • пример - род Brucella
        • иногда сходство хуже; такие генома не стоит брать в работу
      • все последовательности должны быть описаны в genomes.tsv
        • хромосомы или плазмиды считаются гомологичными, если у них одинаковые имена, см. формат
      • больший объем входных данных приводит к бОльшему времени работы программы
  2. Формат genomes.tsv

all:embl:CP003309       Hino    chr1    c       Rickettsia rickettsii str. Hino
all:refseqn:CP003318.1  Hauke   chr1    c       Rickettsia rickettsii str. Hauke
all:embl:CP003311       Hlp2    chr1    c       Rickettsia rickettsii str. Hlp2
all:file:Rrickettsii_genomes/CP000766   Iowa    chr1    c       Rickettsia rickettsii str. Iowa 
  1. Параметры

    • MIN_IDENTITY = Decimal('0.9') значит, что во всех блоки пангенома, кроме минорных m-блоков, доля консервативных позиций превышает 0.9
    • Examine вычисляет долю консервативных позиций в малом числе блоков и предлагает значение параметра MIN_IDENTITY на 0.1 меньше
      • Не обязательно следовать рекомендации буквально, но уменьшить вычисленное значение, по крайней мере, на 0.5 стоит
    • MIN_LENGTH = 100 значит, что все блоки пангенома, кроме минорных m-блоков, имеют не менее 100 позиций
    • WORKERS = 1 значит, что задействовать один процессор. Это значение рекомендуется использовать на kodomo чтобы не заблокировать задания других студентов
      • WORKERS = -1 значит, что использовать все процессоры компьютера
  2. npge MakePangenome выдает на stdout протокол выполнения. Рекомендуется его сохранить в файле: npge MakePangenome > log

  3. Аналитические файлы с полезной информацией

    • pangenome/pangenome.info содержит сводную информацию про все типы блоков:
      • s-блоки - стабильные (коровые) блоки, по одному фрагменту из каждого генома
      • h-блоки - "полустабильные" блоки - по одному фрагменту из части геномов
      • u-блоки - и не блоки вовсе, а уникальные последовательности из одного генома,у них нет гомологов среди всех геномов, кроме самой себя
      • r- блоки - блоки с повторами, по крайней мере, в одном геноме
      • m-блоки - минорные блоки - короткие (<MIN_LENGTH) блоки, которые не удается включить в другие блоки

    • идентификатор блока r34x1201 устроен так: r - тип блока (от repeat); 34 фрагмента в блоке; 1201 позиций в выравнивании блока; иногда приходится добавлять "n1", "n2" и т.п. на конце чтобы сохранить уникальность имен
    • pangenome/pangenome.bi содержит информацию по каждому блоку, включая информацию фрагменты каких геномов входят в блок;удобен для
      • поиска крупных делеций/вставок (h-блоки и u-блоки)
      • анализа блоков с повторами
    • Список глобальных блоков - синтений - см. в global-blocks/blocks.gbi
      • g-блоки (глобальные блоки) состоят из последовательно идущих во всех геномах s-блоков, перемежающихся блоками других типов (r-, h-, u- и m-)
    • Последовательность глобальных блоков в каждом геноме см. в файле global-blocks/blocks.blocks. Для ответов на вопросы его удобно взять в Excel, транспонировать и выкинуть строчки, не содержащие g-блоков.
  4. Визуализатор qnpge запускается в рабочей директории (ricketssii_npg в примере) БЕЗ ПАРАМЕТРОВ.

    • Версия NPG-explorer'а под Win запаздывает по сравнению с версией под linux. Если дома Win то можно поступить так.
      • Запустить все программы, кроме qnpge, на kodomo
      • Скопировать результаты на свой компьютер
      • Скачать на свой компьютер NPG-explorer под Win, предпоследнюю версию - как рекомендуется на сайте
      • Возможно, получится скачать только файл qnpge.exe с диска /P.../pr10 и положить в доректорию с пангеномом
      • Запустить qnpge
    • Описывать графический интерфейс - неблагодарное занятие; и не буду это делать. qnpge позволяет:
      • искать по названию блока, гена или по последовательности (требуется точное совпадение)
      • сортировать таблицу блоков по любой колонке
      • копировать последовательности из нижнего окна: целые группы блоков из правого верхнего
      • показывать имена генов; сами гены выделены белым шрифтом в нижнем окне с выравниванием блока; разберитесь, как указывается их ориентация
      • быстро перемешаться в блока с выравниванием; home, end, ctrl или shift + стрелочки
      • переключать выравнивание имен блоков с глобальных блоков вдоль хромосомы к выравниванию обычных блоков внутри глобального или промежуточного i-блока