Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2016

Дополнительные задания. Подсказки

  1. Симулируем бросание монетки по числу генов и повторяем этот эксперимент 100 раз (можно больше).

Первое испытание - в колонке 1. Используйте СЛУЧМЕЖДУ нулем ("решка") и единицей ("орел"). Функция выдает 0 или 1 с равной вероятностью.

Распространите формулу вниз столько раз, сколько генов в вашем геноме. В этом же столбце (например, в верхних ячейках) рассчитайте число орлов (СЧЁТЕСЛИ) и отклонение числа орлов от ожидаемого - без знака!.

Распространите все формулы в сто соседних столбцов. Посчитайте сколько раз отклонение больше или равно тому, которое вы обнаружили в своем геноме.

Сделайте вывод.

Замечание В Excel есть формула, которая сразу выдает нужный вам ответ - вероятность получить такое же или большее число отклонений от среднего, какое вы обнаружили. Если вы что-то знаете по теории вероятности, то можете ее найти и применить. При применении тоже есть некоторые фокусы, которые - не понимая что делаете - вы не сумеете учесть! Поэтому ...

Мой мальчик! Тебе эту песню дарю.
Рассчитывай силы свои.
И, если сказать не умеешь "хрю-хрю", -
Визжи, не стесняясь: "И-и!"
                 С.Маршак
  1. Поступите примерно так, как в Упражнении 5c из практ. 12. Советую сделать ячейку с параметром порог длины с число 100. Тогда изменение числа квазиоперонов при изменении порога получается изменением значения этого параметра.

Число генов в квазиопероне легко посчитать с помощью СЧЁТЕСЛИ. И гистограмму недолго построить.

  1. Отметить гены, пересекающиеся с предыдущим, можно в новой колонке с помощью ЕСЛИ. В следующей колонке можно вычислить сдвиг рамки и ориентацию пересекающихся генов друг относительно друга. Придумайте, как это сделать!

Если сделали, то посчитать число пар пересекающихся генов можно с помощью СЧЁТЕСЛИ.

  1. В таблице с генами есть колонка product_accession. Зайдите на сайт Uniprot

и выберите Retrieve/ID mapping. Этот сервис служит для перекодировки из одной системы идентификации в другую. Отфильтруйте идентификаторы кодирующих последовательностей (а не РНК - у РНК нет "продуктов"), скопируйте колонку идентификаторов и вставьте в окно Provide your identifiers. Выберите FROM: EMBL/GenBank/DDBJ CDS, TO: Uniprot KB => Go.

Получите таблицу, которую можно скачать в формате Excel. Однако сначала надо отредактировать колонки таблицы => Columns. Оставьте колонки Entry name, добавьте Protein Existence (из колонки Miscellaneous), Length, Protein names.

Скачайте в формате Excel, скопируйте на страницу своего файла, и сделайте сводную таблицу по полю "Protein exsistence". Прочитайте где-нибудь что значит каждая из категорий.

Сведения о том, каким образом подтвеждено существование гена можно получить только из базы данных белков Uniprot. Как это сделать - см. в подсказках.

Тот же финт с прекодировкой можно применить к столбцу GeneID, выьрав соответственно БД GeneID (Entrez Gene) в окошке From. (Enrez - так называется совокупность баз данных и сервисов на странице NCBI)