ЧЕТВЕРТЫЙ СЕМЕСТР

на главную страницу


:НАВИГАЦИОННОЕ МЕНЮ





Мембранные белки. Оценка качества предсказания.

Задача — предсказать топологию мембранного белка и сравнить предсказание с ориентированной в мембране 3D-структурой белка-прототипа.

1. Построение парного выравнивания исследуемого белка и заданного прототипа.

белок для исследования белок-прототип
AC UniProt AC UniProt PDB ID
Q8JIR4  P29972  1H6I


Быстрые ссылки на сайты: SRS. PDB.

Прежде всего я получил обе последовательности белка прототипа, так как последовательности и нумерация остатков в БД PDB и БД UniProt могут различаться. 

последовательность из UniProt для белка-прототипа:

последовательность из PDB для белка-пртотипа:

Как мы видим, последовательности совпадают. В качестве доказательства внизу вы видите выравнивание:

Это мембранный белок человека аквопорин-1 образующий пору. Благодаря чему, мембрана эритроцитов и проксимальных почечных канальцев получает свойство высокой проницаемости для воды, что, собственно, способствует осмосу.

Поиск в UniProt по запросу AC Q8JIR4 выдал находку белка аквопорина-h1 Hyla japonica (японской древесной лягушки).

последовательность в формате FASTA:

И, собственно, выравнивание с тем же белком человека:

Дополнительно выписанны его характеристики:

Длина: 273
Идентичность: 207/273 (75.8%)
Сходство: 238/273 (87.2%)
Гэпы: 6/273 ( 2.2%)
Вес: 1065.5

Выравнивание было импортированно в GeneDoc таким образом:
Была выполнена команда

needle AQP1_HUMAN.fasta TREEFROG.fasta -aformat3 msf
и выравнивание было импортировано в GeneDoc и сохранено как marking.msf

2. Разметка мембранных сегментов на выравнивании.

По идентификатору PDB белка-прототипа было найдено описание ориентации белка в мембране в БД OPM (Orientations of Proteins in Membranes database) В файле marking.msf ниже последовательности прототипа добавил последовательность с названием "OPM" и разметкой ТМ сегментов, отметил позиции мембранных сегментов буквой "Н", позиции цитоплазматических петель знаком "+", остальные — знаком "-".

 

                                                                                                                                                 
                                            *                 2 0                   *                 4 0                   *                    
A Q P 1 _ H U M A N   :   M A S E F K K K L F W R A V V A E F L A T T L F V F I S I G S A L G F K Y P V - - G N N Q T A - - V Q D N V   :     5 0
Q 8 J I R 4 _ H Y L   :   M A S E F K K M A F W R A V I A E F L A M I M F V F I S I G A A L G F N F P I Q E K T N E T V G R T Q D I V   :     5 4
O P M                 :   + + + + + + + + + + H H H H H H H H H H H H H H H H H H H H H - - - - - - - - - - - - - - - - - - - - - - H   :     2 2
                          * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * *            
                                                                                                                                                 
                                  6 0                   *                 8 0                   *               1 0 0                            
A Q P 1 _ H U M A N   :   K V S L A F G L S I A T L A Q S V G H I S G A H L N P A V T L G L L L S C Q I S I F R A L M Y I I A Q C V G   :   1 0 4
Q 8 J I R 4 _ H Y L   :   K V S L A F G L S I A T M A Q S V G H I S G A H L N P A V T L G C L L S C Q I S I L K A V M Y I I A Q C L G   :   1 0 8
O P M                 :   H H H H H H H H H H H H H H H H H H + + + + + + + + H H H H H H H H H H H - - - - H H H H H H H H H H H H H   :     6 4
                          * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * *            
                                                                                                                                                 
                            *               1 2 0                   *               1 4 0                   *               1 6 0                
A Q P 1 _ H U M A N   :   A I V A T A I L S G I T S S L T G N S L G R N D L A D G V N S G Q G L G I E I I G T L Q L V L C V L A T T D   :   1 5 8
Q 8 J I R 4 _ H Y L   :   A V V A T A I L S G I T S N L A G N T L G L N G L S N G V T A G Q G L G V E I M V T F Q L V L C V V A V T D   :   1 6 2
O P M                 :   H H H H H H H + + + + + + + + + + + + + + + + + + + + + + + + + + + H H H H H H H H H H H H H H H H H H - -   :     8 9
                          * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * *            
                                                                                                                                                 
                                        *               1 8 0                   *               2 0 0                   *                        
A Q P 1 _ H U M A N   :   R R R R D L G G S A P L A I G L S V A L G H L L A I D Y T G C G I N P A R S F G S A V I T H N F S N H W I F   :   2 1 2
Q 8 J I R 4 _ H Y L   :   R R R R D V S G S V P L A I G L S V A L G H L I A I D Y T G C G M N P A R S F G S A V V A K N F Q Y H W I F   :   2 1 6
O P M                 :   - - - - - - - - - H H H H H H H H H H H H H H H H H + + + + + + + + H H H H H H H - - - - - - - - - - H H H   :   1 1 6
                          * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * *            
                                                                                                                                                 
                            2 2 0                   *               2 4 0                   *               2 6 0                   *            
A Q P 1 _ H U M A N   :   W V G P F I G G A L A V L I Y D F I L A P R S S D L T D R V K V W T S G Q V E E Y D L D A D D I N S R V E M   :   2 6 6
Q 8 J I R 4 _ H Y L   :   W V G P M I G G A A A A I I Y D F I L A P R T S D L T D R L K V W T N G Q V E E Y E L D G E D - - A R M E M   :   2 6 8
O P M                 :   H H H H H H H H H H H H H H H H H H H + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +   :   1 3 5
                          * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * *            
                                           
                                           
A Q P 1 _ H U M A N   :   K P K   :   2 6 9
Q 8 J I R 4 _ H Y L   :   K P K   :   2 7 1
O P M                 :   + + +   :       -
                          * * *            

3. Предсказание топологии заданного белка с помощью наиболее популярной программы (TMHMM).

Была предсказана топологию заданного белка с помощью сервера TMHMM. (с опциями по умолчанию).
результат предсказания можно посмотреть тут.
К последовательностям в файле marking.msf была добавлена еще одна последовательность, отражающую результаты данного предсказания. Эта последовательность была названа "TMHMM". Готовое выравнивание экспортированное в формате HTML см. ниже:

                                                                                                                                         
                                  *       1 0         *       2 0         *       3 0         *       4 0         *       5 0            
A Q P 1 _ H U M A N   :   M A S E F K K K L F W R A V V A E F L A T T L F V F I S I G S A L G F K Y P V - - G N N Q T A - - V   :     4 6
Q 8 J I R 4 _ H Y L   :   M A S E F K K M A F W R A V I A E F L A M I M F V F I S I G A A L G F N F P I Q E K T N E T V G R T   :     5 0
O P M                 :   + + + + + + + + + + H H H H H H H H H H H H H H H H H H H H H - - - - - - - - - - - - - - - - - - -   :     2 1
T M H M M             :   - - - - - - - - - - - - - - H H H H H H H H H H H H H H H H H H H H H H H + + + + + + + + + + + + +   :     2 3
                                                                                                                                         
                                                                                                                                         
                                  *       6 0         *       7 0         *       8 0         *       9 0         *     1 0 0            
A Q P 1 _ H U M A N   :   Q D N V K V S L A F G L S I A T L A Q S V G H I S G A H L N P A V T L G L L L S C Q I S I F R A L M   :     9 6
Q 8 J I R 4 _ H Y L   :   Q D I V K V S L A F G L S I A T M A Q S V G H I S G A H L N P A V T L G C L L S C Q I S I L K A V M   :   1 0 0
O P M                 :   - - - H H H H H H H H H H H H H H H H H H H + + + + + + + + H H H H H H H H H H H - - - - H H H H H   :     5 6
T M H M M             :   + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + H H   :     2 5
                                                                                                                                         
                                                                                                                                         
                                  *     1 1 0         *     1 2 0         *     1 3 0         *     1 4 0         *     1 5 0            
A Q P 1 _ H U M A N   :   Y I I A Q C V G A I V A T A I L S G I T S S L T G N S L G R N D L A D G V N S G Q G L G I E I I G T   :   1 4 6
Q 8 J I R 4 _ H Y L   :   Y I I A Q C L G A V V A T A I L S G I T S N L A G N T L G L N G L S N G V T A G Q G L G V E I M V T   :   1 5 0
O P M                 :   H H H H H H H H H H H H H H H + + + + + + + + + + + + + + + + + + + + + + + + + + + H H H H H H H H   :     7 9
T M H M M             :   H H H H H H H H H H H H H H H H H H H H H - - - - - - - - - - - - - - H H H H H H H H H H H H H H H   :     6 1
                                                                                                                                         
                                                                                                                                         
                                  *     1 6 0         *     1 7 0         *     1 8 0         *     1 9 0         *     2 0 0            
A Q P 1 _ H U M A N   :   L Q L V L C V L A T T D R R R R D L G G S A P L A I G L S V A L G H L L A I D Y T G C G I N P A R S   :   1 9 6
Q 8 J I R 4 _ H Y L   :   F Q L V L C V V A V T D R R R R D V S G S V P L A I G L S V A L G H L I A I D Y T G C G M N P A R S   :   2 0 0
O P M                 :   H H H H H H H H H H - - - - - - - - - - - H H H H H H H H H H H H H H H H H + + + + + + + + H H H H   :   1 1 0
T M H M M             :   H H H H H H H H + + + + + + + + + + + + H H H H H H H H H H H H H H H H H H H H H H H - - - - - - -   :     9 2
                                                                                            H                                            
                                                                                                                                         
                                  *     2 1 0         *     2 2 0         *     2 3 0         *     2 4 0         *     2 5 0            
A Q P 1 _ H U M A N   :   F G S A V I T H N F S N H W I F W V G P F I G G A L A V L I Y D F I L A P R S S D L T D R V K V W T   :   2 4 6
Q 8 J I R 4 _ H Y L   :   F G S A V V A K N F Q Y H W I F W V G P M I G G A A A A I I Y D F I L A P R T S D L T D R L K V W T   :   2 5 0
O P M                 :   H H H - - - - - - - - - - H H H H H H H H H H H H H H H H H H H H H H + + + + + + + + + + + + + + +   :   1 3 5
T M H M M             :   - - - - - - - - - - - - H H H H H H H H H H H H H H H H H H H H H H H + + + + + + + + + + + + + + +   :   1 1 5
                                                  h                                                                                      
                                                                                   
                                  *     2 6 0         *     2 7 0                  
A Q P 1 _ H U M A N   :   S G Q V E E Y D L D A D D I N S R V E M K P K   :   2 6 9
Q 8 J I R 4 _ H Y L   :   N G Q V E E Y E L D G E D - - A R M E M K P K   :   2 7 1
O P M                 :   + + + + + + + + + + + + + + + + + + + + + + +   :       -
T M H M M             :   + + + + + + + + + + + + + + + + + + + + + + +   :       -
                                                                                   

также выравнивание можно увидеть в виде текста формата CLUSTAL W

4. Оценка качества предсказания

Сравните полученное предсказание с данными ОРМ. Рассмотрите полученное выравнивание, и заполните таблицу вида:

Результаты предсказания топологии мембранного белка....

  Число а.к. остатков
Всего а.к. остатков  271
Остатки, предсказанные как локализованные в мембране (всего)  115 
Правильно предсказали (true positives, TP)  89
Предсказали не то, что нужно (а.о. предсказаны как мембранные, а по данным ОРМ таковыми не являются, false positives, FP)  26
Правильно не предсказали ( не предсказаны, и по данным ОРМ не находятся в мембране, true negatives, TN)  110
Не предсказали то, что нужно (остатки по данным ОРМ находятся в мембране, false negatives, FN)  46
Чувствительность (sensivity) = TP / (TP+FN) 0,6592
Специфичность (specificity) =  TN / (TN+FP)  0,8088
Точность (precision) = TP / (TP+FP)                        0,7810
Сверхпредсказание = FP/ (FP+TP)      0,2260
Недопредсказание = FN / (TN+FN)                                            0,2948

В результате работы было установлено, что приблизительно 77 процентов аминокислотных остатков, предсказанных как локализованные в мембране, действительно являются таковыми. Метод не является абсолютно точным, не было угадано 3 спирали,  в то же самое время, достаточно точно были угаданы оставшиеся, что говорит о компетентности использования этого метода, а также о том, что предсказание само по себе дает довольно-таки неточный результат. То есть надо все перепроверять, возможно, другими методами биоинформатики или, если возможно, экспериментально.

Дополнительное рассуждение, основанное лишь на предположениях автора, которые являются лишь попыткой понять почему 3 спирали не были предсказаны.. Заметим, что на большей части последовательности для ОРМ и ТМНММ inside и outside участки не совпадают. тогда можно было бы предположить, что 3 спирали, идущие одна за одной могут быть ошибочно предсказаны как одна, так как после прохождения 3х спиралей например, начиная с inside мы придем к outside и, соответственно, наоборот, что также наблюдается на очевидном примере одной спирали. В случае конкретного предсказания 2 спирали находятся рядом, то есть из outside мы "придем" в outside, то есть этот участок может быть в таком случае (ошибочно) вообще непредсказан, однако остается неясным, почему не была предсказана последняя спираль. Возможно, это из-за того, что она довольно короткая.

 

 

© Бирюков