Мембранные белки

На главную страницу четвертого семестра

Задача — предсказать топологию мембранного белка и сравнить предсказание с ориентированной в мембране 3D-структурой белка-прототипа.

Идентификаторы: 

  • белок-прототип Q41372_SPIOL: AC UniProt Q41372 PDB ID 2B5F
  • белок для исследования Q5K123_9ROSI: AC UniProt Q5K123

  • Построение парного выравнивания исследуемого белка и заданного прототипа
  • Т.к. последовательности и нумерация остатков в БД PDB и БД UniProt могут различаться, поэтому необходимо было получить и сравнить обе последовательности белка-прототипа. В БД UniProt была получена последовательность белка-прототипа (запрос: [uniprot-AccNumber:Q41372*]). На главной страничке сайта PDB в поле запроса был введен ID белка-прототипа. На появившейся страниче, с помощью опции Download Files > FASTA Sequence, была сохранена последовательность белка-прототипа. С помощью программы needle было сделано выравнивание данных последовательностей: needle Q41372.fasta 2B5F.fasta aln.needle -auto ВЫРАВНИВАНИЕ:
    ########################################
    # Program: needle
    # Rundate: Fri May 25 2007 15:31:48
    # Commandline: needle
    #    [-asequence] Q41372.fasta
    #    [-bsequence] 2B5F.fasta
    #    [-outfile] aln.needle
    #    -auto
    # Align_format: srspair
    # Report_file: aln.needle
    ########################################
    
    #=======================================
    #
    # Aligned_sequences: 2
    # 1: Q41372_SPIOL
    # 2: SEQUENCE
    # Matrix: EBLOSUM62
    # Gap_penalty: 10.0
    # Extend_penalty: 0.5
    #
    # Length: 303
    # Identity:     254/303 (83.8%)
    # Similarity:   254/303 (83.8%)
    # Gaps:          49/303 (16.2%)
    # Score: 1317.0
    # 
    #
    #=======================================
    
    Q41372_SPIOL       1 MSKEVSEEAQAHQHGKDYVDPPPAPFFDLGELKLWSFWRAAIAEFIATLL     50
                                                    |||||||||||||||||||||||
    SEQUENCE           1 ---------------------------DLGELKLWSFWRAAIAEFIATLL     23
    
    Q41372_SPIOL      51 FLYITVATVIGHSKETVVCGSVGLLGIAWAFGGMIFVLVYCTAGISGGHI    100
                         ||||||||||||||||||||||||||||||||||||||||||||||||||
    SEQUENCE          24 FLYITVATVIGHSKETVVCGSVGLLGIAWAFGGMIFVLVYCTAGISGGHI     73
    
    Q41372_SPIOL     101 NPAVTFGLFLARKVSLLRALVYMIAQCLGAICGVGLVKAFMKGPYNQFGG    150
                         ||||||||||||||||||||||||||||||||||||||||||||||||||
    SEQUENCE          74 NPAVTFGLFLARKVSLLRALVYMIAQCLGAICGVGLVKAFMKGPYNQFGG    123
    
    Q41372_SPIOL     151 GANSVALGYNKGTALGAEIIGTFVLVYTVFSATDPKRSARDSHVPILAPL    200
                         ||||||||||||||||||||||||||||||||||||||||||||||||||
    SEQUENCE         124 GANSVALGYNKGTALGAEIIGTFVLVYTVFSATDPKRSARDSHVPILAPL    173
    
    Q41372_SPIOL     201 PIGFAVFMVHLATIPITGTGINPARSFGAAVIFNSNKVWDDQWIFWVGPF    250
                         ||||||||||||||||||||||||||||||||||||||||||||||||||
    SEQUENCE         174 PIGFAVFMVHLATIPITGTGINPARSFGAAVIFNSNKVWDDQWIFWVGPF    223
    
    Q41372_SPIOL     251 IGAAVAAAYHQYVLRAAAIKALGSFRSNPTN-------------------    281
                         |||||||||||||||||||||||||||||||                   
    SEQUENCE         224 IGAAVAAAYHQYVLRAAAIKALGSFRSNPTNLEQKLISEEDLNSAVDHHH    273
    
    Q41372_SPIOL     281 ---    281
                            
    SEQUENCE         274 HHH    276
    
    
    #---------------------------------------
    #---------------------------------------
    
    
    Вывод: Последовательноть белка-прототипа из БД UniProt и последовательность того же белка, но из БД PDB совпадают на 83.8. Если посмотреть на выравнивание, то можно видеть, что выравнивание очень хорошее, гэпов нет, последовательность белка-прототипа начинается с 28 а.о., а также можно видеть, что одна последовательность из БД UniProt длинее последовательности белка из БД PDB на 22 а.о.. Причины данного факта могут быть разными. Далее идентификатору UniProt была получена последовательность заданного белка (Q5K123_9ROSI). Запрос:[uniprot-AccNumber:Q5K123*]. С помощью программы needle было построено выравнивание последовательностей заданного белка (Q5K123_9ROSI) и белка-прототипа Q41372_SPIOL (последовательность из БД PDB). needle Q5K123.fasta 2B5F.fasta aln1.needle -aformat3 msf Далее это выравнивание было открыто программой GeneDoc и сохранено в файле marking.msf Последовательность из БД OPM оказалась диннее последовательности из UniProt на 22 а.о. Идентичность - 84%.

  • Разметка мембранных сегментов на выравнивании
  • По идентификатору PDB белка-прототипа (2B5F) было найдено описание ориентации белка в мембране в БД OPM (Orientations of Proteins in Membranes database). Данный белок имеет 4 цепи, для каждой из которых описано 8 трансмембранных сегмента: (1(37-58), 2(75-93), 3(102-111), 4(116-137), 5(164-182), 6(199-214), 7(223-232), 8(242-261)) Позиции мембранных сегментов во всех четырех цепях совпадают. Данный белок расположен в плазматической мембране эукариота. Если воспользоваться опцией Jmol, то можно увидеть трехмерное изображение белка в мембране. В данном случае синяя поверхность мембраны обознает липидный слой, обращенный в цитоплазму, а красная поверхность мембраны обозначает липидный слой, обращенный во внеклеточную среду. Также, с помощью данной опции мы может узнать позиции цитоплазматических петель.
     
    Петли: 
    для цепи А: 1(59-74), 2(138-161), 3(232-241), 4(215-217) 
    для цепи В: 1(59-74), 2(138-161), 3(232-241), 4(215-217) 
    для цепи С: 1(59-74), 2(138-161), 3(232-241), 4(215-217)
    для цепи D: 1(59-74), 2(138-161), 3(232-241), 4(215-217), 
    цитоплазматическими не являются.
     
      	В файл marking1.msf ниже последовательности прототипа 
    была добавлена искусственная последовательность с названием "OPM" и разметкой ТМ 
    сегментов. Для этого мы воспользовались опцией импорта последовательности, как 
    текста с клавиатуры. Далее была создана последовательность из несколько символов "-" 
    с названием "OPM". После чего мы перешли в режим редактуры остатков (Edit Residue Mode) 
    и отметили позиции мембранных сегментов буквой "Н", позиции цитоплазматических 
    петель знаком "+", остальные - знаком "-". 
    
    

  • Предсказание топологии заданного белка с помощью наиболее популярной программы (TMHMM)
  • На главной страничке сервера TMHMM в поле запроса мы ввели последовательность Q5K123_9ROSI в формате fasta. Все остальные опции - по умолчанию. Страничка с результатом предсказания TMHMM. Далее к последовательностям в файле marking.msf была добавлена еще одна искусственная последовательность, отражающая результаты данного предсказания. Последовательность - "TMHMM".
    
    Готовое выравнивание : в формате html marking.html
                           в формате Clustal marking.aln 
    
    
    
  • Оценка качества предсказания
  • В этом задании необходимо сравнить полученное предсказание с данными OPM. Для этого нужно было подсчитать 4 числа TP,TN,FP,FN, описание которых дано в таблице

    Результаты предсказания топологии мембранного белка Q5K123_9ROSI

      Число а.к. остатков
    Всего а.к. остатков  279
    Остатки, предсказанные как локализованные в мембране (всего)  138
    Правильно предсказали (true positives, TP)  110
    Предсказали не то, что нужно (а.о. предсказаны как мембранные, а по данным ОРМ таковыми не являются, false positives, FP)  28
    Правильно не предсказали ( не предсказаны, и по данным ОРМ не находятся в мембране, true negatives, TN)  122
    Не предсказали то, что нужно (остатки по данным ОРМ находятся в мембране, false negatives, FN)  28
    Чувствительность (sensivity) = TP / (TP+FN)  0.797
    Специфичность (specificity) =TN / (TN+FP)  0.772
    Точность (precision) = TP / (TP+FP)  0.797
    Сверхпредсказание = FP/ (FP+TP)  0.203
    Недопредсказание = FN / (TN+FN)  0.1866

    Вывод: На основе данных таблицы можно сделать вывод, что сервер TMHMM хорошо предсказал белок Q5K123_9ROSI. Число ошибок по данным OPM - 56 ( предсказали ненужных 28 а.о, в то время как не предсказали 28 а.о.). Чуствительность - доля правильно предсказанных остатков среди тех, которые на самом деле входят в трансмембранные сегменты, специфичность - доля правильно предсказанных остатков среди тех, которые входят в состав петель. По данным таблицы значения чувствительности и специфичности большие. Из-за высокого значения специфичности сверхпредсказание имеет тоже большое значение. доля недопредсказанного очень мала, что очень хорошо.


    ©Трембицкая Влада