Kodomo

Пользователь

Практикум 13

Скрипты

Google Colab

Задание 1

ATG

3890

GTG

338

ATT

4

TTC

1

CTG

2

TTG

80

ACA

1

TCA

1

ATG

1129

TCT

1

GTG

41

TTG

23

AAA

1

CTG

2

ACA

1

GAA

1

ACT

1

GTG

60

ATA

3

GTT

1

ATC

1

TCC

2

ATG

627

TCT

1

ATT

7

TGA

1

CAA

1

TTA

1

CAC

1

TTC

1

CTA

1

TTG

49

CTC

3

Для E.coli, ATG, GTG, TTG считаются каноническими старт-кодонами (и составляют подавляющее большинство старт-кодонов), ATT, CTG отличаются на 1 основание от ATG, потому их встречаемость может объясняться ошибками в репликации ДНК. TTC - старт-кодон для псевдогена lomR.

Есть предположение, что GTG старт-кодон ассоциирован с формированием более прочных вторичных структур в процессе транскрипции

Для Candidatus Gracilibacteria, ACA - старт-кодон для псевдогена гипотетического белка, TCA - тарт-кодон для псевдогена серин/треонин протеин-киназы, TCT - cтарт-кодон для псевдогена С-субъединицы АТФ-синтазы F0. Остальные старт-кодоны каноничные для прокариотов.

Для Mycoplasma pneumoniae M29, ATT, CTG, ATC - старт-кодоны гипотетических белков, все 3 отличаются от ATG на 1 основание. ATT также старт-кодон для DUF16 домен-содержащего белка и наиболее вероятно, выполняет регуляторную функцию. CTG - старт-кодон для MFS транспортера, вероятно, также выполняет регуляторную функцию. Остальные старт-кодоны ассоциированы с псевдогенами.

Задание 2

Последовательности с несколькими стоп-кодонами:

lcl|U00096.3_cds_250 [gene=insN] [locus_tag=b4587] [db_xref=ASAP:ABE-0285253,ECOCYC:G6130] [protein=IS911A regulator fragment] [pseudo=true] [location=join(270278..270540,271764..272190)] [gbkey=CDS]

2 TAA 2 TGA

lcl|U00096.3_cds_AAD13438.1_1459 [gene=fdnG] [locus_tag=b1474] [db_xref=UniProtKB/Swiss-Prot:P24183] [protein=formate dehydrogenase N subunit alpha] [transl_except=(pos:586..588,aa:Sec)] [protein_id=AAD13438.1] [location=1547401..1550448] [gbkey=CDS]

1 TAA 1 TGA

lcl|U00096.3_cds_AAD13456.1_3824 [gene=fdoG] [locus_tag=b3894] [db_xref=UniProtKB/Swiss-Prot:P32176] [protein=formate dehydrogenase O subunit alpha] [transl_except=(pos:586..588,aa:Sec)] [protein_id=AAD13456.1] [location=complement(4082772..4085822)] [gbkey=CDS]

1 TAA 1 TGA

lcl|U00096.3_cds_AAD13462.1_3997 [gene=fdhF] [locus_tag=b4079] [db_xref=UniProtKB/Swiss-Prot:P07658] [protein=formate dehydrogenase H] [transl_except=(pos:418..420,aa:Sec)] [protein_id=AAD13462.1] [location=complement(4297219..4299366)] [gbkey=CDS]

1 TAA 1 TGA

У E.coli стоп-кодоны в середине последовательности встретились у IS911A регуляторного фрагмента, формиат-дегидрогеназы H, и альфа-субъединиц формиат-дегидрогеназы N и O. IS911A - инсерционная последовательность, в данном случае разбитая IS30A на 2 части, до разбиения скорее всего кодировала транспозазу и регуляторные белки, их стоп-кодоны мы и видим, в формиат-дегидрогеназах TGA кодирует селеноцистеин.

Задание 3

Стоп-кодоны:

TGA

1246

TAA

2761

TAG

306

TGA

1

TAA

1000

TAG

188

TGA

0

TAA

526

TAG

220

Для 2 и 3 бактерий TGA не встречается в связи с тем, что у них он кодирует триптофан статья про Candidatus Gracilibacteria статья про Mycoplasma pneumoniae

Задание 4

Kодоны, кодирующие лейцин:

TTA

18505

CTC

14952

TTG

18301

CTA

5203

CTT

14728

CTG

71305

TTA

14766

CTC

3968

TTG

3237

CTA

3357

CTT

9332

CTG

1714

TTA

10294

CTC

3158

TTG

5571

CTA

2826

CTT

2782

CTG

2470

Для E.coli наиболее часто встречающийся кодон - CTG, для E.coli характерны многократные его повторы, регулирующие цикл роста бактерии. Для Candidatus Gracilibacteria и Mycoplasma pneumoniae встречаемость кодонов, кодирующих лейцин по всей видимости зависит от GC-содержания генома (кодоны содержащие гуанин и цитозин встречаются реже)

Задание 5

Получился следующий график

Ось х - координаты в геноме Ось y - значение GC-skew Оранжевая линия - cumulative GC-skew

oriC находится на '-' цепи с 3926012 по 3926455 нуклеотид. На графике этому соответствует минимум графика cumulative GC-skew. Если предположение о том, что ter находится в точке максимума cumulative GC-skew верно, то ter для E.coli находится в районе 1500000 нуклеотида.

Задание 6

10 наиболее часто встречающихся 6-меров:

GAAAAA

112

AAAGGA

138

GGAGAA

114

AAAAAA

147

AGGAGT

126

AGGAGA

147

CAGGAG

128

TAAGGA

168

AAGGAA

135

AAGGAG

190

TAAATA

110

AAAATA

171

TTTTTA

115

AAATAA

175

TTTTTT

120

TAAAAA

179

AAAAAT

144

ATAAAA

180

AATAAA

164

AAAAAA

282

ATTAAA

33

AATTTA

38

AAATTA

34

AATAAA

40

AAAGGA

35

TAAAAA

41

AAATAA

36

TTTAAA

42

TTAAAC

36

AATTAA

50

Очевидно, преобладают 6-меры богатые аденином и тимином для бактерий с низким содержанием GC (похоже на сайт связывания рибосомного белка S) и аденином и гуанином для бактерий с высоким содержанием GC (похоже на последовательность Шайна-Дальгарно)

Users/petrovandn/pr13 (последним исправлял пользователь petrovandn 2022-12-23 08:08:00)