Учебный сайт
Главная Семестры Проекты Обо мне

Последний проиндексированный в системе релиз EMBL:
Дата релиза: 7 сентября 2009
Число записей в релизе: 108577013

Список классов банка EMBL:
      Краткое       Описание                              Число проиндексированных
      обозначение                                         в SRS записей
    * ANN:          Constructed sequence with annotation
    * CON:          Constructed sequence
    * EST:          Expressed Sequence Tag                62846990
    * GRV:          Genome Reviews
    * GSS:          Genome Survey Sequence                25905073
    * HTC:          High Throughput cDNA sequencing       549753
    * HTG:          High Throughput Genome sequencing     142473
    * MGA:          Mass Genome Annotation
    * PAT:          Patent                                10439165
    * SET:          Project set (EMBL WGS Masters only)
    * STD:          Standard                              7253026
    * STS:          Sequence Tagged Site                  1310171
    * TPA:          Third Party Annotation                6520
    * TSA:          Transcriptome Shotgun Assembly        123842
    * WGS:          Whole Genome Shotgun
Список разделов банка EMBL:
 
      Краткое       Описание                              Число записей
      обозначение                                         в разделе
    * ENV:          Пробы из окружающей среды             4145029
    * FUN:          Грибы                                 3942084
    * HUM:          Человек                               12841544
    * INV:          Беспозвоночные                        15518735
    * MAM:          Другие млекопитающие                  9429823
    * MUS:          Мышь домовая                          7424621
    * PHG:          Бактериофаги                          5865
    * PLN:          Растения                              33806044
    * PRO:          Прокариоты                            909986
    * ROD:          Грызуны                               2261678
    * SYN:          Искусственные                         2671622
    * TGN:          Трансгенные                           265465
    * UNC:          Неклассифицированные                  3945859
    * VRL:          Вирусы                                827405
    * VRT:          Другие позвоночные                    10581253
Столбчатая диаграмма: число добавленных стандартных записей в банк EMBL за июнь 2005, 2006, 2007, 2008 и 2009 годов
Для построения диаграммы были выбраны разделы банка Грибы, Растения, Человек, Мышь домовая и Другие млекопитающие. Поиск записей в банке осуществлялся по критериям: класс - STD, раздел - один из перечисленных выше, дата добавления - период с 1 по 30 июня соответствующего года.

Как видно из диаграммы, число записей в разделе Грибы и Растения примерно одинаково в разные годы (хотя в Растениях наблюдается небольшой прирост числа записей каждый год), в то время как в разделах Человек, Мышь домовая и Др.млекопитающие есть резкие различия по числу записей в разные годы. В июне 2009 года в разделе Другие млекопитающие было добавлено наибольшее числое записей за последние 5 лет, в то время как максимальное добавление в разделе Мышь домовая было в 2006 году. В разделе человек в разные годы добавлялось разное число записей, общей тенденции не заметно.

Описание гена RNF9 из записи EMBL с кодом доступа BA000025
Направление гена относительно напрвления записи - прямое
Число кодирующих участков - 7
Длина первого кодирующего участка = 1781702-1781274+1=429
Длина последнего кодирующего участка = 1788161-1787644+1=518
Длина первого интрона = 1782886-1781703+1=1184
длина последнего интрона = 1787643-1786404+1=1240

Поиск белка, соответствущего самому длинному кодирующему участку гена RNF9
Самый длинный кодирующий участок гена - последний, с позиции 1787644 по 1788161. Этот участок был вырезан при помощи команды:
ksenia@mouse:~$ seqret -sask
Reads and writes (returns) sequences
Input (gapped) sequence(s): BA000025.embl
     Begin at position [start]: 1787644
       End at position [end]: 1788161
        Reverse strand [N]:
output sequence(s) [ba000025.fasta]:
Для поиска белков был использован blastx(поиск белков по нуклеотидной последовательности).
В blastx файл ba000025.fasta был загружен в окне upload, в поле database был выбран банк Swiss-Prot, в разделе algorithm parametres в поле expected threshold был выбран порог 0.01.
В результате поиска было обнаружено 12 белков, при этом только у 5 из них был низкий e-value(меньше e-15).
sp|Q7YR32.1|TRI10_PANTR  RecName: Full=Tripartite motif-contai...   97.1    5e-20
sp|Q9UDY6.3|TRI10_HUMAN  RecName: Full=Tripartite motif-contai...   97.1    5e-20
sp|O19085.2|TRI10_PIG    RecName: Full=Tripartite motif-containi.   87.4    4e-17
sp|Q5E9G4.1|TRI10_BOVIN  RecName: Full=Tripartite motif-contai...   87.0    5e-17
sp|Q9WUH5.2|TRI10_MOUSE  RecName: Full=Tripartite motif-contai...   82.0    2e-15
sp|Q99PQ2.1|TRI11_MOUSE  RecName: Full=Tripartite motif-contai...   42.7    0.001
sp|Q5NCC9.1|TRI58_MOUSE  RecName: Full=Tripartite motif-contai...   41.2    0.003
sp|Q62158.2|TRI27_MOUSE  RecName: Full=Zinc finger protein RFP...   41.2    0.003
sp|P14373.1|TRI27_HUMAN  RecName: Full=Zinc finger protein RFP...   41.2    0.003
sp|A4QPC6.1|BT2A2_MOUSE  RecName: Full=Butyrophilin subfamily ...   40.4    0.005
sp|Q2XXL4.1|VESP_POGBA   RecName: Full=Vespryn; Flags: Precursor    40.0    0.007
sp|Q8WVV5.2|BT2A2_HUMAN  RecName: Full=Butyrophilin subfamily ...   39.7    0.009
Точно экзону соответствуют белки TRI10_PANTR и TRI10_HUMAN(этот белок соответствует гену RNF9 из записи BA000025.embl), в них экзону соответствуют участки с 63 по 191 аминокислоту.

Записи EMBL, указанные в записи Swiss-Prot по белку P0ABD8:
Идентификатор записи EMBL Тип молекулы Класс данных Раздел EMBL Дата создания документа Описание Длина последовательности
AP009048 genomic DNA STD PRO 22-JAN-2006 Escherichia coli str. K12 substr. W3110 DNA, complete genome 4646332
M32214 genomic DNA STD PRO 22-NOV-1990 E.coli biotin carboxyl carrier protein (fabE) gene, complete cds 1229
M79446 genomic DNA STD PRO 14-NOV-1991 Escherichia coli biotin carboxylase gene 1750
M80458 genomic DNA STD PRO 27-FEB-1992 E.coli biotin carboxylase and biotin carboxyl carrier protein (fabE) and ORF1 35 kDa protein genes, complete cds 4413
M83198 genomic DNA STD PRO 09-JUL-1992 Escherichia coli biotin carboxyl carrier biotin carboxylase (fabG), complete cds, and pantothenate permease (panF) genes, 5' end 3079
S52932 mRNA STD PRO 14-MAR-1993 accB=biotin carboxyl carrier protein {promoter} [Escherichia coli, mRNA Partial, 420 nt] 420
U00096 genomic DNA STD PRO 23-FEB-2006 Escherichia coli str. K-12 substr. MG1655, complete genome 4639675
U18997 genomic DNA STD PRO 30-DEC-1994 Escherichia coli K-12 chromosomal region from 67.4 to 76.0 minutes 372438
X14825 genomic DNA STD PRO 06-JUL-1989 E. coli fabE gene for Acetyl-CoA carboxylase (EC 6.4.1.2) 780

Во всех записях содержатся данные о прокариотических структурах, среди них все - геномные ДНК (за исключением одной мРНК). Первая запись была добавлена 6 июля 1989 года, последняя - 23 февраля 2006 года. Последние 2 записи содержат данные о полном геноме E.coli, штамм K12. Длины последовательностей в этих записях наибольшие. Наименьшая длина последовательности в записи о мРНК промотора accB.

© Яшина 2009