База данных PROSITE
База данных PROSITE содержит сведения о семействах белков, выделенных на основании идентичности специфических сайтов внутри каждого семейства. Описание каждого специфического участка (сайта) каждого из подобных семейств (вместе с примерами, взятыми из базы данных SWISSPROT) составляет одну запись.
Структура каждой записи базы данных PROSITE имеет нижеследующий вид. 1. Строка ID.
Строка ID (Идентификатор) всегда является первой строкой записи. Общая форма данной строки следующая: ID ЗАПИСЬ_ИМЯ; ЗАПИСЬ_ТИП.
ИМЯ записи состоит из буквенно-цифровых символов в количестве от 2 до 21. Символы, используемые при построении данной строки - буквы латинского алфавита (от A до Z), цифры (от 0 до 9), а также символ подчеркивания "_".
ТИП записи может быть одним из нижеперечисленных:
PATTERN
MATRIX
RULE Пример: ID HELIX_LOOP_HELIX; PATTERN. 2. Строка AC.
Строка AC (ACcession number) отражает порядковый номер записи в базе данных. Формат строки следующий: AC PSnnnnn; где nnnnn - соответствующее порядковому номеру записи сочетание из пяти цифр. Пример: AC PS00016; 3. Строка DT.
В строке DT (Дата), всегда являющейся третьей строкой записи, обозначены соответствующие даты, а именно: дата создания базы данных (CREATED), дата модификации рассматриваемой в данный момент записи (DATE UPDATE), а также дата последней модификации, когда-либо произведенной над данной базой (INFO UPDATE). Пример: DT APR-1990 (CREATED); JUN-1994 (DATE UPDATE); JUN-1994 (INFO UPDATE). 4. Строка DE.
Строка DE (DEscription) описывает содержание данной записи. Пример: DE Myc-type, 'helix-loop-helix' DNA-binding putative domain signature. 5. Строка PA.
Строка PA (PAttern) содержит аминокислотную последовательность специфического участка. Для обозначения последнего используются: стандартный однобуквенный код (включая символ "x", обозначающий любую аминокислоту); квадратные, круглые и фигурные скобки, а также символы "<", ">" и разделительный символ "-". Квадратные скобки в смысловом отношении тождественны слову "или", фигурные скобки - слову "кроме"; в круглых же скобках содержится цифра, означающая количество повторений в данной позиции предыдущего символа. Так, запись [GST] означает наличие в данном положении последовательности любой из трех указанных в квадратных скобках аминокислот, запись {{TDF{} - любой, кроме указанных в фигурных скобках, а запись x(5,7) - наличие участка из 5 или 7 любых аминокислот. Символы "<" и ">" означают, что данный специфический участок принадлежит либо N-концу аминокислотной последовательности белка, либо C-концу соответственно. Символ "-" является разделительным. 6. Строка MA.
Данная строка характеризует формат записи (матрикс). Все, касающееся специфики форматов записей базы данных PROSITE, можно найти в файле profile.txt. 7. Строка RU.
Строка RU (RUle) содержит некоторые дополнительные сведения о последовательности специфического участка (например, данные о возможности наличия в том или ином положении заряженных аминокислот, C-C-связей, т.п.). 8. Строка NR.
Строка NR (Numerical Results) отражает связь с базой данных аминокислотных последовательностей SWISSPROT, на основе которой формировалась база данных PROSITE. Для характеристики этой связи используются следующие идентификаторы (ниже приведены идентификаторы и их значение):
/RELEASE Номер выпуска базы данных SWISSPROT и количество аминокислотных последовательностей в данном выпуске. Например, запись /RELEASE=29,38303; означает, что номер выпуска базы данных SWISSPROT - 29, а количество последовательностей в данном выпуске - 38303.
/TOTAL Общее количество специфических участков (указанного в данной записи типа) в базе данных SWISSPROT, а также указываемое в скобках количество последовательностей, содержащих данные участки. Например, в записи /TOTAL=58(36); первое число (58) означает количество участков, а второе (36) - количество последовательностей, содержащих указанные специфические участки. Та же форма записи принята для остальных идентификаторов данной строки.
/POSITIVE Количество участков в белках, принадлежащих к данному семейству.
/UNKNOWN Количество участков в белках с не определенной принадлежностью.
/FALSE_POS Количество участков в белках, не принадлежащих в действительности к данному семейству (но обнаруженных методом выравнивания последовательностей)
/FALSE_NEG Количество участков в белках, пропущенных при поиске (но принадлежащих в действительности к данному семейству). 9. Строка CC.
Данная строка содержит различного рода комментарии. Идентификатор TAXO_RANGE комментирует принадлежность данного семейства белков к соответствующим таксономическим группам организмов. Для обозначения таковой используются пять букв латинского алфавита (A,B,E,P,V) и вопросительный знак, означающий неизвестность принадлежности рассматриваемого белкового семейства к тому или иному таксону. Указанные же буквы обозначают следующие таксономические группы: A - архебактерии, B - бактериофаги, E - эукариоты, P - прокариоты, V - эукариотические вирусы. Так, запись /TAXO_RANGE=A?E?V означает наличие белков данного семейства у архебактерий, эукариот и эукариотических вирусов и неизвестность принадлежности белков семейства к бактериофагам и прокариотам. Идентификатор MAX_REPEAT означает максимальное количество вышеуказанных специфических сайтов в аминокислотной последовательности одного белка. Например, запись MAX_REPEAT=3 указывает на то, что максимальное количество данных специфических участков в одной белковой последовательности равно 3. Идентификатор SITE указывает на наличие и локализацию активного (или иного) сайта в аминокислотной последовательности специфического участка. Например, запись /SITE=3,active_site; указывает на то, что третья аминокислота данного специфического участка формирует некий активный сайт молекулы, а запись /SITE=5,disulfide; - на участие пятой аминокислоты в формировании дисульфидной связи. 10. Строка DR.
В строке DR (Data bank Reference) находятся ссылки на базу данных SWISSPROT. При этом используется следующий формат записи: DR PNNNNN, ИМЯ_ЗАПИСИ, Б; PNNNNN, ИМЯ_ЗАПИСИ, Б; PNNNNN, ИМЯ_ЗАПИСИ, Б; и т.д., где PNNNNN - номер записи в базе данных SWISSPROT (например, P16884), ИМЯ_ЗАПИСИ - имя записи (т.е. название белка) в базе данных SWISSPROT (например, NFH_RAT), а Б - буква латинского алфавита, характеризующая принадлежность данного белка к указанному семейству (например, буква T (True) относится к белкам, определяемым выше идентификатором POSITIVE, N - FALSE_NEG, F - FALSE_POS, буква P (Potential) - UNKNOWN). 11. Строка DO.
Строка DO содержит ссылку на описание записи в файле документации базы данных PROSITE. 12. Строка 3D.
Содержание строки 3D представляет собой ссылку на базу данных пространственных структур. 13. Строка //.
Данная строка, будучи терминирующей,не содержит никакой полезной информации.
ПРИМЕЧАНИЕ. Наличие в записи базы данных PROSITE строк NN 6,7,8,12 не является обязательным.