База знаний по молекулярной и общей биологии человека (HUMBIO)

Современные базы данных молекулярно-биологической информации стали важнейшим инструментом исследователей биологов. Быстро растет как количество информации включенной в базы данных, так и их число ( Wallace, 1992 ; Bairoch, 1994 ; Holm & Sander, 1994 ). Однако, можно с уверенностью сказать, что в базы данных включается ничтожная часть опубликованной в литературе информации. Это обусловлено трудностями связанными с формализацией данных. В базы данных вводится легко формализуемая информация, те. информация, которую можно представить в виде таблиц. Это связано с тем, что современные базы данных создаются на основе реляционных СУБД, приспособленных к работе с табличными данными. Полная формализация информации о сложных биологических системах практически является неосуществимой. Это связано с тем, что наши знания в области молекулярной биологии динамично развиваются и поэтому их очень трудно описать в какой либо заранее спроектированной жесткой системе, удобной для компьютерной обработки. В отделе биоинформатики ИМГ РАН была разработана концепция глобальной интеграции биологических знаний и баз данных на основе гипертекстовой технологии ( Голованов, 1992 ) . Она была представлена на Мировом конгрессе по численным данным ( KODATA) в 1990 г. ( Alexandrov, 1992 ). В соответствии с этой концепцией в течение 1995 - 1999 гг создана база знаний по биологии человека. База знаний по биологии человека ( HUMBIO ), интегрирующая знания по биологии человека от физиологического до молекулярного уровня с данными, представленными в компьютерных сетях и множестве международных баз данных по молекулярной биологии. В настоящее время первая версия системы опубликована в Интернете на сервере Отдела биоинформатики ИМГ РАН по адресу http://OBI .IMG. RAS. RU . Несмотря на то, что в системе наиболее детально представлена информация, касающаяся человека, энциклопедия дает широкий обзор по различным аспектам современной молекулярной и клеточной биологии, генетике, биохимии и может служить в качестве образовательной системы широкого профиля, связываюшей медицину и современную молекулярную биологию. Наш сервер включен на постоянный режим работы в начале 2001г . За год БД HUMBIO посетило около 40 тысяч пользователей, что является хорошим показателем. По числу посетителей БД HUMBIO находится в первой пятерке среди 300 российских сайтов по биологии (рейтинг SpyLog). Главным достоинством БД HUMBIO является понятность ее организации для биологов. Это достигается благодаря тому, что структура БД имитирует привычную структуру книги, но дополняется развитым аппаратом гипертекстовых ссылок и мощными поисковыми средствами. Наш опыт показывает, что биологи, не имеющие никакой компьютерной подготовки, осваивают гипертекстовую СУБД в течение нескольких часов и могут самостоятельно готовить гипертекстовые обзоры. Таким образом, к заполнению БД можно привлечь большое количество специалистов-биологов, что решает очень трудный вопрос пополнения базы данных.

Программное обеспечение системы, интегрирующей разнообразную фактографическую информацию по биологии человека от физиологического до молекулярного уровня, должно удовлетворять нескольким нетривиальным функциональным требованиям:

- Объем системы должен быть практически неограничен (те ограничен только параметрами аппаратных средств).

- Система должна быть достаточно гибкой для обеспечения перестройки по мере заполнения, так как заранее спроектировать детальную структуру динамически пополняемой системы невозможно.

- Так как в системе должна быть интегрирована информация представленная в различных международных базах данных в специальных форматах, система должна создаваться в среде гипермедиа, поддерживающей не только стандартные мультимедиа форматы, но и ряд специальных форматов (пространственные структуры молекул, химические структурные формулы и др.)

- Эксплуатация и пополнение системы должны быть легко доступны через компьютерные сети пользователям, не имеющим компьютерной подготовки (биологи, медики).

В течение 1990-1998 нами была организована подготовка большого количества локальных баз данных, по различным аспектам биологии человека. Для осуществления интеграции этих БД в1995 году мы приступили к разработке гипертекстовой СУБД на платформе WINDOWS NT/95. Совместно с Р.В. Сницарем и П.В. Ковалевым в нашей лаборатории были разработаны программы, отвечающие перечисленным функциональным требованиям, позволяющие поддерживать и публиковать в Интернете создаваемую БД. Был разработан набор программ, позволяющий интегрировать отдельные БД в единую систему. Для этого был введен специальный тип записи (<каталог>) и разработаны программы работы с такими записями, осуществляющие слияние, выделение, различные виды сортировок, автоматическое открывание всех записей при переносе в другой каталог, программы построения общего каталога всей БД (подробнее о последней программе см. в разделе поисковая система). Были разработаны и адаптированы программы работы с записями, обеспечивающие возможность слияния и редактирования, установления гипертекстовых ссылок. Разработан ряд программ, добавляемых к вьюеру, позволяющие обрабатывать объекты в специальных форматах - пространственные структуры белков, структурные формулы и др. Текущее состояние БД периодически контролируется программой, выявляющей несвязанные и испорченные записи, разорванные и неправильные связи. Окна всех программ системы связаны drag & drop технологией, что существенно облегчает создание и эксплуатацию БД. Все эти программы сопряжены с программами NT сервера, осуществляющего представление БД в Интернете. С технической точки зрения, "Энциклопедия человека" представляет собой систему гипермедиа, погруженную в среду World Wide Web. Важной особенностью является распространение идеи гипертекста, то есть ассоциативно связанной текстовой информации, на нетекстовую информацию, хранимую в системе. Так, в системе широко используются данные о первичной и пространственной структуре белков, нуклеиновых кислот, о структурах низкомолекулярных соединений, представленных в различных базах данных в специальных форматах.

Система состоит из двух главных частей: компьютерной энциклопедии (гипертекстовой базы данных), включающей фактографическую информацию по различным разделам биологии человека и информации из международных баз данных, подключенной к компьютерной энциклопедии через контекстные ссылки с помощью специальных программ-драйверов. Международные базы данных (БД последовательностей нуклеиновых кислот и белков, БД трехмерных структур белков, и др. могут подсоединяться к Компьютерной энциклопедии либо через Интернет, либо использоваться с сервера локальной сети, что в настоящее время значительно эффективней.

Компьютерная энциклопедия состоит из отдельных записей, с выделенными в тексте ключевыми словами или маркерами. Переход из записи в запись происходит при входе в ключевое слово (гипертекст). Входами в компьютерную энциклопедию является разветвленная система оглавлений и система каталогов (см. далее поисковая система). Независимые друг от друга записи из международных баз данных объединяются в группы и классифицируются посредством установления связей с определенными разделами компьютерной энциклопедии. Таким образом гипертекст используется для интеграции и структурирования огромного количества разнообразной информации по биологии человека, представленной в литературе и компьютерных базах данных и сетях.

Для облегчения работы пользователей дизайн компьютерной энциклопедии построен по аналогии со структурой печатных источников. Основным входом в систему являются подробные оглавления - по физиологии, клеточной биологии, биохимии, молекулярной биологии, иммунологии, патологии и др. Войдя в нужный раздел по оглавлению, пользователь осуществляет навигацию по сети взаимосвязанных записей (гипертекстовой сети), выбирая необходимую информацию. Возможен также прямой поиск записей по имени или включению слов в имя записи в каталогах. Независимые друг от друга записи из международных баз данных объединяются в группы и классифицируются посредством установления связей с определенными разделами компьютерной энциклопедии. Таким образом гипертекст используется для интеграции и структурирования огромного количества разнообразной информации по биологии человека, представленной в литературе и компьютерных базах данных и сетях. Организован доступ к базам данных последовательностей нуклеиновых кислот (БД EMBL, и Genbank), базе данных последовательностей белков([SWISSPROT), базе данных трехмерных структур белков (PDB Брукхевенская БД) и др Существует возможность вводить в базу данных и соединять с другими не только текстовые, и стандартные мультимедиа, но и различные специфические объекты. Для их изображения разрабатываются специальные программы, используемые как встраиваемые компоненты броузера. Компьютерная энциклопедия состоит из разделов, соответствующих основным направлениям науки о человеке - физиология, клеточная биология, генетика, биохимия, молекулярная биология, патология. Источниками информации являлись наиболее популярные книги по соответствующим направлениям и авторские обзоры. Общий объем системы - около 50 Мб текста (без учета записей международных баз данных и записей из Интернета). В системе описано около 7000 генов, около 2500 белков и их функциональных связей, приведено более 10 тысяч библиографических ссылок, около 800 рисунков. Организован доступ к БД EMBL, GENBANK, SWISSPROT, PDB (Брукхевенская БД), ENZIME, OMIM и др.. Созданная база знаний по биологии человека является сегодна единственной системой, где дано связное описание функционирования биологических систем человека от физиологического до молекулярного уровня организации.

Ссылки: