Биоинформатика: введение
Биоинформатика (bioinformatics) - быстро развивающаяся отрасль информатики (теории информации) , занимающаяся теоретическими вопросами хранения и передачи информации в биологических системах.
Основными разделами биоинформатики являются компьютерная геномика , решающая проблемы расшифровки генетических "текстов", хранящихся в последовательностях нуклеотидов ДНК (РНК), и метабономика , исследующая организацию метаболизма клетки и его управления со стороны генома. Важное значение для развития основных разделов биоинформатики имеет создание компьютерных баз данных по молекулярной биологии, обеспечивающих геномику и метабономику необходимыми для их развития экспериментальными данными в достаточном количестве и удобной для использования форме.
К биоинформатике часто относят также информационные службы, обеспечивающую накопление, хранение и использование приобретаемых наукой знаний о биологических системах.
Целью биоинформатики является, таким образом, как накопление биологических знаний в форме, обеспечивающей их наиболее эффективное использование, так и построение и анализ математических моделей биологических систем и их элементов.
Информация о строении материальных элементов, обеспечивающих функционирование организма хранится в последовательности нуклеотидов ДНК (или РНК), образующей его геном.
Установление нуклеотидных последовательностей ДНК геномов организмов (секвенирование) стало к началу 21 века хорошо освоенной и, видимо, достаточно рентабельной технологией. Количество секвенированных геномов быстро увеличивается и определяется, в основном, только объемом средств, которые можно затратить на эти цели.
В биоинформатике существует специальный раздел, называемый геномикой , предметом которого является моделирование и исследование способов хранения информации о строении основных материальных элементов биологических систем, закодированной в последовательностях ДНК и РНК. Основные усилия ученых всего мира, работающих в области геномики сосредоточены сейчас на том, чтобы выработать эффективные приемы компьютерного анализа генетических "текстов", представляющих собой последовательности нуклеотидов генома клетки. Под анализом (расшифровкой) генетического текста имеется в виду в первую очередь установление возможных функций различных участков последовательности ДНК, т.е. обнаружение генов, их регуляторных и белок-кодирующих участков, и участков обеспечивающих регуляцию и координацию активности генов.
Наиболее остро сейчас стоит вопрос об идентификации (аннотации) последовательностей нуклеотидов, образующих гены человека, т.к. в соответствии с Международным проектом Геном человека планируется, что геном человека будет полностью секвенирован и доступен для анализа в ближайшие 1-2 года.
Надо сказать, что выделение на нуклеотидной последовательности ДНК участков с заданными функциями задача очень не простая, т.к. они весьма неоднородны по своей природе (что вероятно связано со сложностью механизмов регуляции) и маскируются мутационным шумом.
В настоящее время точность определения генов на нуклеотидной последовательности компьютерными методами, вероятно, не превышает 70%.
Чрезвычайно важным, но на сегодня еще очень мало разработанным предметом биоинформационных исследований является обмен веществ в клетке, метаболизм. Соответствующий раздел биоинформатики, содержанием которого является моделирование метаболизма и исследование совместного функционирования материальных элементов биологической системы, можно было бы назвать метабономикой (по аналогии с геномикой). Задачами метабономики является выявление и моделирование динамической структуры метаболизма, обеспечивающей поддержание гомеостаза в клетке за счет регуляторных свойств уже существующих в клетке ферментов и функционирования генома, поддерживающего существование этой структуры.
С точки зрения биоинформатики клетку можно рассматривать как сложную систему имеющую множество чувствительных устройств для восприятия внешних сигналов, внутренние коммутирующие устройства, сортирующие и трансформирующие внешние сигналы, и исполнительные механизмы, определяющие конечную реакцию клетки на сигналы. Совокупность внешних сигналов (локальная концентрация различных факторов) определяет переход клетки в одно из квазистационарных состояний, которых может быть, по-видимому, несколько десятков в зависимости от типа клетки. Например, клетка может под воздействием пролиферативных сигналов выйти из состояния относительного покоя и перейти к началу деления, под влиянием других факторов перейти к фазе окончания деления, под воздействием третьих факторов перейти в состояние покоя или наоборот снова вступить в фазу деления.
При этом переход в одно и то же состояние клетки может быть вызван множеством различных комбинаций факторов, влияющих на клетку. Клетка сама воздействует на соседние клетки, формируя вокруг с себя локальное "поле" путем выделения своих специфических факторов. Наложение этих " полей" соседних клеток может вызвать результирующую реакцию ткани на внешний стимул. Например, такой реакцией является распространение "кальциевой волны" от клетки к клетке и такие явления, как периодические волнообразные сокращения сосудов или кишечника. В результате воздействий на клетку в конечном счете в ней активируются или репрессируются определенные наборы генов. При этом ясно, что работа каждого гена регулируется множеством факторов. Однако также ясно, что общее число элементарных регулирующих факторов (т.е. кодируемых одним геном) должно быть существенно меньше общего числа генов.
Таким образом, малое число элементарных факторов (по сравнению с общим числом генов) должно обеспечивать регуляцию большого числа генов. Это заставляет думать, что наблюдаемое множество регулирующих факторов образуется за счет разнообразных комбинаций сравнительно небольшого числа элементарных факторов. Это напоминает телефонную связь. Набирая ту или другую комбинацию из небольшого числа кнопок на телефонном аппарате, можно связаться с большим числом различных абонентов.
Примером клеточного регуляторного механизма, построенного на использовании коммутационного принципа, можно считать работу транскрипционных факторов, регулирующих экспрессию генов. Известно, что их сложное влияние на считывание генов осуществляется за счет формированием большого числа различных комплексов молекул факторов друг с другом.
Можно думать, что в самой структуре белковых молекул заложена возможность образовывать несколько различных олигомерных форм, что может обеспечить клетку большим числом регуляторных факторов, образованных из небольшого числа элементов.
Механизм, основанный на использовании комбинаторики элементарных факторов (субъединиц ферментов) был предложен Л.Н.Дроздовым-Тихомировым и др. (Drozdov- Tikhomiriv et al, 1999 ) для объяснения регуляции активности аллостерических ферментов, и может быть эффективно использован для решения задач, возникающих при моделировании и исследовании метаболизма.
Главное в этом механизме - возможность сборки активной структуры (активного центра фермента, сайта специфического связывания и т.д.) из элементов, имеющихся на субъединицах, при ассоциации субъединиц в различных взаимных ориентациях. Использование такого механизма позволяет уже всего при двух субъединицах получить сравнительно большое количество состояний составного регуляторного фактора и построить достаточно сложную схему регуляции.
Следующим после клетки уровнем сложности биологических систем является многоклеточный организм, его структура и его функционирование. Этот уровень относится традиционно к физиологии. Построение биоинформационных моделей этого уровня слишком сложно и в настоящее время практически невозможно, также как и представляющих большой интерес моделей еще более высокого уровня - популяционных или в случае человека - социальных. Если мы говорим, что целью биоинформатики является построение адекватных моделей биологических процессов, то необходимо думать о создании фундамента, основ, необходимых для проведения этой работы, - баз знаний, содержащих необходимый объем научных данных о биологических процессах. Базы данных (БД) - это системы хранения, поиска и выдачи нужной информации. В области биоинформатики, связанной с анализом генетических текстов, т.е. геномики, БД уже давно стали незаменимым инструментом исследований. Точно так же они необходимы в сравнительно недавно начавшей развиваться метабономике, связанной с анализом метаболизма.
Перспективы дальнейшего развития биоинформатики весьма многообещающие. Это связано с рядом обстоятельств. С бурным развитием вычислительной техники, телекоммуникаций и Интернета, открывающим перед заинтересованными исследователями прежде недоступные технические возможности оперативного получения информации, возможности быстрой компьютерной обработки огромного количества данных и т.д. Этому способствует также то, что появилось огромное количество информации, включающей как аннотрованные первичные структуры, так и данные по экспрессии генов, по контролируемым ими метаболическим путям, по регуляторным характеристикам ферментов и механизмам управления их активностью. Знание полных геномов дает возможность осуществить исчерпывающий анализ генома, что позволит полностью описать организмы на определенном уровне. Развитие в этой области идет столь успешно, Что высказываются шутливые опасения, что через несколько лет будет выяснено все, что только можно выяснитьи делать уже будет нечего. Наличие больших геномов и проблемы сравнительной компьютерной геномики выдвигают перед специалистами в этой области очень сложные алгоритмические задачи, решение которых потребует немалого труда. Наверное, еще более сложные проблемы возникают в компьютерной метабономике, которая наряду с задачами анализа существующих метаболических систем ставит смелые задачи проникнуть в сокровенные тайны алгоритмов возникновения , сохранения и самосовершенствования живых систем. Можно ожидать, что в ближайшее время методы и результаты компьютерной биоинформатики найдут широчайшее применение для целей медицины, фармацевтики (drug design), биотехнологии сельского хозяйства и образования. В передовых странах мира наблюдается тенденция к щедрому финансированию работ в этой области. Задача специалистов в области биоинформатики - достойно ответить на этот вызов времени.