Компьютерный анализ нуклеотидных последовательностей: общие сведения

Использованные обозначения:

LINE long interspersed nuclear element

SINE - short interspersed nuclear element

LTR - long terminal repeat

HERV - human endogeneous retrovirus

IHGSC - International Human Genome Sequencing Consortium

EST - expressed sequence tag

ТМГ - точечная матрица гомологии

БД - база данных

П.о. - пара оснований

Т.п.о. - тысяч пар оснований

K - килобайт.

М - мегабайт, миллион п.о.

q-мер - фрагмент последовательности длиной q нуклеотидов. Компьютерный анализ является важным инструментом исследования ДНК ( Гельфанд, 1998 ). В настоящее время секвенирование ДНК приобрело самые широкие масштабы. По данным фирмы Intergrated genomics на октябрь 2001 г. (WWW. Integratedgenomics.com) опубликованы полные последовательности геномов 74 организмов включая 11 архебактерий, 48 эубактерий, 15 эукариот. На подходе 212 геномов прокариот и 157 эукариот. Общее число нуклеотидов в секвенированных последовательностях превысило 1010. В 2001 году произошло примечательное событие. 15 февраля в журнале Nature ( IHGSC, 2001 ) и 16 февраля в журнале Science ( Venter et al.,2001 ) о своих работах по расшифровке генома человека и о первых результатах его анализа объявили две группы исследователей, работавших над этой проблемой, - международный консорциум и частная фирма Celera Genomics. На сегодняшний день секвенированы и общедоступны порядка 88% генома в черновом виде и 25% в окончательном (когда нуклеотиды выверены с точностью 99.99%). Тем самым был положен конец гонке, продолжавшейся несколько лет, и наступила пост-геномная эпоха. Оглядываясь назад, мы вспоминаем, что в 1977 г. были разработаны методы прямого определения последовательностей нуклеотидов, и началась эра секвенирования. Вскоре, хотя и не так скачкообразно, произошла революция в вычислительной технике. Исследователям из разных областей знания стали доступны ЭВМ различного класса. Началась эра компьютерной генетики. Несколько лет спустя появились персональные компьютеры, и компьютерная генетика вошла молекулярно-биологические лаборатории. В секвенированных последовательностях заключено огромное количество информации, связанной с молекулярной генетикой этих организмов. Для извлечения этой информации разрабатываются методы с целью решения самых разнообразных задач молекулярной генетики, или как теперь говорить, геномики. Созданы многочисленные программы анализа последовательностей ( Гельфанд, 1998 ). Особенное развитие в пост-геномную эпоху приобретают системы анализа больших геномов ( Fortna & Gardiner, 2001 ). Большое внимание уделяется задаче поиска повторов, так как ранее было известно, и секвенирование геномов это подтвердило, что повторы различного типа составляют значительную долю геномов (например, свыше 50% генома человека). Повторы, по крайней мере, некоторые классы повторов, играют важную структурную или функциональную роль в геноме. С другой стороны, поиск повторов и тем более поиск повторов в БД - нетривиальная и потому интересная алгоритмическая задача. (Стоит отметить, что в последнее время задача быстрого поиска в тексте, в том числе и повторов, очень интенсивно разрабатывается в связи с потребностью в быстрых и чувствительных системах поиска информации в Интернете). В последнее время большой интерес вызывают альфа-сателлитные ДНК генома приматов. Альфа-сателлиты приматов представляют собой протяженные кластеры повторяющихся последовательностей ДНК, которые в геноме человека занимают ~5%, участвуют в организации центромер всех хромосом приматов, имеют сложную многоуровневую структурную организацию, перемежаются с другими повторами. Анализ последовательностей альфа-сателлитов является необходимым этапом на пути изучения эволюции хромосом.

Ссылки: