Предсказание белок-кодирующих участков
Предсказание белок-кодирующих участков на вновь секвенированных последовательностях является важной задачей аннотирования генома. Исторически первыми больше секвенировали прокариотические последовательности. Белок-кодирующие участки прокариотических генов представляют собой часть открытой рамки считывания от инициирующего кодона ATG, реже других кодонов, следующих друг за другом кодирующих триплетов (кодонов), и заканчивающихся терминирующим кодоном. Эта триплетная структура определяет некоторые статистические особенности белок-кодирующих последовательностей, например, неодинаковые частоты использования различных нуклеотидов в первом, втором и третьем положении кодона (подробнее см. например ( Бородовский, 1990 )). Кроме того, общей закономерностью как про- , так и эукариотических генов является неодинаковая частота использования синонимических кодонов ( Grantham et al., 1980 ). Исходя из этих особенностей были предложены универсальные, не зависящие от конкретного организма методы предсказания белок-кодирующих областей (обзор методов см. ( Бородовский, 1990 )). Дальнейшие исследования показали, что использование синонимических кодонов зависит от 3'-соседних нуклеотидов, то есть от контекста ( Shpaer, 1986 , Бородовский и др., 1988 ) предприняли систематическое исследование влияния контекста, а именно влияния позиций 1,2 кодона и позиций 1,2,3 3'-соседнего кодона на использование нуклеотида в 3-ем положении кодона. Было показано, что по крайней мере в E. coli учет позиций 1,2 3'-соседнего кодона значительно снимает вырождение третьей позиции кодона. Это позволило, во-первых, создать программу так называемой обратной трансляции Q>BTRN с гарантированным уровнем уникальности нуклеотидов, что очень важно для экспериментов, связанных с конструированием праймеров для PCR при клонировании генов белков с известной первичной структурой; во-вторых, создать программу Q>5RCG кодирующих областей с более высоким разрешением, чем в более ранних методах ( Shepelev et.al., 1987 , Бородовский, 1990 , гл. 3). В этой программе для предсказания кодирующих областей применен байесовский подход, подробнее описанный ниже. При этом при создании статистических моделей кодирующих и некодирующих областей были использованы контекстные частоты нуклеотидов в третьем положении кодона. Несколько отличный подход к распознаванию кодирующих областей связан с представлением последовательностей неоднородными марковскими моделями ( Бородовский и др. 1986a , Бородовский и др. 1986b , Бородовский и др. 1986c ; Бородовский, 1990 ). Параметры моделей вычисляются на основе фазовых статистик олигонуклеотидов в обучающей выборке кодирующих и некодирующих областей. Распознавание связано также с байесовским подходом, отличаются только модели порождения текста. . В 1992 Fickett и Tung ( Fickett & Tung, 1992 )провели сравнительное исследование различных методов предсказания кодирующих участков и выяснили, что два указанных подхода при соответствующей настройке на статистику конкретных организмов, в том числе человека, заняли лидирующие позиции по точности предсказания среди остальных методов. В дальнейшем эти подходы были усовершенствованы Бородовским и соавт. в George Tech'е ( Borodovsky & McIninch,1993 ; Borodovsky et al, 1995 ; Borodovsky & Lukashin 1998 , Besemer & Borodovsky, 1999 ) и были весьма широко использованы в аннотировании прокариотических последовательностей в GenBanke'е при их массовом секвенировании. Для поиска генов эукариот предложено множество методов ( Claverie, 1997 ). Сравнительный анализ имеющихся программ можно найти в работе ( Fortna & Gardiner,2001 ). Наиболее точное предсказание экзонов дожно включать выравнивание с последовательностями EST и учет экзон-интронной структуры гомологичных генов из других организмов.