Оценка гомологии на основе частот L-плетов
Данный подход реализован А.Жарких и А.Ржецким ( Zharkikch ea, 1993 ). Для эффективного решения проблем, связанных с быстрой оценкой гомологии двух и более последовательностей ДНК выравнивание последовательностей целесообразно заменить менее точными, но более быстрыми методами, использующими для оценки гомологии относительно небольшое количество интегральных характеристик последовательностей. В этом качестве нами использована мера сходства их олигонуклеотидных словарей. Последовательность длиной N может быть разбита на N-L+1 перекрывающихся L-плетов. При случайном распределении M нуклеотидных замен в последовательности в среднем изменяется K L-плетов, где K для небольших L можно аппроксимировать выражением
1 K = 1 - ******** N - L + 1 (1)Отношение M/N можно определить как расстояние 1-го порядка между последовательностями, D , а отношение K/(N-L+1) - как расстояние L-го порядка, D . В общем случае соотношение между этими двумя характеристиками определяется формулой
1 - D = (1 - D) (2)
где G - характеристика распределения замен в последовательностях. Если все позиции последовательностей изменяются независи мо друг от друга и равновероятно, то G=1. Если замены неслучайно кластеризуются, то G меньше 1, если же замены неслучайно удалены друг от друга, например, при периодичном расположении замен с периодом, превышающим L, то G достоверно больше 1. Оценивая G для реальных последовательностей, можно делать вывод о характере расположения в них замен.
Каждую последовательность ДНК можно характеризовать вектором частот L-плетов. Частотное расстояние между последовательностями d определяется как эвклидово расстояние между векторами частот их L-плетов. Зависимость d от расстояния L-го порядка выражается следующей формулой:
d = 1/N 2D - (1+d) D + g D (3)
где d и g - параметры, отражающие эволюционную связность L-плетов друг с другом и стационарность частот L-плетов, соответственно.
Таким образом, зная значения параметров G, g и d для реальных последовательностей и рассчитав величину d для пары последовательностей, нетрудно из формул (3) и (2) получить оценку степени их различия D . Проверка этой оценки на нескольких семействах структурных генов показала, что значения параметров g и d не постоянны, а зависят от степени сходства последовательностей. Аппроксимируя полиномом зависимость g и d от числа измененных L-плетов, K, можно получить аналитические выражения, связывающие d с K и содержащие коэффициенты, не зависящие от степени сходства последовательностей. Вполне при емлемой является линейная аппроксимация
g - d/N = 0.01421(K/N) - 0.00069 (4)
Непостоянство параметров g и d является, по-видимому, следствием того, что на эволюционно удаленные гены могут накладываться различающиеся ограничения на состав нуклеотидов, динуклеотидов и т.д. Это, в свою очередь, определяет изменение связности L-плетов в ходе эволюции последовательностей и прогрессирующую нестационарность их состава.
Оценки степени сходства, полученные с учетом аппроксимации (4), дают более качественное соответствие между реальным расстоянием D и его оценкой D. Эта оценка является гораздо менее чувствительной к делециям и вставкам в последовательностях, чем их прямое сравнение, и гораздо более эффективной, чем предварительное выравнивание последовательностей. Описанный метод может оказаться весьма полезным при решении целого ряда задач, где требуется массовое сравнение последовательностей, например, в реализации быстрого поиска гомологов в банках нуклеотидных последовательностей, при филогенетическом анализе больших наборов последовательностей и т.д.