Методы поиска повторов в последовательностях ДНК
Для поиска повторов используются различные методы, которые можно разделить на несколько групп. Первые 3 группы решают задачу, когда максимум что известно про повторы - примерная длина и степень дивергенции.
(1) Точные методы. В эту группу включены методы, которые гарантируют обнаружение всех специфицированных повторов ( Kurtz et al.,2000 ).
(2) Приближенные, в том числе эвристические методы строятся с целью убыстрения точных методов.
(3) Методы, использующие статистические особенности последовательности, например, методы сжатия, фурье-трансформации ( Makeev &Tumamian, 1996 ), байесовский подход ( Liu, 2001 ). Однако эти методы работают только на протяженных кластерах сравнительно коротких повторов.
(4) Поиск по образцу. Эта группа отличается тем, что прототип повтора известен заранее. Образец может быть представлен одиночной последовательностью, консенсусом, консенсусной матрицей или более сложной моделью. Например, многие известные повторы собраны в БД RepBase (http://www.girinst.org/~server/repbase.html). В случае короткого повтора, когда внутренние делеции-вставки маловероятны, для поиска используется простое сканирование последовательности заданной моделью. В случае длинного прототипа используются методы поиска выравнивания прототипа с исследуемой последовательностью. (Заметим, что с абстрактной точки зрения не имеет значения, откуда взята последовательность: из того же самого генома или из другого). Такой подход применяется в программе SSEARCH. Для ускорения поиска используют эвристики, связанные с затравками из полностью совпадающих фрагментов (BLAST, PSI-BLAST и др.). Однако упомянутые программы непосредственно малопригодны для поиска множественных повторов. Для этого существуют специальные модификации Kurtz et al., 2000 ; Benson 1999 ).