Поиск и классификация альфа - сателлитных повторов

Альфа - сателлитные последовательности ( Казаков, 2000 ; Alexandrov et al., 2001 ) присутствуют в хромосомах всех приматов. Это тандемно повторяющиеся последовательности ДНК с элементарной повторяющейся единицей длиной 171 п.о. Все альфа-сателлиты гибридизуются между собой, и имеют степень гомологии не ниже 60%. Мы будем говорить об альфа-сателлитах человека. Альфа-сателлиты расположены в участках центромерного хроматина всех хромосом человека., где они, как правило, занимают крупные блоки длиной 200-5000 т.п.о. Кроме того, альфа-сателлитные блоки обнаружены и в других местах хромосом. Ряд обстоятельств говорит о том, что альфа- сателлиты играют важную роль в организации центромеры и определении ее функции в процессе митоза. Альфа-сателлитные последовательности человека имеют сложную трехуровневую организацию. На первом уровне альфа-сателлиты представлены мономером длиной около 171 п.о., не имеющим внутренних повторов. Выявлен консенсус всех мономеров на уровне гомологии не ниже 60-70 %. Дивергенция мономеров неодинакова. На уровне гомологии 80-90% выявлено 12 типов мономеров, а именно J1, J2, D1, D2, W1, W2, W3, W4, W5, M1, R1, R2. Эти типы встречаются не произвольно, а в определеном сочетании, определяющем второй уровень организации альфа-сателлитов, и представленным т.н. предковым повтором. Последовательности, имеющие один тип предкового повтора, объединены в 5 надхромосомных семейств: SF1, SF2, SF3, SF4 и SF5. Семейство SF1 состоит из димера J1-J2 и локализуется на хромосомах 1, 3, 5, 6, 7, 10, 12, 16, 19; SF2 - D1-D2 (хромосомы 2, 4, 8, 9, 13, 14, 15, 18, 20, 21, 22); SF3 состоит из пентамера W1-W2-W3-W4-W5 (хромосомы 1, 11,17, X); SF4 состоит из мономеров M1; SF5 состоит из мономеров R1 и R2, которые чередуются нерегулярным образом. Хромосомная локализации SF4 и SF5 изучена недостаточно. Третий уровень организации альфа-сателлитов представлен повторяющейся единицей высокого порядка, которая уникальна для каждого кластера, имеющего центромерную локализацию. Такая единица может включать несколько десятков мономеров. Гомология между единицами одного хромосом- специфичного семейства составляет 95-96%.Для дальнейшего рассмотрим единицы надхромосомного семейства SF3. На хромосоме 11 это пентамер W1- W2-W3-W4-W5, на хромосоме X W3-W4W5-W1-W2-W3-W4-W5-W1-W2-W3-W4, на хромосоме 1 W2-W3-W4-W3-W4-W5-W1-W5-W1-W5-W1, на хромосоме 17 W5-W1-W2- W3-W4-W5- W1-W2-W3-W4-W3-W4-W5-W1-W1-W1. Необходимо также отметить, что альфа-сателлиты проявляют полиморфизм различного вида. В мономерах J1, D2, W4, W5, M1, R2 в одних и тех же позициях находится бокс, отвечающий связыванию белка pJalpha, на основании чего данные мономеры относятся к типу A, в то время как в мономерах J2, D1, W1, W2, W3, R1 в тех же самых позициях находится бокс, отвечающий связыванию белка CENP-B (мономеры типа B). Альфа-сателлитные последовательности, депонированные в GenBank'е , представлены следующими фрагментами: мономеры и их сегменты; фрагменты семейств SF1-SF5 различной длины; сегменты, включающие как альфа- сателлиты, так и прилегающие к ним последовательности; длинные геномные последовательности, в частности с неизвестной внутренней последовательностью фрагментов. Первая задача при обработке альфа-сателлитных последовательностей формулируется следующим образом: на предъявленной последовательности, в частности это может быть весь банк,

(1) найти альфа-сателлитные домены,

(2) определить, какие типы мономеров они включают, и дать их координаты,

(3) определить надхромосомное семейство, (4) для SF1-SF3 определить хромосом-специфическое семейство. В программе PERCON поиск и классификация альфа-сателлитных последовательностей производится по следующей схеме.

(1) Быстрый поиск альфа-содержащих фрагментов с помощью фильтрации путем сравнения октануклеотидных словарей.

(2) Построение точечных матриц гомологии выделенных фрагментов с образцовой последовательностью. Уточнение границ альфа-содержащих фрагментов с точностью порядка 20-30 нуклеотидов.

(3) Рекуррентное (многократное) выравнивание с образцовой последовательностью. Определение границ выравнивания мономеров.

(4) Классификация мономеров на типы.

(5) Определение A и B типов.

(6) Определение надхромосомного семейства.

(7) Определение хромосом-специфичного семейства. Начало этой схемы (п.1-3) пригодны для поиска любых последовательностей, а не только альфа-сателлитов. В нашей работе эта схема использовалась для поиска других коротких и длинных повторов, транспозонов, эндогенных вирусов ( SINE , LINE , Tigger, HERV etc), а также для такой технической работы, как поиск записей БД, загрязненных последовательностями векторов клонирования. Рассмотрим эту схему подробнее.

(1) Быстрый поиск альфа-содержащих фрагментов с помощью фильтрации путем сравнения октануклеотидных словарей. На этом этапе определяются фрагменты длиной порядка 5000 п.о. последовательностей (которые могут быть длиной 1M п.о.), содержащие альфа-сателлиты. Скорость обработки на первом этапе довольно велика, она всего лишь в несколько раз меньше, чем доступ к жесткому диску, и составляет порядка 1 гигабайт в час.

(2) Построение точечных матриц гомологии выделенных фрагментов с образцовой последовательностью. Уточнение границ альфа-содержащих фрагментов с точностью порядка 20-30 нуклеотидов.

Построение точечных матриц гомологии обсуждалось выше. Естественно, что для машинной обработки рисование картинки излишне. Уточнение границ осуществлялось следующим образом. Выделялись значимые диагонали на основе эмпирически полученных численных критериев. Наличие такой диагонали свидетельствует о наличии альфа-сателлита. Значимые диагонали, если они перекрывались между собой, объединялись в зоны на основе эмпирически подобранных критериев. Границы этих зон с точностью порядка W/2 определяли положение альфа-сателлитных доменов. Фрагменты, для которых матрицы показывали наличие альфа-сателлитных доменов, переходили в третий тур.

(3) Рекуррентное (многократное) выравнивание с образцовой последовательностью.

(4) Определение границ выравнивания мономеров. Выравнивание проводили стандартным методом ( Smith & Waterman, 1981 ; Gotoh, 1982 ) с усовершенствованиями. Тем самым находили самый гомологичный участок в исследуемой последовательности. Затем этот участок заменяли символами 'N' и снова проводили выравнивание и т.д. Процедуру продолжали до тех пор, пока не обнаруживали все гомологичные участки. Если в качестве последовательности сравнения была выбрана полная последовательность канонического альфа-сателлита, то в результате такой рекуррентной процедуры находили все мономерные альфа-сателлитные единицы.

(5) Классификацию мономеров на типы проводили с помощью байесовского подхода, описанного выше.

(6) Определение A и B типов. Для каждого мономера определяли, относится ли он к типу A или B, двумя способами. Во-первых, тип можно определить исходя из типа мономера. Во-вторых, для этого можно применить байесовский подход, где в качестве моделей берутся типы A, B и случайная последовательность. Затем строилась карта мономеров. Определение надхромосомного семейства. Определяли в соответствии с типом входящих в него мономеров.

(7) Определение хромосом-специфичного семейства. Определяли с помощью выравнивания альфа-сателлитного домена с типичными представителями хромосом-специфичных семейств.Одна из проблем здесь заключается в том, что полная карта хромосом-специфичного семейства - кольцевая (как следствие тандемности). Исследуемую последовательность относили к тому семейству, с которым была наибольшая гомология. Таким образом, для любой анонимной последовательности мы можем определить положение альфа-сателлитного домена, тип и координаты входящих в него мономеров, надхромосомное семейство и, в ряде случаев, хромосомное семейство. Зная структурно-функциональную организацию альфа- сателлитных доменов можно предложить некоторые сценарии эволюции альфа- сателлитов ( Alexandrov et al., 2001 ) и, следовательно, приблизиться к пониманию этапов эволюции генома человека.

Ссылки: