Построение консенсуса сайтов мутирования
Данный подход был применен для анализа сайтов , в которых мутации отсутствовали, хотя также применим для анализа "горячих" точек мутирования.
В работе Топала с соавт. ( Topal et al., 1986 ) исследовались мутации, индуцированные О6-метилгуанином. Этот мутаген вызывает A:T -> G:C замены. Получена 151 мутация, которые распределены по 81 потенциальной позиции мутирования (соответствующих аденинам) таким образом, что 29 таких позиций оказались незанятыми мутациями. Для построения консенсуса сайтов таких позиций в работе (Topal et al., 1986) формируется сфазированный набор сайтов (рис.1.1), каждый из которых включает 20 оснований в 5' направлении и 20 оснований в 3' направлении от каждого аденина в последовательности. Всего исследовалось 81 сайт, в 29 сайтах в центральном аденине мутации отсутствовали, в остальных аденинах встретилось от 1 до 8 мутаций.
Проведем формальное описание предложенного авторами работы (Topal et a., 1986) алгоритма.
1. Выбираем в исследумом наборе подвыборку, для которой будем строить консенсус. Например, в исследуемом наборе берем только те сайты, в центральной позиции которой встретилось 0 мутаций. Например:
CATTATTTA A TTTTATTAT 6
TGGCGGCAT A GTACGATGC 5
AGGCGCTAT A GGCGCTGTC 3
TATTAGTAC A ATAGGACTC 0 *
CACGCGTAG A GAGATCGCG 0 *
GCGCTAGCG A GCATCGTAC 0 * Сайты исследуемой подвыборки отмечены символом "*". Пусть доля сайтов подвыборки во всей выборке составляет X (для приведенного выше примера X=0.5). Длина каждого сайта выборки равна L (для примера L=19).
2. Фиксируем J позицию выборки (J=1,L).
3. Фиксируем I-ый нуклеотид (I=A,T,G,C).
4. Рассматриваем все сайты подвыборки. Рссчитываем долю Y сайтов, у которых в J-ой позиции встретился нуклеотид I.
5. Рассчитываем отношение S(I,J) = Y/X.
6. Рассчитываем S(I,J) по всем I и J.
L
_ _
# 7. Рассчитываем среднее SS= > >S(I,J)
- -
I=A,T,G,C J=1
8. Рассчитываем среднеквадратичное отклонение SD значение S(I,J) от среднего SS.
9. В том случае, если S(I,J)>SS+SD (где I=A,T,G,C, а J=1,L), то считаем, что данный нуклеотид I неслучайно часто встречается в позиции J. В J-ую позицию консенсуса записываем нуклеотид I.
На основе этого критерия построен консенсус:
A G A A G C C G # 5'...AG/ACCAGGCT/GT/GCCA/ A AGG/TAT/G/GCCTAGGTT/...3',
C C C G T T T T центральная позиция консенсуса, в которой мутации не наблюдались, отмечена пробелами с обоих сторон. Авторы (Topal et al., 1986) считают, что наличие этого консенсуса уменьшает частоту возникновения мутаций в центральной позиции этого консенсуса.
Однако существуют определенные сомнения в правильности использованного авторами работы ( Topal et al., 1986 ) критерия. Во-первых, в данном консенсусе все сорок позиций заняты неслучайно часто встречающимися (с точки зрения статистического критерия) нуклеотидами. Это означает, что все сорок соседних позиций значимо влияют на частоту возникновения мутаций в центральной позиции. Тогда возникает вопрос, почему авторы работы не удлинили длину сайта более, чем на 40 нуклеотидов, чтобы выяснить на каком расстоянии исчезнет влияние окружающих нуклеотидов на частоту возникновения мутаций в определенном сайте. Во-вторых, из 52 промутировавших позиций синонимичные замены (не приводившие к замене аминокислоты) наблюдались в 17 позициях, для остальных 35 позиций наблюдались несонинимичные замены (приводившие к замене аминокислоты). В то же время, если бы в 29 0-сайтах произошли мутации, они бы вызвали 20 синонимичных замен, несинонимичных бы наблюдалось 9. Сравнение соотношения синонимичных и несинонимичных замен в выборке сайтов, в которых наблюдались мутации, равное 17/35 с аналогичным соотношением для 0-сайтов, равным 20/9, указывает на то, что большое количество 0-сайтов является результатом особенностей системы выявления мутантов в этой работе ( Topal et al., 1986 ). Это явный аргумент против наличия особых особенностей контекста , которые с точки зрения авторов работы (Topal et al., 1986) проявляются в наличии неслучайного консенсуса 0-сайтов.