Извлечение знаний в базах данных, раскопки данных
Извлечение знаний в базах данных, раскопки данных (knowledge discovery in databases (KDD); Data mining): процесс нетривиального выявления в больших массивах данных неочевидной, новой, полезной, экстраполируемой на случаи, выходящие за пределы анализируемых данных, информации. Используется для организации коммерческих мероприятий, финансового анализа и в тех областях науки, например, в геномике , которые оперируют большими массивами экспериментальных результатов, хранящимися в компьютерных базах данных. Иногда KDD и data mining рассматривают как эквивалентные понятия, в других трактовках data mining рассматривают как этап процесса KDD.
KDD имеет дело с разработкой технологий для выявления закономерностей в первичных (например, прямых экспериментальных) данных, слишком многочисленных, чтобы с ними можно было оперировать вручную. В результате применения технологий KDD первичные данные преобразуются либо в более компактную, информативную и удобную для пользователя форму (например, реферат или краткую аннотацию), либо в обобщающую форму (например, модель, описывающую процесс и предсказывающую поведение системы в условиях, выходящих за пределы тех, которые были использованы в данной серии наблюдений). KDD и Data mining выявляют в данных взаимосвязи, не выявляемые простым тривиальным анализом, подобным, например, статистическим расчетам средней величины или среднего квадратичного отклонения.
В результате использования KDD и Data-mining генерируются проверяемые гипотезы относительно функций или структуры генов или белков на основании идентификации подобных последовательностей в геномах более хорошо изученных модельных организмов. В частности, более глубокое понимание роли некоторого гена в механизмах возникновения болезни может возникнуть на основании исследования функций гомологичного гена в модельных организмах. На основании сходства последовательностей в геномах различных организмов выводятся филогенетические связи .
Анализ геномных последовательностей (первичные данные) позволяет выявить все открытые рамки считывания в данном геноме и классифицировать их согласно определенным критериям, в частности: (i) известны ли белки, с выведенной из открытой рамки считывания первичной структурой; (ii) имеют ли они сходство с известными структурами; (iii) имеют ли они домены с известными структурами? Из такого анализа делаются заключения о генах, кодирующих белки в данном геноме.
При анализе данных по экспрессии множества генов, получаемых с помощью ДНК-микроэррэев (первичные данные) проводится кластерный анализ - группировка генов по принципу сходства профилей их экспрессии в различных условиях и делается вывод о возможной взаимосвязи функций генов с похожими профилями экспрессии [ Свердлов Е.Д. 2009 ].