Data Mining
"Data mining - это процесс обнаружения в
сырых данных ранее неизвестных нетривиальных
практически полезных и доступных интерпретации
знаний, необходимых для принятия решений в
различных сферах человеческой деятельности."
G. Piatetsky-Shapiro, GTE Labs
Продукты для анализа
данных
(Data mining)
Система PolyAnalyst предназначена для
автоматического и полуавтоматического анализа
числовых баз данных и извлечения из сырых данных
практически полезных знаний. PolyAnalyst находит
многофакторные зависимости между переменными в
базе данных, автоматически строит и тестирует
многомерные нелинейные модели, выражающие
найденные зависимости, выводит
классификационные правила по обучающим
примерам, находит в данных многомерные кластеры,
строит алгоритмы решений.
PolyAnalyst используется в более чем 20
странах мира для решения задач из различных
областей человеческой деятельности: бизнеса,
финансов, науки, медицины. В настоящее время - это
одна из самых мощных и в то же время доступных в
ценовом отношении коммерческих систем для Data mining
в мире.
Exploration engines (Машины
исследований)
Основу PolyAnalyst составляют так называемые
Exploration engines или Машины исследований -
математические модули, основанные на различных DM
алгоритмах, и предназначенные для
автоматического анализа данных. Компания Megaputer
Intelligence ведет интенсивные исследования,
направленные на расширение аналитических
функций системы PolyAnalyst, разработку новых DM
алгоритмов и новых математических модулей
системы.
Последняя версия PolyAnalyst 4.5 включает 14
Машин исследований:
Название модуля |
Технология/методы |
Find Laws Algorithm (FL) |
Symbolic Knowledge Acquisition Technology,
Эволюционное программирование |
PolyNet Predictor Algorithm (PN) |
GMDH-Neural Net hybrid, гибрид метода
МГУА и нейронных сетей |
Find Dependencies Algorithm (FD) |
N-dimensional distribution analysis, N-мерный
анализ распределений |
Cluster Algorithm (FC) |
Localization of Anomalies, N-мерный
кластеризатор |
PAY Algorithm (MB) |
Memory Based Reasoning and Genetic Algorithms hybrid,
гибрид метода "ближайших соседей" и
генетических алгоритмов |
Market Basket Analysis (BA) |
Transactional clustering and directed association rules,
транзакционный кластеризатор с генерацией
направленных ассоциативных правил |
Linear Regression (LR) |
Stepwise Linear Regression,
многопараметрическая линейная регрессия с
автоматическим выбором независимых переменных |
Classify Algorithm (CL) |
Fuzzy logic classification, классификация
по булевой целевой переменной, необходимо
наличие модуля FL, или PN, или MB, или LR |
Disciminate (DS) |
Модификация модуля CL,
обнаруживает различия между двумя таблицами |
Decision Trees (DT) |
Модуль "деревья решений",
классификация на категории |
Decision Forest (DF) |
Многомерное «дерево решений»,
классификация на большое количество категорий |
Text Analysis (TA) |
Модуль текстового анализа,
преобразует неструктурированный текст в
пространство формальных признаков для
последующего анализа алгоритмами Data mining (пока
только английский язык) |
Link Analysis (LA) |
Модуль нахождения и
графической визуализации связей между объектами
|
Summary Statistics (SS) |
Модуль общей статистики |
|
|