В модуле Кластерный анализ
реализован полный набор методов кластерного
анализа данных, включая методы k-средних,
иерархической кластеризации и двухвходового
объединения. Данные могут поступать как в
исходном виде, так и в виде матрицы расстояний
между объектами. Наблюдения, переменные или и
наблюдения, и переменные можно кластеризовать,
используя различные меры расстояния (евклидово,
квадрат евклидова, городских кварталов
(манхэттеновское), Чебышева, степенное, процент
несогласия и 1- коэффициент корреляции Пирсона)
и различные правила объединения (связывания)
кластеров (одиночная, полная связь, невзвешенное
и взвешенное попарное среднее по группам,
невзвешенное, взвешенное расстояние между
центрами, метод Варда и другие). Матрицы
расстояний можно сохранять для дальнейшего
анализа в других модулях системы STATISTICA. При
проведении кластерного анализа методом k-средних
пользователь имеет полный контроль над
начальным расположением центров кластеров.
Могут быть выполнены чрезвычайно большие планы
анализа: так например, при иерархическом
(древовидном) связывании можно работать с
матрицей из 90 тыс. расстояний. Помимо стандартных
результатов кластерного анализа, в модуле
доступен также разнообразный набор описательных
статистик и расширенных диагностических методов
(полная схема объединения с пороговыми уровнями
при иерархической кластеризации, таблица
дисперсионного анализа при кластеризации
методом k-средних). Информация о
принадлежности объектов к кластерам может быть
добавлена к файлу данных и использоваться в
дальнейшем анализе. Графические возможности
модуля Кластерный анализ включают
настраиваемые дендрограммы, двухвходовые
диаграммы объединений, графическое
представление схемы объединения, диаграмму
средних при кластеризации по методу k-средних
и многое другое.
|