ПРИКАСПИЙСКИЙ ЖУРНАЛ
УПРАВЛЕНИЕ И ВЫСОКИЕ ТЕХНОЛОГИИ
САМООРГАНИЗУЮЩАЯСЯ КЛАСТЕРИЗАЦИЯ ПОТОКА БОЛЬШИХ ДАННЫХ
Читать | Печеный Евгений Абрамович, Нуриев Наиль Кашапович, Старыгина Светлана Дмитриевна САМООРГАНИЗУЮЩАЯСЯ КЛАСТЕРИЗАЦИЯ ПОТОКА БОЛЬШИХ ДАННЫХ // Прикаспийский журнал: управление и высокие технологии. — 2020. — №1. — Стр. 10-20. |
Печеный Евгений Абрамович - Казанский национальный исследовательский технологический университет, platova51@mail.ru
Нуриев Наиль Кашапович - Казанский национальный исследовательский технологический университет, nurievnk@mail.ru
Старыгина Светлана Дмитриевна - Казанский национальный исследовательский технологический университет, svetacd_kazan@mail.ru
В работе представлена математическая модель и дано описание алгоритма на основе аппарата кластерного анализа, ориентированного на проведение процедур классификации «больших данных». В качестве кластеров предложено использовать сфероиды, для построения которых предварительно производится нормирование переменных и преобразование их в безразмерную форму. Простота аналитического описания формы кластеров служит эффективной защитой алгоритма от «проклятия размерности», обеспечивает сохранение его работоспособности при большом числе классифицируемых признаков. Отличительной особенностью разработанного алгоритма является его способность функционировать в динамическом режиме, т.е. в условиях изменений свойств объектов, присутствующих в кластерах; пополнения кластеров потоком новых объектов; удаления некоторых объектов из числа классифицируемых. Для обеспечения однозначности выделяемых классификационных категорий в алгоритме предусмотрена защита от пересечений кластеров. Важным и полезным эксплуатационным качеством алгоритма является его самоорганизуемость. Он может обрабатывать данные в потоке без участия оператора, выполняя, по мере необходимости, коррекцию положения и размеров кластеров. Процедура коррекции представляет собой последовательность итераций, в ходе которой осуществляется сближение геометрических центров кластеров с центрами группировок объектов, имеющихся в их составе. В статье приведена блок - схема алгоритма, который был реализован программно. Работа этого алгоритма продемонстрирована и графически проиллюстрирована на примере сравнительно небольшого массива данных, элементы которого описываются двумя классифицирующими признаками.
Ключевые слова: большие данные, классификация объектов, кластеры, динамическая кластеризация, самоорганизация, самообучение, big data, object classification, clusters, dynamic clustering, selforganization, selfstudy