ПРИКАСПИЙСКИЙ ЖУРНАЛ

УПРАВЛЕНИЕ И ВЫСОКИЕ ТЕХНОЛОГИИ

Оценка семантической значимости нечётких коллокаций на основе обобщённой векторно-пространственной модели текстовой коллекции

Читать Поляков Д.В., Попов А.И., Матвеева А.С., Карасёв П.И., Балюков Д.А. Оценка семантической значимости нечётких коллокаций на основе обобщённой векторно-пространственной модели текстовой коллекции // Прикаспийский журнал:  управление и высокие технологии. — 2016. — №1. — Стр. 10-25.

Поляков Д.В. - кандидат технических наук, старший преподаватель, Тамбовский государственный технический университет, 392000, Российская Федерация, г. Тамбов, ул. Советская, 106, dimadress@yandex.ru

Попов А.И. - кандидат педагогических наук, доцент, Тамбовский государственный технический университет, 392000, Российская Федерация, г. Тамбов, ул. Советская, 106, olimp_popov@mail.ru

Матвеева А.С. - аспирант, Тамбовский государственный технический университет, 392000, Российская Федерация, г. Тамбов, ул. Советская, 106, klenchic@mail.ru

Карасёв П.И. - аспирант, Тамбовский государственный технический университет, 392000, Российская Федерация, г. Тамбов, ул. Советская, 106, karasevpav@rambler.ru

Балюков Д.А. - аспирант, Тамбовский государственный технический университет, 392000, Российская Федерация, г. Тамбов, ул. Советская, 106, logan.tambov@gmail.com

Рассмотрены обобщённая векторно-пространственная модель текстовой коллекции; математический аппарат сравнения семантических характеристик произвольной группы факторов, формализованных в виде нечётких множеств и заданных в виде термов. Этот аппарат позволяет определять семантическую значимость выбранной группы факторов в сравнении с термами для кластеризации текстовой коллекции или при решении на ней задач информационного поиска. Описаны постановка вычислительного эксперимента; архитектура программного обеспечения позволяющего провести такие эксперименты. Введено понятие нечёткой коллокации. Проанализированы методы построения нечётких коллокаций на основе лингвистических переменных и фаззификации расстояний между термами. Приведены результаты экспериментальных исследований для факторов, формализованных нечёткими коллокациями. Рассмотрение нечётких коллокаций в работе ограничено двумя методами их построения: на основе лингвистической переменной и с помощью фаззификации расстояния между термами в текстах. Кроме того, исследуются только коллокации, состоящие из двух термов. Сделан вывод о независимой природе коллокаций и об эффективности их использования для кластеризации текстовых коллекций.

Ключевые слова: анализ текстов, нечёткая коллокация, факторный анализ, svd-разложение, лингвистическая переменная, теория нечётких множеств, архитектура программного обеспечения, векторно-пространственная модель, texts analysis, fuzzy collocation, factor analysis, svd-de