ПРИКАСПИЙСКИЙ ЖУРНАЛ

УПРАВЛЕНИЕ И ВЫСОКИЕ ТЕХНОЛОГИИ

МЕТОД ФОРМАЛИЗАЦИИ НЕЧЁТКИХ КОЛЛОКАЦИЙ ТЕРМОВ В ТЕКСТАХ НА ОСНОВЕ ЛИНГВИСТИЧЕСКИХ ПЕРЕМЕННЫХ

Читать Поляков Д.В., Митрофанов Н.М., Матвеева А.С. МЕТОД ФОРМАЛИЗАЦИИ НЕЧЁТКИХ КОЛЛОКАЦИЙ ТЕРМОВ В ТЕКСТАХ НА ОСНОВЕ ЛИНГВИСТИЧЕСКИХ ПЕРЕМЕННЫХ // Прикаспийский журнал:  управление и высокие технологии. — 2015. — №4. — Стр. 167-183.

Поляков Д.В. - кандидат технических наук, старший преподаватель, Тамбовский государственный технический университет, 392000, Российская Федерация, г. Тамбов, ул. Советская, 106, dimadress@yandex.ru

Митрофанов Н.М. - магистрант, лаборант кафедры, Тамбовский государственный технический университет, 392000, Российская Федерация, г. Тамбов, ул. Советская, 106, n.mitrofanow@gmail.com

Матвеева А.С. - аспирант, Тамбовский государственный технический университет, 392000, Российская Федерация, г. Тамбов, ул. Советская, 106, klenchic@mail.ru

Целью работы является создание и исследование математических методов формализации коллокаций в текстах. Это позволит повысить качество поиска и кластеризации текстовых коллекций путём введения в вектор признаков, представляющий в модели текст, элементов, формализующих коллокации с учётом расстояния в них между термами. Методика исследований основана на теории нечётких множеств, теории информационного поиска и теории матриц. Представленные в данной работе исследования не затрагивают вопроса использования полученных методов формализации текстовых коллекций для решения задач поиска и кластеризации. Кроме того, предложенные модель и методы ограничены рассмотрением коллокаций, состоящих из двух термов. Вместе с тем очерчен круг необходимых в дальнейшем теоретических и экспериментальных исследований с целью оценки целесообразности применения результатов данной работы для решения задач поиска и кластеризации. В работе предложен метод формализации коллокаций термов с учётом расстояния между ними на основе теории нечётких множеств. Под расстоянием между термами в коллокации понимается количество слов, появившихся между ними (термами) в тексте. Предложенный метод заключается в формализации данного расстояния посредством лингвистической переменной. По результатам исследования предложена расширенная векторно-пространственная модель коллекции документов. Она позволяет провести сравнительный анализ важности термов и коллокаций, а также обобщить алгоритмы, базирующиеся на svd -разложении матриц, благодаря учёту коллокаций в векторно-пространственной модели.

Ключевые слова: коллокация, текстовые коллекции, нечёткие коллокации, теория нечётких множеств, лингвистическая переменная, кластеризация текстовых коллекций, поиск в текстовых коллекциях, информационный поиск, collocation, text collection, fuzzy collocation, theory of f