ПРИКАСПИЙСКИЙ ЖУРНАЛ

УПРАВЛЕНИЕ И ВЫСОКИЕ ТЕХНОЛОГИИ

Методы морфологической обработки текстов

Читать Пруцков Александр Викторович, Розанов Алексей Константинович Методы морфологической обработки текстов // Прикаспийский журнал:  управление и высокие технологии. — 2014. — №3. — Стр. 119-133.

Пруцков Александр Викторович - кандидат технических наук, доцент, Рязанский государственный радиотехнический университет, 390005, Российская Федерация, г. Рязань, ул. Гагарина, 59/1, mail@prutzkow.com

Розанов Алексей Константинович - аспирант, Рязанский государственный радиотехнический университет, 390005, Российская Федерация, г. Рязань, ул. Гагарина, 59/1

Выполнен обзор существующих отечественных и зарубежных методов морфологической обработки текстов. С целью разработки универсального метода (УМ) генерации и определения форм слов выявлены преимущества и недостатки существующих подходов. Морфологический анализ и синтез, ориентированный на один естественный язык, не подходит для построения УМ. Алгоритмы и структуры хранения данных (словари) таких методов специализированы под особенности одного языка и не могут быть изменены для других языков. Подходы к морфологическому анализу, предназначенные для нескольких языков, имеют «слабые места», которые могут быть скорректированы в УМ. На основе анализа рассмотренных в статье подходов к морфологическому анализу и синтезу сформулированы требования к УМ: обработка словоформ языков различных групп и семейств; универсальность структуры словарей, не требующей конвертации для решения задач определения или генерации словоформ; модель формообразования, на основе которой построен метод, должна описывать любые виды образования форм всей парадигмы слова. Разработанный авторами статьи метод генерации и определения форм слов соответствует этим требованиям.

Ключевые слова: автоматическая обработка текстов, морфологический анализ, морфологический синтез, генерация словоформ, определение словоформ, машинный перевод, диалог человека с ЭВМ, естественные языки, natural language processing, morphological analysis, morphological s