ПРИКАСПИЙСКИЙ ЖУРНАЛ

УПРАВЛЕНИЕ И ВЫСОКИЕ ТЕХНОЛОГИИ

Представление документа в виде вектораключевых фраз для решения задачи поиска по уровню техники в описаниях патентов

Читать Дыков Михаил Александрович, Кравец Алла Григорьевна, Коробкин Дмитрий Михайлович, Укустов Сергей Сергеевич, Стрелков Олег Игоревич Представление документа в виде вектораключевых фраз для решения задачи поиска по уровню техники в описаниях патентов // Прикаспийский журнал:  управление и высокие технологии. — 2014. — №1. — Стр. 148-155.

Дыков Михаил Александрович - аспирант, Волгоградский государственный технический университет, 400005, Российская Федерация, г. Волгоград, пр. им. Ленина, 28, dmawork@mail.ru

Кравец Алла Григорьевна - доктор технических наук,профессор, Волгоградский государственный технический университет, 400005, Российская Федерация, г. Волгоград, пр. им. Ленина, 28, agk@gde.ru

Коробкин Дмитрий Михайлович - кандидат технических наук,доцент, Волгоградский государственный технический университет, 400005, Российская Федерация, г. Волгоград, пр. им. Ленина, 28, dkorobkin80@mail.ru

Укустов Сергей Сергеевич - аспирант, Волгоградский государственный технический университет, 400005, Российская Федерация, г. Волгоград, пр. им. Ленина, 28, sergey@ukstv.me

Стрелков Олег Игоревич - директор, Федеральный институт промышленной собственности, 123995, Российская Федерация, г. Москва, Бережковская наб., 30, к. 1, fips@rupto.ru

Работа посвящена автоматизации решения задачи анализа текстовых документов в отношении уровня описываемой в них техники. Обоснован метод представления патентных документов в виде векторов ключевых фраз, а также метод использования этих векторов в задаче поиска по уровню техники. Разработанные методы призваны значительно уменьшить время, затрачиваемое экспертом на проведение патентной экспертизы. Предложенная для этой цели методика включает в себя последовательное решение нескольких задач: предобработка патентных документов; выделение ключевых фраз из текстов патентных документов; определение меры сходства между векторами ключевых фраз для сравниваемой пары описаний патентов. Достоинством методики является ее масштабируемость на все множество описаний патентов, включающее в себя десятки миллионов документов. Результаты выполненных экспериментов по поиску патентов прототипов, проведенные на выборке из выданных в 2012 г. российских патентов, продемонстрировали значительное превосходство разработанной методики в отношении показателей точности по сравнению с существующими.

Ключевые слова: поиск по уровню техники, патентная экспертиза, морфологический анализ, обработка естественного языка, данные большого объема, патентная экспертиза, поиск ключевых фраз, степени сходства текстовых документов, методика оценки