ПРИКАСПИЙСКИЙ ЖУРНАЛ
УПРАВЛЕНИЕ И ВЫСОКИЕ ТЕХНОЛОГИИ
ПОИСК ХАРАКТЕРИСТИК ВЗАИМОДЕЙСТВИЙ ЛЕКАРСТВЕННЫХ СРЕДСТВ В ТЕКСТАХ НАУЧНЫХ СТАТЕЙ
Читать | Камаев Валерий Анатольевич, Мельников Михаил Павлович, Воробкалов Павел Николаевич ПОИСК ХАРАКТЕРИСТИК ВЗАИМОДЕЙСТВИЙ ЛЕКАРСТВЕННЫХ СРЕДСТВ В ТЕКСТАХ НАУЧНЫХ СТАТЕЙ // Прикаспийский журнал: управление и высокие технологии. — 2015. — №1. — Стр. 112-121. |
Камаев Валерий Анатольевич - доктор технических наук, профессор, Волгоградский государственный технический университет, 400005, Российская Федерация, г. Волгоград, пр. им. В.И. Ленина, 28, cad@vstu.ru
Мельников Михаил Павлович - аспирант, Волгоградский государственный технический университет, 400005, Российская Федерация, г. Волгоград, пр. им. В.И. Ленина, 28, m.p.melnikov@gmail.com
Воробкалов Павел Николаевич - кандидат технических наук, доцент, Волгоградский государственный технический университет, 400005, Российская Федерация, г. Волгоград, пр. им. В.И. Ленина, 28, pavor84@gmail.com
Взаимодействие лекарственных средств (ВЛС) может вызывать серьезные последствия во время лечения, при этом быстрый поиск информации о таких взаимодействиях может предоставить врачу необходимую для принятия решений информацию. Поиск информации об эффектах ВЛС является длительной задачей. Чтобы сделать такую информацию более доступной для врача, могут быть использованы методы машинного обучения в области обработки естественного языка. Современные библиографические базы данных содержат значительное количество научных статей в области медицины, а вычислительная сложность методов классификации, применяемых для определения статей нужной тематики, ограничивает использование таких методов. Главная цель данного исследования - поиск быстрого метода извлечения информации о ВЛС из текстов научных статей медицинской тематики. Были проанализированы результаты современных исследований в области применения методов обработки естественного языка для поиска ВЛС. При этом было выявлено, что многие из исследованных методов требуют значительных вычислительных затрат на больших объемах данных. Для разработки и тестирования эффективных методов поиска информации о ВЛС, был создан текстовый корпус, содержащий примеры статей - как содержащих так и не содержащих такую информацию. Был разработан быстрый метод автоматической классификации статей с использованием статистической меры «частота слова - обратная частота документа» (tf-idf). Эта мера используется для измерения степени важности слова для документа в корпусе текстов. Для тестирования предложенного алгоритма классификации была разработана специальная программная система. По результатам ее апробации на сформированной подборке текстов был сделан вывод о том, что предложенный метод позволяет достичь достаточно высоких значений F1 - меры измерения точности бинарной классификации, при этом метод не требует значительных вычислительных затрат. В результате проведенных исследований были намечены направления дальнейших улучшений алгоритма, которые могут повысить его точность. После практической реализации намеченных улучшений, модифицированное программное средство может быть использовано экспертами для поиска и описаний новых ВЛС.
Ключевые слова: information retrieval, drug-drug interaction, machine learning, информационные технологии, тексты на естественном языке, поиск информации, взаимодействие лекарственных средств, машинное обучение, автоматическая бинарная классификация, статистическая мера