ПРИКАСПИЙСКИЙ ЖУРНАЛ
УПРАВЛЕНИЕ И ВЫСОКИЕ ТЕХНОЛОГИИ
Метод коррекции ошибок классификации распознанных символов
Читать | Брейман Александр Давидович, Яковлев Илья Александрович Метод коррекции ошибок классификации распознанных символов // Прикаспийский журнал: управление и высокие технологии. — 2014. — №1. — Стр. 102-113. |
Брейман Александр Давидович - кандидат технических наук,доцент, Национальный исследовательский университет «Высшая школа экономики», 101000, Российская Федерация, г. Москва, ул. Мясницкая, 20, abreyman@hse.ru
Яковлев Илья Александрович - аспирант, Московский государственный университет приборостроения и информатики, 107996, Российская Федерация, г. Москва, ул. Стромынка, 20, krofes@gmail.com
Процесс распознавания текстовых документов неизбежно связан с возникновением ошибок распознавания, для выявления и исправления которых используют методы пост-обработки, как правило, опирающиеся на словарный поиск. Использование словарей позволяет достичь приемлемого качества распознавания для латиницы, кириллицы и других фонетических алфавитов, однако малопригодно для языков, в которых выделение отдельных слов в письме нехарактерно или необязательно (китайский, японский, корейский, вьетнамский и прочие языки). В статье рассмотрены существующие методы, направленные на решение данной проблемы, а также описан новый подход к исправлению некоторых видов ошибок, основанный на применении ансамблей нейронных сетей (по нейронной сети на каждый возможный символ), позволяющий сократить количество ошибок в результате распознавания иероглифического письма, а для фонетических алфавитов – снизить зависимость от качества словарей.
Ключевые слова: оптическое распознавание символов, ошибки распознавания символов, пост-обработка ошибок распознавания, система верификации распознавания, система коррекции ошибок распознавания без словаря, распознавание иероглифов, нейронные сети, нейросетевые ансамбли