ПРИКАСПИЙСКИЙ ЖУРНАЛ

УПРАВЛЕНИЕ И ВЫСОКИЕ ТЕХНОЛОГИИ

Метод коррекции ошибок классификации распознанных символов

Читать Брейман Александр Давидович, Яковлев Илья Александрович Метод коррекции ошибок классификации распознанных символов // Прикаспийский журнал:  управление и высокие технологии. — 2014. — №1. — Стр. 102-113.

Брейман Александр Давидович - кандидат технических наук,доцент, Национальный исследовательский университет «Высшая школа экономики», 101000, Российская Федерация, г. Москва, ул. Мясницкая, 20, abreyman@hse.ru

Яковлев Илья Александрович - аспирант, Московский государственный университет приборостроения и информатики, 107996, Российская Федерация, г. Москва, ул. Стромынка, 20, krofes@gmail.com

Процесс распознавания текстовых документов неизбежно связан с возникновением ошибок распознавания, для выявления и исправления которых используют методы пост-обработки, как правило, опирающиеся на словарный поиск. Использование словарей позволяет достичь приемлемого качества распознавания для латиницы, кириллицы и других фонетических алфавитов, однако малопригодно для языков, в которых выделение отдельных слов в письме нехарактерно или необязательно (китайский, японский, корейский, вьетнамский и прочие языки). В статье рассмотрены существующие методы, направленные на решение данной проблемы, а также описан новый подход к исправлению некоторых видов ошибок, основанный на применении ансамблей нейронных сетей (по нейронной сети на каждый возможный символ), позволяющий сократить количество ошибок в результате распознавания иероглифического письма, а для фонетических алфавитов – снизить зависимость от качества словарей.

Ключевые слова: оптическое распознавание символов, ошибки распознавания символов, пост-обработка ошибок распознавания, система верификации распознавания, система коррекции ошибок распознавания без словаря, распознавание иероглифов, нейронные сети, нейросетевые ансамбли