ПРИКАСПИЙСКИЙ ЖУРНАЛ

УПРАВЛЕНИЕ И ВЫСОКИЕ ТЕХНОЛОГИИ

Программное обеспечение для выявления запрещенного текстового контента

Читать Суслов А. В., Ажмухамедов И. М. Программное обеспечение для выявления запрещенного текстового контента // Прикаспийский журнал:  управление и высокие технологии. — 2018. — №1. — Стр. 185-196.

Суслов А. В. - студент, Астраханский государственный университет, 414056, Российская Федерация, г. Астрахань, ул. Татищева, 20а, alex.-suslov@mail.ru

Ажмухамедов И. М. - доктор технических наук, доцент, Астраханский государственный университет, 414056, Российская Федерация, г. Астрахань, ул. Татищева, 20а, aim_agtu@mail.ru

Введение законодательного регулирования содержания информационных ресурсов обострило проблему автоматического обнаружения и блокирования, содержащегося в них запрещенного контента. Он может находиться в файлах на внутренних жестких дисках ЭВМ и серверов; на внешних носителях информации (внешние жесткие диски, флэш-накопители, лазерные диски), а также в облачных хранилищах. Авторами было проведено сравнение существующего программного обеспечения для анализа содержимого файлов. При этом были выявлены следующие недостатки: имеющееся программное обеспечение позволяет выявлять наличие заданного контента только в текстовых файлах, но не в файлах с графикой; обладает недостаточными возможностями задания областей сканирования. Поэтому был предложен алгоритм и реализующее его программное обеспечение для выявления запрещенного контента в текстовых и графических файлах с возможностью задания области поиска (директорий и всех содержащихся в ней поддиректорий). Для предлагаемого авторами программного обеспечения и уже существующих аналогов было проведено сравнение результатов поиска на тестовом материале (совокупности файлов общим объемом порядка 20 Гб). Поиск проводился по совокупности заданных словосочетаний, соответствующих типичному запрещенному контенту. Результаты сравнения показывают преимущество предложенного алгоритма и программного обеспечения перед существующими в следующих отношениях: по скорости обработки информации; по возможностям выявления запрещенного контента в графических файлах. При этом доля выявляемых файлов с запрещенным контентом в предлагаемом авторами программном обеспечении существенно выше, чем в большинстве других разработок.

Ключевые слова: электронные информационные ресурсы, текстовые файлы, информационная безопасность, графические файлы, запрещенный контент, поиск контента, методики поиска, программное обеспечение, вычислительная эффективность, базы данных, вычислительные эксперименты, ele