ABBYY FineReader Engine научился классифицировать документы

28.10.2013 16:24

Компания ABBYY выпустила ABBYY FineReader Engine 11 – новую версию инструментария разработчика (SDK), который позволяет компаниям-разработчикам добавлять в свои решения функции оптического распознавания текста (OCR), распознавания рукопечатных символов (ICR), оптического распознавания меток (OMR), распознавания штрихкодов и конвертации документов в PDF-файлы. Впервые инструментарий выходит одновременно для Windows, Linux и Mac-платформ.

Возможности новой версии:

Функция автоматической классификации позволяет сортировать документы во входящих пакетах по заранее заданным типам (например, счета, счета-фактуры, договоры, справки, полисы и т.п.). Предварительно классификатор обучается на небольшом наборе документов, представляющих каждый тип, который необходимо определять. Определение типа происходит по графическим и текстовым признакам. Новая функция позволяет классифицировать документы со скоростью до 120 страниц в минуту на одно ядро процессора, при этом может быть достигнута более высокая точность, чем при ручной сортировке. Рассортированные документы в дальнейшем могут быть сохранены в архив, распознаны, отправлены в соответствующие разделы СЭД и т.п.

Улучшена работа с форматом PDF: экспорт в PDF стал быстрее на 12%, улучшенное сжатие фона документа позволяет уменьшить размер файлов на 50% (что особенно важно для архивного хранения), добавлен экспорт в формат PDF/A-2 (стандарт, принятый в Европе и США для архивного хранения, он позволяет использовать сжатие JPEG2000 и поддерживает юникод). В одну из ближайших версий планируется добавить экспорт в PDF/A-3 (формат является расширением PDF/A-2 и позволяет встраивать файлы любого типа, включая XML, CSV, CAD, изображения и любые другие).

Новая версия полностью поддерживает 64-битную архитектуру. Это позволяет значительно упростить разработку приложений под 64-битные системы. Инструментарий поставляется вместе с библиотекой, предоставляющей разработчикам простой и удобный Java API.

Предобработка изображений. Для улучшения качества распознавания изображений, полученных с помощью фотокамеры, добавлены: высветление фона изображения, автоматическая обрезка изображения, улучшено исправление перекосов и других геометрических искажений, лучше удаляется цифровой шум матрицы. Перед распознаванием с изображения удаляются печати, штампы и пометки, сделанные от руки, – при необходимости они могут быть сохранены в финальной версии документа.

Распознавание визитных карточек. Новый API позволяет извлекать данные из всех полей визитной карточки – ФИО, название компании, должность, адрес, номера телефонов и факса, адрес электронной почты, адрес сайта – и экспортировать их в CRM-системы или другие программы.

Улучшено качество распознавания арабского языка и языков группы CJK (китайский, японский, корейский). Количество ошибок при работе с арабским языком уменьшилось в 2 раза, скорость обработки выросла в 3 раза. Японский язык распознаётся в 2,5 раза быстрее, китайский – в 2,5-4 раза быстрее, корейский – в 3 раза быстрее.

«В новой версии ABBYY FineReader Engine мы сделали новую интеллектуальную систему классификации документов, которая позволит нашим пользователям быстро «разложить» все документы по типам, - говорит директор по корпоративным проектам ABBYY Россия Дмитрий Шушкин. – Обычно эта задача решается вручную либо при помощи интеллектуального распознавания. Это достаточно ресурсоёмкий процесс, занимающий машинное время. При том что задача клиента иногда частично или даже полностью состоит лишь в классификации входящих документов (например, по разделам СЭД или по разным департаментам организации), а распознавание и извлечение атрибутов может требоваться лишь для части из них. Наш классификатор определяет тип документа по его внешнему виду, делает это очень точно и быстро. Он может использоваться как самостоятельно, так и в качестве этапа предобработки в таких комплексах, как ABBYY FlexiCapture. Мы надеемся, новый продукт сможет ещё лучше помогать нашим клиентам в решении их задач».

ABBYY FineReader Engine 11 содержит примеры кода, которые могут упросить разработку приложений. Примеры демонстрируют использование интерфейса программирования приложений (API) для решения типовых задач по обработке изображений документов.

Программный продукт ABBYY FineReader Engine 11 – мировой лидер по количеству языков распознавания среди других OCR-продуктов для разработчиков. Инструментарий распознаёт печатные тексты на 202 языках, рукопечатные (т.е. заполненные от руки формы) – на 126 языках. В новую версию включена словарная поддержка латыни, азербайджанского языка, а также дореволюционного варианта орфографии русского языка.

www.ABBYY.ru и www.ABBYY.com

Продукты

Последний вышедший номер

Читайте в номере:

Валидация и верификация спецификационной модели бортовой системы ситуационной осведомленности экипажа на посадке

Программная реализация формализованной пошаговой диагностики промышленных электрических щитов автоматики

Алгоритм управления качеством изменений в организационно-производственном процессе с участием ИИ-агента

Сведение материальных балансов в условиях неполной измеренности технологических потоков

Адрес редакции: 117997, Москва, Профсоюзная ул., д. 65, оф. 360
Телефон: (926) 212-60-97.
E-mail: info@avtprom.ru или avtprom@ipu.ru

Сайт «Автоматизация в промышленности» предназначен для специалистов по промышленной автоматизации: главных инженеров, главных энергетиков, главных механиков, главных метрологов, инженеров служб АСУ ТП, АСУТП, КИПиА, КИП и А, отделов метрологии, отделов автоматизации, отделов главного инженера, специалистов инжиниринговых и внедренческих фирм, менеджеров фирм системных интеграторов, преподавателей вузов, научных работников, сотрудников научно-исследовательских институтов, студентов и аспирантов.

Сайт «Автоматизация в промышленности» неразрывно связан с одноименным журналом, в котором публикуются концептуальные, научно-практические и внедренческие статьи, посвященные промышленным автоматизированным системам, системам управления бизнес-процессов, программному и алгоритмическому обеспечению, техническим средствам автоматизации, вопросам сертификации, описанию промышленных стандартов, а также обзоры зарубежной прессы.

В каждом номере проводится обсуждение актуальных тем по проблемам создания и применения следующего инструментария: интегрированные АСУ, MES, АСУ П, АСУ ТП, SCADA, АСКУЭ, EAM, ТОИР, ERP, LIMS, ЛИУС, распределенные системы управления, РСУ, система управления качеством выпускаемой продукции, промышленные тренажеры, современные методы и алгоритмы управления и моделирования, коммуникационные средства, GSM–связь, РС-совместимые контроллеры, ПК, человеко-машинный интерфейс, встраиваемые системы, Web-технологии, HTML-технологии, числовое программное управление, ЧПУ, виртуальные приборы, виртуальное измерение, беспроводная связь, имитационное моделирование, Ethernet, Internet-технологии, Industry 4.0, Интернет вещей, промышленный Интернет вещей, IIoT, IoT, Четвертая промышленная революция, навигационные системы, роботы, датчики, сенсоры, диагностика клапанов, водоподготовка, экологические системы, производственная безопасность, идентификация, RFID-технологии, машинное зрение, промышленные сети, средства промышленного монтажа, корпуса и конструктивные решения, пневмоавтоматика, ПЛК, программируемые логические контроллеры, интеллектуальные датчики, сервосистемы, системы поддержки принятия решений и т.д.

Вниманию читателей предлагаются подборки по автоматизации следующих отраслей промышленности и народного хозяйства: металлургия, нефтегазовая отрасль, химическая промышленность, транспорт, сельское хозяйство, комбикормовая и перерабатывающая промышленность, автомобилестроение, энергетика, электроэнергетика, жилищно-коммунальное хозяйство, интеллектуальное здание, умный дом, непрерывное производство (рецептурное), дискретное производство, пищевая промышленность и др.