1

Распознавание текста

Оптическое распознавание текста англ. optical character recognition (сокр. OCR) — перевод последовательности изображений символа в последовательность кодов, использующихся для представления в текстовом редакторе. Перевод осуществляется с помощью различных алгоритмов, после преобразования изображения в набор элементарных точек.

В данный момент очень сложно найти бесплатную программу для распознавания текста. Но Вам повезло, здесь Вы можете скачать такую программу. Она хоть и не идеальна, но при правильной настройке вполне работоспособна.

CuneiForm 12Серебряная медаль BestFREE.ru

Распознавание текста CuneiForm 12
Рейтинг:
Размер:
35.4 МБ (инсталлятор)
Интерфейс:Русский/Английский
Платформа:
Windows 98/ME/2000/XP/2003/Vista/7 32-bit
Обновлено:2009-12-15
Разработчик:
Платный аналог:  


Похожая программа: Офис OpenOffice.org




1

CuneiForm 12

Бесплатная программа для автоматического распознавания отсканированного текста. Вид у программы не карамельный, но дело своё она знает.

Сканирование с CuneiForm 12 Компьютер уже уверенно вошел в жизнь рядового гражданина. Когда надо получить сравнительно небольшой объем печатной информации, проще всего набрать этот текст вручную при помощи текстового редактора.

Однако иногда надо «переписать» целую книгу. В таких случаях рациональнее всего использовать сканер. Но сам по себе сканер делает только фотокопию текста, которую никак нельзя редактировать. Для того, чтобы изменить информацию на полученном изображении следует провести распознавание документа.

Бесспорным лидером в этом деле является система OCR (англ. optical character recognition — оптическое распознавание текста) от Abbyy — FineReader. Но стоит она довольно дорого и не каждый может позволить себе иметь в своем арсенале такой инструмент. Сегодня мы познакомимся с бесплатной альтернативой Файн Ридера — программой CuneiForm. Приведу сравнительную таблицу возможностей обеих пакетов:

Сравнение распознавалки текста CuneiForm с платным аналогом FineReader

Особенности CuneiForm FineReader
Стоимость бесплатно от 1340 р.
Количество языков распознавания 34 184
Возможность комбинировать языки распознавания - +
Сохранение исходного форматирования текста + +
Пакетное распознавание текста + +/-
Ограничение по разрешению файла-скана до 400 dpi нет
Поддержка всех типов сканеров только с TWAIN-интерфейсом +

Как видим, если хочется бесплатно распознавать текст, придется кое в чем уступить. Первое, с чем придется смириться — неумение CuneiForm работать с некоторыми сканерами (в особенности сканерами МФУ). Поэтому придется сканировать документ при помощи стандартных функций Windows. Второе — надо следить за разрешением сканирования.

Это связано с тем, что CuneiForm не может обрабатывать большие файлы (свыше 100 Кбайт), а чем выше разрешение, тем больший размер файла-скана. Зато качество распознавания текста в программе намного выше, чем у платного конкурента, а поэтому оптимальным вариантом параметров скана будет 200 dpi (можно и больше, но тогда есть вероятность, что программа просто зависнет).

Количество языков тоже невелико, но основные есть. Более того, хоть комбинировать языки и нельзя, зато в CuneiForm есть смешанный англо-русский режим распознавания! На этом минусы заканчиваются :). Можно начинать установку.

Установка CuneiForm

Здесь сложностей нет, поскольку Вам поможет инсталлятор. Просто запускайте установочный файл и следуйте инструкциям. После установки в меню «Пуск» появится новый раздел. Открываем его и запускаем CuneiForm.

Окно CuneiForm 12


Интерфейс программы

Интерфейс CuneiForm намного проще, чем у Fine Reader, и почти не требует настройки. Программой можно полностью управлять благодаря кнопкам на панели инструментов. Рассмотрим их более детально:

Интерфейс CuneiForm 12

Программа может работать в режиме мастера, который активируется первой кнопкой. Но если CuneiForm не поддерживает Ваш сканер, то от этого режима стоит отказаться. Следующая кнопка запускает процесс сканирования (опять же, если есть поддержка сканера). На этой и следующих кнопках Вы можете заметить небольшие стрелочки. Нажав на них, мы получим доступ к некоторым дополнительным функциям.

Работа с CuneiForm

Теперь давайте опробуем CuneiForm на практике. Если программа поддерживает Ваш сканер, то первой кнопкой, которую следует нажать, будет «Получить изображение». Если же такой возможности нет, то откроем уже готовый скан (поддерживаются форматы JPG, GIF, BMP, PNG (не всегда корректно), а также TIF (в полной мере)).

Открытие документа в CuneiForm 12

Теперь следует произвести разметку. Она помогает определить блоки, из которых состоит страница. Поддерживается распознавание блоков в виде текста (синяя рамка), рисунков (зеленая рамка) или таблиц (оранжевая рамка) (автоматическую разметку можно доработать вручную, используя контекстное меню блока).

Разметка документа в CuneiForm 12

Когда текст обозначен, самое время провести его распознавание. Для этого нажимаем следующую кнопку. По окончании процесса распознавания в рабочем окне отобразится текст, который можно редактировать в небольшом встроенном текстовом редакторе похожем на Microsoft Word. При этом Вы сразу сможете увидеть те слова, в которых программа «не уверена» (голубая подсветка) и в которых есть ошибка (сомнительная буква — розовая).

Распознавание и редактирование документа в CuneiForm 12

И, наконец, после успешного редактирования можно сохранить результат нашей работы. Кликаем последнюю кнопку на панели инструментов и сохраняем текст как RTF, HTML или TXT-файл.

Сохранение документа в CuneiForm 12

Если же Вы желаете большего, то, нажав на стрелочку сбоку, Вы сможете выбрать опции экспорта в одну из предложенных программ (Microsoft Word, Excel или Евфрат).

Варианты сохранения документа в CuneiForm 12

Посмотрите на предыдущий скриншот. Наверняка вы обратили внимание, что в дополнительных меню кнопок, начиная с «Разметки» и заканчивая «Сохранением», есть в конце пункт «Автомат». Активирование этой опции освобождает Вас от нажатия выбранной кнопки. То есть можно автоматизировать процесс обработки скана до того, что Вы будете лишь открывать новый документ. Все остальное CuneiForm сделает сама!

Общие настройки CuneiForm

Программа изначально настроена самым оптимальным образом, но если Вы что-то захотите изменить, просто зайдите в меню «Файл» и выберите опцию «Общие параметры». Это может пригодиться для смены языка и некоторых других параметров распознавания, форматирования и сканирования текстов.

Настройки CuneiForm 12

Пакетное распознавание

На этом можно было бы и закончить, если бы в пакет CuneiForm не входила еще одна утилитка. Откройте «Пуск» снова и в папке с программой обнаружите еще одно приложение — «Пакетное распознавание». Представьте, что Вы отсканировали целую книгу! и теперь надо ее распознать!!! Если открывать каждый файл-скан по отдельности на это уйдет уйма времени, пакетный же режим представляет возможность указать нужные файлы, а об остальном программа позаботится сама.

Утилита CuneiForm 12 для пакетного распознавания

Для начала нужно создать новый пакет файлов. Нажимаем соответствующую кнопку и следуем подсказкам запустившегося мастера:

Мастер пакетного распознавания CuneiForm 12

На последнем этапе мы можем либо просто сохранить наш пакет, либо начать немедленное распознавание. В последнем случае запустится режим распознавания, который может затянуться на несколько минут (в зависимости от количества файлов-сканов).

Процесс пакетного распознавания в CuneiForm 12

По окончании распознавания Вы сможете увидеть в основном окне все распознанные документы. Если распознавание прошло успешно, то в левой боковой панели Вы обнаружите активными только два списка: «Исходные» и «Обработанные». Если же будут файлы, которые не удалось распознать, их мы найдем в разделе «Ошибки».

Результат пакетного распознавания в CuneiForm 12

Теперь остается только сохранить полученные файлы и радоваться жизни :).

Выводы

Потенциал у CuneiForm явно хороший, однако разработка ведется довольно медленно. Несмотря на открытый исходный код, компания Cognitive, видимо, очень требовательна к разработчикам, раз прогресс так долго не появляется. Остается только надеяться, что дело сдвинется с мертвой точки и программа станет еще лучше, а пока довольствуемся малым. Но такое ли уж оно и малое… Выбор за Вами!

P.S. Разрешается свободно копировать и цитировать данную статью при условии указания открытой активной ссылки на источник и сохранения авторства Руслана Тертышного.

P.P.S. Вам также может пригодится еще одна довольно занятная программа. GetWindowText, пусть и не полноценная система распознавания, но может помочь Вам захватить текст и графику с экрана для последующей обработки:
Захват экрана https://www.bestfree.ru/soft/office/capture.php






Обучающий видеоурок, посвящённый работе с программой CuneiForm

подпишитесь на новые видеоуроки!



Похожие программы:

Ксерокс: iCopy
Бесплатная программа для объединения сканера и принтера в удобный копир.
Офис: OpenOffice.org
OpenOffice.org — это международный проект с открытыми исходными кодами, созданный для того, чтобы разработать универсальный офисный пакет, работающий на разных операционных платформах, имеющий открытый API и формат файлов, основанный на XML.
Захват экрана: GetWindowText
Программа позволяет захватить и обработать текст в любой, даже не подозревающей о буфере обмена, программе.
Кодировка текста: Штирлиц
Программа с патриотичным названием, предназначенная для перевода текста в читабельную кодировку.
Красивые шрифты: NexusFont
Программа для удобного просмотра и управления шрифтами на компьютер, плюс отличный набор русских шрифтов на все случаи жизни.
Каталогизатор книг: Calibre
Бесплатный каталогизатор для учёта книг в домашней (и не только) библиотеке.
Проверка орфографии: Orfo Switcher
Программа проверки орфографии и автопереключения раскладки клавиатуры. Проверка орфографии вводимого текста или слова ненавязчиво работает параллельно с вами в любой активной программе.
Сканер для Андроид: Textfee Сканер для Андроид: Textfee Бесплатное приложение для сканирования документов при помощи устройств на базе Android.
MDI файлы: MDI2DOC Converter
Программа для чтения и конвертирования MDI файлов в графические форматы.




1

** Задавать вопросы лучше на нашем форуме. Просто зарегистрируйтесь и создайте новую тему.

Полезный совет:



Система проверки ошибок от Mistakes.ru