Программы для сканирования

СканированиеПрограммы для сканирования – класс ПО, предназначенного для получения графического изображения со сканера или цифровой камеры с последующей его обработкой и сохранением на компьютере в виде отдельного файла.

Программы для сканирования можно разделить на несколько групп. В первую будут входить штатные средства Windows, а также некоторые сторонние решения, позволяющие преобразовать отсканированный материал в простой графический файл. Вторая группа подобного ПО будет предназначена для офисных нужд и использоваться для оцифровки документации в PDF-формат. Самая же продвинутая группа будет включать программы для распознавания текста.

В статье ниже мы рассмотрим наиболее удачные примеры программ для сканирования всех типов данных.

Сканируем бесплатно

Программы для сканирования Сканируем бесплатно
Язык:Русский
Формат:
Обновлено:2016-10-15
Автор:





Сканируем бесплатно

Штатных средств для работы со сканером в Windows может быть недостаточно, поэтому часто приходится использовать специальные программы для сканирования, о которых мы Вам и расскажем.

К написанию данной статьи меня снова побудил случай из реальной жизни. На нашу организацию пришло письмо не откуда-то, а прямо из СБУ (Служба Безопасности Украины), в котором уполномоченные товарищи интересовались не покупались ли нами лицензии на ряд программ некоторых производителей.

Среди небольшого списка значилась небезызвестная контора ABBYY, чей пакет для сканирования и распознавания документов у нас был на паре компьютеров (естественно, "пиратка" :)). Раз появился прецедент, то может последовать и развитие событий, поэтому я решился (в который раз уже...) найти бесплатную альтернативу FineReader.

Скажу сразу, что на сегодняшний день полноценной замены ему пока всё ещё нет, но кое-что найти удалось. Пришлось много всего перечитать-перепробовать и жалко было бы, если бы такая поисковая работа осталась нигде не зафиксированной :). Поэтому речь пойдёт о моих изысканиях в области сканирования в Windows вообще и распознавания текста в частности.

Интерфейсы сканирования

При подключении к любому компьютеру нового устройства мы первым делом всегда устанавливаем его драйвер. Именно он позволяет нашему ПК "общаться" с устройством на "родном" для него "языке". Поэтому начнём мы немного издалека и не совсем о программах (хотя, драйвер тоже программа по сути).

Ещё настраивая FineReader я заметил, что для работы с разными сканерами обычно доступно два разных драйвера с приписками TWAIN и WIA. В чём же между ними разница?

Драйвер сканирования в FineReader

TWAIN (староангл. "двое, пара") – это довольно старый стандарт (1992 года), разработанный в качестве универсального протокола для сопряжения компьютеров и сканеров. Обычно именно этот стандарт используется в "родном" приложении сканера, которое идёт в комплекте с устройством на диске:

Сканирование HP

Несмотря на почтенный возраст, протокол продолжает развиваться (последнее на данный момент обновление вышло в 2013 году) и предоставляет наилучшую совместимость между компьютером и всеми заложенными в сканер функциями. Поэтому, если есть возможность, лучше выбирать именно этот протокол для сканирования.

WIA (сокр. англ. "Windows Image Acquisition" – "захват изображений Windows") – разработанный в 2000 году стандарт взаимодействия сканеров с операционной системой Windows ME (и старше). В отличие от TWAIN имеет поддержку только базовых функций сканирования и предпросмотра, но зато позволяет использовать стандартный диалог получения изображений, который работает практически со всеми моделями сканеров и программами в Windows.

Кстати, именно благодаря WIA сканеры отображались в списке устройств в окне "Мой компьютер" в Windows вплоть до 8. Начиная с "Восьмёрки" штатный диалог сканирования был заменён оснасткой "Сканер", выполненной в "плиточном" стиле. Однако, если Вы привыкли к стандартному мастеру, то его можно запустить при помощи файла wiaacmgr.exe, который лежит по адресу: C:\Windows\System32\:

Сканирование WIA

Кроме упомянутых интерфейсов сканирования существует ещё ряд менее распространённых, применяемых в определённых случаях. Например, ISIS (сокр. англ. "Image and Scanner Interface Specification" – "Спецификация интерфейса изображений и сканеров") чаще всего используется в профессиональных производственных сканерах, которые позволяют автоматизировать сканирование с применением ряда дополнительных эффектов обработки отсканированных материалов.

В офисах же нечасто, но можно встретить разработку из мира UNIX, реализующую упрощённый стандартный диалог сканирования (наподобие WIA) с возможностью сетевого доступа к сканеру – SANE (сокр. англ. "Scanner Access Now Easy" – "Теперь доступ к сканеру прост"). Для своей работы он требует подключения сканера к серверу на базе Linux, хотя при помощи специальных утилит доступен и на рабочих станциях с Windows.


Штатные средства сканирования

Как уже говорилось выше, штатные инструменты сканирования можно разделить на два класса: "родной" софт, который шёл в комплекте со сканером и стандартный Мастер Windows. Первый обычно работает на базе TWAIN-драйвера, что позволяет в полной мере использовать все функции сканера. Второй же на WIA и предоставляет лишь базовый функционал, но может быть более удобным, а также универсален для всех сканеров в Windows.

В силу того, что производители сканеров и МФУ разные, интерфейс поставляемых с драйвером программ для сканирования тоже существенно отличается даже в рамках различных линеек продукции одной и той же фирмы. Вот, например, "родные" программы сканирования для Canon MP250 (слева) и MF4410 (справа):

Canon MP Navigator и MF Toolbox

Во всех программах подобного рода обычно присутствуют такие общие моменты:

  1. Выбор типа сканирования (цветное, оттенки серого или чёрно-белое).
  2. Выбор размера документа (отсканированный материал будет обрезан по размеру нужного формата бумаги).
  3. Разрешение (стандартным является 300 dpi (точек на дюйм), но для мелких неразборчивых документов может быть увеличено до 600, а для получения качественного скана фотографии даже до 1200, 2400 и выше).
  4. Постобработка (улучшение чёткости, удаление растра, скрытие теней от переплёта, уменьшение просвета бумаги и т.п.).
  5. Дополнительные действия после сканирования (преобразование в PDF, отправка по электронной почте, распознавание текста).

Некоторые программы для сканирования могут быть реализованы в виде пошагового Мастера, вроде WIA, который начинает с настроек, а в итоге выдаёт готовое изображение. А некоторые позволяют, например, сразу выбрать нужное действие (вроде отправки скана по почте) и производить все операции с его учётом. Однако, практически все они будут иметь ряд расширенных опций.

Штатный же диалог сканирования Windows (Мастер работы со сканером и цифровой камерой) позволяет задавать лишь базовые предустановки сканирования. Но зато он имеет единый для всех сканеров интерфейс, который разбивает сканирование на последовательную цепочку логических действий:

  1. Предварительная настройка. На этом этапе Вы можете указать тип получаемого изображения (цветного, серого, чёрно-белого или с особыми параметрами), а также нажатием кнопки "Настроить" задать его разрешение, яркость и контрастность.
  2. Просмотр. При помощи одноимённой кнопки Вы можете получить быстрый предварительный скан, чтобы оценить подходят ли заданные Вами настройки или требуется их корректировка.
  3. Выбор формата и пути сохранения. После того как скан в Просмотре Вас устроил, нажимаете "Далее" и задаёте имя для сканируемого изображения, его формат (JPG, BMP, TIF или PNG), а также указываете конечную папку назначения, после чего жмёте снова "Далее" и ожидаете окончания сканирования.

Мастер работы со сканером и цифровой камерой

В новых версиях Windows сканирование стало происходить через приложение Сканер, но основные его этапы остались практически неизменными (изменился лишь внешний вид интерфейса):

Сканер Windows 8

Сканирование в PDF

Штатные средства сканирования удобны, если Вам нужно отсканировать единичные изображения или документы в виде отдельных графических файлов. Однако, чаще приходится иметь дело с многостраничным сканированием, результаты которого нужно сохранить в единый файл. Для этих целей лучше всего подходит формат PDF (сокр. англ. "Portable Document Format" – "портативный формат документов").

Некоторые штатные программы, идущие в комплекте со сканером, позволяют сохранять результаты в многостраничный PDF. Для тех же, кому не сильно повезло, существует целый ряд неплохих альтернатив, позволяющих блестяще справиться с задачей. Рассмотрим некоторые из них.

WinScan2PDF

Если Вы любите маленькие и портативные, но в то же время функциональные программы, то Вашим выбором однозначно может стать WinScan2PDF:

WinScan2PDF

Занимает программа менее мегабайта места, не требует установки и, как следует из названия, позволяет сканировать любые изображения и документы в PDF (он является единственным выходным форматом). Несмотря на небольшой размер, WinScan2PDF имеет мультиязычный интерфейс и довольно много различных опций:

  • активация многостраничного сканирования;
  • изменение ориентации листа;
  • указание размера для обрезки под стандартные форматы бумаги (нужно изменить с Letter по умолчанию на A4);
  • установка качества сжатия полученных сканов (по умолчанию 80%).

Для сканирования нам достаточно предварительно указать используемый сканер (кнопка "Выбрать источник") и нажать кнопку "Сканировать". Откроется интерфейс драйвера сканера (например, ScanGear MF для сканеров Canon), который предоставляет прямой доступ ко всем возможностям (выбор разрешения, яркости, контрастности и т.п.).

ScanGear MF

Если Вы отметили галочку многостраничного сканирования, то по его окончании, после закрытия интерфейса сканера, у Вас будет возможность изменить порядок страниц, а затем сохранить их в PDF. Кроме того Вы можете перетащить в список любые файлы изображений, которые уже есть на компьютере и добавить их в итоговый PDF-документ:

Многостраничное сканирование в WinScan2PDF

По сути, WinScan2PDF является упрощённым вариантом виртуального PDF-принтера с удобным интерфейсом и прямым доступом ко всем возможностям сканера по "родному" TWAIN-интерфейсу. Поэтому, если Вам не хватает функции простого сохранения отсканированных материалов в PDF, то данная программа – именно то, что Вам нужно!

Advanced Scan to PDF Free

Более продвинутым инструментом сканирования в PDF является Advanced Scan to PDF Free:

Advanced Scan to PDF Free

Программа не имеет русскоязычного интерфейса, но интуитивно понятна за счёт крупных кнопок, снабжённых выразительными иконками. Работает она как с "родным" TWAIN-драйвером, так и с интерфейсом WIA (выбираете при нажатии на кнопку "Scan") и позволяет получать изображение как со сканера, так и из уже существующих графических файлов (кнопка "Import").

Advanced Scan to PDF Free позволяет:

  • создавать PDF-документы из неограниченного числа сканов и файлов изображений с поддержкой их сортировки;
  • производить элементарную постобработку сканов (обрезка, поворот, увеличение);
  • задавать тип сжатия изображений внутри PDF-файла (JPEG (по умолчанию), RLE, G3FAX, G4FAX);
  • шифровать PDF-файлы и подписывать их цифровыми подписями (вкладка "Tools");
  • предварительно просматривать PDF-документы и отправлять их по E-mail.

Увы, программа буквально напичкана рекламой, поэтому будьте внимательны при её установке. Она предложит Вам установить две сопутствующие программы. Чтобы отказаться от первой нужно будет нажать кнопку "Decline", а на втором экране снять галочку "I agree". Но и это ещё не всё. При запуске самой программы появится окно, предлагающее скачать и установить "обновление". Закройте это окно и подтвердите своё действие нажатием кнопки "Да".

Advanced Scan to PDF Free может пригодиться в организациях, где налажен электронный документооборот с использованием электронных цифровых подписей или же как инструмент быстрого создания и отправки PDF-документов по почте.

HippoScan

Своеобразным нашим ответом предыдущей программе для сканирования в PDF можно назвать HippoScan (известную ранее как ScanTool):

HippoScan

Программа полностью русскоязычная, по умолчанию использует TWAIN-интерфейс сканера и реализует почти все те же возможности, что и описанная выше Advanced Scan to PDF Free (кроме просмотра и подписывания PDF). Однако, у неё имеются и свои "плюшки":

  • скрытие диалога сканирования (по умолчанию);
  • поддержка масок автоматического названия сканов;
  • автокоррекция баланса белого, а также ручная обработка изображений (коррекция яркости, контрастности и удаление нежелательных артефактов выделением и клавишей Z);
  • режим копировального аппарата (отсканированное изображение автоматически отправляется на печать);
  • режим автосканирования через заданный промежуток времени.

Особенно порадовала последняя возможность. Если в HippoScan нажать кнопку с изображением таймера и ввести в появившемся поле число, то программа будет автоматически запрашивать новый скан через указанное число секунд. Вам остаётся только перекладывать изображения или переворачивать страницы книги, ничего не нажимая!

Из "интересностей" стоит отметить бегемота с карандашом и звёздочками под ним в правом верхнем углу рабочего окна. Я сразу подумал, что это нечто вроде предложения поставить программе оценку. Оказалось же, что при нажатии на бегемоте переключаются режимы сканирования (ч/б, оттенки серого или цветной), а звёздочки задают DPI (от 75 до 600).

HippoScan можно однозначно рекомендовать тем, кто хочет больше автоматизации при сканировании или не имеет копира, но хочет печатать напрямую со сканера на обычном принтере.

Распознавание текста

Вершиной "эволюции" программ для сканирования являются программы для распознавания текста. Общий принцип их работы таков. Имеется некая база данных с примерами начертания различных печатных (а иногда даже рукописных!) символов на определённом языке. Программа, получив изображение со сканера или графического файла сравнивает каждый найденный в нём символ с символами в базе данных и при их совпадении сохраняет результат в виде редактируемого текста.

Теоретически нет никакой проблемы, но на практике программы для распознавания текста должны иметь не только базу с десятками вариантов начертаний символов разными шрифтами, но и очень развитые эвристические модули, позволяющие правильно определить наличие текста, а также словари для более корректного определения языка распознавания и конкретных часто употребляемых слов.

Эталоном в данной области фактически является программа компании ABBYY FineReader. На сегодняшний день – это единственный пакет оптического распознавания символов (от сокр. англ. "OCR" – "Optical Character Recognition"), способный качественно распознавать тексты со сложной вёрсткой и различными языками. Правда стоит он немалых денег, поэтому предлагаю рассмотреть несколько менее функциональных, но бесплатных аналогов.

CuneiForm

Ближайшим бесплатным аналогом FineReader обычно называют отечественную программу CuneiForm (читается "кьюнифом" – с англ. "клинопись"):

CuneiForm

К сожалению программа с 2007 года не развивается. хотя её исходные коды были выложены во всеобщий доступ. Однако, и в таком виде, в каком она есть, CuneiForm может обеспечить распознавание документов с не особо сложным форматированием.

Интерфейс программы напоминает ранние версии ФайнРидера и реализует те же принципы "всё-в-одном". То есть, с её помощью мы можем получить изображение со сканера, предварительно обработать его и распознать, передав результаты в текстовый редактор или сохранив в файл. Правда, здесь не без оговорок... CuneiForm не всегда корректно работает со сканером, поэтому может потребоваться сначала отсканировать нужные материалы, а затем загрузить их из файла.

Качество распознавания, увы, тоже не на высоте... Если сплошной русский текст программа распознаёт ещё более или менее сносно, то, например, украинский уже гораздо хуже (не говоря об остальных заявленных). Однако, CuneiForm – единственная из бесплатных программ, которые могут распознавать смешанный англо-русский текст, поэтому может быть единственным легальным способом обработки международных документов...

FreeOCR

Гораздо более перспективной в плане качества распознавания моноязыковых текстов можно назвать бесплатную программу FreeOCR:

FreeOCR

Программа полностью на английском и в стандартной поставке позволяет распознавать лишь английский, немецкий и ещё некоторые европейские языки (всего 11 штук), однако, благодаря тому, что работает она на базе движка Tesseract (по сути, это GUI к данной OCR-системе), мы можем добавить довольно качественную поддержку практически любых языков. Рассмотрим как это сделать на примере русского.

Первым делом нам нужно зайти на ГитХаб проекта Tesseract в раздел языковых библиотек и скачать оттуда файл нужного языка в формате .traineddata (для русского – rus.traineddata). Этот файл нужно поместить в папку с языками программы, которую проще всего открыть из меню "Settings" – "Open Language Folder".

Следующим шагом будет ручное обновление самого движка Tesseract. Скачайте последнюю его версию со страницы загрузок (рекомендую качать сборку отсюда), установите и скопируйте исполняемый файл tesseract.exe в папку с программой FreeOCR (обычно C:\FreeOCR), согласившись на его замену, после чего перезапустите её.

Теперь распознавание должно работать без ошибок. Чтобы его запустить загрузите в программу изображение со сканера, файла или PDF-документа, в выпадающем окошке "OCR Language" справа выберите нужный язык и нажмите кнопку "OCR" на панели инструментов. Немного подождите и получите распознанный текст в правой части рабочей области программы. Этот текст можно тут же поправить, сохранить в TXT, RTF, буфер обмена или передать на редактирование в MS Word (кнопки на средней панели).

Благодаря неплохому развитию Tesseract распознавание в FreeOCR при хорошем качестве скана на порядок лучше, чем в CuneiForm. Недостатком является лишь уже упомянутая невозможность мультиязычного распознавания (русско-английского или русско-украинского). Также не очень удобно то, что в программе нет функции сохранения отсканированных материалов в PDF со слоем распознанного текста (можно сохранить только в виде последовательности JPEG-изображений).

NAPS2

Ещё одна перспективная находка, которая использует базы Tesseract для распознавания более чем 100 языков мира, но при этом является абсолютно бесплатной и даже с открытым исходным кодом – NAPS2 (сокр. англ. "Not Another PDF Scanner" – примерно "Не очередной PDF-сканер"):

NAPS2

Само название данной программы намекает на то, что перед нами не какой-то там ещё один сканер PDF, а нечто более ценное. И это действительно так! По функционалу NAPS2, хоть и недотягивает до флагманов, но стремится к ним. В его арсенале имеется:

  • мультиязычный интерфейс (в том числе и русский);
  • портативная версия, не требующая установки;
  • функция пакетного сканирования с настройкой профилей;
  • импорт изображений (PDF-файлы, увы, не поддерживаются);
  • базовые функции обработки изображений (поворот, обрезка, регулировка яркости и контрастности);
  • сохранение сканов в PDF со слоем распознавания и без, а также с возможностью шифрования или в виде изображений;
  • прямая отправка сканов по почте и их распечатка из интерфейса программы.

Правда, не всё так идеально как хотелось бы. Помимо отсутствия возможности открывать напрямую PDF-файлы для распознавания, NAPS2 не имеет встроенного редактора текста или иных инструментов для экспорта распознанных данных. Чтобы скопировать результат придётся сохранить всё в PDF-документ, открыть его в программе-читалке и только там, воспользовавшись инструментом выбора текста, выделить всё и скопировать в буфер обмена.

NAPS2 по умолчанию работает только с английским текстом и требует предварительной загрузки нужных Вам языков. Правда, делается это намного проще, чем в предыдущем случае: достаточно нажать кнопку "Распознавание", в открывшемся окошке кликнуть по ссылке для установки дополнительных языков, отметить языки галочкой в списке, дождаться их установки и выбрать в выпадающем списке для распознавания:

Загрузка языковых пакетов распознавания текста в NAPS2

Также при первом сканировании нужно будет задать настройки сканера для создания правильного профиля. Изменить нужно, во-первых, формат бумаги со стандартного американского Letter на A4, а, во-вторых, разрешение со 100 до 300 или 600 DPI. Остальное на Ваше усмотрение (яркость, формат и перочие параметры).

При пакетном сканировании мы можем использовать как сканирование с запросом перед каждой процедурой, так и с задержкой по времени в секундах. При этом результат можно сохранить как в самой программе (по умолчанию), так и в виде одного или серии файлов.

Радует то, что NAPS2, в отличие от некоторых других проектов, продолжает развиваться и не требует никаких доводок для нормальной работы. Это даёт надежду на то, что, даже если он и "не дорастёт" до уровня коммерческого софта, то, по крайней мере, со временем может приблизиться к нему, поскольку потенциал есть и весьма неплохой!

Заключение

Итак, можно ли сегодня обойтись без установки платных систем сканирования, вроде ABBYY FineReader? Однозначно сказать, увы, нельзя. Всё зависит от уровня Ваших притязаний к функционалу программы.

Если Вам достаточно просто отсканировать документы в PDF и отправить их по почте, то бесплатных решений для этого имеется предостаточно. Также Вам ни к чему ФайнРидер, если Вы сканируете только изображения. И даже с распознаванием текста (если он весь на одном языке) существующие сегодня OCR-системы на базе Tesseract справляются весьма хорошо.

Однако, если Вы хотите, например, распознать документ со сложным форматированием с сохранением его структуры, то здесь, увы, пасует любая из бесплатных программ... Также ни в одной из рассмотренных нами систем сканирования (за исключением HippoScan, который, к сожалению, не умеет распознавать текст) не обнаружилось даже простенького графического редактора. А он бы очень не помешал, например, для удаления лишних теней или артефактов самого сканера. Это могло бы в некоторых случаях существенно повысить качество распознавания, но, увы, такая штука есть только в FineReader...

Радует, однако, то, что на сегодняшний день проблема бесплатного распознавания текста стараниями энтузиастов из разных уголков мира постепенно сдвигается с "мёртвой" точки. Думаю, что решения на базе Tesseract ждёт хорошее будущее. Разработчикам осталось только консолидировать усилия и создать полноценную визуальную оболочку для данной мощной OCR-системы. Будем ждать и верить в их здравомыслие и бескорыстие :)

P.S. Разрешается свободно копировать и цитировать данную статью при условии указания открытой активной ссылки на источник и сохранения авторства Руслана Тертышного.







Полезный совет:



Система проверки ошибок от Mistakes.ru