Скачать ABBYY FineReader
(41.3 Мегабайт)
Язык интерфейса: русский, английский Сайт программы Варианты приобретения программы:
|
Одно из наиболее часто выполняемых на компьютере действий – распечатка на принтере электронных документов, будь то документ Word , веб-страница или графическое изображение. Но нередко возникает и обратная задача: перевод имеющейся распечатки, статьи или целой книги в электронный вид с тем, чтобы получить возможность отредактировать текст, переслать его по электронной почте или опубликовать в Интернете. Понятно, что всегда можно вручную воссоздать документ, заново набрать его в текстовом редакторе, отформатировать и сопроводить иллюстрациями. Однако для объемных многостраничных документов эта задача становится слишком трудоемкой. Одним словом, возникает потребность отсканировать документ, а затем обработать полученное изображение с помощью специализированной программы оптического распознавания текстов ( Optical Character Recognition , OCR).
Таких программ создано довольно много. Все это – сложные системы, с весьма объемными дистрибутивами, распространяющимися на компакт-дисках. Поэтому изначально в книге не должно было быть описания подобных программ: я ведь рассказываю только о тех приложениях, которые можно скачать и обновить через Интернет. Но в процессе работы над книгой я узнал, что компания ABBYY начала распространять через Сеть очередную версию своего продукта Fine Reader. Правда, скачать дистрибутив посредством модема будет весьма непросто: он занимает более сорока мегабайт. Но, учитывая бурное развитие высокоскоростных каналов связи с Интернетом, я решил, что многие читатели энциклопедии смогут забрать дистрибутив из Сети, как сделал это и я сам. Соответственно, Fine Reader вполне может быть описан в книге.
Сразу скажу, что мне приходилось пользоваться многими OCR-системами, эксплуатируя их «на всю катушку». Но лучший результат работы всегда показывал именно Fine Reader, поэтому я, в конце концов, остановил свой личный выбор именно на нем.
Fine Reader относится к классу омнифонтовых систем оптического распознавания текстов. Это означает, что программа способна работать с распечатками текстов, набранных практически любыми шрифтами. Кроме того, особая технология позволяет Fine Reader выполнять свою работу, не взирая на мелкие дефекты печати.
Процесс работы состоит из несколько самостоятельных этапов. Первым делом выполняется сканирование всех распечаток, которые требуется распознать и превратить в электронные аналоги. Разумеется, этот этап может быть опущен, если отсканированные изображения созданы заранее. Кроме того, сканирование не потребуется, если необходимо распознать содержимое PDF-документа.
Затем из отсканированных изображений (или из страниц PDF-файла) создается пакет для распознавания. Изображения страниц могут быть сколь угодно сложными, включать иллюстрации, таблицы, заголовки разных уровней и любую другую информацию. После того, как все изображения собраны в пакет, Fine Reader проанализирует макет, поделит разворот книги или журнала на две части и выделит в отдельные блоки различные самостоятельные элементы страниц. Причем, каждый блок обрамляется рамкой особого цвета, в зависимости от содержащейся в нем информации: иллюстрации (которые не требуется распознавать) ограничены красной рамкой, текст для распознавания – зеленой, таблицы – синей. Пользователь может вручную подправить разметку, выполненную системой: объединить разрозненные блоки, добавить новые или удалить лишние (например, блоки с номерами страниц, если их не требуется переносить в документ с результатами работы). Впрочем, как правило, такой ручной работы не требуется: Fine Reader достаточно четко делит изображение страницы на составляющие элементы.
После того как разметка выполнена, можно приступать непосредственно к распознаванию. В результате выполнения этой операции пользователь видит в отдельном окне Fine Reader ту же страницу с полностью сохраненной структурой, но уже не как отсканированное изображение, а как обычный электронный документ, который можно редактировать в любом текстовом редакторе или программе верстки. Кстати, некоторые изменения можно внести в получившийся документ с помощью встроенного в Fine Reader простенького редактора. Он позволяет сменить шрифт и его размер, выделить текст подчеркиванием, полужирным или курсивным начертанием, а также изменить выравнивание абзаца.
На следующем этапе можно выполнить проверку получившегося текста, подобно тому, как проверяется орфография в текстовых редакторах. Fine Reader способен распознавать тексты на 177 языках, в любых комбинациях. Причем, для 34 языков поддерживается функция проверки орфографии. Если программа не уверена, что правильно распознала какой-либо текстовый фрагмент, она выделит его особым цветом, предлагая пользователю самостоятельно убедиться, что все распознано правильно, или вручную внести необходимые изменения.
Наконец, остается сохранить результат работы, чтобы воспользоваться ими в дальнейшем. Fine Reader позволяет сохранять распознанные документы в форматах *.doc , *.rtf , *.pdf , *.htm , *.txt , *.xls , *.ppt , *.dbf и *.csv . Более того, можно прямо из Fine Reader, не сохраняя файл, сразу передать результат работы в одно из внешних приложений, например, в Word , Excel или PowerPoint , и продолжить работу с файлом уже в нем. Кроме того, результат работы может быть загружен в браузер как веб-страница, или прикреплен к письму и отправлен по электронной почте. Наконец, предусмотрена возможность сохранения результатов распознавания в буфере обмена. Но все эти действия доступны лишь пользователям зарегистрированной версии.
Вообще говоря, результат работы Fine Reader напрямую зависит от качества исходного изображения. В случае, если изображение отсканировано, например, с недостаточным расширением, Fine Reader выдаст предупреждение, что результат работы может оказаться неудовлетворительным. Однако я неоднократно игнорировал это предупреждение и, тем не менее, в результате получал из плохоньких изображений превосходно и практически безошибочно распознанный текст.