Как из скана сделать текст? Numeralis

Как из скана сделать текст? Numeralis

Вернуться к разделу "Материалы по сканированию и оцифровке бумажных книг".

Обработка неравномерно-освещённых сканов в Book Restorer 4.1

Рассматривается только случай серых "сырых" сканов (не чёрно-белых и не цветных)!!!

При сканировании книг иногда не удаётся плотно прижать к стеклу сканера область около корешка книги (для обеспечения правильности сканирования). Так бывает, когда корешок книги сшит слишком жёстко и тесно. Как правило, такое встречается в случае очень толстых книг, но не всегда.

В результате порой получаются неравномерно-освещённые сканы книжных страниц:

На рисунке хорошо видны т.н. "наползающие тени" (на текст) - около корешка книги. Также отчётливо видна пересвеченная (слишком выбеленная) область в виде вертикальной полосы - чуть правее корешка.

Такие серые сканы нельзя обрабатывать напрямую (преобразовывать в чёрно-белые и разрезать на ровные страницы в СканКромсаторе) - неравномерная освещённость не позволит осуществить прямое и качественное преобразование в чёрно-белый режим - появятся чёрные пятна и белые проплешины.

Обработка подобных сканов должна осуществляться следующим образом:

1. Выравнивание освещённости. Это полностью автоматическая процедура, сглаживающая перепады яркости по площади скана.

2. Пороговая бинаризация. Это тоже полностью автоматическая процедура, применяемая к сканам сразу после выравнивания освещённости. Здесь важно правильно подобрать оптимальное значение порога бинаризации - при слишком низком пороге "вылезает мусор", при слишком высоком - "пропадают буквы". Подробнее см. далее.

Бинаризация - это преобразование серых сканов (256 оттенков серого) к чёрно-белым (2 цвета - чёрный и белый), а порог - это тот номер серого цвета, всё светлее которого становится белым, а всё темнее - чёрным.

Эти 2 операции можно осуществить или в СканКромсаторе v5.6A, или в Book Restorer v4.1. Обе эти программы можно скачать в разделе DjVu-программы.

Рассмотрим пошаговый алгоритм обработки неравномерно-освещённых сканов в Букресторере.

Выравнивание освещённости

1. Запускаем Book Restorer v4.1 Eng. Создаём новую книгу ("книга" - это аналог файнридеровского пакета в Букресторере): меню Book -> New. Назовём её, например, "book". После нажатия OK соглашаемся с созданием новой папки. На жёстком диске при этом создастся новая папка - "C:\book" - это и есть наша новая книга. В левой панели "Book explorer" появится дерево созданной книги.

2. Заполняем книгу сканами, подлежащими обработке: меню Insert -> Automated Import. В появившемся окне Import options в поле Source folder вводим путь к папке со сканами, в поле Type выбираем TIFF (.tif). После нажатия на OK книга начнёт автоматически наполняться сканами. Как только все сканы загрузятся в книгу, продолжаем дальше.

Важно отметить, что мы загружаем для обработки "сырые" сканы - т.е. прямо от сканера, в виде серых сдвоенных разворотов (или одиночных сканов с ошмётком соседней страницы). Никакой предварительной обработки сканов не требуется.

3. Выделяем все сканы: меню Edit -> Select all.

4. В дереве обработок делаем двойной клик мышью на узел Lighting correction:

5. В появившемся окне Lighting correction переключаемся на Tab-вкладку Lighting correction 2D:

Нажимаем OK - начинается постраничная обработка (выравнивание освещённости).

ВАЖНО: Нужно именно переключиться на вкладку Lighting correction 2D перед нажатием кнопки OK - если же мы останемся на вкладке Lighting correction 1D и нажмём кнопку ОК - запустится совершенно не та обработка, которая нам нужна.

6. После окончания пакетной обработки меняем нотацию нумерования страниц: в дереве книги кликаем правой кнопкой мыши на узел Standart page и выбираем в контекстном меню пункт Properties:

на вкладке Numbering в поле Format выбираем значение "0001,0002,0003,..." и нажимаем OK. При этом сразу же поменяются имена соответствующих узлов в дереве книги.

7. Не закрывая программу, переходим к следующей операции - пороговой бинаризации.

Пороговая бинаризация

8. Выделяем все сканы: меню Edit -> Select all.

9. В дереве обработок делаем двойной клик на узел Binarization:

В результате этого появляется окно Binarization:

10. В окне Binarization в окошке Quick preview отображён самый первый скан (при Edit -> Select all). Это окно предназначено для ручного и визуального подбора порога бинаризации, который будет применён ко всем сканам. Методика подбора такова: пробуем перемещать мышкой ползунок Details Filtering и при этом смотрим в окне Quick preview, как это влияет на вид изображения:

Неправильно выбранный порог - слишком низкий. Видно, как "вылезает мусор" - т.е. зачерняются тёмноватые микрообласти на скане.

Неправильно выбранный порог - слишком высокий. Видно, как "пропадают буквы" - т.е. выбеливаются светловатые буквы (или их кусочки) на скане.

Правильно выбранный порог - оптимальный. Видно, что мусор не вылезает, но и буквы не пропадают.

 

ВАЖНО: Выбрав окончательное значение порога, просмотрите весь скан - путём его прокручивания вверх-вниз и влево-вправо в окошке Quick preview. Это нужно сделать из-за того, что в окошке Quick preview не виден целиком весь скан - а нередко бывает так, что, казалось бы, порог подобран - а стоит прокрутить окошко Quick preview, например, к "корешку" скана - как становится видно, что там, оказывается, вылезает мусор - и надо ещё подкорректировать порог.

11. Окончательно определившись с порогом, нажимаем кнопку ОК в окне Binarization. Запускается процедура пакетной бинаризации. Ждём, пока она не закончится.

12. Теперь нам надо получить наши обработанные сканы из Букресторера (я их называю здесь "тифы" - т.к. они имеют расширение .tif). Они находятся в нашей книге "book" в собственном формате Букресторера - и нам надо их оттуда экспортировать в формат .tif в некую пустую папку.

Экспорт готовых тифов делаем так: выбираем в меню Book -> Publish. В появившемся окне Publish выбираем папку Destination folder (куда будут экспортированы готовые тифы), удостоверяемся, что селектор Pages стоит в положении All, в полях Type of files и Color range ставим значения, зависящие от вида наших сканов, например, Type of files = G4-compressed TIFF (.tif) и Color range = Binary. Нажимаем OK и программа начинает экспорт файлов.

13. Всё готово, закрываем программу и удаляем с диска уже не нужную нам книгу  (т.е. папку C:\book).

Пример обработки

На рисунках ниже проиллюстрировано, как меняется вид скана в процессе описанной 2-х-этапной обработки:

Исходный скан. Видны наползающие на текст тёмные тени и "высвеченная" вертикальная полоса на правой странице.

Скан после выравнивания освещённости. Исчезли и наползающие тени, и высвеченая полоса - а сам скан стал равномерно-освещенным по всей своей площади.

Скан после пороговой бинаризации. Поскольку он уже был с выровненной освещённостью, то и бинаризация прошла удачно - текст виден чётко, никакие буквы не потерялись, грязи нет.

 

 

 

Здесь показан тот же скан, но прошедший обычную бинаризацию (преобразование из серого в чёрно-белое) в программе Irfan View - т.е. без какого-либо выравнивания освещённости и без ручного выбора порога (в Irfan View этот порог жёстко "зашит" в программу и пользователь не может его менять). Хорошо видно, что наползающие на текст тёмные тени стали теперь просто чёрными и "поглотили" текст под собою, а пересвеченная полоса сделала текст под собою более блёклым - по сравнению с остальным текстом.

В процессе обработки на любом этапе можно сделать "откат" для любой из страниц (если она получилось неудачно) нажатием кнопки и, изменив параметры обработки, обработать её повторно вручную.

Заключение

Рассмотренная в статье технология не рассматривает случай, когда сканы цветные (или с цветными картинками) или чёрно-белые. Также не рассматриваются серые сканы, содержащие полутоновые рисунки и фотографии. Если таких рисунков в книге немного - то их можно вручную скопировать из исходных сканов и вставить уже в обработанные при помощи Adobe PhotoShop. Можно попробовать (для этого случая) подрегулировать порог бинаризации в окне Binarization не только ползунком Details Filtering (как это описано в статье), но также и ползунком Depth. Как альтернатива, можно выровнять освещённость и в СканКромсаторе 5.6A с использованием зон Exclude and Mark as dither region (для защиты полутоновых рисунков).

После обработки (описанной в статье) нередко требуется устранить кривизну строк и перекос текста со сдвигом.

После этого нужно провести окончательную обработку сканов в СканКромсаторе 5.6A (теперь они уже чёрно-белые) - cделать Despeckle, Deskew, нарезать сканы на ровные листы. Попутно иногда может потребоваться подчистить сканы от крупного мусора - так как он всё-таки местами "вылезает" (после обработки, описанной в этой статье). Это следует делать вручную и в СканКромсаторе.

Автор: monday2000.

8 ноября 2007 г.

E-Mail  (monday2000 [at] yandex.ru)

Hosted by uCoz
Как из скана сделать текст? Numeralis
Основы распознавания изображений с помощью FineReader
Как из скана сделать текст? Numeralis
Сканирование и распознавание книг / сканирование
Как из скана сделать текст? Numeralis
Обработка неравномерно-освещённых сканов в Book
Как из скана сделать текст? Numeralis
Скан в копирайтинге Копирайтинг настоящего
Как из скана сделать текст? Numeralis
Оцифровка печатных текстов Викиучебник
Как из скана сделать текст? Numeralis
Сканирование книг: быстро и без сканера
Как из скана сделать текст? Numeralis
Как из скана сделать текст? Numeralis
Как из скана сделать текст? Numeralis
Как из скана сделать текст? Numeralis
Как из скана сделать текст? Numeralis
Как из скана сделать текст? Numeralis
Как из скана сделать текст? Numeralis
Как из скана сделать текст? Numeralis
Как из скана сделать текст? Numeralis