Как сканировать книги и каталоги библиотеки:. Скан книги


Полные скан-копии книг pdf, djvu серии серии fantasy («желтая серия», «полосочка», «рамки») и Science Fiction («дракончик», «стекляшка») издательства «Северо-Запад»)

     
     
     
     
     
     
     
     
     
     
     
     
     
  Роберт Говард№27

Клинок судьбы

авторский сборник, 1998 год

Описание:

В данный том собрания сочинений Роберта Говарда вошли произведения о Соломоне Кейне, а также статья Ричарда Тугуда о хронологии этого цикла.В оформлении обложки использована работа Кена Келли.

#

 
     
     
  Роберт Говард№31

Тень ястреба

авторский сборник, 1998 год

Описание:

В данный том собрания сочинений Роберта Говарда вошли произведения о Соломоне Кейне, которые были завершены другим автором, а также историко-приключенческие и юмористические повести и рассказы.В оформлении обложки использована работа Кена Келли.

#

 
     
  Роберт Говард№33

Знак огня

авторский сборник, 1998 год

Описание:

В данный том собрания сочинений Роберта Говарда вошли произведения об Аль-Бораке и историко-приключенческий рассказ.Иллюстрация на обложке Кена Келли.

#

 
     
     
  Роберт Говард№36

Брат бури

авторский сборник, 1999 год

Описание:

В данный том собрания сочинений Роберта Говарда вошли произведения о Брекенридже Элкинсе (сборник «Брат бури») и повесть из условного цикла о Катулосе.Сборник «Брат бури» представлен как роман, входящие в него рассказы представлены в качестве его глав.В оформлении обложки использована работа Кена Келли.

#

 
     
  Роберт Говард№38

Коготь дракона

авторский сборник, 1999 год

Описание:

В данный том собрания сочинений Роберта Говарда вошли произведения из разных циклов автора и несколько внецикловых рассказов. Два произведения («Кольцо Сета» и «Коготь дракона») не принадлежат перу Роберта Говарда, а написаны Ричардом Тирни и Дэвидом Дрейком соответственно.В оформлении обложки использована работа Кена Келли.

#

 

szfan.ru

Scan Tailor. Программа для обработки отсканированных книг

Scan Tailor. Программа для обработки отсканированных книг

Попалась мне недавно программка Scan Tailor, которая предназначена для автоматической обработки отсканированных книг. С помощью этой программы можно разрезать страницы, если страницы сканировались не по одной, а целыми разворотами, можно исправить наклоны страниц, если они криво лежали в сканере, и провести еще некоторые полезные обработки.

Программа является бесплатной, да еще и с открытыми кодами, если версия под Винду, а можно из исходников скомпилить и под Линух. Официальный сайт — http://scantailor.sourceforge.net/.

Книжки сканирую я, к счастью, не часто, а вот обрабатывать уже отсканированные кем-то иногда приходится, в основном чтобы разрезать отсканированные развороты страниц на отдельные страницы. Описать программу Scan Tailor я решил на примере такой обработки. Для экспериментов взял первую попавшуюся книжку в формате DJVU с двойными страницами (первой попалась книга Ю.Ю. Ненахова «Чудо-оружие третьего рейха») и для начала преобразовал все страницы в формат TIFF, потому что для Scan Tailor исходными данными являются отсканированные рисунки. Для преобразования DJVU -> TIFF я использовал программу DjvuOCR. В результате у меня получилось 310 файлов TIFF каждый из которых содержал по две страницы.

При запуске Scan Tailor спросил где находится папка с отсканированными файлами, указал на папку с TIFF-ами и создался новый проект. Внешний вид программы видно на следующем скриншоте:

Главное окно программы

Главное окно программы

Первым этапом обработки идет исправление ориентации страниц. В данном случае этот этап можно пропустить, все страницы расположены в нужной ориентации, но для эксперимента посмотрел сколько по времени программа будет вращать 310 файлов. Оказалось, что на моем компе на AMD 3500+ с гигом оперативки и WinXP + SP2 это заняло пару секунд. Вообще программа за все время работы не занимала больше 50 МБ оперативки.

Вторым этапом идет разрезка страниц. Scan Tailor автоматически пытается определить границы между страницами и в большинстве случаев ей это удается.

Зарзезка страниц

Зарзезка страниц

Но даже если она и ошибается, то за ней можно исправить огрехи, перемещая линию, разделяющую страницы. Причем программа даже может разделять страницы, если они отсканированы под углом. На следующем скриншоте это хорошо видно, заодно видно как Scan Tailor немного промахнулся:

scan_04

Еще парочка промахов:

scan_055 scan_05

Разрезка страниц заняла чуть больше двух минут, а если точнее 2 минуты и 18 секунд, и на 310 разворотов программа ошиблась 14 раз, что, ИМХО, не так уж и плохо. На выходе получилось 620 одинарных страниц.

После этого наступает черед компенсации наклона. Программа просматривает все страницы и разворачивает их так, чтобы текст был строго горизонтально. Тоже это происходит автоматически, но при желании можно и вручную повращать страницы. Для удобства на отсканированные страницы при этом накладывается «листик в клеточку».

scan_06 scan_07

Компенсация наклона заняла полторы минуты и вмешиваться после автоматической коррекции не пришлось, программа отработала этот этап просто замечательно.

Четвертым этапом обработки идет определение полезной области, чтобы отсечь лишние пустые места. Это довольно долгий процесс, который для 620 страниц занял 22 минуты. Здесь программа тоже сработала без ошибок.

scan_08 scan_09

На пятом этапе задается так называемый макет страницы, то есть какого размера должны быть поля у отсканированного текста и выравнивание на странице. На следующем скриншоте я установил слева и справа нулевые поля (все-равно они остались от исходных отсканированных страниц, зачем их еще увеличивать), а по вертикали добавил по 5 мм.

scan_11

Эта операция заняла несколько секунд.

И, наконец, на последнем, шестом этапе, происходит вывод результирующих файлов. Здесь можно задать некоторые обработки вроде удаления пятен. В результате программа создала папку out, куда сохранила полученные файлы тоже в формате TIFF. Поменять выходной формат нельзя. В результате получились файлы с именами вида XXXX_filename.tiff, где filename.tiff — изначальное имя каждого файла, а XXXX — порядковый номер страницы.

Это была самая долгая операция, она заняла 35 минут.

Итого. Мне программа очень даже понравилась, интерфейс работает шустро, на сколько быстро работают алгоритмы обработки сказать трудно, потому что мне не с чем сравнивать, с подобными программами я сталкиваюсь впервые. Обработать 620 страничную книгу удалось чуть больше, чем за час. Для сравнения закачал в обменник исходную книгу и ее же после обработки. Не обращайте внимания, что там не хватает пары страниц в 20-ых страницах, это не я их вырвал, это так и было. 🙂

Программа активно развивается, последняя на данный момент версия вышла 26 апреля этого года, автор принимает пожелания и сообщения об ошибках, в том числе и на форуме ru-board.

В Scan Tailor удобно, что если во время обработки увидел косяк, пропущенный на предыдущем шаге, то можно вернуться и исправить. Следующие шаги придется переделывать только для измененных страниц. Жаль, что программа сама не понимает формат DJVU, но это не такая уж и проблема преобразовать из/в DJVU сторонними программами. Хотя еще хотелось бы уметь открывать и сохранять PDF. Но, к сожалению, во время работы программа у меня пару раз вылетала, поэтому надо сохранять проект почаще. А в целом очень удобная софтина.

Еще раз напомню ссылку на официальный сайт — http://scantailor.sourceforge.net/.

jenyay.net

Как сканировать книги в библиотеке? Сканирование в библиотеках: технологии и практика

Как сканировать книги и каталоги библиотеки: технологии и практика

Накопленный российскими библиотеками опыт позволяет четко сформулировать ответы на три главных вопроса оцифровки библиотечного фонда: зачем сканировать, что сканировать, как сканировать.

Почему библиотека является наиболее ярким образом системологии — фундаментальной науки, изучающей организацию процессов и явлений в мире? Ответ кроется в фонде и справочно-поисковом аппарате библиотеки. Для обычного читателя книги на полках и есть фонд, но это не совсем так. Библиотечный фонд — это сложная по структуре совокупность документов, представленных на различных носителях информации, соответствующая определенным отраслям знаний и связанная со специализированным поисковым механизмом на основе карточного каталога.

Иначе говоря, библиотекам удалось создать идеальную систему классификации и структурирования информации, которая позволила решить проблему хранения и поиска огромных объемов данных из любых источников. Для этого были разработаны специализированные библиотечные классификаторы, регламентирующие распределение и расстановку фондов, методы организации систематических каталогов, стандарты оформления и учета документов.

Даже размещение журналов на стеллажах библиотеки основываются на научном подходе: информетрический закон Брэдфорда объясняет закономерность распределения статей по изданиям и тем самым позволяет с большой вероятностью спрогнозировать востребованность материалов, исходя из специфики информации.

Об оцифровке

Когда мы говорим об оцифровке книг любой библиотеки, то, помимо сохранности оригиналов и обеспечения аутентичности электронной копии, необходимо помнить о сохранении идентичности структуры классификации и поиска информации в бумажном и электронном фонде. Другими словами, сканирование книг требует обязательного создания электронного каталога и формирования индексно-поисковой базы данных с максимальной полнотой наполнения.

Проекты по созданию электронных ресурсов библиотек являются одними из самых сложных и насыщенных с точки зрения трудозатрат, применяемых методологий и технического исполнения.

Возникает естественный вопрос — зачем? Зачем при такой сложности реализации подобных проектов затевать оцифровку библиотечных материалов, ведь «книги могут храниться веками», да и «вообще в библиотеку уже никто не ходит»?

Это ошибочное мнение. В последние годы библиотеки активно меняются, внедряют современные технологии и стандарты обслуживания для удовлетворения потребностей нового поколения читателей, воспитанных на свободе использования цифрового контента. Принимаются программы по переоснащению, в практику работы вводятся индексы эффективности деятельности, создаются единые каталоги, региональные и краеведческие электронные коллекции. В 2015 г. запущена Национальная электронная библиотека (НЭБ), для развития которой проводится регулярная оцифровка фондов российских библиотек.

Не стоит забывать и о сохранности бесценных знаний и культурных ценностей, накопленных в книгохранилищах по всей стране. Для этих целей оцифровка — самый эффективный способ сохранения изданий и обеспечения безопасного доступа к содержащейся в них информации.

Электронный каталог

Основа основ автоматизации современных библиотек — создание электронного каталога и наполнение автоматизированной библиотечно-информационной системы (АБИС). АБИС необходима для автоматизации учета фондов. А полноценный электронный каталог значительно увеличивает эффективность и скорость поиска информации, значительно повышая общее качество обслуживания читателей.

Проект в одной крупной библиотеке продолжался с 2003 по 2011 гг. В ходе проекта было выполнено сканирование и индексирование более 2 млн карточек систематического каталога на русском и иностранных языках. В АБИС перенесены данные по 17 полям с каждой карточки.

Как правило, в библиотеке ведутся несколько видов каталогов: алфавитный, в котором все карточки расставлены по алфавиту; систематический, где карточки расставлены по отраслям знаний. Существуют каталоги, разделяющиеся по охвату фонда: генеральный или отдельных частей фонда; по назначению: читательский или служебный; по многим другим признакам: краеведческий, предметный и т.д.

При большом количестве фондов оцифровка всего каталога — довольно длительный процесс, который обычно проводится поэтапно.

Основа каталога — это библиотечная карточка, содержащая информацию об издании, индексы классификации, номер книги (ISBN) и другие данные. Ввиду большого объема специфической информации, карточка является сложнейшим документом для извлечения индексных данных. Еще больше затрудняют обработку информации записи на иностранных языках, рукописный текст или диакритические знаки (различные надстрочные, подстрочные, реже внутристрочные символы).

Одна библиографическая запись может содержать до 24 разных полей. Перенос записей в систему напрямую с бумажных носителей нецелесообразен из-за низкой скорости и риска потери/пропуска ключевой информации, поэтому работы по созданию электронного каталога подразумевают обязательное предварительное сканирование библиотечной картотеки, формирование и проверку индексной базы данных перед загрузкой в АБИС.

Даже в небольшой библиотеке количество карточек исчисляется тысячами единиц. В таких условиях искать собственные кадровые и технические ресурсы и самостоятельно заниматься формированием электронного каталога практически невозможно, поэтому для экономии времени и денег привлекаются профессиональные подрядчики, которые специализируются на обработке библиотечной информации и готовы гарантировать итоговый результат.

Типовой технологический процесс создания электронного каталога

Оцифровку целесообразно производить на территории библиотеки, чтобы не изымать библиотечные карточки из использования и не нарушать работу с читателями. Процесс делится на несколько этапов:

Экспертиза. Оценивается физическое состояние карточек и объемов картотеки. Определяется состав библиографического описания и требуемый формат машиночитаемых записей. Исходя из полученных данных, составляется дальнейшая технологическая цепочка работ. На перечень работ и методы извлечения данных влияют нюансы в написании символов, формате и даже составе материала (картон, бумага). Ниже приведены возможные типы карточек:

  • добавочная карточка. Особенность: печатные и рукописные символы,
  • разделитель. Особенность: отличный от стандартного формат карточки,
  • ссылочная карточка. Особенность: только рукописные символы,
  • описание. Особенность: старорусский текст.

Современное оборудование позволяет достигать скорости сканирования 170 карточек в минуту, при этом выбор профессионального сканера позволяет избежать повреждения самих карточек.

Сканирование. Поточное сканирование бумажных карточек осуществляется на высокоскоростных документных сканерах. Стандартные требования к оцифровке: разрешение 300 dpi, черно-белый режим сканирования, формат файлов TIFF или JPEG. Большинство карточек типового размера 130×80 мм, но встречаются до формата А6 (148×105 мм) включительно. Иногда перед сканированием производится склейка поврежденных карточек. Часто проводится двустороннее сканирование карточек, где на обратной стороне содержатся инвентарные номера, разбивка по филиалам. Незначимые карточки-разделители не сканируются.

После оцифровки бумажный массив картотеки приводится в исходное состояние. Все последующие работы проводятся с полученными графическими образами карточек.

Свойства электронных копий должны исключать потерю информации и не ухудшать читаемость документа по сравнению с бумажным оригиналом. В случае плохого состояния исходного материала допускается использование программных средств улучшения качества изображений.

Обязательно должны проводиться поворот перекошенных изображений, удаление фона, проявление слабоконтрастных символов и т.д.

Вся обработка изображений выполняется в автоматическом режиме. Возможна ручная коррекция геометрии образов, очистка от шумов и следов сгиба при необходимости обработки небольшого количества поврежденных документов.

Количество графических образов должно совпадать с числом листов бумажного массива. Нормой стало сканирование в порядке следования карточек каталога. Пропуск страниц считается браком.

Ретроконверсия: ввод информации с отсканированных карточек и формирование базы данных. Карточки могут содержать машинопечатный и рукописный текст, карандашные пометки, нечеткие символы и иметь другие особенности заполнения.

Даже в случае набора текста на печатной машинке, далеко не все символы распознаются корректно. Автоматическое распознавание рукописного текста, карандашных пометок и карточек, созданных до середины 20 века практически невозможно.

В редких случаях, при хорошем качестве документа, содержащего печатный текст, можно использовать программные средства распознавания для автоматического извлечения определенных полей карточки.

Поэтому данные с библиотечных карточек в основном вводятся вручную и проходят многоуровневую систему контроля качества.

Перед ретроконверсией производится сепарация (сортировка) изображений с целью группировки отдельных частей массива по типам карточек и другим признакам индексирования (сцепка составных карточек, создание блоков данных для томов, разделение по языкам и т.д.). Производится разметка блоков для удобства извлечения данных оператором.

На выходе формируется база данных в требуемом для библиотеки формате (RUSMARC, UNIMARK, MARC21 и др.). В некоторых случаях при создании электронного каталога предметом обработки могут служить напрямую графические образы книг. Тогда к работе привлекаются операторы, владеющие знаниями правил составления библиографических описаний.

Требования к минимальному проценту ошибок в базе данных очень высоки, так как это напрямую влияет на качество поиска информации в электронном каталоге. Поэтому после ввода данных присутствует этап проверки по различным параметрам опытными верификаторами.

Для ускорения процесса ретроконверсии используется технология заимствования, упрощающая ввод информации за счет автоподбора заполнения полей на основе ранее введенных данных.

Сканирование книг

После создания электронного каталога или параллельно этому процессу библиотеки решают задачи по обеспечению сохранности и доступности книжного фонда путем оцифровки книг. Работы по оцифровке проводятся для наполнения национальных электронных проектов, создания коллекций редких книг и полнотекстовых ресурсов, собраний тематических иллюстрированных материалов и много другого.

Библиотеки могут проводить работы по оцифровке фондов самостоятельно. Например, в крупных библиотеках организованы целые отделы сканирования, располагающие парком профессионального оборудования.

Многие библиотеки уже обладают профессиональными планетарными сканерами для ежедневной оцифровки книг. Но собственными силами в основном сканируется поступающая литература. Для массовой качественной оцифровки обычно заказываются аутсорсинговые услуги. Так, в одной крупной федеральной библиотеке с 2008 по 2014 гг. оцифровано более 16,5 млн страниц библиотечных и архивных фондов силами привлеченного подрядчика.

Важным аспектом являются характеристики цифровых копий. Если решаются локальные задачи, библиотека может самостоятельно определять требования к выходным электронным ресурсам. Но при реализации национальных проектов, где используются фонды различных библиотек, необходим общий стандарт, регламентирующий основные характеристики работы.

При создании НЭБ электронные ресурсы, созданные техническим исполнителем и библиотеками самостоятельно, имели разные параметры оцифровки, что усложняло работу по обработке и загрузке цифрового контента.

Поэтому отраслевым экспертным советом были подготовлены «Рекомендации по оцифровке материалов из фондов библиотек»*, которые показывают принцип создания электронных библиотечных ресурсов. В рекомендациях указаны три вида цифровых копий. Мастер-копия — эталонная копия оригинала в полиграфическом качестве (разрешение не ниже 600 dpi). Пользовательская копия — для создания электронных коллекций и предоставления читателям (разрешение не ниже 300 dpi). Служебная копия используется для внутренних задач библиотеки и размещения на web-сайтах (разрешение не ниже 150 dpi).

Особенности сканирования книг

При оцифровке книг этапы работ повторяют процесс создания электронного каталога. Действует библиотека самостоятельно или нанимает подрядчика, но так или иначе в первую очередь необходимо определить цель проекта и провести экспертизу книжного фонда для понимания стоимости и трудоемкости работы. В дальнейшем формируется состав подлежащих оцифровке изданий, согласовываются технические требования, и производится окончательная оценка проекта.

Рассмотрим несколько особенностей оцифровки книг, которые влияют на стоимость и сроки проектов. Большое значение имеет формат и состояние книг, а также объем бумажного фонда. Исходя из этих особенностей, определяется вид сканирующего оборудования и технологии оцифровки.

Ветхая, рваная бумага, а также толстый переплет многих книг позволяет применять только бесконтактное сканирование — профессиональные планетарные (книжные) сканеры. Использование планшетных сканеров исключено.

Для толстых книг требуется оборудование со специальной конструкцией книжной колыбели.

Жесткий переплет с прилегающим текстом обязывает осуществлять сканирование с неполным раскрытием и использовать V-образное (бесшовное) прижимное стекло.

Для сканирования крупноформатных оригиналов необходимы планетарные сканеры большого формата (до формата 8А0).

После сканирования полученные цифровые копии проходят процесс программной коррекции, приводятся к наиболее удобному для чтения качеству изображений. Зачастую при использовании профессиональных книжных сканеров для этого достаточно встроенных программных средств обработки. После получения массива цифровых копий при необходимости составляются библиографические описания отсканированных изданий.

Отдельно стоит выделить работы по высококачественному сканированию коллекций редких книг, книжных памятников, фолиантов и других ценных экземпляров. Для этого используются специализированные комплексы высококачественного сканирования, обеспечивающие уникально высокие показатели оптического разрешения.

Особенности формирования полнотекстовых PDF-книг

Но цифровых копий порой бывает недостаточно. Существуют задачи по превращению изображения в полноценную электронную книгу. На основе графических образов формируются электронные книги в формате PDF. Этот формат наиболее универсален и позволяет осуществлять полнотекстовый поиск и навигацию по оглавлению и гиперссылкам. Электронные книги, не ограниченные авторским правом, можно публиковать в интернете или давать «защищенный» доступ в читальном зале библиотеки*.

*В Гражданском кодексе РФ (ч. IV в ред. 2006 г.) статьями 1274 и 1275 допускается без согласия автора предоставление экземпляров произведений, правомерно введенных в гражданский оборот во временное безвозмездное пользование. Но цифровые экземпляры произведений могут предоставляться только в помещениях библиотек при условии исключения возможности создать копии этих произведений в цифровой форме. Для предоставления доступа к ограниченным изданиям в среде национальной электронной библиотеки был разработан специальный защищенный просмотровщик для удаленной работы граждан с произведениями в электронной форме.

Для создания таких книг проводится полнотекстовое распознавание с дальнейшей верификацией текста и проверкой орфографии. Для окончательной вычитки документа привлекаются профессиональные корректоры.

В результате макетирования формируется электронная книга, полностью идентичная бумажному оригиналу — с точным расположением страниц, иллюстрациями, сохранением языка и стиля.

Оцифровка книг и каталогов библиотек, особенно при существенном объеме, разнородности фондов по формату и состоянию оригиналов, — сложнейший производственный процесс, осуществить который качественно могут только специализированные компании, обладающие всей необходимой инфраструктурой и большим опытом в создании электронных ресурсов.

Решим вашу задачу

Просто заполните форму. Для вас: оперативная обработка запроса,бесплатная экспертиза, скидки за комплексные услуги и многое другое.

Возврат к списку

wescan.ru

Как сканировать в DjVu книгу 'Деловой английский'

В этом окне вы можете задать настройки автоматического сканирования. Первое, это интервал времени, через который будет запускаться следующее сканирование. То есть, после того как закончится сканирование одного книжного разворота, будет запущен таймер. За это время вы успеете перевернуть страницу книги и вложить ее снова в сканер. Обычно на это достаточно пяти секунд, с учетом того времени которое потратится на обработку книжного разворота, т.е. на разделение на две страницы.

Следующий флажок Сканировать первую страницу сразу (не ждать). Он означает, что сканирование начнется сразу после сканирования кнопки Далее >. Если мы его не включим, то сначала будут отсчитаны 5 секунд, а после этого начнется процесс сканирования.

Следующий флажок – Разделять книжный разворот на две страницы. Этот флажок указывает программе, что мы сканируем книжный разворот целиком. При взведенном флажке, полученный скан будет разделяться на две страницы. Если мы его не поставим, то программа будет считать, что мы сканируем по одной странице. При этом, при сканировании по одной странице, на стекло сканера попадает часть соседней страницы. Программа ScanPapyrus позволяет удалить эту соседнюю страницу и оставит только ту, которую мы сканируем.

Следующие опции – это опции поворота. В опциях поворота можно задать 4 действия. Первое, это не выполнять никаких действий, т.е. нет поворота. Второе действие, это поворачивать каждую страницу. То есть, если при сканировании мы положили книгу вверх ногами, потому что нам, например, так удобно, то при этом действии книга будет автоматически перевернута, и мы будем на выходе иметь страницы, которые правильно сориентированы. Следующее действие – это Переворачивать каждую нечетную страницу, то есть первую, третью, пятую и т.д. Это действие имеет смысл только для сканирования по одной странице. В этом режиме будет разворачиваться каждая нечетная страница. Это очень удобно при сканировании на сканере, у которого крышка открывается сбоку. На таком сканере удобно отсканировать одну страницу, затем просто развернуть книгу вверх ногами и отсканировать следующую. При этом ScanPapyrus будет разворачивать перевернутую страницу обратно. На рисунке ниже представлен вариант сканирования с разворотом нечетной страницы книги.

После того, как вы задали все необходимые настройки, можно переходить непосредственно к сканированию книги. Откройте книгу на первой странице и вложите книжный разворот в сканер. Как я уже упоминал, постарайтесь обеспечить равномерное прижатие книги к стеклу сканера, но не переусердствуйте, а то сломаете сканер. Нажмите кнопку Далее > в программе. Начнется сканирование. По окончании сканирования программа развернет изображение согласно заданным настройкам и попытается разделить полученное изображение на две отдельные книжные страницы. Ориентируется программа по перегибу между страницами. Пример перегиба представлен на рисунке ниже.

Если программа не найдет перегиба, то результат вас явно не порадует. В каком месте будет разрезано изображение, трудно предсказать, но это будет явно не то, что вам нужно. Поэтому, я хочу заострить на этом внимание, в этом режиме сканирования книги обязательно должен быть перегиб. Итак, разворот отсканирован и получены две отдельные страницы. Обратите внимание, что страницы были дополнительно обработаны программой. А именно, были обрезаны лишние белые поля и убраны черные засвеченные полосы. Кроме того, скорректирован контраст и теперь фон изображения имеет ровный белый цвет, а буквы – четкий черный цвет.

scanpdf.ru

Как сделать качественный скан книги

Качественное сканирование книги – это многоступенчатый процесс. И каждый этап важно провести с максимальной концентрацией, чтобы достичь достойного результата.

На первом этапе – сканирование – переводится содержание бумажных страниц в электронные файлы. В настройках сканера лучше всего выбрать формат TIFF для сохранения текста. Разрешение установить на 300dpi – это вполне подходящие показатели для восприятия. Если есть довольно мелкий текст, тогда разрешение нужно увеличить.

Следующим шагом нужно принять решение, будет ли сканирование цветным или в оттенках серого. Чёрно-белый вариант нежелателен, так как сканер будет фиксировать и побочные полосы, точки, линии разворотов, которые убрать будет проблематично. Лучше всего сканирование происходит, когда книга вынута из переплёта и разобрана по листам.

После сканирования нужно почистить полученное изображение в графическом редакторе. Подойдёт программа ScanKromsator или ScanTaylor. С помощью встроенных инструментов «ластик» или «волшебная палочка» можно убрать ненужные пометки на полях, подчёркивания, пятна.

Далее можно переводить вычищенный материал в конечный формат. Наиболее удобен для чтения PDF. Собрать в нём книгу можно с помощью технологии ClearScan. В ней заменяются изображения букв на настоящие буквы. В программе Adobe Acrobat можно будет распознать текст в опции OCR. Сначала выбираем Document, в нём OCR Text Recognition и потом Recognize Text Using OCR. Также нужна будет редактура Edit в разделе Settings. Язык документа выбираем в Primary OCR Language. Нужно указать ClearScan Downsample Images — подойдёт Low. Ожидание – и документ готов.

Это была статья "Как сделать качественный скан книги". Спасибо за прочтение! Поделитесь статьей в социальных сетяхСистема Orphus

Понравилось? Расскажи друзьям!

kak7.ru

Ликбез по теории и алгоритмам обработки сканов книг

2 - Ликбез по теории и алгоритмам обработки сканов книг

Вернуться к разделу "Реализация проекта BookScanLib ".

2. Ликбез по теории и алгоритмам обработки сканов книг.

Cоздание электронных версий бумажных книг в форматах DjVu и Pdf - это технология, включающая в себя несколько простых   этапов:

1). Сканирование (оцифровка) бумажных книг. 2). Обработка (облагораживание) полученных "сырых" сканов. 3). Кодирование обработанных сканов в формат DjVu (Pdf).

Проект BookScanLib будет заниматься исключительно вопросами этапа №2 - сканобработка.

В первую очередь найдите и установите на свой компьютер следующие программы:

- ABBYY FineReader v7.0 Professional Edition

- ABBYY FineReader v8.0 Professional Edition

- СканКромсатор v5.6

- Adobe Photoshop v5.0 или выше.

Эти программы потребуются нам в качестве "образца для подражания" - нам нужно будет суметь программно реализовать отдельные возможности каждой из этих программ.

Кроме того, каждому из нас потребуется уметь работать с этими программами (хотя бы в минимальной степени) - для опытного изучения работы некоторых алгоритмов этих программ.

Сущность сканобработки

С точки зрения программиста, сканобработка - это:

1. По форме: Программная работа с растровой графикой. Точнее сказать - это некий набор довольно специфических алгоритмов по работе с растровой графикой.

2. По содержанию: Программная работа с методами искусственного интеллекта (Artificial Intelligence, или AI) и распознавания образов (Pattern recognition). Именно в этом и заключается основная сложность реализации алгоритмов сканобработки.

В качестве основного рабочего формата при сканобработке обычно используется графический формат TIF - на всех её этапах. Использование формата JPG крайне не рекомендуется ни на одном из этапов. Форматы DjVu или Pdf абсолютно непричастны к сканобработке - они применяются лишь после неё - для сохранения её результатов.

Алгоритмы сканобработки

Рассмотрим примерный список алгоритмов сканобработки, которые нам предстоит реализовать в данном проекте.

1. Deskew - (от англ. "skew" - наклон, склон, скос, уклон). Это алгоритм автоматического устранения перекоса страницы.

Когда мы сканируем лист бумаги с текстом, то, как правило, мы кладём этот лист на стекло сканера не строго параллельно сторонам сканера - а под небольшим углом. Поэтому на полученном скане строки текста выглядят не горизонтально. Алгоритм deskew автоматически вычисляет угол перекоса и поворачивает скан целиком на этот найденный угол так, чтобы строки текста стали горизонтальными.

2. Despeckle - (от англ. "speckle" - крапинка, пятнышко). Это алгоритм автоматического удаления мелких "соринок" на скане.

При сканировании текста на полученном скане часто оказываются многочисленные мелкие и мельчайшие тёмные "крапинки" (спеклы) - из-за высокой чувствительности сканирующей головки сканера. Алгоритм despeckle автоматически удаляет такой "мусор" со скана.

3. Segmentation. Это алгоритм автоматической сегментации страницы. Он является ключевым алгоритмом проекта - его задача - автоматически находить на скане область, занимаемую текстом. Алгоритм работает по принципу распознавания образов (pattern recognition). Он потребуется нам для решения 2 основных задач проекта:

А. Автоматическое определение воображаемого контура, очерчивающего изображение строк текста на скане - для последующей обрезки по этому контуру.

Б. Автоматическое определение положения т.н. "ошмётка" - вертикальной полосы - части соседней страницы, попавшей на скан - для случая "1 скан - 1 страница" (см. далее).

4. Splitpage (придуманное мною название). Это алгоритм автоматического разбиения сдвоенных разворотов на 2 отдельные страницы. Он может быть основан на алгоритме Segmentation.

5. Dewarping - (от англ. "warp" - коробление, деформация, искривление, перекос). Это алгоритм автоматического исправления искривленности строк текста в районе линии сопряжения 2 соседних страниц на одном скане. Кстати, этот алгоритм - основа основ работы любого книжного сканера - который фотографирует книгу, просто лежащую страницами кверху на его предметном столе.

6. Binarization - Это алгоритм бинаризации - т.е. преобразования Grey -> BW. Вообще он бывает разных типов: пороговая бинаризация, адаптивная и пр. Работу алгоритма бинаризации лучше посмотреть в Adobe Photoshop, нежели чем в ABBYY FineReader - там это видно более наглядно.

Кроме того, нам нужно будет реализовать такие общие растровые алгоритмы, как изменение яркости, контрастности, гаммы и т.п.

В дальнейшем этот список может измениться/уточниться.

Схема сканобработки

При сканировании бумажной книги на обычном бытовом А4-сканере возможны 2 общих случая:

1. Случай "1 скан - 2 страницы". (Сдвоенный разворот). Бумажная книга имеет малый формат и помещается на предметном стекле сканера целиком.

2. Случай "1 скан - 1 страница". (Одиночный разворот). Бумажная книга имеет большой формат и не помещается на предметном стекле сканера целиком - помещается только 1 страница. При этом на скане практически всегда присутствует кусочек соседней страницы - я условно называю его "ошмёток".

Рассмотрим схематическую последовательность сканобработки:

На входе - сырые сканы в формате TIF LZW в режиме цветности Grey.

На выходе - полностью обработанные сканы в формате TIF CCIT FAX G4 в режиме цветности BW.

Разрешение сканов (DPI) принимаем неизменным в процессе обработки.

1. Разрезаем сдвоенные развороты по Splitpage (или отрезаем ошмёток для 2 случая - другим особым алгоритмом).

2. Удаляем наползающие на текст "серые" тени (путём подстройки либо яркости, либо контрастности области с тенью).

3. Бинаризуем Grey -> BW.

4. Применяем Deskew.

5. Применяем Despeckle.

6. Применяем Dewarping (опционально по необходимости).

7. Применяем Segmentation и обрезаем по полученному контуру. Получаем т.н. "голые тексты".

8. Навешиваем к голым текстам поля определённого размера (размер полей вычисляется в зависимости от средних размеров голых текстов).

Я сделал небольшой пример, иллюстрирующий подобную сканобработку. Это архив, в котором находятся 2 DjVu-файла:

- Сырые сканы, задежавюченные напрямую.

- Те же сканы, но прошедшие полную обработку в СканКромсаторе перед дежавючением.

Для просмотра файлов в формате DjVu используйте программу WinDjView.

Скачать пример сканобработки   (304 КБ)

Рекомендую всем, кто хотел бы понять, что такое "сканобработка", обязательно посмотреть этот пример.

Литература

(Возможно, список статей и литературы в будущем пополнится).

1. Айриг С., Айриг Э. «Сканирование: профессиональный подход».

Книга немного устаревшая (в плане описания сканеров) и написана не самым лучшим языком. Полезна тем, что раскрывает новичкам всякие общие моменты и понятия относительно процесса сканирования книг. Эта книга представляет интерес лишь для полных новичков в деле сканирования книг. Содержит также описание некоторых базовых понятий растровой графики.

Скачать

  (2,48 МБ) Формат - CHM (RUS)

2. Айриг С., Айриг Э. «Подготовка цифровых изображений для печати».

В отличие от предыдущей книги, эта книга будет полезна не только новичкам, но также и тем, кто давно сканирует книги, но хотел бы знать больше о базовых понятиях из области обработки получаемых сканов - таких, как.коррекция изображения, улучшение чёткости, муар, треппинг, фильтры и т.д.

Скачать

  (2,29 МБ) Формат - CHM (RUS)

3. Дэн Маргулис. Photoshop 6 для профессионалов. Руководство по цветокоррекции.

Это очень серьёзная книга, в чём-то напоминает предыдущую. Вряд ли есть смысл её читать всем подряд, скорее, лишь единичным суперпрофессионалам. Эта книга - более для цветных полиграфистов, чем для книгосканировщиков. Содержит множество цветных картинок, подробно иллюстрирующих разные сложные случаи обработки изображений.

Описание (Это ИМЕННО оно).

Вариант 1

(42,9 МБ) Формат - PDF-векторный (RUS)    Зеркала: 1   2   3   4

Вариант 2 (10,3 МБ) Формат - DjVu 300 dpi OCR (RUS) (получен мною путём прямой конвертации Pdf -> DjVu варианта 1. Имеет оглавление с работающими гиперссылками).

4. Компьютерная графика. Полигональные модели  (Шикин А. В., Боресков Л. В.) (707 КБ) Формат - DOC (RUS)  - M.: ДИАЛОГ-МИФИ, 2001. - 464с. ISBN 5-86404-139-4В основу книжки положен базовый вводный курс по компьютерной графике и сопровождающие его специальные курсы, читаемые авторами последние несколько лет на факультете вычислительной математики и кибернетики Московского университета им. M. В. Ломоносова. Электронная версия этой книги сделана мною несколько лет назад.

Исходники к книге (к сожалению, не полный набор)  (804 КБ)

5. Курс лекций по "Компьютерной графике" - П.В.Вельтмандер (Учебное пособие в 3-х частях + лекции)Исключительно полезный курс, рекомендую обязательно ознакомиться.

6. Компьютерная графика. Алгоритмы. Курс лекций. - ГТУ р. Марий-ЭЛНесерьёзный вводный курс.

Статьи

1. Что такое DPI и ресемплинг  (Моя статья - очень простое описание с примерами для чайников - прочитать всем обязательно!).

2. Как почистить сканы книг?  Формат - CHM  (177 КБ)  (© Иван Сторожев ).

3. Графика на Алголисте

4. Google станет крупнейшей интернет-библиотекой  (Статья от 14.12.2004)

См. также список ссылок на главной странице проекта

Hosted by uCoz

djvu-soft.narod.ru

Электронные архивы, книги, ссылки - Катаклизмы и повседневность

Оригинал взят у ex_n1ck473 в Электронные архивыЧем занимаются современные библиотеки? В основном, прожиранием денег налогоплательщиков и заманиванием хипстеров бесплатным (оплаченным налогоплательщиками) вай-фаем. Бесплатный вайфай должен, видимо, сделать из тупеньких хипстеров людей, причащая их пыльной книге -- Источникуъ Знанийъ.Но есть библиотеки, в которых заняты делом. Там сканируют старые книги и выкладывают их в интернет.

Повторюсь: никакие сканы не заменят оригинала.

Если все старые книги будут отсканированы, а все новые -- оцифрованы, это вовсе не значит, что все люди перестанут читать печатные книги. Если текст книги хороший, то он будет прочитан. И читатель всегда предпочтет электронному тексту печатную книгу. Пластмассовым помидорам -- огурчики с дачи, порнухе -- бабу.Базы данных нужны для систематизации большого количества информации. Общедоступные базы данных позволяют делать выводы на основе этой информации каждому. Компьютер и интернет -- это статистические и социологические инструменты, а не место общения, работы и жительства.

Поэтому я рад представить те базы данных, где сам находил какие-нибудь полезные сканы старинных книг.

Псалтирь XV века

1. Собрание рукописных книг Свято-Троицкой Сергиевой ЛаврыПомимо рукописей, там есть какое-то количество старопечатных книг.

2. Всемирная цифровая библиотекаСкорее позитивно-познавательный проект для тупеньких хипстеров, чем серьезная база данных.

3. ГалликаОнлайн-библиотека Национальной библиотеки Франции.

4. ДокусфераНа первый взгляд детище криворуких государственных иванов, но, на удивление, что-то нашел там -- отсканированный (почему-то без обложки) "Супрематический сказ про два квадрата" Лисицкого, например.

5. Мюнхенский центр оцифровкиСканируют книги из Баварской государственной библиотеки и других мест. Самое большое собрание немецких инкунабул.

6. Сводный каталог инкунабулБаза данных по инкунабулам. Записи в том числе содержат и ссылки на сканы книг (если они существуют) в Мюнхенском центре оцифровки и на сайтах других европейских библиотек и университетов. Сделано все несколько головоломно, но кто ищет -- тот найдет. Благословляю. Сайт по-английски.

7. ЕвропеанаКакой-то проект от Евросоюза. "Цель — обеспечить доступ к отсканированным страницам книг, отражающих различные аспекты европейской культуры". На уровне наших госмастеров по откату.

8. Гугл букс

9. Краткий каталог инкунабулРаботает в связке с пунктами 5 и 6. Записи каталога так же содержат ссылки на сканы книг на других сайтах.

10. НормандияКривейший сайт, но тоже должен содержат что-то полезное. Я плохого не посоветую.

11. Открытая библиотекаРаботает в связке с известным Archive.org. Что есть там, то есть здесь.

12. Комната редкой книгиНасколько я понимаю, чей-то частный и коммерческий проект. Ребята пытаются продавать сканы этих книг в более лучшем качестве на дисках. Ну, удачи. Зато много действительно редкого и хорошего.

harmfulgrumpy.livejournal.com