Оцифровка книг. Книги оцифрованные


Оцифровка книг - Gpedia, Your Encyclopedia

Сверхпроизводительный сканер APT BookScan

Оцифровка книг — это процесс перевода бумажных книг в электронный (цифровой) вид. Электронные копии книг могут образовывать электронные библиотеки и распространяться в Сети. Цифровые книги можно легко распространять, воспроизводить и читать на экране. Обычно оцифрованные книги сохраняют в форматах: DjVu, Portable Document Format (PDF), JPG или TIFF. Для преобразования исходного изображения используют оптическое распознавание символов (OCR), оно необходимо для включения страниц книги в цифровой формат, такой, как ASCII, или другой подобный формат, который уменьшает размер файла и позволяет работать с текстом. Сканирование изображений может происходить вручную или автоматически. В обычных сканерах книга располагается на стекле, на книгу падает свет, и оптический механизм сканирует книгу, двигаясь под стеклом. Другие книжные сканеры используют V-образную раму и фотографируют страницы сверху. Страницы могут переворачиваться вручную или с помощью автоматических устройств подачи бумаги. Специальное массивное стекло, как правило, прижимает страницы, чтобы сгладить недостатки сканирования. После сканирования программа корректирует изображение документа, выравнивая его, обрезая, редактируя и преобразовывая его в текст, и окончательную форму электронной книги. Люди обычно проверяют отсканированное изображение на наличие ошибок.

Сканирование 118 точек/см (300 точек на дюйм) является нормой для преобразования в цифровой вид текста, однако для редких и сложных книг необходимо использование более высокого разрешения. Высокотехнологичные сканеры способны сканировать около тысячи страниц в час. Существуют ручные книжные сканеры, способные оцифровывать около 1200 страниц в час.

Методика оцифровки

В прошлом чаще применялся ручной набор текста книги.

Сегодня процесс оцифровки включает два подхода.

  1. Обязательный: получение копий страниц в виде графических (обычно растровых) изображений, осуществляемое путём сканирования или фотографирования с последующей обработкой и сохранением в одном из форматов графических файлов. В этом случае полностью сохраняется оригинальная вёрстка книги, и исключаются какие-либо ошибки, однако невозможен поиск или извлечение фрагментов текста для, например, целей цитирования.
  2. Опциональный: распознавание текста (технология «оптического распознавания символов» — OCR) с последующим сохранением распознанного текста в одном из форматов электронных книг. В этом случае становится возможен полнотекстовый поиск по книге и индексация больших массивов электронных книг, однако затрудняется воспроизведение оригинальной вёрстки, изображений, схем и формул, практически неизбежны становятся ошибки распознавания.

В последнее время (особенно с появлением форматов PDF и DjVu) всё чаще применяется смешанный подход: текст книги распознаётся в автоматическом режиме и подкладывается под оригинальные растровые изображения страниц, что позволяет совместить преимущества обоих подходов.

Книжные сканеры

К книжным сканерам относятся узкоспециализированные сканеры, предназначенные для максимально быстрого и/или удобного получения растровых копий страниц книги. Условно можно выделить три типа таких сканеров:

  • планшетные — сканеры, ориентированные на домашнего пользователя, но сконструированные именно для облегчения процесса сканирования книг.
  • планетарные — профессиональные высокопроизводительные сканеры.
  • роботизированные (англ.) — промышленные сверхвысокопроизводительные сканеры, оборудованные устройствами различных конструкций для автоматического переворачивания страниц.

В двух последних типах сканеров обычно применяется не сканирующая линейка, а одна расположенная над сканируемым оригиналом цифровая камера высокого разрешения (30—140 мегапикселей). В некоторых моделях возможно использование двух камер, которые устанавливаются под углом друг относительно друга так, чтобы одновременно делать снимки всего разворота (при этом нет необходимости раскрывать книгу на 180°, что критично при оцифровке старых или находящихся в плохом состоянии оригиналов).

Планетарные и роботизированные сканеры позволяют достичь производительности 500—2000 страниц в час, у лучших моделей — до 2500—3000 страниц в час.[источник не указан 1740 дней]

Профессиональные книжные сканеры

Эскиз V-формы книжного сканера ATIZ Эскиз типичного книжного сканера

Профессиональные книжные сканеры сканируют оригиналы в высоком качестве с использованием двух цифровых камер и источников света по обе стороны от камеры, что позволяет переснять разворот книги за один раз. Преимущество таких сканеров — высокая скорость съёмки, а также отсутствие необходимости раскрывать книгу на 180 градусов. Однако цены таких сканеров обычно начинаются с 10 000$.

Сканирование с обрезкой страниц

Для сканирования книг с низким бюджетом наименее дорогим способом является сканирование книги или журнала с обрезкой страниц от корешка. Это превращает книгу или журнал в стопку документов, которые могут быть загружены в стандартное устройство автоматической подачи документов, хотя, безусловно, это не является хорошим решением для очень старых и необычных книг, в особенности тогда, когда книга дорогая и коллекционная. В данном сканировании есть две трудности, обрезка страниц и само сканирование.

Обрезка страниц

Одним из способов резки страниц объёмом от 500 до 1000 страниц за один раз, выполняется с помощью гильотины для бумаги. Эта конструкция представляет собой большой стальной стол с тисками для бумаги. Разрез выполняется большим заострённым стальным лезвием, которое движется прямо и режет по всей длине каждого листа сразу. Рычаг на лезвии позволяет прикладывать силу порядка сотен килограмм, которая необходима для разреза стопки бумаги. Чистый срез невозможно сделать традиционным серповидным ножом, так как он предназначен только для резки нескольких листов, где 10 листов является практически пределом. С течением времени при нарезке большой стопки бумаги разрез становится все более неточным, а усилие, которое нужно прикладывать для нарезки бумаги, увеличивается. Процесс при резке гильотиной притупляет лезвие с течением времени, поэтому необходимо затачивать лезвие. Бумага с покрытием притупляет лезвие быстрее, чем обычная бумага.

Сканирование

Когда бумага освобождена от корешка книги, то можно сканировать с помощью традиционного планшетного сканера или использовать сканер с автоматической подачей документов. Страницы с рифлёной декоративной окантовкой или изогнутыми в дугу могут быть трудными для сканирования с помощью автоподатчика. Автоподатчик предназначен для сканирования страниц одинаковой формы и размера, поэтому разный размер или форма страниц может привести к неправильному сканированию. Бумага, которая используется в журналах и учебниках, может плохо проходить в устройство автоматической подачи бумаги. Вообще наименьшие проблемы возникают с обычной бумагой. Липкий ролик, который захватывает бумагу, может со временем стереться, поэтому за его работоспособностью необходимо внимательно следить. Если в стопке бумаги находятся различные листы бумаги, например, карты, то их необходимо удалить сразу перед сканированием.

Сканирование без вмешательства

Сканер на основе ЦФК. Сканер предназначен для оцифровки как сшитых, так и расшитых изданий. Подходит для оцифровки как относительно новых, так и ветхих изданий за счёт специальной V-образной колыбели, позволяющей не раскрывать книгу полностью (на 180 градусов), что сводит к минимуму вредное воздействие на издание. Книга остаётся в одной и той же позиции. Скорость сканирования (цветной режим) — около 500—700 страниц/час. Перелистывание страниц происходит вручную (существуют модели с автоматическим перелистыванием, однако ценные, ветхие книги, составляющие основу библиотечного фонда, не рекомендуется оцифровывать на таком оборудовании во избежание повреждений). Формат сканируемого документа А2—А4. Разрешение получаемых изображений — 130—470 dpi (оптическое). Сканеры подобного типа занимают много рабочего пространства, однако практически не подвержены поломкам, поскольку являются сканирующими платформами. Модернизируется за счёт замены фотокамер на более совершенные модели. Запускается нажатием одной кнопки. Примером таких сканеров могут являться сканеры, использующие цифровые фотокамеры.

Крупные проекты по оцифровке книг

Сектор сканирования в университетской библиотеке

В ходе масштабных проектов по оцифровке книг, как правило, обрабатываются книги, перешедшие в общественное достояние. Хотя Google оцифровывает вообще все книги, однако книги, защищённые авторским правом, предоставляет лишь в виде фрагментов. К крупным проектам по оцифровке на сегодня относятся:

Одной из основных проблем является большой объём книг, которые будут отсканированы. Десятки миллионов книг будут отсканированы, а затем должны находиться в свободном доступе и поиске в интернете в качестве универсальной библиотеки. В настоящее время крупные организации полагаются на аутсорсинг или сканирование дома с использованием профессиональных или роботизированных сканеров.

Что касается аутсорсинга, то книги часто отправляются оцифровываться в Индию или Китай, за счёт самых низких цен. Профессиональные сканеры используют цифровые камеры, что значительно ускоряет весь процесс. При использовании роботизированных сканеров традиционно необходимо отделять страницы от корешка книги, чтобы страницы могли автоматически подаваться.

Как только страница сканируется, данные вводятся вручную или с помощью OCR, что является ещё одним критерием стоимости сканирования книги. В связи с вопросами авторского права на большинство отсканированных книг не распространяется авторское право. Однако известно, что Google Book Search сканирует книги, которые защищены авторским правом, и может убрать книгу из свободного доступа, только если издатель специально исключит книгу из поиска.

Оцифровка по желанию

Ряд крупных библиотек предоставляют особые услуги по оцифровке публикаций из своих фондов по желанию читателей. Основные критерии: публикации должны находиться в общественном достоянии и должны быть в достаточной сохранности. Таким образом, появляется источник финансирования процесса оцифровки или же устанавливаются приоритеты при массовой оцифровке. Как правило, отметка о возможности сканирования интегрирована в библиотечный каталог, оцифрованная публикация размещается в электронной библиотеке для всеобщего доступа.

Существующие проекты

  • «Scan-on-demand» (Сканирование по требованию) — бесплатный интернет-проект Open Library, любой желающий может выбрать книгу из списка (фонды Бостонской общественной библиотеки), который содержит большое количество литературы XIX—XX веков на русском языке. Оцифровка проводится средствами некоммерческой организации Архив Интернета. Сроки работ заявлены как 5—8 рабочих дней. На сайте openlibrary.org собрано уже более миллиона оцифрованных публикаций.[1]
  • «DigiWunschbuch» — проект Центра оцифровки и Университетской государственной библиотеки Гёттингена (Германия), сканирование за плату (рассчитывается постранично) заказчик получает цифровую копию на CD-ROMе, кроме того, его имя будет размещено на шмуцтитуле цифровой копии, размещённой в открытом доступе.[2]

См. также

Примечания

Ссылки

www.gpedia.com

Оцифровка книг — Википедия

Сверхпроизводительный сканер APT BookScan

Оцифровка книг — это процесс перевода бумажных книг в электронный (цифровой) вид. Электронные копии книг могут образовывать электронные библиотеки и распространяться в Сети. Цифровые книги можно легко распространять, воспроизводить и читать на экране. Обычно оцифрованные книги сохраняют в форматах: DjVu, Portable Document Format (PDF), JPG или TIFF. Для преобразования исходного изображения используют оптическое распознавание символов (OCR), оно необходимо для включения страниц книги в цифровой формат, такой, как ASCII, или другой подобный формат, который уменьшает размер файла и позволяет работать с текстом. Сканирование изображений может происходить вручную или автоматически. В обычных сканерах книга располагается на стекле, на книгу падает свет, и оптический механизм сканирует книгу, двигаясь под стеклом. Другие книжные сканеры используют V-образную раму и фотографируют страницы сверху. Страницы могут переворачиваться вручную или с помощью автоматических устройств подачи бумаги. Специальное массивное стекло, как правило, прижимает страницы, чтобы сгладить недостатки сканирования. После сканирования программа корректирует изображение документа, выравнивая его, обрезая, редактируя и преобразовывая его в текст, и окончательную форму электронной книги. Люди обычно проверяют отсканированное изображение на наличие ошибок.

Сканирование 118 точек/см (300 точек на дюйм) является нормой для преобразования в цифровой вид текста, однако для редких и сложных книг необходимо использование более высокого разрешения. Высокотехнологичные сканеры способны сканировать около тысячи страниц в час. Существуют ручные книжные сканеры, способные оцифровывать около 1200 страниц в час.

В прошлом чаще применялся ручной набор текста книги.

Сегодня процесс оцифровки включает два подхода.

  1. Обязательный: получение копий страниц в виде графических (обычно растровых) изображений, осуществляемое путём сканирования или фотографирования с последующей обработкой и сохранением в одном из форматов графических файлов. В этом случае полностью сохраняется оригинальная вёрстка книги, и исключаются какие-либо ошибки, однако невозможен поиск или извлечение фрагментов текста для, например, целей цитирования.
  2. Опциональный: распознавание текста (технология «оптического распознавания символов» — OCR) с последующим сохранением распознанного текста в одном из форматов электронных книг. В этом случае становится возможен полнотекстовый поиск по книге и индексация больших массивов электронных книг, однако затрудняется воспроизведение оригинальной вёрстки, изображений, схем и формул, практически неизбежны становятся ошибки распознавания.

В последнее время (особенно с появлением форматов PDF и DjVu) всё чаще применяется смешанный подход: текст книги распознаётся в автоматическом режиме и подкладывается под оригинальные растровые изображения страниц, что позволяет совместить преимущества обоих подходов.

К книжным сканерам относятся узкоспециализированные сканеры, предназначенные для максимально быстрого и/или удобного получения растровых копий страниц книги. Условно можно выделить три типа таких сканеров:

  • планшетные — сканеры, ориентированные на домашнего пользователя, но сконструированные именно для облегчения процесса сканирования книг.
  • планетарные — профессиональные высокопроизводительные сканеры.
  • роботизированные (англ.) — промышленные сверхвысокопроизводительные сканеры, оборудованные устройствами различных конструкций для автоматического переворачивания страниц.

В двух последних типах сканеров обычно применяется не сканирующая линейка, а одна расположенная над сканируемым оригиналом цифровая камера высокого разрешения (30—140 мегапикселей). В некоторых моделях возможно использование двух камер, которые устанавливаются под углом друг относительно друга так, чтобы одновременно делать снимки всего разворота (при этом нет необходимости раскрывать книгу на 180°, что критично при оцифровке старых или находящихся в плохом состоянии оригиналов).

Планетарные и роботизированные сканеры позволяют достичь производительности 500—2000 страниц в час, у лучших моделей — до 2500—3000 страниц в час.[источник не указан 1740 дней]

Эскиз V-формы книжного сканера ATIZ Эскиз типичного книжного сканера

Профессиональные книжные сканеры сканируют оригиналы в высоком качестве с использованием двух цифровых камер и источников света по обе стороны от камеры, что позволяет переснять разворот книги за один раз. Преимущество таких сканеров — высокая скорость съёмки, а также отсутствие необходимости раскрывать книгу на 180 градусов. Однако цены таких сканеров обычно начинаются с 10 000$.

Для сканирования книг с низким бюджетом наименее дорогим способом является сканирование книги или журнала с обрезкой страниц от корешка. Это превращает книгу или журнал в стопку документов, которые могут быть загружены в стандартное устройство автоматической подачи документов, хотя, безусловно, это не является хорошим решением для очень старых и необычных книг, в особенности тогда, когда книга дорогая и коллекционная. В данном сканировании есть две трудности, обрезка страниц и само сканирование.

Обрезка страниц[править | править код]

Одним из способов резки страниц объёмом от 500 до 1000 страниц за один раз, выполняется с помощью гильотины для бумаги. Эта конструкция представляет собой большой стальной стол с тисками для бумаги. Разрез выполняется большим заострённым стальным лезвием, которое движется прямо и режет по всей длине каждого листа сразу. Рычаг на лезвии позволяет прикладывать силу порядка сотен килограмм, которая необходима для разреза стопки бумаги. Чистый срез невозможно сделать традиционным серповидным ножом, так как он предназначен только для резки нескольких листов, где 10 листов является практически пределом. С течением времени при нарезке большой стопки бумаги разрез становится все более неточным, а усилие, которое нужно прикладывать для нарезки бумаги, увеличивается. Процесс при резке гильотиной притупляет лезвие с течением времени, поэтому необходимо затачивать лезвие. Бумага с покрытием притупляет лезвие быстрее, чем обычная бумага.

Сканирование[править | править код]

Когда бумага освобождена от корешка книги, то можно сканировать с помощью традиционного планшетного сканера или использовать сканер с автоматической подачей документов. Страницы с рифлёной декоративной окантовкой или изогнутыми в дугу могут быть трудными для сканирования с помощью автоподатчика. Автоподатчик предназначен для сканирования страниц одинаковой формы и размера, поэтому разный размер или форма страниц может привести к неправильному сканированию. Бумага, которая используется в журналах и учебниках, может плохо проходить в устройство автоматической подачи бумаги. Вообще наименьшие проблемы возникают с обычной бумагой. Липкий ролик, который захватывает бумагу, может со временем стереться, поэтому за его работоспособностью необходимо внимательно следить. Если в стопке бумаги находятся различные листы бумаги, например, карты, то их необходимо удалить сразу перед сканированием.

Сканер на основе ЦФК. Сканер предназначен для оцифровки как сшитых, так и расшитых изданий. Подходит для оцифровки как относительно новых, так и ветхих изданий за счёт специальной V-образной колыбели, позволяющей не раскрывать книгу полностью (на 180 градусов), что сводит к минимуму вредное воздействие на издание. Книга остаётся в одной и той же позиции. Скорость сканирования (цветной режим) — около 500—700 страниц/час. Перелистывание страниц происходит вручную (существуют модели с автоматическим перелистыванием, однако ценные, ветхие книги, составляющие основу библиотечного фонда, не рекомендуется оцифровывать на таком оборудовании во избежание повреждений). Формат сканируемого документа А2—А4. Разрешение получаемых изображений — 130—470 dpi (оптическое). Сканеры подобного типа занимают много рабочего пространства, однако практически не подвержены поломкам, поскольку являются сканирующими платформами. Модернизируется за счёт замены фотокамер на более совершенные модели. Запускается нажатием одной кнопки. Примером таких сканеров могут являться сканеры, использующие цифровые фотокамеры.

Сектор сканирования в университетской библиотеке

В ходе масштабных проектов по оцифровке книг, как правило, обрабатываются книги, перешедшие в общественное достояние. Хотя Google оцифровывает вообще все книги, однако книги, защищённые авторским правом, предоставляет лишь в виде фрагментов. К крупным проектам по оцифровке на сегодня относятся:

Одной из основных проблем является большой объём книг, которые будут отсканированы. Десятки миллионов книг будут отсканированы, а затем должны находиться в свободном доступе и поиске в интернете в качестве универсальной библиотеки. В настоящее время крупные организации полагаются на аутсорсинг или сканирование дома с использованием профессиональных или роботизированных сканеров.

Что касается аутсорсинга, то книги часто отправляются оцифровываться в Индию или Китай, за счёт самых низких цен. Профессиональные сканеры используют цифровые камеры, что значительно ускоряет весь процесс. При использовании роботизированных сканеров традиционно необходимо отделять страницы от корешка книги, чтобы страницы могли автоматически подаваться.

Как только страница сканируется, данные вводятся вручную или с помощью OCR, что является ещё одним критерием стоимости сканирования книги. В связи с вопросами авторского права на большинство отсканированных книг не распространяется авторское право. Однако известно, что Google Book Search сканирует книги, которые защищены авторским правом, и может убрать книгу из свободного доступа, только если издатель специально исключит книгу из поиска.

Ряд крупных библиотек предоставляют особые услуги по оцифровке публикаций из своих фондов по желанию читателей. Основные критерии: публикации должны находиться в общественном достоянии и должны быть в достаточной сохранности. Таким образом, появляется источник финансирования процесса оцифровки или же устанавливаются приоритеты при массовой оцифровке. Как правило, отметка о возможности сканирования интегрирована в библиотечный каталог, оцифрованная публикация размещается в электронной библиотеке для всеобщего доступа.

Существующие проекты[править | править код]

  • «Scan-on-demand» (Сканирование по требованию) — бесплатный интернет-проект Open Library, любой желающий может выбрать книгу из списка (фонды Бостонской общественной библиотеки), который содержит большое количество литературы XIX—XX веков на русском языке. Оцифровка проводится средствами некоммерческой организации Архив Интернета. Сроки работ заявлены как 5—8 рабочих дней. На сайте openlibrary.org собрано уже более миллиона оцифрованных публикаций.[1]
  • «DigiWunschbuch» — проект Центра оцифровки и Университетской государственной библиотеки Гёттингена (Германия), сканирование за плату (рассчитывается постранично) заказчик получает цифровую копию на CD-ROMе, кроме того, его имя будет размещено на шмуцтитуле цифровой копии, размещённой в открытом доступе.[2]

ru.wikiyy.com

Оцифровка книг — википедия орг

Сверхпроизводительный сканер APT BookScan

Оцифровка книг — это процесс перевода бумажных книг в электронный (цифровой) вид. Электронные копии книг могут образовывать электронные библиотеки и распространяться в Сети. Цифровые книги можно легко распространять, воспроизводить и читать на экране. Обычно оцифрованные книги сохраняют в форматах: DjVu, Portable Document Format (PDF), JPG или TIFF. Для преобразования исходного изображения используют оптическое распознавание символов (OCR), оно необходимо для включения страниц книги в цифровой формат, такой, как ASCII, или другой подобный формат, который уменьшает размер файла и позволяет работать с текстом. Сканирование изображений может происходить вручную или автоматически. В обычных сканерах книга располагается на стекле, на книгу падает свет, и оптический механизм сканирует книгу, двигаясь под стеклом. Другие книжные сканеры используют V-образную раму и фотографируют страницы сверху. Страницы могут переворачиваться вручную или с помощью автоматических устройств подачи бумаги. Специальное массивное стекло, как правило, прижимает страницы, чтобы сгладить недостатки сканирования. После сканирования программа корректирует изображение документа, выравнивая его, обрезая, редактируя и преобразовывая его в текст, и окончательную форму электронной книги. Люди обычно проверяют отсканированное изображение на наличие ошибок.

Сканирование 118 точек/см (300 точек на дюйм) является нормой для преобразования в цифровой вид текста, однако для редких и сложных книг необходимо использование более высокого разрешения. Высокотехнологичные сканеры способны сканировать около тысячи страниц в час. Существуют ручные книжные сканеры, способные оцифровывать около 1200 страниц в час.

Методика оцифровки

В прошлом чаще применялся ручной набор текста книги.

Сегодня процесс оцифровки включает два подхода.

  1. Обязательный: получение копий страниц в виде графических (обычно растровых) изображений, осуществляемое путём сканирования или фотографирования с последующей обработкой и сохранением в одном из форматов графических файлов. В этом случае полностью сохраняется оригинальная вёрстка книги, и исключаются какие-либо ошибки, однако невозможен поиск или извлечение фрагментов текста для, например, целей цитирования.
  2. Опциональный: распознавание текста (технология «оптического распознавания символов» — OCR) с последующим сохранением распознанного текста в одном из форматов электронных книг. В этом случае становится возможен полнотекстовый поиск по книге и индексация больших массивов электронных книг, однако затрудняется воспроизведение оригинальной вёрстки, изображений, схем и формул, практически неизбежны становятся ошибки распознавания.

В последнее время (особенно с появлением форматов PDF и DjVu) всё чаще применяется смешанный подход: текст книги распознаётся в автоматическом режиме и подкладывается под оригинальные растровые изображения страниц, что позволяет совместить преимущества обоих подходов.

Книжные сканеры

К книжным сканерам относятся узкоспециализированные сканеры, предназначенные для максимально быстрого и/или удобного получения растровых копий страниц книги. Условно можно выделить три типа таких сканеров:

  • планшетные — сканеры, ориентированные на домашнего пользователя, но сконструированные именно для облегчения процесса сканирования книг.
  • планетарные — профессиональные высокопроизводительные сканеры.
  • роботизированные (англ.) — промышленные сверхвысокопроизводительные сканеры, оборудованные устройствами различных конструкций для автоматического переворачивания страниц.

В двух последних типах сканеров обычно применяется не сканирующая линейка, а одна расположенная над сканируемым оригиналом цифровая камера высокого разрешения (30—140 мегапикселей). В некоторых моделях возможно использование двух камер, которые устанавливаются под углом друг относительно друга так, чтобы одновременно делать снимки всего разворота (при этом нет необходимости раскрывать книгу на 180°, что критично при оцифровке старых или находящихся в плохом состоянии оригиналов).

Планетарные и роботизированные сканеры позволяют достичь производительности 500—2000 страниц в час, у лучших моделей — до 2500—3000 страниц в час.[источник не указан 1673 дня]

Профессиональные книжные сканеры

  Эскиз V-формы книжного сканера ATIZ   Эскиз типичного книжного сканера

Профессиональные книжные сканеры сканируют оригиналы в высоком качестве с использованием двух цифровых камер и источников света по обе стороны от камеры, что позволяет переснять разворот книги за один раз. Преимущество таких сканеров — высокая скорость съёмки, а также отсутствие необходимости раскрывать книгу на 180 градусов. Однако цены таких сканеров обычно начинаются с 10 000$.

Сканирование с обрезкой страниц

Для сканирования книг с низким бюджетом наименее дорогим способом является сканирование книги или журнала с обрезкой страниц от корешка. Это превращает книгу или журнал в стопку документов, которые могут быть загружены в стандартное устройство автоматической подачи документов, хотя, безусловно, это не является хорошим решением для очень старых и необычных книг, в особенности тогда, когда книга дорогая и коллекционная. В данном сканировании есть две трудности, обрезка страниц и само сканирование.

Обрезка страниц

Одним из способов резки страниц объёмом от 500 до 1000 страниц за один раз, выполняется с помощью гильотины для бумаги. Эта конструкция представляет собой большой стальной стол с тисками для бумаги. Разрез выполняется большим заострённым стальным лезвием, которое движется прямо и режет по всей длине каждого листа сразу. Рычаг на лезвии позволяет прикладывать силу порядка сотен килограмм, которая необходима для разреза стопки бумаги. Чистый срез невозможно сделать традиционным серповидным ножом, так как он предназначен только для резки нескольких листов, где 10 листов является практически пределом. С течением времени при нарезке большой стопки бумаги разрез становится все более неточным, а усилие, которое нужно прикладывать для нарезки бумаги, увеличивается. Процесс при резке гильотиной притупляет лезвие с течением времени, поэтому необходимо затачивать лезвие. Бумага с покрытием притупляет лезвие быстрее, чем обычная бумага.

Сканирование

Когда бумага освобождена от корешка книги, то можно сканировать с помощью традиционного планшетного сканера или использовать сканер с автоматической подачей документов. Страницы с рифлёной декоративной окантовкой или изогнутыми в дугу могут быть трудными для сканирования с помощью автоподатчика. Автоподатчик предназначен для сканирования страниц одинаковой формы и размера, поэтому разный размер или форма страниц может привести к неправильному сканированию. Бумага, которая используется в журналах и учебниках, может плохо проходить в устройство автоматической подачи бумаги. Вообще наименьшие проблемы возникают с обычной бумагой. Липкий ролик, который захватывает бумагу, может со временем стереться, поэтому за его работоспособностью необходимо внимательно следить. Если в стопке бумаги находятся различные листы бумаги, например, карты, то их необходимо удалить сразу перед сканированием.

Сканирование без вмешательства

Сканер на основе ЦФК. Сканер предназначен для оцифровки как сшитых, так и расшитых изданий. Подходит для оцифровки как относительно новых, так и ветхих изданий за счёт специальной V-образной колыбели, позволяющей не раскрывать книгу полностью (на 180 градусов), что сводит к минимуму вредное воздействие на издание. Книга остаётся в одной и той же позиции. Скорость сканирования (цветной режим) — около 500—700 страниц/час. Перелистывание страниц происходит вручную (существуют модели с автоматическим перелистыванием, однако ценные, ветхие книги, составляющие основу библиотечного фонда, не рекомендуется оцифровывать на таком оборудовании во избежание повреждений). Формат сканируемого документа А2—А4. Разрешение получаемых изображений — 130—470 dpi (оптическое). Сканеры подобного типа занимают много рабочего пространства, однако практически не подвержены поломкам, поскольку являются сканирующими платформами. Модернизируется за счёт замены фотокамер на более совершенные модели. Запускается нажатием одной кнопки. Примером таких сканеров могут являться сканеры, использующие цифровые фотокамеры.

Крупные проекты по оцифровке книг

  Сектор сканирования в университетской библиотеке

В ходе масштабных проектов по оцифровке книг, как правило, обрабатываются книги, перешедшие в общественное достояние. Хотя Google оцифровывает вообще все книги, однако книги, защищённые авторским правом, предоставляет лишь в виде фрагментов. К крупным проектам по оцифровке на сегодня относятся:

Одной из основных проблем является большой объём книг, которые будут отсканированы. Десятки миллионов книг будут отсканированы, а затем должны находиться в свободном доступе и поиске в интернете в качестве универсальной библиотеки. В настоящее время крупные организации полагаются на аутсорсинг или сканирование дома с использованием профессиональных или роботизированных сканеров.

Что касается аутсорсинга, то книги часто отправляются оцифровываться в Индию или Китай, за счёт самых низких цен. Профессиональные сканеры используют цифровые камеры, что значительно ускоряет весь процесс. При использовании роботизированных сканеров традиционно необходимо отделять страницы от корешка книги, чтобы страницы могли автоматически подаваться.

Как только страница сканируется, данные вводятся вручную или с помощью OCR, что является ещё одним критерием стоимости сканирования книги. В связи с вопросами авторского права на большинство отсканированных книг не распространяется авторское право. Однако известно, что Google Book Search сканирует книги, которые защищены авторским правом, и может убрать книгу из свободного доступа, только если издатель специально исключит книгу из поиска.

Оцифровка по желанию

Ряд крупных библиотек предоставляют особые услуги по оцифровке публикаций из своих фондов по желанию читателей. Основные критерии: публикации должны находиться в общественном достоянии и должны быть в достаточной сохранности. Таким образом, появляется источник финансирования процесса оцифровки или же устанавливаются приоритеты при массовой оцифровке. Как правило, отметка о возможности сканирования интегрирована в библиотечный каталог, оцифрованная публикация размещается в электронной библиотеке для всеобщего доступа.

Существующие проекты

  • «Scan-on-demand» (Сканирование по требованию) — бесплатный интернет-проект Open Library, любой желающий может выбрать книгу из списка (фонды Бостонской общественной библиотеки), который содержит большое количество литературы XIX—XX веков на русском языке. Оцифровка проводится средствами некоммерческой организации Архив Интернета. Сроки работ заявлены как 5—8 рабочих дней. На сайте openlibrary.org собрано уже более миллиона оцифрованных публикаций.[1]
  • «DigiWunschbuch» — проект Центра оцифровки и Университетской государственной библиотеки Гёттингена (Германия), сканирование за плату (рассчитывается постранично) заказчик получает цифровую копию на CD-ROMе, кроме того, его имя будет размещено на шмуцтитуле цифровой копии, размещённой в открытом доступе.[2]

См. также

Примечания

Ссылки

www-wikipediya.ru

Оцифровка книг - Википедия

Материал из Википедии — свободной энциклопедии

Текущая версия страницы пока не проверялась опытными участниками и может значительно отличаться от версии, проверенной 27 марта 2017; проверки требуют 2 правки. Текущая версия страницы пока не проверялась опытными участниками и может значительно отличаться от версии, проверенной 27 марта 2017; проверки требуют 2 правки. Сверхпроизводительный сканер

Оцифровка книг — это процесс перевода бумажных книг в электронный (цифровой) вид. Электронные копии книг могут образовывать электронные библиотеки и распространяться в Сети. Цифровые книги можно легко распространять, воспроизводить и читать на экране. Обычно оцифрованные книги сохраняют в форматах: DjVu, Portable Document Format (PDF), JPG или TIFF. Для преобразования исходного изображения используют оптическое распознавание символов (OCR), оно необходимо для включения страниц книги в цифровой формат, такой, как ASCII, или другой подобный формат, который уменьшает размер файла и позволяет работать с текстом. Сканирование изображений может происходить вручную или автоматически. В обычных сканерах книга располагается на стекле, на книгу падает свет, и оптический механизм сканирует книгу, двигаясь под стеклом. Другие книжные сканеры используют V-образную раму и фотографируют страницы сверху. Страницы могут переворачиваться вручную или с помощью автоматических устройств подачи бумаги. Специальное массивное стекло, как правило, прижимает страницы, чтобы сгладить недостатки сканирования. После сканирования программа корректирует изображение документа, выравнивая его, обрезая, редактируя и преобразовывая его в текст, и окончательную форму электронной книги. Люди обычно проверяют отсканированное изображение на наличие ошибок.

Сканирование 118 точек/см (300 точек на дюйм) является нормой для преобразования в цифровой вид текста, однако для редких и сложных книг необходимо использование более высокого разрешения. Высокотехнологичные сканеры способны сканировать около тысячи страниц в час. Существуют ручные книжные сканеры, способные оцифровывать около 1200 страниц в час.

Методика оцифровки[ | ]

В прошлом чаще применялся ручной набор текста книги.

Сегодня процесс оцифровки включает два подхода.

  1. Обязательный: получение копий страниц в виде графических (обычно растровых) изображений, осуществляемое путём сканирования или фотографирования с последующей обработкой и сохранением в одном из форматов графических файлов. В этом случае полностью со

encyclopaedia.bid

Оцифровка книг

оцифровка книги, оцифровка книгаОцифровка книг — это процесс перевода бумажных книг в электронный (цифровой) вид. Электронные копии книг могут образовывать электронные библиотеки и распространяться в Сети. Цифровые книги можно легко распространять, воспроизводить и читать на экране. Обычно оцифрованные книги сохраняют в форматах: DjVu, Portable Document Format (PDF), JPG или TIFF. Для преобразования исходного изображения используют оптическое распознавание символов (OCR), оно необходимо для включения страниц книги в цифровой формат, такой, как ASCII, или другой подобный формат, который уменьшает размер файла и позволяет работать с текстом. Сканирование изображений может происходить вручную или автоматически. В обычных сканерах книга располагается на стекле, на книгу падает свет, и оптический механизм сканирует книгу, двигаясь под стеклом. Другие книжные сканеры используют V-образную раму и фотографируют страницы сверху. Страницы могут переворачиваться вручную или с помощью автоматических устройств подачи бумаги. Специальное массивное стекло, как правило, прижимает страницы, чтобы сгладить недостатки сканирования. После сканирования программа корректирует изображение документа, выравнивая его, обрезая, редактируя и преобразовывая его в текст, и окончательную форму электронной книги. Люди обычно проверяют отсканированное изображение на наличие ошибок.

Сканирование 118 точек/см (300 точек на дюйм) является нормой для преобразования в цифровой вид текста, однако для редких и сложных книг необходимо использование более высокого разрешения. Высокотехнологичные сканеры способны сканировать около тысячи страниц в час, такие устройства могут стоить тысячи долларов. Но можно сделать сканер и самому, например, ручные книжные сканеры, способные оцифровывать около 1200 страниц в час, а стоимость построения — около 300 долларов.

Содержание

  • 1 Методика оцифровки
  • 2 Книжные сканеры
  • 3 Профессиональные книжные сканеры
  • 4 Сканирование с обрезкой страниц
    • 4.1 Обрезка страниц
    • 4.2 Сканирование
  • 5 Сканирование без вмешательства
  • 6 Крупные проекты по оцифровке книг
  • 7 Оцифровка по желанию
    • 7.1 Существующие проекты
  • 8 См. также
  • 9 Ссылки
  • 10 Примечания

Методика оцифровки

Имеется викиучебник по теме«Оцифровка книг»

В прошлом чаще применялся ручной набор текста книги.

Сегодня процесс оцифровки включает два подхода.

  1. Обязательный: получение копий страниц в виде графических (обычно растровых) изображений, осуществляемое путём сканирования или фотографирования с последующей обработкой и сохранением в одном из форматов графических файлов. В этом случае полностью сохраняется оригинальная вёрстка книги, и исключаются какие-либо ошибки, однако невозможен поиск или извлечение фрагментов текста для, например, целей цитирования.
  2. Опциональный: распознавание текста (технология «оптического распознавания символов» — OCR) с последующим сохранением распознанного текста в одном из форматов электронных книг. В этом случае становится возможен полнотекстовый поиск по книге и индексация больших массивов электронных книг, однако затрудняется воспроизведение оригинальной вёрстки, изображений, схем и формул, практически неизбежны становятся ошибки распознавания.

В последнее время (особенно с появлением форматов PDF и DjVu) всё чаще применяется смешанный подход: текст книги распознаётся в автоматическом режиме и подкладывается под оригинальные растровые изображения страниц, что позволяет совместить преимущества обоих подходов.

Книжные сканеры

К книжным сканерам относятся узкоспециализированные сканеры, предназначенные для максимально быстрого и/или удобного получения растровых копий страниц книги. Условно можно выделить три типа таких сканеров:

  • планшетные — сканеры, ориентированные на домашнего пользователя, но сконструированные именно для облегчения процесса сканирования книг.
  • планетарные — профессиональные высокопроизводительные сканеры.
  • роботизированные (англ.) — промышленные сверхвысокопроизводительные сканеры, оборудованные устройствами различных конструкций для автоматического переворачивания страниц.

В двух последних типах сканеров обычно применяется не сканирующая линейка, а одна расположенная над сканируемым оригиналом цифровая камера высокого разрешения (30—140 мегапикселей). В некоторых моделях возможно использование двух камер, которые устанавливаются под углом друг относительно друга так, чтобы одновременно делать снимки всего разворота (при этом нет необходимости раскрывать книгу на 180°, что критично при оцифровке старых или находящихся в плохом состоянии оригиналов).

Планетарные и роботизированные сканеры позволяют достичь производительности 500—2000 страниц в час, у лучших моделей — до 2500—3000 страниц в час.

Профессиональные книжные сканеры

Эскиз V-формы книжного сканера ATIZ Эскиз типичного книжного сканера

Профессиональные книжные сканеры не просто обычные сканеры, это книжные сканеры, которые сканируют в высоком качестве с использованием цифровой камеры и источниками света по обе стороны от камеры, обеспечивающие легкий доступ к книге. Преимуществом таких сканеров является то, что это очень быстрые сканеры, по сравнению с производительностью планшетного сканера. Однако цены таких сканеров обычно начинаются с 10 000$.

Сканирование с обрезкой страниц

Для сканирования книг с низким бюджетом наименее дорогим способом является сканирование книги или журнала с обрезкой страниц от корешка. Это превращает книгу или журнал в стопку документов, которые могут быть загружены в стандартное устройство автоматической подачи документов, хотя, безусловно, это не является хорошим решением для очень старых и необычных книг, в особенности тогда, когда книга дорогая и коллекционная. В данном сканировании есть две трудности, обрезка страниц и само сканирование.

Обрезка страниц

Одним из способов резки страниц объемом от 500 до 1000 страниц за один раз, выполняется с помощью гильотины для бумаги. Эта конструкция представляет собой большой стальной стол с тисками для бумаги. Разрез выполняется большим заостренным стальным лезвием, которое движется прямо и режет по всей длине каждого листа сразу. Рычаг на лезвии позволяет прикладывать силу в несколько сотен фунтов, которая необходима для разреза стопки бумаги. Чистый срез невозможно сделать традиционным серповидным ножом, так как он предназначен только для резки нескольких листов, где 10 листов является практически пределом. С течением времени при нарезке большой стопки бумаги разрез становится все более неточным, а усилие, которое нужно прикладывать для нарезки бумаги, увеличивать. Процесс при резке гильотиной притупляет лезвие с течением времени, поэтому необходимо затачивать лезвие. Бумага с покрытием притупляет лезвие быстрее, чем обычная бумага.

Сканирование

Когда бумага освобождена от корешка книги, то можно сканировать с помощью традиционного планшетного сканера или использовать сканер с автоматической подачей документов. Страницы с рифленой декоративной окантовкой или изогнутыми в дугу могут быть трудными для сканирования с помощью автоподатчика. Автоподатчик предназначен для сканирования страниц одинаковой формы и размера, поэтому разный размер или форма страниц может привести к неправильному сканированию. Бумага, которая используется в журналах и учебниках, может плохо проходить в устройство автоматической подачи бумаги. Вообще наименьшие проблемы возникают с обычной бумагой. Липкий ролик, который захватывает бумагу, может со временем стереться, поэтому за его работоспособностью необходимо внимательно следить. Если в стопке бумаги находятся различные листы бумаги, например, карты, то их необходимо удалить сразу перед сканированием.

Сканирование без вмешательства

Сканер на основе ЦФК. Сканер предназначен для оцифровки как сшитых, так и расшитых изданий. Подходит для оцифровки как относительно новых, так и ветхих изданий за счет специальной V-образной колыбели, позволяющей не раскрывать книгу полностью (на 180 градусов), что сводит к минимуму вредное воздействие на издание. Книга остается в одной и той же позиции. Скорость сканирования (цветной режим) — около 500—700 страниц/час. Перелистывание страниц происходит вручную (существуют модели с автоматическим перелистыванием, однако ценные, ветхие книги, составляющие основу библиотечного фонда, не рекомендуется оцифровывать на таком оборудовании во избежание повреждений). Формат сканируемого документа А2—А4. Разрешение получаемых изображений — 130—470 dpi (оптическое). Сканеры подобного типа занимают много рабочего пространства, однако практически не подвержены поломкам, поскольку являются сканирующими платформами. Модернизируется за счет замены фотокамер на более профессиональные варианты. Запускается нажатием одной кнопки. Примером таких сканеров могут являться сканеры, использующие цифровые фотокамеры.

Крупные проекты по оцифровке книг

В ходе масштабных проектов по оцифровке книг, как правило, обрабатываются книги, перешедшие в общественное достояние. Хотя Google оцифровывает вообще все книги, однако книги, защищённые авторским правом, предоставляет лишь в виде фрагментов. К крупным проектам по оцифровке на сегодня относятся:

  • Google Book Search;
  • проект «Гутенберг»;
  • проект Gallica Национальной библиотеки Франции;
  • проект Europeana Европейской комиссии;
  • проект openlibrary от Archive.org и др.

Одной из основных проблем является большой объём книг, которые будут отсканированы. Десятки миллионов книг будут отсканированы, а затем должны находиться в свободном доступе и поиске в интернете в качестве универсальной библиотеки. В настоящее время крупные организации полагаются на аутсорсинг или сканирование дома с использованием профессиональных или роботизированных сканеров.

Что касается аутсорсинга, то книги часто отправляются оцифровываться в Индию или Китай, за счет самых низких цен. Профессиональные сканеры используют цифровые камеры, что значительно ускоряет весь процесс. При использовании роботизированных сканеров традиционно необходимо отделять страницы от корешка книги, чтобы страницы могли автоматически подаваться.

Как только страница сканируется, данные вводятся вручную или с помощью OCR, что является еще одним критерием стоимости сканирования книги. В связи с вопросами авторского права на большинство отсканированных книг не распространяется авторское право. Однако известно, что Google Book Search сканирует книги, которые защищены авторским правом, и может убрать книгу из свободного доступа, только если издатель специально исключит книгу из поиска.

Оцифровка по желанию

Ряд крупных библиотек предоставляют особые услуги по оцифровке публикаций из своих фондов по желанию читателей. Основные критерии: публикации должны находиться в общественном достоянии и должны быть в достаточной сохранности. Таким образом, появляется источник финансирования процесса оцифровки или же устанавливаются приоритеты при массовой оцифровке. Как правило, отметка о возможности сканирования интегрирована в библиотечный каталог, оцифрованная публикация размещается в электронной библиотеке для всеобщего доступа.

Существующие проекты

  • «Scan-on-demand» (Сканирование по требованию) — бесплатный проект от openlibrary.org, любой желающий может выбрать книгу из списка (фонды Бостонской общественной библиотеки), который содержит большое количество литературы XIX—XX веков на русском языке. Оцифровка проводится средствами некоммерческой организации Архив Интернета. Сроки работ заявлены как 5—8 рабочих дней. На сайте openlibrary.org собрано уже более миллиона оцифрованных публикаций.
  • «DigiWunschbuch» — проект Центра оцифровки и Университетской государственной библиотеки Гёттингена (Германия), сканирование за плату (рассчитывается постранично) заказчик получает цифровую копию на CD-ROMе, кроме того, его имя будет размещено на шмуцтитуле цифровой копии, размещённой в открытом доступе.

См. также

  • DjVu
  • PDF
  • ScanKromsator
  • Scan Tailor
  • Deskew
  • Dewarping
  • Шумопонижение
  • reCAPTCHA

Ссылки

  • Всё о книгосканировании — самоучители, программы, помощь в выборе ПО и сканера, ссылки на материалы в Интернете

Примечания

  1. ↑ http://openlibrary.org/bpl
  2. ↑ DigiWunschbuch: WUNSCHBÜCHER
  Принтер и сканер Принтер Виды Расходные материалы Программноеи аппаратное обеспечение Технологии Другие устройства Сканер Виды Программное обеспечение Технологии Модели Комбинированные устройства

Лазерный • Матричный • Струйный • Сублимационный • Светодиодный • Твердочернильный • Интернет-принтер

Бумага офисная • Заправка картриджей • Печатный картридж • Тонер • Фотобумага

JetDirect • Виртуальный принтер

Принт-сервер

CUPS • Samba • Novell Open Enterprise Server

Протоколы

IPP • LPD

Жёлтые точки • Линиатура растра • Система непрерывной подачи чернил • Электрография •

Плоттер • Фильм-рекордер

Планетарный • Ручной • Сканер кинопленки • Фильм-сканер

SANE • Simple Scan • TWAIN • XSane • Оптическое распознавание символов

Оцифровка книг • Поточное сканирование документов

Colortrac

Копировальный аппарат (копир) • Многофункциональное устройство (МФУ)

оцифровка книг, оцифровка книга, оцифровка книги

Оцифровка книг Информацию О

Оцифровка книг

Оцифровка книг Комментарии

Оцифровка книгОцифровка книг Оцифровка книг Вы просматриваете субъект

Оцифровка книг что, Оцифровка книг кто, Оцифровка книг описание

There are excerpts from wikipedia on this article and video

www.turkaramamotoru.com

Оцифровка книг Вики

Сверхпроизводительный сканер APT BookScan

Оцифровка книг — это процесс перевода бумажных книг в электронный (цифровой) вид. Электронные копии книг могут образовывать электронные библиотеки и распространяться в Сети. Цифровые книги можно легко распространять, воспроизводить и читать на экране. Обычно оцифрованные книги сохраняют в форматах: DjVu, Portable Document Format (PDF), JPG или TIFF. Для преобразования исходного изображения используют оптическое распознавание символов (OCR), оно необходимо для включения страниц книги в цифровой формат, такой, как ASCII, или другой подобный формат, который уменьшает размер файла и позволяет работать с текстом. Сканирование изображений может происходить вручную или автоматически. В обычных сканерах книга располагается на стекле, на книгу падает свет, и оптический механизм сканирует книгу, двигаясь под стеклом. Другие книжные сканеры используют V-образную раму и фотографируют страницы сверху. Страницы могут переворачиваться вручную или с помощью автоматических устройств подачи бумаги. Специальное массивное стекло, как правило, прижимает страницы, чтобы сгладить недостатки сканирования. После сканирования программа корректирует изображение документа, выравнивая его, обрезая, редактируя и преобразовывая его в текст, и окончательную форму электронной книги. Люди обычно проверяют отсканированное изображение на наличие ошибок.

Сканирование 118 точек/см (300 точек на дюйм) является нормой для преобразования в цифровой вид текста, однако для редких и сложных книг необходимо использование более высокого разрешения. Высокотехнологичные сканеры способны сканировать около тысячи страниц в час. Существуют ручные книжные сканеры, способные оцифровывать около 1200 страниц в час.

Методика оцифровки[ | код]

В прошлом чаще применялся ручной набор текста книги.

Сегодня процесс оцифровки включает два подхода.

  1. Обязательный: получение копий страниц в виде графических (обычно растровых) изображений, осуществляемое путём сканирования или фотографирования с последующей обработкой и сохранением в одном из форматов графических файлов. В этом случае полностью сохраняется оригинальная вёрстка книги, и исключаются какие-либо ошибки, однако невозможен поиск или извлечение фрагментов текста для, например, целей цитирования.
  2. Опциональный: распознавание текста (технология «оптического распознавания символов» — OCR) с последующим сохранением распознанного текста в одном из форматов электронных книг. В этом случае становится возможен полнотекстовый поиск по книге и индексация больших массивов электронных книг, однако затрудняется воспроизведение оригинальной вёрстки, изображений, схем и формул, практически неизбежны становятся ошибки распознавания.

В последнее время (особенно с появлением форматов PDF и DjVu) всё чаще применяется смешанный подход: текст книги распознаётся в автоматическом режиме и подкладывается под оригинальные растровые изображения страниц, что позволяет совместить преимущества обоих подходов.

Книжные сканеры[ | код]

К книжным сканерам относятся узкоспециализированные сканеры, предназначенные для максимально быстрого и/или удобного получения растровых копий страниц книги. Условно можно выделить три типа таких сканеров:

  • планшетные — сканеры, ориентированные на домашнего пользователя, но сконструированные именно для облегчения процесса сканирования книг.
  • планетарные — профессиональные высокопроизводительные сканеры.
  • роботизированные (англ.) — промышленные сверхвысокопроизводительные сканеры, оборудованные устройствами различных конструкций для автоматического переворачивания страниц.

В двух последних типах сканеров обычно применяется не сканирующая линейка, а одна расположенная над сканируемым оригиналом цифровая камера высокого разрешения (30—140 мегапикселей). В некоторых моделях возможно использование двух камер, которые устанавливаются под углом друг относительно друга так, чтобы одновременно делать снимки всего разворота (при этом нет необходимости раскрывать книгу на 180°, что критично при оцифровке старых или находящихся в плохом состоянии оригиналов).

Планетарные и роботизированные сканеры позволяют достичь производительности 500—2000 страниц в час, у лучших моделей — до 2500—3000 страниц в час.[источник не указан 1740 дней]

Профессиональные книжные сканеры[ | код]

Эскиз V-формы книжного сканера ATIZ Эскиз типичного книжного сканера

Профессиональные книжные сканеры сканируют оригиналы в высоком качестве с использованием двух цифровых камер и источников света по обе стороны от камеры, что позволяет переснять разворот книги за один раз. Преимущество таких сканеров — высокая скорость съёмки, а также отсутствие необходимости раскрывать книгу на 180 градусов. Однако цены таких сканеров обычно начинаются с 10 000$.

Сканирование с обрезкой страниц[ | код]

Для сканирования книг с низким бюджетом наименее дорогим способом является сканирование книги или журнала с обрезкой страниц от корешка. Это превращает книгу или журнал в стопку документов, которые могут быть загружены в стандартное устройство автоматической подачи документов, хотя, безусловно, это не является хорошим решением для очень старых и необычных книг, в особенности тогда, когда книга дорогая и коллекционная. В данном сканировании есть две трудности, обрезка страниц и само сканирование.

Обрезка страниц[ | код]

Одним из способов резки страниц объёмом от 500 до 1000 страниц за один раз, выполняется с помощью гильотины для бумаги. Эта конструкция представляет собой большой стальной стол с тисками для бумаги. Разрез выполняется большим заострённым стальным лезвием, которое движется прямо и режет по всей длине каждого листа сразу. Рычаг на лезвии позволяет прикладывать силу порядка сотен килограмм, которая необходима для разреза стопки бумаги. Чистый срез невозможно сделать традиционным серповидным ножом, так как он предназначен только для резки нескольких листов, где 10 листов является практически пределом. С течением времени при нарезке большой стопки бумаги разрез становится все более неточным, а усилие, которое нужно прикладывать для нарезки бумаги, увеличивается. Процесс при резке гильотиной притупляет лезвие с течением времени, поэтому необходимо затачивать лезвие. Бумага с покрытием притупляет лезвие быстрее, чем обычная бумага.

Сканирование[ | код]

Когда бумага освобождена от корешка книги, то можно сканировать с помощью традиционного планшетного сканера или использовать сканер с автоматической подачей документов. Страницы с рифлёной декоративной окантовкой или изогнутыми в дугу могут быть трудными для сканирования с помощью автоподатчика. Автоподатчик предназначен для сканирования страниц одинаковой формы и размера, поэтому разный размер или форма страниц может привести к неправильному сканированию. Бумага, которая используется в журналах и учебниках, может плохо проходить в устройство автоматической подачи бумаги. Вообще наименьшие проблемы возникают с обычной бумагой. Липкий ролик, который захватывает бумагу, может со временем стереться, поэтому за его работоспособностью необходимо внимательно следить. Если в стопке бумаги находятся различные листы бумаги, например, карты, то их необходимо удалить сразу перед сканированием.

Сканирование без вмешательства[ | код]

Сканер на основе ЦФК. Сканер предназначен для оцифровки как сшитых, так и расшитых изданий. Подходит для оцифровки как относительно новых, так и ветхих изданий за счёт специальной V-образной колыбели, позволяющей не раскрывать книгу полностью (на 180 градусов), что сводит к минимуму вредное воздействие на издание. Книга остаётся в одной и той же позиции. Скорость сканирования (цветной режим) — около 500—700 страниц/час. Перелистывание страниц происходит вручную (существуют модели с автоматическим перелистыванием, однако ценные, ветхие книги, составляющие основу библиотечного фонда, не рекомендуется оцифровывать на таком оборудовании во избежание повреждений). Формат сканируемого документа А2—А4. Разрешение получаемых изображений — 130—470 dpi (оптическое). Сканеры подобного типа занимают много рабочего пространства, однако практически не подвержены поломкам, поскольку являются сканирующими платформами. Модернизируется за счёт замены фотокамер на более совершенные модели. Запускается нажатием одной кнопки. Примером таких сканеров могут являться сканеры, использующие цифровые фотокамеры.

Крупные проекты по оцифровке книг[ | код]

Сектор сканирования в университетской библиотеке

В ходе масштабных проектов по оцифровке книг, как правило, обрабатываются книги, перешедшие в общественное достояние. Хотя Google оцифровывает вообще все книги, однако книги, защищённые авторским правом, предоставляет лишь в виде фрагментов. К крупным проектам по оцифровке на сегодня относятся:

Одной из основных проблем является большой объём книг, которые будут отсканированы. Десятки миллионов книг будут отсканированы, а затем должны находиться в свободном доступе и поиске в интернете в качестве универсальной библиотеки. В настоящее время крупные организации полагаются на аутсорсинг или сканирование дома с использованием профессиональных или роботизированных сканеров.

Что касается аутсорсинга, то книги часто отправляются оцифровываться в Индию или Китай, за счёт самых низких цен. Профессиональные сканеры используют цифровые камеры, что значительно ускоряет весь процесс. При использовании роботизированных сканеров традиционно необходимо отделять страницы от корешка книги, чтобы страницы могли автоматически подаваться.

Как только страница сканируется, данные вводятся вручную или с помощью OCR, что является ещё одним критерием стоимости сканирования книги. В связи с вопросами авторского права на большинство отсканированных книг не распространяется авторское право. Однако известно, что Google Book Search сканирует книги, которые защищены авторским правом, и может убрать книгу из свободного доступа, только если издатель специально исключит книгу из поиска.

Оцифровка по желанию[ | код]

Ряд крупных библиотек предоставляют особые услуги по оцифровке публикаций из своих фондов по желанию читателей. Основные критерии: публикации должны находиться в общественном достоянии и должны быть в достаточной сохранности. Таким образом, появляется источник финансирования процесса оцифровки или же устанавливаются приоритеты при массовой оцифровке. Как правило, отметка о возможности сканирования интегрирована в библиотечный каталог, оцифрованная публикация размещается в электронной библиотеке для всеобщего доступа.

Существующие проекты[ | код]

  • «Scan-on-demand» (Сканирование по требованию) — бесплатный интернет-проект Open Library, любой желающий может выбрать книгу из списка (фонды Бостонской общественной библиотеки), который содержит большое количество литературы XIX—XX веков на русском языке. Оцифровка проводится средствами некоммерческой организации Архив Интернета. Сроки работ заявлены как 5—8 рабочих дней. На сайте openlibrary.org собрано уже более миллиона оцифрованных публикаций.[1]
  • «DigiWunschbuch» — проект Центра оцифровки и Университетской государственной библиотеки Гёттингена (Германия), сканирование за плату (рассчитывается постранично) заказчик получает цифровую копию на CD-ROMе, кроме того, его имя будет размещено на шмуцтитуле цифровой копии, размещённой в открытом доступе.[2]

См. также[ | код]

Примечания[ | код]

Ссылки[ | код]

ru.wikibedia.ru

Оцифровка книг - Вики

Сверхпроизводительный сканер APT BookScan

Оцифровка книг — это процесс перевода бумажных книг в электронный (цифровой) вид. Электронные копии книг могут образовывать электронные библиотеки и распространяться в Сети. Цифровые книги можно легко распространять, воспроизводить и читать на экране. Обычно оцифрованные книги сохраняют в форматах: DjVu, Portable Document Format (PDF), JPG или TIFF. Для преобразования исходного изображения используют оптическое распознавание символов (OCR), оно необходимо для включения страниц книги в цифровой формат, такой, как ASCII, или другой подобный формат, который уменьшает размер файла и позволяет работать с текстом. Сканирование изображений может происходить вручную или автоматически. В обычных сканерах книга располагается на стекле, на книгу падает свет, и оптический механизм сканирует книгу, двигаясь под стеклом. Другие книжные сканеры используют V-образную раму и фотографируют страницы сверху. Страницы могут переворачиваться вручную или с помощью автоматических устройств подачи бумаги. Специальное массивное стекло, как правило, прижимает страницы, чтобы сгладить недостатки сканирования. После сканирования программа корректирует изображение документа, выравнивая его, обрезая, редактируя и преобразовывая его в текст, и окончательную форму электронной книги. Люди обычно проверяют отсканированное изображение на наличие ошибок.

Сканирование 118 точек/см (300 точек на дюйм) является нормой для преобразования в цифровой вид текста, однако для редких и сложных книг необходимо использование более высокого разрешения. Высокотехнологичные сканеры способны сканировать около тысячи страниц в час. Существуют ручные книжные сканеры, способные оцифровывать около 1200 страниц в час.

Методика оцифровки

В прошлом чаще применялся ручной набор текста книги.

Сегодня процесс оцифровки включает два подхода.

  1. Обязательный: получение копий страниц в виде графических (обычно растровых) изображений, осуществляемое путём сканирования или фотографирования с последующей обработкой и сохранением в одном из форматов графических файлов. В этом случае полностью сохраняется оригинальная вёрстка книги, и исключаются какие-либо ошибки, однако невозможен поиск или извлечение фрагментов текста для, например, целей цитирования.
  2. Опциональный: распознавание текста (технология «оптического распознавания символов» — OCR) с последующим сохранением распознанного текста в одном из форматов электронных книг. В этом случае становится возможен полнотекстовый поиск по книге и индексация больших массивов электронных книг, однако затрудняется воспроизведение оригинальной вёрстки, изображений, схем и формул, практически неизбежны становятся ошибки распознавания.

В последнее время (особенно с появлением форматов PDF и DjVu) всё чаще применяется смешанный подход: текст книги распознаётся в автоматическом режиме и подкладывается под оригинальные растровые изображения страниц, что позволяет совместить преимущества обоих подходов.

Книжные сканеры

К книжным сканерам относятся узкоспециализированные сканеры, предназначенные для максимально быстрого и/или удобного получения растровых копий страниц книги. Условно можно выделить три типа таких сканеров:

  • планшетные — сканеры, ориентированные на домашнего пользователя, но сконструированные именно для облегчения процесса сканирования книг.
  • планетарные — профессиональные высокопроизводительные сканеры.
  • роботизированные (англ.) — промышленные сверхвысокопроизводительные сканеры, оборудованные устройствами различных конструкций для автоматического переворачивания страниц.

В двух последних типах сканеров обычно применяется не сканирующая линейка, а одна расположенная над сканируемым оригиналом цифровая камера высокого разрешения (30—140 мегапикселей). В некоторых моделях возможно использование двух камер, которые устанавливаются под углом друг относительно друга так, чтобы одновременно делать снимки всего разворота (при этом нет необходимости раскрывать книгу на 180°, что критично при оцифровке старых или находящихся в плохом состоянии оригиналов).

Планетарные и роботизированные сканеры позволяют достичь производительности 500—2000 страниц в час, у лучших моделей — до 2500—3000 страниц в час.[источник не указан 1740 дней]

Профессиональные книжные сканеры

ru.wikiredia.com