Цифровые коллекции в вузовской библиотеке.
Концепция и технологические решения
Digital Collections at the University Library.
The concept and technological solutions
Цифрові колекції у вузівській бібліотеці.
Концепція і технологічні вирішення

Негуляев Е. А., Охезина Е. А.

Научная библиотека Уральского государственного университета, Екатеринбург, Россия

Evgeny A. Negulyaev, Elena A. Okhezina

Urals State University Scientific Library, Ekaterinburg, Russia

Негуляєв Є. О., Охезіна О. А.

Наукова бібліотека Уральського державного університету, Єкатеринбург, Росія

 

Изложена информация о создании цифровых коллекций в Научной библиотеке Уральского государственного университета. Раскрываются основные направления этой работы: принципы отбора изданий, технологические процессы, источники пополнения цифровых коллекций и способы доступа к оцифрованным изданиям. Подробно освещается использование графического формата DjVu для представления оцифрованных изданий и работа над распознаванием текстов в дореформенной (до 1918 г.) орфографии.

 

The information on digital collection projects at the Scientific Library of the Urals State University is presented. The main directions of this work are discussed: the principles of selection, technology of digitalization, the sources of digital collection development and the interface of access to digital copies. The problems of using DjVu graphic format for digital publications representation and optical recognition (OCR) of texts in the pre-reform (before 1918) Russian spelling are discussed in detail.

 

Представлено інформацію про створення цифрових колекцій у Науковій бібліотеці Уральського державного університету. Розкриваються основні напрямки цієї роботи: принципи відбору видань, технологічні процеси, джерела поповнення цифрових колекцій і способи доступу до оцифрованих видань. Детально висвітлюється використання графічного формату DjVu для представлення оцифрованих видань і робота над розпізнаванням текстів у дореформеній (до 1918 р.) орфографії.

 

С января 2001 года в Научной библиотеке Уральского государственного университета была начата работа по созданию своих собственных цифровых ресурсов.

Первичная цель этой работы определялась прежде всего реальными проблемами, вставшими перед библиотекой. Одной из основных стала повышенная эксплуатация некоторых видов изданий. В связи с изменением стандартов образования увеличилась выдача книг, изданных во второй половине XIX — начале XX вв., что заставило вплотную задуматься над проблемами их физической сохранности. Оцифровка изданий представлялась как один из возможных способов одновременного решения проблем расширения доступа и физической сохранности, в том случае, если большинству читателей будет предоставляться цифровая копия издания, а не физический экземпляр.

До 2001 года НБ УрГУ не принимала участия ни в каких проектах по оцифровке изданий и, соответственно, не имела никакого опыта в этом деле. Первым делом мы попробовали оценить уже выполненные в России проекты. К сожалению, среди них не нашлось такого, который мог бы стать прототипом для нашей цифровой коллекции. Мы также провели анализ ряда западных проектов, который оказался очень полезным с точки зрения определения некоторых общих направлений проектов оцифровки. В итоге, не найдя удовлетворяющего нас решения, мы взялись за самостоятельную разработку технологического процесса. Причём в первую очередь подготавливаемая схема должна была учитывать наши реалии — от имеющегося оборудования до квалификации занятых в проекте исполнителей.

Главными требованиями являлись простота и эффективность технологического процесса. Бессмысленно говорить об оцифровке, если подразумевается обработка сотен или одной-двух тысяч страниц, такими черепашьими темпами проблему не решить. Необходимо, чтобы общая производительность технологического процесса по оцифровке достигала как минимум (!) десятков тысяч страниц, а в идеале и сотен тысяч страниц в год на одного работника.

Первой нашей находкой стало использование специализированных графических форматов. Свой выбор мы остановили на формате DjVu (дежа вю), разрабатываемом в настоящее время американской компанией LizardTech . Формат DjVu позволяет достичь беспрецедентно большого сжатия изображений высокого разрешения и идеально подходит для представления отсканированных изображений страниц. Основные преимущества этого формата:

доступ к цифровой коллекции по сети Интернет/Интранет с использованием стандартного программного обеспечения (необходима лишь установка свободно распространяемого дополнительного модуля (plugin) для браузера);

высокое качество и малый объём изображений любых видов (20–30 Kb для чёрно-белого изображения формата A4 с разрешением в 300 dpi; 80–100 Kb для такого же полноцветного изображения);

полное сохранение имеющегося вида издания;

ориентация на среду Интернет/Интранет и простота обеспечения навигации внутри публикации, решаемая средствами plugin’а.

Единственным, но весьма ощутимым недостатком такого решения было то, что страница в DjVu -формате является изображением и, соответственно, не позволяет использовать какой-либо поиск. Точнее говоря, сам формат DjVu позволяет сохранять внутри себя текстовую информацию после процедуры OCR , но это пока не реализовано для русского языка. Нам же для организации поиска необходимо было провести над отсканированными страницами процедуру оптического распознавания символов (OCR ), получить распознанный текст, который хранится отдельно от изображения. В нашем случае проблема усугублялась тем, что мы работали с изданиями в дореформенной орфографии, которые распознаются с большим количеством ошибок. Кроме того, для эффективного поиска тексты должны быть переведены в современную орфографию, в противном случае большинство пользователей просто не сможет написать верный поисковый запрос. Нам удалось найти решение и этой проблемы. Используемые программные средства сейчас позволяют нам распознавать тексты, переводить их в современную орфографию и корректировать ошибки распознавания, — всё это автоматически! — обеспечивая на финале около 90% верно воспроизведённых слов. Мы считаем, что 90%-ый рубеж обеспечивает приемлемую для реального поиска точность. Некоторые издания после этого проходят ещё ручную корректорскую обработку, во время которой исправляются все оставшиеся ошибки распознавания, после чего в тексте остается не более 1% неверных слов. Этот этап достаточно трудоёмкий, и нам удалось привлечь для его выполнения студентов. К сожалению, пропустить через ручную корректировку мы можем только десятую часть распознанных текстов.

Все распознанные тексты конвертируются в HTML формат и индексируются с помощью локальной поисковой машины, после чего становится возможным полнотекстовый поиск.

Все найденные и используемые решения оказались очень эффективными и экономичными.

В результате, начав (на стадии экспериментов!) в январе 2001 года, к концу года мы получили:

13 650 страниц монографических изданий конца XIX — начала XX вв.;

около 2 000 страниц авторефератов диссертаций, прошедших защиту в 2000 и 2001 годах в диссертационных советах УрГУ;

постоянное пополнение коллекции в объёме около 1 000 страниц в месяц.

Этого уровня нам удалось достичь при 50% занятости всего одного штатного работника (студента нашего университета). Сам технологический процесс был разбит на простые операции, достаточно лёгкие для освоения, поэтому мы смогли привлечь к этой работе студентов, проходивших летнюю практику в университете.

В текущем году работы по созданию цифровых коллекций были продолжены, к ним добавились новые направления и мы ожидаем, что к концу 2002 года её общий объём составит 50–70 тыс. страниц.

Все процессы по созданию цифровой коллекции нам удалось организовать внутри библиотеки без привлечения сторонних технических специалистов. Более того, нам удалось сделать всё на уже имеющемся оборудовании, понадобились лишь небольшие вложения в покупку специализированного программного обеспечения. До сего момента нам потребовалась покупка всего одного компьютера и только лишь потому, что компьютер должен был быть установлен в читальном зале для пользователей. С одной стороны, это предмет нашей гордости, но гордости печальной. Мы понимаем, что специализированное (и очень дорогое) оборудование обеспечивает гораздо большую производительность труда: специализированный книжный сканер снимает страницу всего за несколько секунд… К сожалению, мы до сих пор не изыскали возможность приобрести такой сканер, в противном случае объём нашей коллекции был бы уже на порядок выше.

Сейчас можно выделить следующие источники пополнения цифровых коллекций нашей библиотеки:

1. Самостоятельная оцифровка монографических изданий из собственных фондов. Пока используются издания XIX — начала XX вв. из фондов Отдела редких книг. Основным критерием отбора выступает не раритетность, а востребованность изданий. В основном представлены издания по истории России и истории права, присутствуют также литературоведческие сочинения. Среди них классические сочинения, которые, мы уверены, востребованы в библиотеках большинства гуманитарных ВУЗов: это трёхтомник “Начала русского государственного права” А. Д. Градовского, “Акты исторические”, издававшиеся Археографической комиссией и множество других изданий.

2. Оцифровка авторефератов диссертаций, прошедших защиту в диссертационных советах УрГУ. Так как эти материалы подпадают под действие закона об охране авторских прав, то цифровые копии создаются только после подписания с автором договора о передаче неисключительных прав на распространение цифровой копии издания. По возможности мы стараемся получить от автора электронный вариант автореферата, что позволяет избежать этапа сканирования и распознавания текстов. Цифровые копии авторефератов в цифровой коллекции представляются в форматах DjVu или PDF.

3. Получение от издательств и обработка материалов компьютерной вёрстки современных изданий. Пока что это направление основывается только на личных контактах работников библиотеки с авторами и издателями. В настоящий момент представлены цифровые копии двух книг (“Книга резного художества” и “Старый Екатеринбург: Город в воспоминаниях современников”), изданных екатеринбургским Историко-геммологическим обществом “Lithica” (http: //heritage. eunnet. net/lithica /). Путём нескольких автоматических преобразований материалы компьютерной вёрстки переводятся в DjVu -формат, без сканирования мы получаем абсолютно точную копию книги. Сам процесс оказывается очень производительным, обработка одного издания занимает не более 1 часа. Мы также готовы предоставлять цифровые копии таких изданий в PDF формате.

4. Включение в цифровую коллекцию изданий нашей библиотеки. Мы испытываем определённые трудности при печатании своих собственных изданий, часто они выходят мизерными тиражами. В этом случае наличие цифровой копии хотя бы частично снимает проблему, позволяет ознакомить с нашими изданиями более широкий круг заинтересованных лиц. Изготовлена цифровая копия аннотированного каталога книжной выставки “Эпоха Наполеона глазами…”, подготовленного совместно Научной библиотекой УрГУ и Свердловской областной универсальной научной библиотекой.

5. Включение материалов, изготовленных по заказам электронной доставки документов или по индивидуальным заказом на сканирование и распознавание текстов изданий из нашей библиотеки. Выполненные заказы сохраняются, при необходимости доделываются оставшиеся страницы.

6. Обмен цифровыми копиями с другими библиотеками. В качестве примера можно привести взаимовыгодный обмен с Челябинской областной универсальной научной библиотекой. Благодаря этому обмену мы смогли восстановить лакуну в собственных фондах и получить цифровую копию первого тома “Дополнений к Актам историческим”.

7. Заимствование свободно доступных цифровых копий изданий, изготовленных другими библиотеками. Мы отбираем издания, представляющие интерес для читателей нашей библиотеки и необходимые в учебном процессе. Из зарубежных ресурсов мы заимствуем в первую очередь справочные издания (энциклопедии, словари), из российских особый интерес представляют издания, отсутствующие в фондах нашей библиотеки. Пока мы отбираем только издания, представленные в виде графических копий, и путём автоматической обработки создаем их DjVu -версии. Заимствование — технически достаточно простой процесс, самое главное — определить круг материалов, которые необходимы библиотеке. У нас объём ежемесячного заимствования составляет несколько тысяч страниц в месяц, но пока это преимущественно издания на иностранных языках. В качестве примера можно привести 45-томный биографический словарь Л. -Г. Мишо (Louis-Gabriel Michaud ), изданный в середине XIX века во Франции и являющийся очень ценным биографическим и библиографическим ресурсом. В результате заимствования мы получаем также издания, необходимые для внутренней работы библиотеки. Первой заимствованной книгой стал словарь французских анонимных изданий А. -А. Барбье (Antoine-Alexandre Barbier ), необходимый сотрудникам Отдела редких книг нашей библиотеки.

Доступ к цифровой коллекции организован по интернет-технологиям. Свободно доступные копии изданий связаны с записью в электронном каталоге (используется 853 поле стандарта MARC 21), поэтому читатель от каталожной записи может перейти непосредственно к просмотру издания. Часть изданий представлена на условиях ограниченного доступа, они размещены на защищённом Web -сервере, связаться с которым могут компьютеры только с определёнными IP -адресами. Читателям представляется возможность работать с оцифрованными изданиями прямо в читальном зале. Работа с оцифрованными изданиями на этих рабочих местах бесплатна, но дополнительные услуги (распечатку, запись на дискету или CD-R ) читатели обязаны оплатить. В нашем случае цена копирования изображения страницы в виде графического файла на носитель заказчика в 3 раза меньше цены обычного ксерокопирования и в 12 раз меньше, чем если бы её сканировали по специальному заказу.

В ходе работы над цифровой коллекцией нам, естественно, пришлось решить множество вопросов, с которыми мы столкнулись в первый раз. В настоящий момент самой актуальной задачей является построение единого интерфейса доступа ко всем оцифрованным изданиям. Общее количество цифровых копий уже переросло экспериментальную стадию; и управлять ими, и ориентироваться пользователю становится всё труднее. Сейчас мы размышляем над тем, каков должен быть этот интерфейс, какими функциями он должен обладать и с помощью каких средств может быть воплощён. Кратко перечислим основные функции, которые он должен реализовывать:

поиск по цифровой коллекции с использованием обычных в библиотечной практике точек доступа (автор, название, систематический раздел и т. п.);

полнотекстовый поиск с использованием таких стандартных атрибутов как имя автора, название произведения и т. п., что позволяет формулировать сложные запросы вида “искать определённое слово в сочинениях определённого автора”;

эффективный поисковый механизм, способный быстро работать на больших текстовых массивах;

нечёткий поиск в текстах с ошибками распознавания;

представление оцифрованных изданий в виде распознанного текста и в виде изображений страниц, обеспечение связи между ними.

Уже реализованный интерфейс воплощает часть этих возможностей. Но мы заинтересованы в построении единой среды, единой оболочки, которая свела бы к минимуму работу над поддержанием цифровой коллекции, которая могла бы управляться не техническими специалистами, а сотрудниками нашей библиотеки, и с благодарностью примем любые замечания и предложения.

С нашей стороны мы полностью удовлетворены результатами работ по созданию цифровой коллекции. Более того, мы не ожидали, что всего за полтора года работы нам удастся создать такой серьёзный информационный массив. Уже сейчас коллекция решает внутрибиблиотечные задачи. Объём книговыдачи в Отделе редких книг за счёт оцифрованных изданий сократился почти на 10%, при этом мы физически сохраняем книги и уменьшаем нагрузку на библиотекарей на самых трудоёмких операциях — выдаче и расстановке книг. Цифровая коллекция выгодна и нашим читателям: они получают услуги (например, полнотекстовый поиск, возможность лёгкого и дешёвого копирования), которые не реализуются другими способами.

Апробированные технологические процессы показали свою простоту, эффективность и экономичность. Для нас создание цифровых коллекций стало одним из важных направлений деятельности, которое мы собираемся развивать и дальше. Для участников корпоративного проекта “Consensus Omnium : Корпоративная сеть библиотек Урала” были проведены обучающие семинары и несколько библиотек Екатеринбурга стали заниматься созданием своих собственных цифровых коллекций — это Центральная научная библиотека Уральского отделения РАН, Научная библиотека Уральской горно-геологической академии, Свердловская областная межнациональная библиотека.

Мы готовы провести тренинги и для библиотек других регионов. Мы также заинтересованы в контактах с библиотеками, занимающимися созданием собственных цифровых коллекций, возможно мы могли бы найти точки соприкосновения и наладить обмен оцифрованными изданиями. Мы готовы к сотрудничеству с издательствами, журналами и готовы предоставлять доступ к цифровым копиям современных изданий. Нам кажется, что сотрудничество издающих организаций и библиотек является чрезвычайно важным.

Каждый из участников этого возможного союза без особых затрат может внести свой вклад в дело формирования цифровых библиотек: издательства располагают материалами компьютерной вёрстки, из которых цифровые копии зачастую формируются всего лишь нажатием нескольких клавиш, а библиотеки имеют полную мета-информацию об изданиях (библиографическое описание в MARC -формате) и действующие механизмы поиска и доступа. Осталось только достичь взаимопонимания и соблюсти взаимные интересы.