Разработки технологии оцифровки, хранения
Леонтьев А.А.
Университетский Центр Интернет Петрозаводского государственного университета,
Петрозаводск, Россия
A. A. Leont’ev
University Internet Center of Petrozavodsk State University, Petrozavodsk, Russia
А.А. Леонтьєв
Університетський Центр Інтернет Петрозаводського державного університету, Петрозаводськ, Росія
Рассматривается технология оцифровки, хранения и предоставления доступа к изданиям XIX — начала XX века — совместная разработка Центра Интернет Петрозаводского госуниверситета и Национальной библиотеки Республики Карелия, позволяющая свести к минимуму затраты на публикацию редких книг в сети Интернет.
The considered technology is a result of cooperation between the Internet Center of Petrozavodsk State University and the National Library of the Republic of Karelia. The technology allowed the Library to reduce the cost of publishing rare books in the Internet.
Розглядається технологія оцифрування, збереження і надання доступу до видань XIX — початку XX століття — спільна розробка Центру Інтернет Петрозаводського держуніверситету і Національної бібліотеки Республіки Карелія, яка дозволяє звести до мінімуму витрати на публікацію рідкісних книг у мережі Інтернет.
I. Постановка проблемы
В Национальной библиотеке Республики Карелия (НБ РК) и Научной библиотеке Петрозаводского госуниверситета (НБ ПетрГУ) собираются и хранятся издания, отображающие этапы развития республики во всем его многообразии от первых рукописных документов до современных изданий. Многие документы, зачастую существующие в единственном экземпляре в библиотеках Карелии и России, активно используются и могут исчезнуть из-за несвоевременных мер по обеспечению их сохранности. Закон “О библиотечном деле” Республики Карелия гарантирует права человека на “свободный доступ к информации, знаниям, приобщение к ценностям национальной и мировой культуры” Вместе с тем, на сегодняшний день остро стоит проблема обеспечения доступа к уникальным изданиям для широкого круга читателей.
Один из наиболее предпочтительных выходов из сложившейся ситуации — оцифровка и распознавание редких материалов и организация доступа к ним через сеть Интернет. Такого рода технологии успешно внедряются во многих библиотеках России, и Карелии в частности, для организации доступа к современным текстам. Однако на сегодняшний день не существует оптимального подхода к оцифровке и организации доступа к текстам в орфографии XIX-начала XX века. Перед библиотеками встают две основных проблемы:
Несмотря на то, что русский язык не претерпел кардинальных изменений на протяжение XIX-XX веков, существенная перестройка произошла в системе русского письма. В 1918 году из нее были удалены некоторые буквы, унифицированы флексии (окончания), введены новые написания слов. В связи с этим поиск многих слов в полнотекстовой базе данных, содержащей слова в их дореволюционной форме, в значительной степени затруднен и требует от пользователя знания орфографических норм XIX века.
Существующие решения, такие как хранение текстов в виде графических файлов или подготовка текстовых файлов и автоматическая замена в них “нестандартных” символов (фита, ижица, и десятеричное и ять) на современные, имеют ряд недостатков. В первом случае невозможно организовать поиск по тексту и предоставить пользователю возможность работать с источником как с полноценным компьютерным текстом. Во втором случае также очень сложно организовать поиск, т.к. эти тексты не отвечают правилам орфографии ни XIX, ни XX века.
II. Предлагаемое решение
В рамках проекта, профинансированного проектом “Прожект Хармони, Инк”, специалистами Центра Интернет и Национальной библиотеки Республики Карелия, была разработана технология оцифровки, хранения и предоставления доступа к текстам в орфографии XIX века, отвечающая следующим требованиям:
Результат работы программного обеспечения — три типа файлов:
Представление документа в виде набора файлов разного формата позволяет максимально удовлетворить запросы пользователя и делает технологию применимой для текстовых источников разного типа, не ограничивая сферу ее использования только книгами XIX века.
III. Работы в рамках проекта.
IV. Алгоритм перевода текстов XIX века в современную орфографию
Для облегчения подготовки текстов разработан алгоритм, позволяющий “переводить” слова из орфографии прошлого века в современную. Алгоритм включает в себя следующие шаги:
Использование подобного алгоритма позволяет автоматизировать примерно 80% работы по приведению графики в соответствие с современными орфографическими нормами.
V. Автоматизированное рабочее место “Сектор редкой книги — создание полнотекстовых коллекций”
АРМ “Сектор редкой книги — создание полнотекстовых коллекций” предоставляет библиотекарю возможность в автоматизированном режиме перевести печатный материал в цифровую форму. Работа по подготовке материалов состоит из следующих этапов:
VI. Апробация системы в библиотеках и анализ работы системы на наиболее спрашиваемых читателями книгах XIX века
С использованием технологии был подготовлена полнотекстовая версия книги “ Описание Олонецкой губернии в историческом, статистическом и этнографическом отношениях, составленное В. Дашковым. — СПб.,1842.-222 с.”. Книга включает в себя 219 страниц текста, титульный лист книги, карту Олонецкой губернии и гравюру “Вид города Петрозаводска”. Книга опубликована на сайте “Библиотеки Карелии” (http://biblioteki.karelia.ru) в разделе “Электронная библиотека”.
Дальнейшее развитие проекта видится в расширении коллекции электронных документов. Новое направление — использование геоинформационных технологий при анализе карт XVIII-XIX века в процессе проведения различных научных исследований.