Библиотека, музей, архив: создания единого
информационного ресурса. Проблемы и решения

A Library, a Museum, and an Archive:
Creating Integrated Information Resource. Problems and Solutions

Бібліотека, музей, архів: створення єдиного
інформаційного ресурсу. Проблеми та їх вирішення

Смирнов В.Н., Палей Д.Э., Курчинский Д.Н., Смирнова Н.Е., Грязнова Н.А.

Ярославский государственный университет им. П. Г. Демидова, Ярославский государственный
историко-архитектурный и художественный музей-заповедник, Ярославль, Россия

Vladimir N. Smirnov, Dmitry E. Palei, Dmitry N. Kurchinsky, Nina E. Smirnova, and Nina A. Gryaznova

Yaroslavl State University; Yaroslavl State Historical, Architectural, and Arts Museum, Yaroslavl, Russia

В.М. Смирнов, Д.Е. Палей, Д.М. Курчинський, Н.Ю. Смирнова, Н.О. Грязнова

Ярославський державний університет ім. П.Г.Демидова, Ярославський державний
історико-архітектурний і художній музей-заповідник, Ярославль, Росія

 

Обоснована необходимость взаимодействия библиотек, музеев и архивов в работах по изучению истории края. Рассмотрены проблемы, возникающие при создании единого информационного ресурса библиотек, музеев, архивов. Анализируются методы и правила описания музейного предмета, архивного документа и библиографического описания на книгу, единство и различие подходов. Формулируются задачи, возникающие при организации общих баз данных музеев, библиотек и архивов, и приводятся пути их решения. Описана действующая система, реализующая единый информационный ресурс на примере организаций культуры и образования Ярославской области.

The necessity of cooperation between libraries, museums, and archives in the local studies is substantiated. Problems arising in the course of creating an integrated information resource for these organizations are explained. Similar and specific methods used for item description are studied. The tasks of common databases are formulated, and the system in force, which is based on a common information resource, is described by the example of the organizations of culture of Yaroslavl oblast.

Обґрунтовано необхідність взаємодії бібліотек, музеїв та архівів у вивченні історії краю. Розглянуто проблеми, що виникають при створенні єдиного інформаційного ресурсу бібліотек, музеїв, архівів. Проаналізовано методи і правила опису музейного предмету, архівного документа і бібліографічного опису на книгу, єдність і відмінність підходів. Сформульовано завдання, що виникають при організації спільних баз даних музеїв, бібліотек і архівів, та запропоновано шляхи їх вирішення. Описано діючу систему, яка реалізує єдиний інформаційний ресурс на прикладі організацій культури та освіти Ярославської області.

 

Изучение и сохранение культурно-исторического наследия России является одной из фундаментальных проблем современности. Однако при ее разрешении существенными затруднениями являются мобилизация максимального количества источников при проведении исследований, большое количество времени, требующееся для поиска и доступа к интересующей информации, различные формы ее представления. Эти трудности вызваны необходимостью работы во множестве географически разбросанных хранилищ (библиотеках, музеях, архивах и т. д.), недостаточным уровнем каталогизации в большинстве провинциальных центров сосредоточения памятников, невозможностью сделать копию зачастую объемного документа и др., что часто оказывается непреодолимым препятствием для исследователей, специалистов, студентов.

Один из возможных путей решения проблемы — использование современных технологий работы с данными. Значительные перспективы открывает использование сети Интернет, которая позволяет создать единое информационное пространство и предоставить благоприятные условия для доступа к базам данных (электронным библиотекам) с самой разнообразной информацией. Сведения о собраниях исторических памятников (в широком смысле этого слова), их изображения могут стать одной из самых важных и востребованных составляющих подобных баз данных (БД).

Однако, при создании таких БД, в свою очередь возникают следующие организационные, технические, технологические, а также психологические проблемы. Вследствие различной ведомственной принадлежности участников процесса, а также отсутствия у них единых целей или задач, сложно координировать совместную работу. Разное техническое и технологическое обеспечение организаций, уровень подготовки персонала затрудняют создание и ведение общих баз данных и обмена информацией в электронном виде. Сложившиеся стереотипы в психологии сотрудников не позволяют эффективно разрабатывать единые подходы к предметизации, систематизации, форматам и правилам описания предметов.

Разрешение вышеперечисленных проблем возможно только на пути корпоративной интеграции баз данных (создания и использования распределенных электронных библиотек) и методов доступа к ним.

В отдельных взятых отраслях это уже понимается. Проблема интеграции информационных ресурсов была признана в качестве ключевой Министерством культуры РФ — программа создания общероссийской информационной библиотечной компьютерной сети “Либнет”, утвержденной в 1997 г. Осознание необходимости сетевой интеграции накопленных ресурсов наступило и в музейном сообществе. Музейной ассоциацией по документации и новым информационным технологиям реализуется создание Российской сети культурного наследия. Что касается архивной отрасли, то и здесь в качестве важнейшей задачи поставлено развитие рациональной системы формирования, обеспечения сохранности и всестороннего использования Архивного фонда России. Попытка межотраслевой кооперации в создании интегрированных средств ведения баз данных (музеи и библиотеки) была сделана на Международной конференции EVA’2000 МОСКВА”. Однако специалисты разных отраслей пока плохо слышат друг друга, а страдает от этого пользователь.

Сформирован целый рынок программных систем и других средств автоматизации библиотечных процессов. Однако большинство разработок ориентированно преимущественно на автоматизацию библиотек, а другим организациям предлагается использовать форматы и правила описаний, заложенные в эти системы.

Существующие в России программные системы для создания БД в музеях (“АС Музей”, разработанное ГИВЦ Министерства культуры РФ, система “Камис”, созданная фирмой “Альт-Софт”) не обеспечивают каталогизацию книг в соответствии с общепринятыми в библиотечной отрасли стандартами, а тем более корпоративную каталогизацию. Поэтому музейные библиотеки и отделы письменных источников ведут описание книг по правилам музейного учета. Ни одна из этих систем не обеспечивает доступ к информации по протоколу z39.50, имеющему все большее распространения в библиотеках, хотя профиль этого протокола для музеев (CIMI) имеется.

Аналогично обстоит дело и в архивной отрасли. После внедрения типовых баз данных на следующем этапе автоматизации отрасли планируется объединить их в локальные сети на уровне областных архивных управлений и затем интегрировать в сети на основе стандартов ISAD, US MARC AMS. После этого будут внесены изменения в Основные правила и порядок централизованного учета.

Каким же требованиям должна удовлетворять система, позволяющая иметь доступ к информации библиотек, музеев, архивов?

Основные требования к системе хранения информации:

Благодаря построению системы, удовлетворяющей таким требованиям, информация об историко-культурном наследии становится доступной для ученых России и мирового сообщества. Также, в этом случае, решается проблема защиты культурного достояния России. Это достигается путем более совершенного научного и юридического учета культурного наследия и формирования фонда идентифицированных копий на случай форс-мажорных обстоятельств.

Этот подход был использован специалистами организаций культуры и образования Ярославской области в ходе выполнения ряда проектов РФФИ, РГНФ, Института “Открытое общество” и создан прототип системы, решающий часть вышеперечисленных задач.

Для реализации была выбрана схема централизованно — распределенной системы. При этом данные участников проекта объединяются в некоторой центральной информационной системе и периодически синхронизируются с локальными электронными каталогами. Наряду с известными недостатками (например, доступ к данным только через одно центральное хранилище и т.д.), такая структура имеет множество положительных сторон. Наличие центральной системы позволит объединить в едином информационном пространстве данные из организаций, не обладающих достаточной технической базой. С другой стороны во многих организациях уже существуют системы учета. При таком подходе их работа с единым каталогом сводится к простому обмену данными на основе некоторого коммуникативного формата. Обмен данными может осуществляться как через Интернет, так и более простыми средствами (грубо говоря, через дискеты). Наличие центрального каталога также обеспечит простоту администрирования и управления системой.

Далее, для выполнения поставленных в проекте задач были проанализированы структура и типы данных, описывающих объекты (артефакты), сохранение которых предполагалось в электронном виде. Установлены следующие особенности информационного описания:

Информация такого плана возникает во многих предметных областях, данные из которых предполагалось сохранять в электроном виде, например, при описании музейных коллекций, хранилищ редких книг, описании архитектуры и т.д. Указанные особенности во многом определяются спецификой этих предметных областей и связаны с различными подходами в описании и систематизации применяемыми научными работниками не только различных учреждений культуры, но зачастую и одного музея, библиотеки, архива.

В соответствии с вышесказанным, определены дополнительные функциональные требования к цифровой библиотеке:

Следует также сказать, что большинство перечисленных требований в настоящее время являются достаточно распространенными. Различные варианты реализующих их информационных систем и хранилищ данных уже описаны в литературе.

Для хранения информации был избран объектный подход. Соответственно основными компонентами цифровой библиотеки (ЦБ) являются: репозиторий, электронный каталог, интерфейсы доступа к ним, система авторизации. Репозиторий определяет типы и взаимодействия хранимых данных. Электронный каталог собственно содержит информацию. Интерфейсы доступа позволяют внешним приложениям оперировать структурой данных и самими данными. Система авторизации обеспечивает разграничение прав доступа к информации и прав администрирования и управления репозиторием.

Репозиторий системы содержит определения классов. Класс определяется набором атрибутов и методов. Типы атрибутов класса определяются в репозитории. В первоначальной версии атрибуты могли иметь только скалярные типы, затем список возможных типов атрибутов был расширен. В данный момент имеется возможность определять атрибуты таких типов, как списки (массивы) атрибутов, атрибуты перечислимого типа, BLOB данные и т.д. При этом описание произвольного артефакта (определение класса) приведено к стандартному виду и любой документ выступает в роли атрибута того или иного объекта хранения (экземпляра класса). При этом типы документов определяются в репозитории системы, как типы атрибутов объектов, содержащие BLOB данные. В репозитории же определяются приложения и типы просмотра BLOB атрибутов. Эти определения возможны как на уровне “всего” электронного каталога, так и для конкретной рабочей станции.

Следует сказать, что атрибуты не могут иметь объектный тип.

Это ограничение, на наш взгляд, является оправданным. Чтобы определять составные классы, необходимо выделить некоторые элементарные сущности, которые описываются классами и объединены отношением “часть-целое”. Такой анализ подразумевает с одной стороны достаточно полную априорную информацию о структуре данных, с другой стороны, подразумевает что отношения “часть-целое” являются постоянными. В данном случае эти требования часто не выполняются. Структура сохраняемых данных заранее четко не определена, отношения “часть-целое” не фиксированы, более того один и тот же артефакт (набор артефактов) при различных подходах к анализу данных может быть описан различными составными классами. Если учитывать эти особенности, то применение составных классов во многих случаях приводит к неоправданному усложнению, избыточности модели данных и соответственно разрастанию каталога. Также следует отметить, что сложности с использованием составных классов возникают и при модификации структуры данных, т.к. введенная в хранилище информация должна быть полностью преобразована в соответствии с новым описанием. Таким образом, модель данных при наличии уже введенной информации теряет необходимую гибкость и становится трудно модифицируемой.

Описанная проблема решена путем создания механизма ссылок типа “атрибут-объект”, “атрибут-атрибут”. Это решение является достаточно стандартным. Особенность в данном случае состоит в том, что реализация этих функций возложена на электронный каталог. Отделение ссылок от репозитория позволяет практически формировать произвольные связи между объектами электронного каталога. Значения всех атрибутов (кроме специально определенных) могут указывать на другие объекты или атрибуты других объектов каталога. При этом ссылка может быть синхронной (значение ссылающегося атрибута автоматически обновляется по мере обновления предмета ссылки), так и асинхронной (значение атрибута обновляется не автоматически). В таком виде ссылки являются частью данных и определяются пользователями системы при вводе и администрировании объектов хранения. Также наличие перекрестных ссылок во многих случаях без каких-либо дополнительных затрат позволяет выставить информацию произвольной сложности в WWW в гипертекстовом виде, не теряя при этом логической структуры организации данных.

Разработаны и внедрены стандарты на систему авторизации доступа к данным каталога. Разделены права пользователей по управлению репозиторием системы и хранилищем данных. Т.е. права на создание и изменение определений классов того или иного типа отделены теперь от прав доступа к информации. Все определения классов в репозитории принадлежат пользователям (группам пользователей) или являются общими. Это дает возможность пользователям каталога с одной стороны создавать собственные модели данных, с другой стороны пользоваться общим репозиторием классов. Права доступа к данным можно определять по просмотру объектов хранения определений тех или иных типов. Также для каждого определения класса возможно ограничение просмотра и изменения отдельных атрибутов объектов хранения.

В качестве базовой платформы для работ по организации электронного каталога применялся сервер БД Sybase System 11, на платформах Solaris и Linux. В ходе работ по проекту были разработаны интерфейсы доступа к данным цифровой библиотеки.

На уровне сервера БД разработан набор хранимых процедур (Stored procedure), обеспечивающий все основные операции по администрированию и манипулированию данными репозитория и электронного каталога. На уровне сервера БД реализованы также механизмы авторизации доступа к данным. Таким образом, максимально возможно обеспечены требования по защите информации от несанкционированного доступа.

Для администрирования системы разработано клиентское приложение, которое по IP сети позволяет выполнять все операции по администрированию и просмотру, изменению, добавлению данных системы. Разработаны модули автоматического импорта в систему данных из популярных форматов, таких как форматированный текстовый файл, таблица DBF и т.д.

Для доступа к данным через WWW на первоначальном этапе работ была разработана библиотека CGI скриптов. Введена возможность обращения к данным каталога из WWW с использованием шаблонов. Шаблон представляет собой HTML файл, в который введены дополнительные тэги для работы с данными хранилища. Посредством этих тэгов можно определить набор данных для работы (DataSet), извлечь список объектов заданного каталога, извлечь и вывести список доступных атрибутов и их значений. CGI скрипт динамически формирует на основе шаблона HTML файл, который далее просматривает пользователь. Система авторизации доступа к данным решается в этом случае автоматически, т. к. при работе с шаблонами используется стандартный набор хранимых процедур. Наличие системы шаблонов позволяет сторонним разработчикам без значительных усилий использовать данные электронного каталога в своих WWW разработках.

На последующем этапе работ технология СGI была заменена на более современные Java-технологии создания корпоративных информационных систем, предлагаемые фирмой Sun (Java Servlet API, Java JSP, Java Beans, JDBC и т.п.). Был осуществлен переход к трехзвенной архитектуре системы, что позволило значительно улучшить такие показатели системы, как многоплатформенность, переносимость и возможности тиражирования клиентских приложений.

В результате создан сервер приложений для доступа к данным цифровой библиотеке из сети и разработки Web сайтов. Сервер приложений для доступа к данным цифровой библиотеке через Интернет ориентирован, в основном, на задачи, связанные с публикацией данных цифрового каталога в сети и создание тематических Web сайтов. Тем не менее, прикладное API сервера приложений предоставляет разработчику все функции, реализующие возможности редактирования данных и администрирования метаданных данных цифровой библиотеки через Internet. На основе написанного ПО в настоящий момент есть возможность создавать WWW сервера, публикующие данные цифрового каталога, не привязанные к самому центральному хранилищу данных — таким образом решена задача создания распределенной среды, обеспечивающей разработку клиентских приложений, реализующий доступ к данным цифровой библиотеки.

Создан макроязык написания шаблонов, при помощи которого обеспечена возможность динамического представления информации цифрового каталога в WWW. Макроязык ориентирован на специалистов в своей предметной области, занимающихся публикацией данных в Интернет и предоставляет все возможности извлечения данных на базе ограниченного набора вызовов к серверу приложений. В макроязыке имеются такие возможности, как работы с несколькими именованными наборами объектов в теле одного шаблона, снято ограничение для работы с объектами одного типа, благодаря переходу к трехзвенной архитектуре появилась возможность работать с наборами объектов, созданными в пределах одной WWW сессии.

Для доступа к данным каталога по протоколу Z39.50 был запушен в эксплуатацию Z сервер. Доступ к данным ЦБ посредством сервиса Z39.50 обеспечивается использованием провайдера данных Zebra.

Организован интерфейс для доступа к данным цифровой библиотеки из других информационный систем, разрабатываемых в ЯрГУ (например, из сводного библиотечного каталога, работы, по созданию которого ведутся в рамках грантов ИОО).

Одной из задач, решенных в ходе выполнения проектов, являлось обеспечение обмена данными между цифровой библиотекой и другими информационными системами. Прежде всего, это касается центрального хранилища и локальных, работающих на базе организаций — участников проекта. В качестве основы для создания подобного механизма было принято решение использовать формат RUSMARC. Для обмена данными создан ряд конвертеров в формат RUSMARC.

Вследствие того, что каждый объект сам по себе является своеобразной информационной системой, которая может быть описана в самых разных аспектах и взаимосвязях с различной полнотой и глубиной раскрытия информации, осуществлена разработка подробного аналитического описания разных групп объектов на основе единых стандартов на научную публикацию их в электронном виде.

Работоспособность программного обеспечения тестировалась на компьютерах самого разного уровня, работающих под управлением операционных систем Windows , Windows NT, Solaris и Linux. В настоящее время ведется наполнение цифровой библиотеки.