Системы метаданных в электронных библиотеках

Metadata Systems for Electronic Libraries

Системи метаданих в електронних бібліотеках

Антопольский А.Б.

НТЦ “Информрегистр”, Москва, Россия

Alexander B. Antopolsky

INFORMREGISTR Research and Technological Center, Moscow, Russia

О.Б. Антопольський.

НТЦ “Інформреєстр”, Москва, Росія

Рассматривается состояние проблемы метаданных применительно к электронным библиотекам и обсуждаются тенденции в мировой информатике ситуация с их стандартизацией, внедрением и др. Особенно подробно рассматриваются инициативы Дублинского ядра и Глобальной системы локализации информации. Важнейшие аспекты систем метаданных — это реальность применения и класс решаемых задач.

The current problem of metadata as applied to electronic libraries is examined. The trends for metadata standardization, implementation, etc., in world information industry are described. The initiative of Dublin Core and Global Information Localization System are discussed in detail. It is emphasized that the most significant aspects of metadata systems is the reality of their application and the class of the problems to be solved.

Розглядається проблема метаданих стосовно до електронних бібліотек і висвітлюються тенденції у світовій інформатиці, ситуація з їх стандартизацією, впровадженням і т. д.. Особливо детально розглядаються ініціативи Дублінського ядра і глобальної системи локалізації інформації. Найважливіші аспекти систем метаданих — це реальність застосування і клас вирішуваних завдань.

Введение

Система метаданных является центральным логическим компонентом любой электронной библиотеки (ЭБ). Подобно тому, как библиотечный каталог организует все множество единиц хранения в систему библиотечных фондов, вокруг которой строятся все библиотечные технологии, система метаданных организует совокупность электронных информационных ресурсов (или цифровых объектов) ЭБ.

Соответственно вокруг системы метаданных и на ее основе строятся основные технологические процессы ЭБ, а именно:

Поскольку современные ЭБ реализуются, как правило, в сетевом режиме, система метаданных должна быть согласована с требованиями сетевой архитектуры ЭБ, например, архитектуры “клиент-сервер” и протоколами сетевого доступа. Таким образом, система метаданных является связующим звеном между внутренними свойствами ЭБ, обусловленными семантикой и структурой цифровых объектов и функциональными пользовательскими задачами, и внешними свойствами, обусловленными сетевой средой. При этом различные категории пользователей предъявляют к системе метаданных различные, обычно противоречивые требования. Пользователями метаданных являются все категории пользователей ЭБ — как внешние, так и персонал ЭБ, включая лиц, ответственных за управление правами. Однако основным “пользователем” метаданных являются программные средства, реализованные в ЭБ, Поэтому формализация метаданных является их обязательным условием.

Еще одним общим свойством метаданных является их относительный характер. Сведения, которые в одной информационной системе являются метаданными, в другой — собственно данными. Наиболее характерный пример — библиографические или реферативные базы данных, которые в информационных системах прежних поколений являлись метаданными к традиционным (бумажным) ресурсам (иногда называвшимся вторым контуром информационных систем). В то же время в рамках собственно автоматизированного контура АИС эти БД содержали именно данные.

Относительный характер метаданных выражается также в том, что многие метаданные являются одновременно данными, поскольку присутствуют как в метаописании цифрового объекта, так и в самом объекте. Таково, например, заглавие, автор, аннотация и др. характерные метаданные обычных текстовых документов. Для других видов цифровых объектов, например, изображений, представленных в виде графических файлов, никакие метаданные в состав объекта не входят.

Если понятие метаданных рассматривать в аспекте истории информатики, то это понятие является интегральным по отношению к таким традиционным понятиям, принятым в 1970-1980-х гг., как форматы представления данных, языки описания данных, лингвистическое обеспечение АИС. Главное отличие понятия метаданных от перечисленных понятий заключается в более общем характере метаданных, подобно тому как “цифровой объект” (информационный ресурс) является более широким понятием по сравнению с понятием “документ” или “единица хранения” предыдущих поколений информационных систем.

Следует еще раз подчеркнуть главную, на мой взгляд, отличительную черту современного этапа развития информатики. Интернет стал общей площадкой, где столкнулись различные и до того развивавшиеся почти независимо информационные субкультуры, например, такие как библиотечное дело или электронная коммерция. При этом системы метаданных стали эпицентром этого взаимодействия, именно той точкой, где поиск единого языка (или, как принято сейчас выражаться, –интероперабельности) является наиболее актуальным.

Основные типы метаданных

Большинство исследователей [14,15] выделяет следующие типы метаданных:

Описательные, например, библиографическая информация или другие сведения о содержании (семантике) цифровых объектов;

Структурные, включая сведения о форматах, структуре, объеме и других формальных свойствах цифровых объектов;

Административные — права, разрешения на доступ, на коррекцию данных, данные о пользователе, данные для систем оплаты, технологические данные.

Особым типом метаданных является идентификатор, задача которого — однозначное представление цифрового объекта для внешнего мира и различных приложений.

Необходимо сразу оговориться, что проблема идентификации цифровых объектов является одной из самых сложных в теории и практике ЭБ. Доказательством этому может служить 4-уровневая модель произведения, предложенная ИФЛА [14], вокруг которой не утихают споры. Аналогичные дискуссии ведутся и по поводу стандарта на код цифровых текстовых документов (ISTC), который в настоящее время разрабатывается в рамках ИСО [3]. Тем не менее, любая система метаданных обязательно включает идентификатор, используемый, по крайней мере, в рамках конкретной ЭБ и в пределах принятой в данной ЭБ методологии идентификации.

Вопрос о соотношении типов метаданных в рамках конкретной системы метаданных является принципиальным для выбора системы. Ниже мы рассмотрим наиболее известные системы метаданных, среди которых наиболее распространенной является система метаданных т.н. Дублинского ядра (Dublin Core Metadata Set) [16, 17]. Так вот, основной темой дискуссий вокруг возможного внедрения Дублинского ядра как универсальной системы метаданных является спор о возможности и целесообразности решать на основе этой системы задачи управления правами, по сравнению со специализированными системами метаданных, предназначенными для этой цели, как, например, система метаданных INDECS [4].

Иначе говоря, вопрос старый как мир: что лучше, универсальная или специализированная система? И ответ на него также давно известен: смотря для чего. Выбор системы метаданных и, соответственно, класс задач, решаемых на основе этой системы, определяется функциональностью ЭБ, для которой эта система метаданных создается. Что же касается Дублинского ядра, то областью применения этой системы метаданных по замыслу должен стать весь Интернет. Очевидно, что при такой сверхуниверсальной области применения система метаданных должна обладать максимальной простотой.

Что же касается структурных и административных метаданных, то они известны давно и широко использовались в развитых корпоративных системах для задач управления данными. Специальные системы метаданных этого типа были известны под названием “системы словарей — справочников”. В последние годы, особенно в Интернет, эти системы стали интегрироваться с описательными метаданными в единые системы.

Основные системы метаданных

Приведем перечень некоторых наиболее известных систем метаданных:

Кроме этих систем метаданных, обладающих включающих развитую семантику, применяются формальные метаданные, использование которых предусмотрено языками разметки и протоколами, принятыми в Интернет. Это HTML или HTTP метаданные — теги <meta>, определяемые соответственно спецификациями RFC 1866 и 2616.

Ввиду неудобства использования этих тегов (они не могут использоваться с другими типами файлов и быстро становятся громоздкими), и с учетом массовой миграции Интернет-приложений на язык XML, был предложен так называемый RDF — шаблон описания ресурса — метод обмена метаданными на основе языка XML, разработанный Консорциумом W3 в связке с системой метаданных Дублинского ядра.

Смысл RDF заключается в том, чтобы предложить простую и универсальную модель для выражения синтаксиса метаданных. Он не обуславливает использованную семантику схемами метаданных. Для описания схемы метаданных и для обмена информацией между компьютерными системами используется ХМL [14].

Кроме перечисленных, имеется еще несколько менее известных систем метаданных, в той или иной степени претендующих на универсальность и на применение в системах ЭБ. Многие из них оформляются в виде стандартов. На таблице приводится сводка предложений по стандартизации метаданных

Табл.

 

 

Краткое название

Полное название

Платформа

Кол-во стандартов

1

BSR

Basic Semantic Registry

ISO TC 154 WG1

1

2

CEN/ISSS Workshop Learning Technologies

CEN/ISSS Workshop Learning Technologies

CEN/ISSS

1

3

CEN TC 251

Health Informatics

CEN TC 251

1

4

CERIF

Common European Research Information Format

CERIF

1

5

Dublin Core

Dublin Core Metadata Initiative

Dublin Core

2

6

GELOS

Global Environmental Locator System Standard Element Set

GELOS

1

7

GILS

Government Information Locator Service

GILS

1

8

IMS project

IMS Learning Resource Metadata Information Model

IMS Global Learning Consortium.

1

9

ISO TC 46 SC4

Information and Documentation: Computer applications in information and documentation;

ISO TC 46 SC4

26

10

ISO TC 46 SC9

Information and documentation: Presentation, identification and description of documents

ISO TC 46 SC9

30

11

ISO/IEC JTC 1 / SC 32

Data management and Interchange; WG Metadata

ISO/IEC JTC 1 / SC 32

3

12

LOM

Learning Object Metadata

IEEE

1

13

MARC 21 formats

Machine Readable Cataloguing

MARC 21

11

14

MPEG-21

Moving Pictures Expert Group: Digital Audio-visual Framework

MPEG

1

15

MPEG-4

Moving Pictures Expert Group: Coding of audio-visual Objects

MPEG

1

16

MPEG–7

Moving Pictures Expert Group: Multimedia Content Description Interface

MPEG

1

17

NetCDF

Network Common Data Form

NetCDF

1

18

PDS

Planetary Data System

PDS

2

19

RDF

Resource Description Framework

W3C

1

20

SMPTE

Society of Motion Picture and Television Engineers

SMPTE

2

21

VRA

Visual Resources Association Data Standards Committee

VRA

1

Источник: http://www.schemas-forum.org/stds-framework/1.html

Общая схема взаимосвязи различных систем метаданных и разрабатываемых на их основе стандартов, приводится на рис.

 

Сопоставительный анализ Дублинского ядра и других систем метаданных

В качестве базового средства формирования метаданных для описания широкого класса цифровых объектов обычно [5,7,12,13,14] упоминается Дублинское ядро метаданных. Так, при опросе специалистов различных стран, присутствовавших в декабре 2000 г. в Лондоне на очередной выставке Online Information, в качестве наиболее перспективного стандарта метаданных для описания электронных ресурсов представители США, Англии, Франции, Германии, Японии, не сговариваясь, называли именно Дублинское ядро. Известно, что уже ряд национальных систем объявили о принятии Дублинского ядра в качестве национального стандарта (Австралия, Швеция).

Рассмотрим основные черты Дублинского ядра, следуя [14].С 1995 года международная группа под руководством Stuart Weibel из OCLC работает над созданием простого набора элементов метаданных, которые могли бы применяться для широкого набора библиотечных материалов. Набор таких элементов, созданный группой, известен под именем Дублинского ядра по названию города Dublin в штате Огайо, где расположена штаб-квартира OCLC и где состоялась первая рабочая встреча. Несколько сотен людей участвовали в рабочих встречах Дублинского ядра или в обсуждениях посредством электронной почты. Присущий им дух сотрудничества является примером того, как индивидуумы с различными интересами могут работать вместе..

Следующие пятнадцать элементов составляют набор метаданных Дублинского ядра . Все элементы являются необязательными и могут повторяться.

Title (Заголовок) — название, присвоенное ресурсу создателем или издателем.

Creator (Автор) — человек или организация, изначально ответственная за интеллектуальное содержание ресурса (в случае рукописного документа это авторы; исполнители, фотографы или иллюстраторы в случае визуальных ресурсов).

Subject (Предмет) — тема ресурса. Обычно предмет выражается в ключевых словах или фразе, описывающей предмет или содержание ресурса. Приветствуется использование контролируемых словарей и формальных схем классификации.

Description (Описание) — текстовое описание содержания ресурса, включая реферат в случае документов или описание содержания в случае визуального ресурса.

Publisher (Издатель) — организация, ответственная за создание ресурса в его нынешней форме — например, издательский дом, университетский департамент или корпорация.

Contributor (Участник создания материала) — человек или организация, которые не являются авторами (не обозначены в элементе “автор”), но внесли значительный интеллектуальный вклад в ресурс, но чей вклад вторичен по отношению к любому человеку или организации, указанной в числе авторов — например, редактор, переводчик, иллюстратор.

Date (Дата) — дата, указывающая на создание или появление (в доступном виде) ресурса.

Type (Тип) — категория ресурса — например, домашняя страничка, роман, поэма, статья, препринт, технический отчет, эссе, словарь.

Format (Формат) — формат представления данных ресурса (обычно указывается тип программного обеспечения и — возможно — тип компьютера, которые могут быть необходимы для отображения и работы с ресурсом).

Identifier (Идентификатор) — набор букв или цифр, который обычно используется для уникальной идентификации ресурса. В случае сетевых ресурсов примерами являются URL и URN.

Source (Источник) — информация о вторичном источнике, из которого был получен настоящий ресурс.

Language (Язык) — язык, на котором изложено интеллектуальное содержание ресурса.

Relation (Связь) — идентификатор вторичного ресурса и его связь с настоящим ресурсом. Этот элемент позволяет связывать между собой близкие ресурсы, а также описания ресурса, которые необходимо показать. Примеры — издание книги и глава книги.

Coverage (Охват) — характеристики местонахождения и временной продолжительности ресурса.

Rights (Права) — утверждение об авторских правах и управление ими; идентификатор, связанный с таким утверждением; идентификатор, связанный с сервисом, представляющим информацию об управлении правами на данный ресурс.

Как указывается в RFC2413, элементы Дублинского ядра можно условно разбить на три группы:

  1. Content — элементы, в основном относящиеся к содержанию ресурса;
  2. Intellectual Property — элементы, в основном рассматриваемые с позиции интеллектуальной собственности;
  3. Instantiation — элементы, в основном относящиеся к данному экземпляру ресурса.

Content

Intellectual Property

Instantiation

Title

Creator

Date

Subject

Publisher

Format

Description

Contributor

Identifier

Type

Rights

Language

Source

   

Relation

   

Coverage

   

Основное преимущество Дублинского ядра заключается в том, что если традиционные методы каталогизирования требуют профессиональной подготовки для эффективного использования, Дублинское ядро использовать весьма просто. Однако простота конфликтует с точностью. Команда много работала над этим парадоксом. Первоначальная цель заключалась в создании простого набора элементов метаданных для неподготовленных людей, которые публикуют электронные материалы с описанием своих результатов. Некоторые продолжают придерживаться этого минималистского подхода, они хотели бы видеть простой набор правил, которыми мог бы воспользоваться любой. Другие предпочитают ориентироваться на преимущества более тщательно разработанных правил каталогизирования и согласны на увеличение трудоемкости и стоимости. Они указывают на то, что дополнительные структурные элементы позволяют добиться большей точности в метаданных. Например, если поле “предмет” заполнялось с использованием классификатора Дьюи, было бы полезно отразить этот факт в метаданных. Для дальнейшего повышения эффективности метаданных при обработке информации, предлагается присваивать некоторым элементам некоторые “значения”. Это может быть определенный набор, список типов, которым могут руководствоваться составители описаний.

Таким образом, можно сказать, что стратегию Дублинского ядра развивают “минималисты” с одной стороны, и “структуралисты” с другой. Первые исходят из первоначального намерения создать систему, полезную для людей без специальной подготовки. Вторые хотят создать систему более сложную, требующую исчерпывающего описания и подготовленных сотрудников.

Пятнадцати элементов явно недостаточно для информационных систем типа электронных библиотек. Для того, чтобы сохранить совместимость с простейшим описанием из 15 элементов и, в то же время, увеличить детализацию и сложность описаний различные организации, в том числе и рабочие группы самой Инициативы Дублинского ядра (DCMI) разрабатывают расширения, дополнительные квалификаторы для базовых элементов. Длительное время в этом вопросе наблюдались определенный произвол и неопределенность, однако, летом 2000 г. появились рекомендации DCMI, описывающие набор квалификаторов.

Ряд специалистов считает, что Дублинское ядро, разработанное в результате выделения минимального ядра на основе компромисса, имеет ряд существенных недостатков. Среди них Г.Руст [20] отмечает следующие:

Статья Г.Руста характерна как пример претензий к Дублинскому ядру со стороны отраслей, для представления которых его возможностей недостаточно (однако следует иметь в виду, что минимальный набор элементов в принципе не предназначен для описания тонких вопросов специфического сектора). Тем не менее, представляется полезным проследить аргументацию автора. Далее он пишет: “Имеются существенные вопросы по большинству из пятнадцати элементов. Их группировка в три категории (Content, Intellectual Property и Instantiation) реально не помогает. Почему, например, Title относится к Content ,а Identifier — к Instantiation? Одно произведение может иметь различные названия в различных контекстах. На каждой стадии Dublin Core оставляет возможности для большого числа исключений из правил.

Во-вторых, признаки, терминология и примеры взяты преимущественно из текстовых произведений. Это в значительной степени не соответствует интересам владельцев и издателей звуковых, аудиовизуальных и абстрактных работ, несмотря на наличие перекрестных словарей.

В-третьих, структура Дублинского ядра не является ни достаточно жесткой, чтобы удовлетворить требования системы основанной на правах (которые нуждаются в фиксированной структуре), ни настолько свободной, чтобы согласовать структуру, взятую из другого источника. Признаются принципы заимствования стандартных наборов значений (особенно Canberra Qualifiers) но не применяются достаточно жестко.

Наконец — и это главная трудность применения Дублинского ядра для правообладателей — метаданные права рассматриваются там как дополнительный, 15-й элемент (Rights) притом, что фактически это понятие охватывает 13 из других 14 элементов. При последовательном и корректном понимании вопросов, связанных с правами и описывающими метаданными, следовало бы переделать половину Дублинского ядра, либо полностью игнорировать эти понятия.

Все это может привести к тому, что владельцы прав создадут собственный набор, удовлетворяющий их потребностям. Однако в сетевой структуре бессмысленно иметь один набор метаданных для исследований, а другой — для управления правами: по сути, это одно и то же. Если Дублинское ядро станет стандартом, то что оно будет стандартизовать? Ядро метаданных? Если необходим формальный стандарт, аргументация этого документа предполагает, чтобы при этом учитывались и правовые и описательные потребности. В таком случае, предназначено ли Дублинское ядро только для описания ядра метаданных в целях поиска притом, что оно почти полностью пересекается с требованием для управления правами?

Разработчики Дублинского ядра утверждают, что внедрение единой системы метаданных на этой основе поощрило бы авторов и издателей сопровождать свои данные ими же разработанными метаданными. Это позволило бы разработчикам средств для сетевых публикаций включать непосредственно в программное обеспечение шаблоны для этой информации, облегчая поставщикам информации их разработку. Метаданные, созданные информационными провайдерами, должны служить базой для более детальной каталогизации или описаний в конкретных предметных областях. Вдобавок это обеспечило бы общий для всех приложений базовый набор элементов, даже если определенным профессиональным группам потребовалась бы более специфическая информация. В то время как имеющиеся поисковые машины не в состоянии обеспечить релевантные результаты поиска при просмотре огромного количества ресурсов Интернета, поиск с использованием метаданных мог бы дать гораздо более точные результаты.

Если после слова “описание” в третьем предложении добавить “и управление правами”, это требование станет максимально широким.

Еше цитата из г. Руста: “Сетевая инфраструктура с ее однотипным способом доступа позволяет устранить дублирование и фрагментацию ядра метаданных; и в то же время нет унаследованной традиции стандартов метаданных, которая сковывала бы информационное сообщество. Мы имеем возможность на чистом месте и с открытыми глазами построить стандарты на базе лучших характеристик новой цифровой среды.

Дублинское ядро — решение, рожденное методами доцифровой эпохи. Его распространение на среду, где права и описания глубоко взаимозависимы, может быть очень дорогостоящим. Мы не просто получим новый круг конкурирующих версий, как это было при развитии AACR, MARC и других “стандартов” (возможно, это уже началось и с Дублинским ядром), но нам придется просить владельцев прав (которые сейчас вряд ли в состоянии внедрить один чистый набор метаданных) создать по крайней мере два — один для управления правами, другой для поиска; и мы создадим огромные неудобства для разработчиков, которым придется иметь дело с двумя частично несовместимыми “стандартами” метаданных.

Имеются те, кто будут доказывать, что компромисс Дублинское ядро — лучшее, на что можно рассчитывать. Для них — еще одна цитата из разработчиков:

очевидно, что ни один набор элементов данных, ограниченный или нет, не сможет удовлетворить значительно различающиеся и весьма специальные потребности различных областей.

Это — капитулянтство высшей пробы, родственное заявлению, что никакой текстовый процессор не сможет удовлетворить значительно различающиеся и весьма специальные потребности каждого автора документа. Возможно, слишком много внимания уделялось различным аспектам приложения метаданных, а не их фундаментальной природе и структуре. Компьютеры не совместимы с путаными размышлениями. Очень мало разницы между требованиями анализа метаданных и, с другой стороны, компьютерного программирования. Дублинское ядро — лошадь, сконструированная комитетом, и мы не можем представить себе такое транспортное средство на супершоссе” [20].

По-видимому, из этого темпераментного текста можно сделать следующий вывод: универсальность Дублинского ядра не всеобъемлюща, и для отдельных предметных областей надолго сохранится потребность в локальных стандартах, учитывающих специфику отрасли — при использовании схожих подходов и принципов.

Хотя в настоящее время проект INDECS формально закрыт, работы в этом направлении не прекращаются. Его участники основали некоммерческую организацию Indecs Framework Ltd, продолжается сотрудничество с International DOI Foundation (IDF). В любом случае этот проект является наиболее продвинутым в направлении систем метаданных, ориентированных на управление правами на цифровые объекты. В связи с этим ведутся исследованию по сопоставлению системы метаданных INDECS c другими системами метаданных. Наиболее подробный анализ в этом направлении сделан в [6].

Особый интерес представляет для нас система метаданных, используемая в системе GILS. Дело в том, что идеология этой системе практически тождественна принципам функционирования Государственного регистра баз и банков данных, который по замыслу, должен стать ядром навигационной системы всех государственных информационных ресурсов России. В связи с этим приведем краткий обзор GILS по материалам [18]. В соответствии с этим текстом, цель GILS — обеспечить гражданам поиск всех информационных ресурсов, созданных за средства налогоплательщиков — на любых носителях и языках. Выбранная стратегия наследует международные стандарты информационного поиска, в частности, стандарт ISO 23950, эквивалентный американскому стандарту ANSI/NISO Z39.50 (в 1997 г. ISO заменил ISO 10162 и ISO 10163). Z39.50 был первоначально разработан для использования в библиотечной среде и информационных службах, а к настоящему времени получил широкое применение в глобальных сетях.

В рамках GILS требуется описывать не только книги и наборы данных, но также людей, события, собрания, артефакты и т. д. Что касается сетевой информации, GILS поддерживает гиперссылки для доступа к взаимосвязанным ресурсам.

О соотношении GILS и Дублинского ядра.. 15 элементов Дублинского ядра отображаются на систему метаданных GILS с помощью специальных средств (см. http://www.loc.gov/marc/dccross.html). В Дублинском ядре нет фиксированных правил синтаксиса (хотя существует соглашение W3C о том, как записывать элементы Дублинского ядра на HTML). В этом Дублинское ядро и GILS сходны. В отличие от GILS, Дублинское ядро не определяет поисковые средства. GILS-согласованный поиск может успешно работать в сочетании с семантикой Дублинского ядра.

О соотношении GILS и MARC. GILS наследует семантику MARC для элементов, используемых для поиска. Взаимно однозначное соответствие между элементами GILS и MARC описано в GILS Profile (см. http://www.gils.net/prof_v2.html#annex_b).

GILS создается с целью интеграции библиотечных и сетевых ресурсов на основе сочетания библиотечной практики библиографических описаний с сетевыми и компьютерными технологиями. Поскольку GILS является важной составной частью Национальной информационной инфраструктуры, его идеологи ставят широкомасштабные цели реализации права на информацию в рамках создания глобального информационного сообщества..

Однако С.В.Кузнецов в докладе, подготовленном для российско-американского семинара по GILS [8], отмечает, что протокол Z39.50 использует американский национальный библиографический формат USMARC и 8 классификаторов библиографической информации, из которых только 2 являются международными (УДК и Дьюи). За 7 лет существования протокола Z39.50 созданы лишь около 700 GILS-совместимых сервера — сотые доли процента общедоступных ресурсов Интернета. Указанный протокол даже в США не является общепринятым, поскольку он реализуется на федеральном уровне, и правительства штатов и, тем более, муниципальных организаций не обязаны применять этот стандарт.

Другие системы метаданных, упомянутые выше, не претендуют на универсальное применение и поэтому не подвергаются столь строгому критическому анализу. Тем не менее сравнительный анализ систем метаданных, особенно семантический, является объектом многих исследований [19]. Стали даже говорить о специальном направлении исследований, получившем название “картографирование метаданных” [15].

Проблемы создания метаданных

В этом разделе рассмотрим вопрос, поставленный в [11]: кто создает метаданные? До тех пор, пока библиотеки, как учреждения и библиотекари, как профессионалы в своей области, являлись основными производителями метаданных для карточных и электронных каталогов и индексаторами библиографических баз данных, необходимости обсуждения этого вопроса не было. Однако, в настоящее время, теоретически, каждый может создать метаданные для любого цифрового объекта в соответствии со своими потребностями и разместить их в сетевой среде, установив ссылку на сам объект. В идеале, создатель или разработчик цифрового объекта обладает самым глубоким знанием о нем (содержание, назначение, отношение к другим документам и т. д.). Так, на различных сайтах имеются специальные шаблоны для описания метаданных, которые запрашиваются у автора (иногда в обязательном порядке). Эти метаданные могут автоматически размещаться их в HTML — заголовках документа или загружаться в базы данных.

Примерами этому могут служить шаблоны Nordic Metadata (http://www.ub.lu.se/metadata/DC_creator.html), форма для предоставления метаданных в рамках проекта “Немецкие диссертации он-лайн” (German Dissertations Online Project) и форма для регистрации документов (электронных или неэлектронных) в хранилище метаданных по образовательным материалам и учебным курсам (http://dbs.schule.de/db/listen.html) на сервере образовательных ресурсов Германии (http://dbs.schule.de/).

В других случаях применяются специально разработанные механизмы автоматического поиска информации, которые способны с высокой степенью точности извлечь из HTML-файлов или форматированного текста имя автора, названия связанных с ним организаций, дату или другие параметры и разместить эти данные в индексе или создать набор метаданных для данного документа. Подобная технология применяется в настоящее время на серверах препринтов и архивов, таких как Математический сервер препринтов в Германии (Osnabruck — проект программы e-Lib) (http://elib.uni-osnabruck.de/talks/dfg/kurzELib.html) и ряд других. Несмотря на то, что точность извлечения метаданных в отдельной области путем анализа текста до сих пор остается под вопросом, методы кластеринга слов и другие методы анализа текста продолжают усовершенствоваться и относятся к сфере исследований в области электронных библиотек, которые повлияют на развитие метаданных в целом и их значимость в будущем.

В случае, если соответствующие метаданные не предоставляются автором или создателем лично, издатель вынужден нанимать опытных области специалистов для создания соответствующих метаданных. Это могут быть библиотекари или другие информационные специалисты, ученые в данной области, или компании, нанятые для этой цели. Метаданные могут быть добавлены непосредственно в документ, размещены в хранилище метаданных, используемом для информационного поиска или храниться в отдельном файле. Таким образом, в одной сети могут теоретически находиться различные наборы и формы представления метаданных для одного и того же документа [11].

Если следовать серьезным стандартам, составление метаданных является достаточно квалифицированным трудом и, как следствие, требует значительных затрат. По оценке С.Кузнецова, стоимость формирования метаданных формата Z39.50 для одной книги превышает $30 [8]. Близкая оценка приведена в [14]: “каталогизирование и индексирование стоят дорого, если выполняются профессионалами; по опыту известно, что создание и распространение одной записи стоит около 50 долларов”. Правда, автор замечает: “Автоматическое индексирование быстрое и дешевое. Точная стоимость является коммерческим секретом, но приблизительно это доли цента на запись. За ту же цену, за которую профессионал создает одну запись, компьютерная программа генерирует 100000 или более записей. Т.е. уже экономически целесообразно индексировать огромные объемы информации в Интернете и даже проводить повторное индексирование через определенные промежутки времени”. [14]

В [12-13] описан проект “Создание систематического каталога российских ресурсов Интернет”, реализуемый в РГБ, в рамках которого создателям ресурсов предлагается механизм получения стандартного описания его собственного ресурса, которое должно храниться в самом ресурсе. Создателю ресурса остается только поддерживать в актуальном состоянии это описание. При наличии такого описания возможно создание программы-робота, которая без участия человека будет просматривать весь Интернет или его часть, находить новые или измененные ресурсы, выбирать из ресурсов описания, подготовленные создателями, и размещать их в создаваемом каталоге. Таким образом, будет обеспечена актуальность каталога, а его полнота будет зависеть от создателей ресурсов.

В рамках этого же проекта создан пакет прикладных программ (ППП) для ведения систематического каталога ресурсов Интернет. Вопрос о формате описания был решен в пользу формата Дублинского ядра. Выбор, по словам автора [13], был невелик. Можно было использовать какую–либо разновидность формата MARC, придумать свой формат или взять Дублинское ядро. Каталогизирование ресурсов Интернет силами участников проекта — необходимое условие успешного продолжения проекта, но недостаточное. Для создания каталога нужно, чтобы все создатели ресурсов Интернет при разработке своих HTML страниц использовали поля формата Дублинского ядра в заголовке ресурсов.

Вышеописанный подход уже реализован в некоторых странах. Наиболее успешны проекты электронных библиотек в Билефельде и Геттингене. (Германия), европейский проект MATH NET и METAPHYS [13].

Возможно, авторы проекта излишне оптимистично оценивают готовность владельцев ресурсов вводить необходимый комплект метаданных. Имеется и другая точка зрения. “То, что метаданные к документам можно создавать в массовом порядке — иллюзия. Не более 10 % веб-страниц имеют заполненными все HTML- поля (тэги Мета с данными о документе). Административными мерами переломить указанную тенденцию с учетом темпов роста числа Интернет-писателей и Интернет-издателей представляется полной утопией” [8]. Определенный скепсис по этому поводу высказали и участники беседы [9].

При описании электронных ресурсов, в частности, при создании каталогов и справочников о ресурсах Интернета многие авторы пользуются собственными рубрикаторами и формами для описания (метаданными). Наиболее популярный в мире каталог ресурсов Yahoo использует собственный классификатор веб-ресурсов. В отечественной практике описана сходная ситуация, возникшая при разработке каталога “АУ/@Rus” [10].

Новый проект поисковой системы Яndex, направленный на повышение релевантности при поиске Интернет-ресурсов, фактически основан на оригинальном наборе метаданных. Он, в частности, содержит такие характеристики ресурса как источник информации, жанр, ряд других признаков, с помощью которых можно уточнять поисковый контекст и значительно уменьшать пространство для поиска. В конечном счете, такой подход приводит к сокращению времени поиска и повышению его качества.

В обозримой перспективе останется необходимость в ручной (в дополнение к автоматизированной) каталогизации информационных ресурсов сети Интернет. Как указано в [2], государственные организации (библиотеки, органы НТИ, информационные центры) имеют опытных библиографов, референтов и каталогизаторов, которые могли бы обеспечить стандартное описание и индексирование большой части новых информационных ресурсов, особенно в сфере науки, культуры и образования.

Сходную точку зрения высказывает Д.Руш-Фейа: “Если учесть что задача метаданных состоит в обеспечении более четкого отыскания ресурсов и специфического фильтрования и отбора ресурсов в электронном сетевом окружении, то интеллектуальный вклад остается необходим. Значение использования метаданных, в особенности для неэлектронных документов, будет все возрастать, особенно для архивных коллекций, гибридных библиотек и коллекций. Это потребует от библиотекарей и информационных работников создания новых парадигм работы с физическими объектами и другими документами, ранее не относившимися к сфере деятельности библиотек и информационных центров” [11].

Заключение

Материалы, приведенные в настоящей статье , с убедительностью доказывают, что системы метаданных являются одним из важнейших компонентов электронных библиотек, который в значительной степени определяет функциональные возможности ЭБ и, шире, универсальных систем информационного поиска. В связи с этим понятно внимание, которое уделяется этой проблеме зарубежными разработчиками. Поскольку основной средой реализации ЭБ является Интернет, весьма важным и определяющим является учет в проектных решений в области метаданных требований сетевой среды. Основным вариантом в настоящее время являются решения, основанные на использовании языка XML и протокола HTTP . В то же время при активной поддержке правительства США, а теперь еще правительств других стран, развивается система метаданных GILS, основанная на протоколе Z39.50, который многие специалисты считают неперспективным.

Если говорить о семантике метаданных, то по популярности как среди российских, так и среди зарубежных исследователей с большим отрывом лидирует проект универсальноцй системы метаданных Дублинского ядра. В то же время отметим, что в пределах определенных категорий цифровых объектов, таких как геопространственные системы, книжная торговля или музейные ресурсы, тематически ориентированные метаданные распространены гораздо больше, чем универсальные. В этой связи В. Армс [14] указывает, что наибольшие трудности разработчиков электронных библиотек ожидают именно при попытках внедрения универсальных решений, если эти решения хотя бы отчасти семантизированы. Кроме того, проект Дублинского ядра подвергается критике с точки зрения его возможносте для проблемы управления правами доступа к цифровым объектам.

России, к большому сожалению, отсутствуют систематические исследования и разработки в области метаданных. Исключением и наиболее продвинутой является система библиографических метаданнных, основанная на формате MARC, создаваемая при активной поддержке Минкультуры России. Внедрение этой системы практически охватывает большинство библиотечных автоматизированных систем, доступных через Интернет. Действующая в настоящее время программа РФФИ по электронным библиотекам сформирована таким образом, что общесистемные исследования, к которым относится и системы метаданных, не востребованы.

В других областях достижения в области метаданных более скромны: в электронной коммерции начинают применяться Интернет-приложения системы EDIFACT, а в ГИС-сообществе делаются попытки внедрения стандарта на метаданные для геопространственных данных, основанные на стандарте DIF. Кроме того, функционирует и постепенно распространяется система метаданных Государственного регистра баз и банков данных. Естественно, также создаются системы метаданных и для различных конкретных систем, например, для Государственного регистра населения или Федерального земельного кадастра. Однако все эти проекты разрознены и не образуют сколько-нибудь единого подхода к проблеме метаданных. Можно, однако, надеяться, что этот пробел будет устранен при реализации Межведомственной программы “Электронные библиотеки России”, идеология которой направлена именно на общесистемные разработки и обеспечение совместимости информационных ресурсов. России.

Библиография

  1. Антопольский А.Б., Вигурский К.В. Электронные библиотеки.
  2. http://www.kursknet.ru/~kcnti/cgi-bin/number.pl?number=47&st=6

  3. Антопольский А.Б. Проблемы государственного и общественного регулирования сферы российских информационных ресурсов сети Интернет. Концептуальная записка к заседанию НТС Минсвязи России 19.10.2000.
  4. ISO Project 21047 (ISTC) Working Draft 1.1/ ISO TC 46/SC9 http://www.nlc-bnc.ca
  5. .http://www.indecs.org
  6. Бейкер Т., Лагозе К. Стандарты и метаданные (практикум IFLA/DELOS/NSF в рамках конференции EVA'2000). http://www.artinfo.ru/eva/EVA'2000M/EVA-papers/default.htm
  7. http://www.indecs.org/pdf/Summary/Report/pdf
  8. Каспарова Н.Н. Российская база метаданных и унификация библиографического описания электронных ресурсов. http://www.gpntb.ru/win/inter-events/crimea2000/doc/tom1/888/Doc6.HTML
  9. Кузнецов С.В. Анализ проекта “Глобальная служба поиска информации” в контексте российских и глобальных проблем. Материалы российско-американского семинара, октябрь 2000.
  10. Поляк Ю.Е. Каталоги российского Интернета (интервью А.Костинскому для радио “Свобода”). http://www.svoboda.org/programs/SC/2000/SC0822.shtml
  11. Поляк Ю.Е. “АУ!” — первый миллион посещений. http://osp.ru/school/1998/4/09.htm
  12. Руш-Фейа Д. Международные инициативы в области метаданных — последние достижения. http://www.rsl.ru/tacis/2000/200004/rusch-feja/rusch-feja.ru.html
  13. Шварцман М.Е., Ильин А.С. Dublin Core в коробке. http://www.iis.ru/el-bib/2000/200002/SI/si.ru.html
  14. Шварцман М.Е. Метаданные и Интернет. http://www.iis.ru/events/19990616/shvar.ru.html
  15. Arms W.Y. Digital Libraries (перевод Арнаутова С.А.)
  16. Day M. Metadata — Mapping between metadata. http://www.ukoln.ac.uk/metadata/interoperability/
  17. Dublin Core Metadata for Resource Discovery — RFC 2413. http://www.faqs.org/rfcs/rfc2413.html; текстовая версия http://www.faqs.org/rfc/rfc2413.txt
  18. Dublin Core Qualifiers (DCMI recommendation, 2000-07-11). http://purl.org/dc/documents/rec/dcmes-qualifiers-20000711.htm
  19. GILS — Frequently Asked Questions. http://geolibr.uiggm.nsc.ru/docs/z39.50/gils/gils_faq.htm
  20. Heery R. Review of Metadata Formats. http://ukoln.bath.ac.uk/metadata/review.html
  21. Rust G. Metadata: The Right Approach. http://www.dlib.org/dlib/july98/rust/07rust.html
  22. SCHEMAS Registry. http://www.schemas-forum.org/registry/registry.html