Home page | Каталоги и базы данных

Научные и технические библиотеки

Предлагаемая статья сотрудника Лондонского Университета Мидлсекс (Великобритания) Алана Хопкинсона является точным переводом его доклада на Международной конференции "Крым-96" и может вызвать большой интерес у специалистов, занятых выбором программного обеспечения для использования MARC-форматов. Однако статья требует некоторых пояснений и добавлений, так как автор, видимо, из-за ограничений по регламенту конференции, недостаточно четко дает определение CDS/ISIS и не называет некоторых форматов, являющихся прямым развитием MARC-форматов.

Система CDS/ISIS (Computarezed Documentation System/Integrated Set of Information System) разработана в ЮНЕСКО в отделе разработки и применения программного обеспечения. Автором системы является руководитель этого отдела Жанпаоло Дель Биджио. Существующие в настоящее время версии CDS/ISIS могут использоваться на компьютерах класса IBM/PC и машинах среднего класса под управлением операционных систем MS DOS, UNIX, VAX/VMS и др. На персональных компьютерах система работает в локальных вычислительных сетях класса NOVELL, WINDOWS-NT; готовится к распространению версия под управлением WINDOWS.

Основная сфера применения CDS/ISIS — автоматизация библиотек, архивов, музеев и документно-информационных служб. Реально использование системы и для автоматизации делопроизводства, работы канцелярии, секретаря и т. п. Наконец, она может использоваться как обычная ИПС.

Система CDS/ISIS получила широкое распространение в мире — около семи тысяч крупных учреждений разных стран являются зарегистрированными пользователями системы, более пятидесяти дистрибьюторов занимаются распространением новых версий и поддержкой CDS/ISIS.

Среди зарегистрированных пользователей системы более тысячи научных учреждений, около сотни национальных библиотек, международные, общественные, культурные, религиозные, государственные организации, библиотеки и архивы в странах Европы, Азии, Латинской Америки.

Одним из существенных достоинств CDS/ISIS является использование записей переменной длины, что достигается применением стандарта ISO 2709 как для записей баз данных, так и для записей, экспортируемых системой. Это обстоятельство позволяет пользователям CDS/ISIS достаточно просто общаться с MARC-форматами, используя их правила построения библиографических документов для записей баз данных и обеспечения их конвертирования в коммуникативные форматы, самым известным из которых является UNIMARC, рекомендованный для использования ИФЛА.

В статье достаточно подробно описывается возможность использования стандарта ISO 2709 в CDS/ISIS. Но следует заметить, что в ней не перечисляются пути решения возникающих при этом проблем и даются не самые лучшие решения.

В заключение надо сказать, что MARC-форматы широко используются при построении автоматизированных библиотечно-информационных систем и, в частности, формат UNIMARC является как внутренним, так и коммуникативным форматом интегрированной библиотечно-информационной системы ИРБИС, разработанной и распространяемой ГПНТБ России — официальным дистрибьютором системы CDS/ISIS в России и странах бывшего СССР.

Маршак Б.И.


Хопкинсон А.
Университет Мидлсекс,
Лондон, Великобритания


Использование формата ISO 2709 с CDS/ISIS

Введение

CDS/ISIS — программный продукт семейства ISIS, разработанный первоначально для использования в мэйнфреймах, основан на программном обеспечении ISIS, созданном в Международном бюро труда в Женеве для компьютеров фирмы IBM. С самого начала своего развития в качестве программного продукта для мэйнфреймов он обладал важной особенностью: использованием интерфейса ISO 2709 [1]. ISO 2709 — известный стандарт, регламентирующий структуру записей, на которой базируются форматы группы MARC и связанные с ними, в частности формат ЮНЕСКО CCF [2].

MARC — аббревиатура словосочетания Machine-Readable Cataloguing (машиночитаемая каталогизация); фактически это формат представления библиографической информации, разделенной на записи, причем обычно каждая запись соответствует описанию книги. Формат MARC разработан в 1968 г. в Соединенных Штатах Америки и к настоящему времени реализован во многих национальных вариантах, среди которых UK MARC (Великобритания), Canadian MARC (Канада), МЕКОФ и др. Есть также его международная версия — UNIMARC, разработанная в 1977 г. с целью обеспечения конвертирования информации, представленной в различных национальных форматах. В некоторых странах он принят в качестве национального формата (Японии, Южной Африке, Португалии, Хорватии).

Common Communication Format (общий формат обмена) — CCF — разработан для обеспечения достаточно детальной структурированной записи ряда обязательных и факультативных элементов в машиночитаемой форме для обмена между различными библиографическими системами. В то время как MARC используется в основном библиотечным сообществом, CCF применяется организациями, имеющими информационные службы, создающими базы данных, ориентированные на статьи из журналов, книги и монографии. Первоначально CCF был предназначен для обмена записями между информационными службами и библиотеками. Но постепенно он вытеснил другие форматы и аналогично тому, как многие национальные библиотеки приняли UNIMARC, так и многие информационные службы, нуждающиеся в формате представления своей информации, стали применять CCF. Он отличается от MARC тем, что использует четвертый элемент справочника ISO 2709, введенный как факультативный во второе издание ISO 2709 (1981 г.). Среди других отличий — использование заглавных букв в подполях и акцент на связывании записей.

Использование MARC с CDS/ISIS

Метки ISO 2709

При разработке CDS/ISIS была заложена его совместимость с ISO 2709. Первоначальная версия для мэйнфреймов предусматривала использование двухсимвольных меток; следы этого можно увидеть и в версии для микрокомпьютеров, в начале разработки которой использовались двухсимвольные метки, а затем внесены изменения, позволяющие применять трехсимвольные. В версии 1 CDS/ISIS в формате вывода по умолчанию показывались только две цифры метки, что делало этот формат непонятным; указанный недостаток устранили в последующих версиях. Формат MARC использует только трехсимвольные метки, поэтому проблем при хранении и экспорте данных не возникает. Экспорт и импорт данных осуществляется посредством модуля "Обслуживание мастер-файлов". (В версии 1 CDS/ISIS была программа с именем

Подполя ISO 2709

CDS/ISIS поддерживает подполя с алфавитными метками, следовательно, можно использовать подполя MARC. Первый символ идентификатора подполя, а именно ASCII код 31 в формате MARC, следует представлять в микроISIS при помощи символа "^", которому соответствует код ASCII 94 в наиболее распространенных таблицах кодировок, например в 450 и 851. Замену ASCII кода 31 на 94 можно осуществить при помощи таблицы конвертирования на выходе, либо глобальным редактированием, либо специальной программой на языке PASCAL. К сожалению, повторяющиеся подполя в пределах одного поля, широко используемые в большинстве MARC-форматов, нельзя обработать корректно. При выводе и обработке посредством ТВП учитывается только первый повтор, поэтому при выводе и экспорте данных результаты не всегда соответствуют желаемым. Повторяющиеся подполя можно обработать корректно при импорте и экспорте, если не используется таблица конвертирования ТВП. Для решения этой проблемы пишутся форматные выходы, которые обеспечивают корректный вывод повторяющихся подполей; их можно использовать при экспорте и импорте. Существуют и другие способы, а именно, определять как повторяющиеся те поля, которые обычно таковыми не являются, например поле выходных данных.

Поле выходных данных формата UK MARC (260), которое не повторяется на уровне поля, но имеет повторяющиеся подполя, можно ввести следующим способом:

^aLondon%^aMoscow^bLanguage Press^c1990

Такое представление корректно обрабатывается системой и при экспорте данных конвертируется в одно поле. Но это решение — специфическое, принятое для отдельного поля, и применять его для других полей следует с осторожностью.

MARC-форматы разработаны в соответствии с ISBD — Международным стандартом на библиографическое описание; интересно отметить, что он в основном поддерживается CDS/ISIS. Подполя MARC соответствуют пунктуации ISBD (это одна из причин, почему они повторяются). К тому же повторяющиеся подполя не показываются при выводе, поэтому возможно изменить их идентификаторы при втором и следующих повторах подполя. Потом можно вернуться к исходному состоянию с помощью переформатирующей таблицы ТВП, используемой при экспорте.

Индикаторы в CDS/ISIS

Индикаторы можно вводить в начале каждого поля так, как они появляются в записи ISO 2709. Они не будут выводиться при печати, когда обрабатываются подполя (и когда повторяющиеся подполя не выводятся). Если индикаторы не используются (например "00") или всегда принимают одно и то же значение в определенном поле, их можно учесть при выполнении ISISXCH с помощью переформатирующей таблицы ТВП для того, чтобы избежать необходимости ввода их во всех случаях и хранения в базе данных.

Поля связывания записей

В UNIMARC используется механизм связывания различных записей. Он употребляется для установления связи между "родителями" и "детьми", и наоборот, между первоначальными и последующими заглавиями и т. п.

Связь между различными записями базы данных осуществляется с помощью номера записи, которым может послужить MFN или иной идентификатор. На выходе можно создать встроенные поля, которые лучше не хранить, а создавать, используя связь с записью и включив в ТВП такую запись, которая воспроизведет функцию REF для связывания посредством MFN или функцию REF(L), применяемую для установления связи с помощью другого идентификатора. В данном случае методология UNIMARC сложна и предполагает непростые решения, но механизм их реализации в CDS/ISIS имеется.

Маркер записи ISO 2709

Маркер записи недоступен для изменений, поэтому ввести коды статуса записи или библиографического уровня в соответствии с требованиями формата MARC невозможно. Здесь следует работать с выходным файлом CDS/ISIS с помощью специальной программы. Единственно возможное решение переписать модуль ISISXCH, чтобы обеспечить создание маркера записи из библиографических полей записи, зарезервированных для этих целей.

Поля фиксированной структуры формата MARC

Поля фиксированной структуры (например 100) представляют трудность при вводе, но это преодолимо. В базу данных следует ввести дополнительные поля (не в формате UNIMARC), каждое из которых будет содержать один элемент фиксированной длины. Затем при создании записи в ISO 2709 вывести их как одно поле UNIMARC, используя переформатирующую таблицу ТВП.

Использование формата CCF с CDS/ISIS

Сегменты в CDS/ISIS

Модуль ISISXCH содержит программу конвертирования данных из формата и в формат ISO 2709. CDS/ISIS использует нестандартную версию ISO 2709, приспособленную к файловой системе MS—DOS. CDS/ISIS не позволяет манипулировать маркером записи и не осуществляет считывание и запись расширенного справочника, введенного в ISO 2709—1981. Эти моменты можно учесть, написав специальную программу обработки записи в ISO 2709. Исследовательский центр международного развития в Оттаве разработал программу на языке BASIC, выполняющую конвертирование выходного файла в ISO 2709 из MINISIS, (пакет программ семейства ISIS) в формат ISO 2709, который воспринимает CDS/ISIS. Эту программу следует адаптировать, с тем чтобы делать другие добавления к записям, например преобразование символа ^ в код ASCII 31. Разумеется, понадобится и включение в записи сегментов CCF. Это достигается двумя способами.

1. Линейная структура записи

Представляется, что для простоты сегменты CCF лучше всего включить, используя линеаризацию структуры записи, например использовать основные поля CCF для первичного сегмента и добавить другие поля во вторичный сегмент; затем разработать другой набор, соответствующий полям сегмента 1, следующий — для сегмента 2 и т. д. Конечно, привлекательно ограничить число сегментов, чтобы избежать появления большого числа полей.

Ниже представлены эквиваленты линейной структуры записи в CDS/ISIS.

CCF CDS/ISIS CCF CDS/ISIS CCF CDS/ISIS Seg 0 Seg 1 Seg 2 001 001 010 700 010 800 100 100 100 701 100 801 200 200 200 720 200 820 300 300 300 730 300 830 400 400 400 740 400 840 440 440 440 744 440 844 620 620 620 762 620 862

Эти поля легко конвертируются логически в структуру CCF. Все, что потребуется (и чего в настоящее время нет) — это средства порождения идентификатора сегмента в четвертом элементе справочника и полей связи.

В CDS/ISIS допускаются метки из пяти цифр, поэтому можно использовать метку из четырех цифр для включения идентификатора сегмента. Тогда повторяющийся индикатор следует добавлять с помощью программы, написанной для этого представления. При этом следует помнить, что ISO 2709 не допускает наличия меток более чем из трех цифр и что в CDS/ISIS нет средств экспорта меток не из трех цифр, хотя внутри себя он обрабатывает метки и из пяти цифр.

2. Порождение отдельных сегментов из отдельных записей базы данных CDS/ISIS.

Реализация этого подхода возможна в версии 2 CDS/ISIS. Каждый сегмент можно сделать отдельной записью, связать и вывести на печать как одну запись в версии 2. Поля связи (080) может ввести каталогизатор.

Как альтернативу можно предложить методику ввода, позволяющую создавать поля связи 080. С помощью простой программы можно преобразовать поле записи CDS/ISIS, содержащее связь, в поле 080.

Представляется, что модуль ISISXCH, отвечающий за конвертирование из формата и в формат ISO 2709, не сможет порождать сегмент и повторяющиеся идентификаторы.

Подполя формата CCF в CDS/ISIS

Подполя CCF не отличаются от подполей в MARC-форматах.

Индикаторы в формате CCF и CDS/ISIS

Использование индикаторов в CCF факультативно. В позиции маркера, в которой задается количество индикаторов, следует записать 0.

Внедрение CCF

Стоит отметить, что в ЮНЕСКО разработаны модельные базы данных, основанные на применении CCF, которые распространяются на дискетах. В них используются метки из четырех цифр для того, чтобы решить проблему сегментов. Одна из таких баз опубликована ЮНЕСКО [3], а другую, Интегральную базу данных в формате CCF можно получить через дистрибьюторов.

Версия под WINDOWS

До сих пор мы не упоминали о версии CDS/ISIS под WINDOWS, которая проходит сейчас бета-тестирование. Интересно отметить, что одна из основных проблем, рассмотренных выше, а именно, проблема повторяющихся подполей, кажется, решена, хотя еще не протестирована в полном объеме. К сожалению, в имеющейся бета-версии не реализованы форматные выходы, а попытка применить формат вывода с использованием функций REF и L в базе данных со связыванием записей приводила к системным ошибкам.

Заключение

Поскольку сейчас CDS/ISIS не может обеспечить вывод данных в полном соответствии с форматами MARC или CCF, оба эти формата почти поддерживаются. Более того, возможно их использование таким образом, чтобы избежать некоторые проблемы, описанные выше. Например, во многих системах связи между записями реализуются с помощью комментариев, а не реальным механизмом связи записей: для системы может оказаться предпочтительным оставаться простой для пользователей, а не задействовать механизмы, усложняющие и ввод в нее.

Кроме того, всегда нужно помнить, что цель обменного формата — служить средством обмена данными. Нет необходимости хранить данные во внутреннем формате такой же структуры. И все же, чем ближе формат ввода и хранения к формату обмена, тем легче управлять системой, поэтому желательно, чтобы в CDS/ISIS были внесены небольшие изменения, позволяющие решить описанные здесь проблемы, или чтобы они были учтены в версии под WINDOWS; особенно выиграли бы от этого небольшие организации, которые не могут написать собственных программ на языке Pascal.

СПИСОК ЛИТЕРАТУРЫ

  1. International Organization for Standardization. Documentation: format for bibliographic information interchange on magnetic tape. [2nd ed.] Geneva, ISO, 1981 (ISO 2709—1981). The first edition was published in 1973.
  2. CCF: the Common Communication Format. 2nd ed. Paris, UNESCO, 1988 (PGI-88/WS/2).
  3. International Information System on Cultural Development: CDS/ISIS model database: manual and accompanying diskette. Paris: UNESCO, 1994 (PGI-93/WS/16).

    Приложение 1

    Примеры CDS/ISIS — CCF

    Записи, выведенные в принт-формате по умолчанию:

    • Номер записи: 0053 Библиографический уровень М Дата ввода записи ^a19860408 Язык ^aeng Тип материала 100 Заглавие ^aAfrican food problem: from famine to food self-reliance^bby Maurice J. Williams Индивидуальный автор ^aWilliams^bMaurice J. Название совещания ^aConference on Development Education^gLeinster House, Dublin^i23 January 1986 Выходные данные ^as.1.^bWorld Food Council Дата издания ^a19860000 Физическая характеристика ^a11 p
    • Примечания ^aPaper for the conference on Development Education, Leinster House, Dublin, 23 January 1986
    • Дескрипторы
    • Библиографический номер c1068
    • Номер записи 002001 Язык ^aeng Тип материала 100 Заглавие ^aThe strategy of food aid^bSherman E. Johnson Индивидуальный автор ^aJohnson^bSherman E Дата издания ^a19620000 Описание части ^aVol. 26(1)^bpp. 3—5, 22 Дескрипторы Заглавие (2-й уровень) ^aForeign Agriculture Библиографический уровень (2-й) s

    Записи в формате ISBD

    Maurice J. CONFERENCE ON DEVELOPMENT EDUCATION: LEINSTER HOUSE, DUBLIN) The African food problem: from famine to food self-reliance / by Maurice J. Williams. — s.1.: World Food Council, 1986. — 11 p Paper for the conference on Development Education, Leinster House, Dublin, 23 January 1986. Термины: Afr; balance; agdev; trade; region; foodaid; emergency; admin. Код языка: ENG. Библиографический уровень: m

    0002001 JOHNSON, Sherman E. The strategy of food aid / Sherman E. Johnson In: Foreign Agriculture Vol. 26(1) (1962-00-00), pp. 3—5, 22 Термины: foodaid; policydon; USA.

    Код языка: ENG. Библиографический уровень: a. Вторичный библиографический уровень: s.

    ТАБЛИЦА ПОЛЕЙ ФОРМАТА CCF В CDS/ISIS

    Название поля — метки допустимых подполей или модель

    Идентификатор записи 9999999 1 Библиографический уровень А 15 Дата ввода записи А 22 Язык записи А 31 Язык документа А 40 Язык резюме А 41 Носитель информации А 50 Тип материала А 60 ISBN ABC 100 ISSN A 101 CODEN XXXXXX 102 Номер документа A 120 Заглавие ABL 200 Ключевое заглавие AB 201 Параллельное заглавие ABL 210 Заглавие на корешке AL 220 Заглавие на обложке AL 221 Заглавие на дополнительном титульном листе AL 222 Текущее заглавие AL 223 Другие варианты заглавия AL 230 Унифицированное заглавие ABCDEFGL 240 Сведения об издании ABL 260 Индивидуальный автор ABCDEFZ 300 Коллективный автор ABCDEFGLZ 310 Название совещания ABCDEFGHIJLZ 320 Структурное подразделение ABCDEL 330 Место издания/издательство ABCD 400 Типография ABCD 410 Распространитель ABCD 420 Дата издания AB 440 Дата депонирования A 441 Номер и дата сериального издания A 450 Физическая характеристика ABCD 460 Цена и переплет ABC 465 Серия ABCDL 480 Описание части ABC 490 Примечания A 500 Примечание о связанных описаниях A 510 Примечание о содержании A 530 Реферат A 600 Индексы классификации AB 610 Дескрипторы A 620 Область географической характеристики A 630 Заглавие (2-й сегмент) ABL 700 Библиографический уровень (2-й сегмент) A 701 Параллельное заглавие (2-й сегмент) ABL 705 Сведения об издании (2-й сегмент) ABL 709 Индивидуальный автор (2-й сегмент) ABCDEFZ 710 Коллективный автор (2-й сегмент) ABCDEFGLZ 711 Название совещания (2-й сегмент) ABCDEFGHIJKLZ 712 Место издания (2-й сегмент) ABCD 715 Дата издания (2-й сегмент) AC 716 Место хранения A 998 Библиографический номер A 999

    Приложение 2

    Примеры в CDS/ISIS

    Запись в формате UNIMARC на книгу представлена во внутреннем формате, содержащем связь с серией:

    Маркер записи Код библиографического уровня: m 001 20055 010 a^92-2-106396-8 101 0 ^aeng 200 1 ^aFrom a developing to a newly industrialized country^e the republic of Korea 1961-82^fTony Michell 210 ^aGeneva^cILO^d1988 215 ^axii, 180 p 225 2 ^aEmployment, adjustment and industrialisation^x02573415^v6 461 20054^v6 700 1^aMichell^bTony 960 19890208 961 d1988 __ 962 f 963 0 964 y

    Запись на серию:

    Маркер записи Код библиографического уровня: s 001 20054 011 ^a0257-3415 101 0 ^aeng 200 1 ^a Employment, adjustment and industrialization 210 ^aGeneva^cILO^d1986 712 02^aILO^31092 960 19861218 961 s19869999 962 f 963 0 964 y

    Приведенные выше записи в диагностическом формате:

    Маркер записи Код библиографического уровня: m 001 20055 010 $a92-2-106396-8 100 $a19890208d1988 f0ENGy0103a 101 0 $aeng 200 1 $aFrom a developing to a newly industrialised country $ethe republic of Korea 1961-82$fTony Michell 210 $aGeneva$cILO$d1988 215 $axii, 180 p 225 2 $aEmployment, adjustment and industrialisation$x02573415 $v6 461 1$100120054$12001 $v6 700 1 $aMichell$bTony

    Маркер записи Код библиографического уровня: s 001 20054 011 $a0257-3415 100 $a19861218s19869999f0engy0103a 101 0 $aeng 200 1 $aEmployment, adjustment and industrialisation 210 $aGeneva$cILO$d1986 712 02$aILO$31092

    Вывод в формате ISBD:

    Michell, Tony From a developing to a newly industrialised country: the republic of Korea 1961 — 82 / Tony Michell. — Geneva: ILO, 1988. — xii, 180 p. — (Employment, adjustment and industrialisation, ISSN 0257-3415;6). — ISBN 92-2-106396-8

    Коллективный автор для добавочных записей: ILO Заглавие серии: Employment, adjustment and industrialisation Номер записи: 20055.

Copyright © 1995-97 ГПНТБ России