Home page | Каталоги и базы данных |
Научные и технические библиотеки |
Предлагаемая статья сотрудника Лондонского Университета Мидлсекс (Великобритания) Алана Хопкинсона является точным переводом его доклада на Международной конференции "Крым-96" и может вызвать большой интерес у специалистов, занятых выбором программного обеспечения для использования MARC-форматов. Однако статья требует некоторых пояснений и добавлений, так как автор, видимо, из-за ограничений по регламенту конференции, недостаточно четко дает определение CDS/ISIS и не называет некоторых форматов, являющихся прямым развитием MARC-форматов. Система CDS/ISIS (Computarezed Documentation System/Integrated Set of Information System) разработана в ЮНЕСКО в отделе разработки и применения программного обеспечения. Автором системы является руководитель этого отдела Жанпаоло Дель Биджио. Существующие в настоящее время версии CDS/ISIS могут использоваться на компьютерах класса IBM/PC и машинах среднего класса под управлением операционных систем MS DOS, UNIX, VAX/VMS и др. На персональных компьютерах система работает в локальных вычислительных сетях класса NOVELL, WINDOWS-NT; готовится к распространению версия под управлением WINDOWS. Основная сфера применения CDS/ISIS — автоматизация библиотек, архивов, музеев и документно-информационных служб. Реально использование системы и для автоматизации делопроизводства, работы канцелярии, секретаря и т. п. Наконец, она может использоваться как обычная ИПС. Система CDS/ISIS получила широкое распространение в мире — около семи тысяч крупных учреждений разных стран являются зарегистрированными пользователями системы, более пятидесяти дистрибьюторов занимаются распространением новых версий и поддержкой CDS/ISIS. Среди зарегистрированных пользователей системы более тысячи научных учреждений, около сотни национальных библиотек, международные, общественные, культурные, религиозные, государственные организации, библиотеки и архивы в странах Европы, Азии, Латинской Америки. Одним из существенных достоинств CDS/ISIS является использование записей переменной длины, что достигается применением стандарта ISO 2709 как для записей баз данных, так и для записей, экспортируемых системой. Это обстоятельство позволяет пользователям CDS/ISIS достаточно просто общаться с MARC-форматами, используя их правила построения библиографических документов для записей баз данных и обеспечения их конвертирования в коммуникативные форматы, самым известным из которых является UNIMARC, рекомендованный для использования ИФЛА. В статье достаточно подробно описывается возможность использования стандарта ISO 2709 в CDS/ISIS. Но следует заметить, что в ней не перечисляются пути решения возникающих при этом проблем и даются не самые лучшие решения. В заключение надо сказать, что MARC-форматы широко используются при построении автоматизированных библиотечно-информационных систем и, в частности, формат UNIMARC является как внутренним, так и коммуникативным форматом интегрированной библиотечно-информационной системы ИРБИС, разработанной и распространяемой ГПНТБ России — официальным дистрибьютором системы CDS/ISIS в России и странах бывшего СССР. Маршак Б.И.
Хопкинсон А. Использование формата ISO 2709 с CDS/ISISВведениеCDS/ISIS — программный продукт семейства ISIS, разработанный первоначально для использования в мэйнфреймах, основан на программном обеспечении ISIS, созданном в Международном бюро труда в Женеве для компьютеров фирмы IBM. С самого начала своего развития в качестве программного продукта для мэйнфреймов он обладал важной особенностью: использованием интерфейса ISO 2709 [1]. ISO 2709 — известный стандарт, регламентирующий структуру записей, на которой базируются форматы группы MARC и связанные с ними, в частности формат ЮНЕСКО CCF [2]. MARC — аббревиатура словосочетания Machine-Readable Cataloguing (машиночитаемая каталогизация); фактически это формат представления библиографической информации, разделенной на записи, причем обычно каждая запись соответствует описанию книги. Формат MARC разработан в 1968 г. в Соединенных Штатах Америки и к настоящему времени реализован во многих национальных вариантах, среди которых UK MARC (Великобритания), Canadian MARC (Канада), МЕКОФ и др. Есть также его международная версия — UNIMARC, разработанная в 1977 г. с целью обеспечения конвертирования информации, представленной в различных национальных форматах. В некоторых странах он принят в качестве национального формата (Японии, Южной Африке, Португалии, Хорватии). Common Communication Format (общий формат обмена) — CCF — разработан для обеспечения достаточно детальной структурированной записи ряда обязательных и факультативных элементов в машиночитаемой форме для обмена между различными библиографическими системами. В то время как MARC используется в основном библиотечным сообществом, CCF применяется организациями, имеющими информационные службы, создающими базы данных, ориентированные на статьи из журналов, книги и монографии. Первоначально CCF был предназначен для обмена записями между информационными службами и библиотеками. Но постепенно он вытеснил другие форматы и аналогично тому, как многие национальные библиотеки приняли UNIMARC, так и многие информационные службы, нуждающиеся в формате представления своей информации, стали применять CCF. Он отличается от MARC тем, что использует четвертый элемент справочника ISO 2709, введенный как факультативный во второе издание ISO 2709 (1981 г.). Среди других отличий — использование заглавных букв в подполях и акцент на связывании записей.
Использование MARC с CDS/ISISМетки ISO 2709При разработке CDS/ISIS была заложена его совместимость с ISO 2709. Первоначальная версия для мэйнфреймов предусматривала использование двухсимвольных меток; следы этого можно увидеть и в версии для микрокомпьютеров, в начале разработки которой использовались двухсимвольные метки, а затем внесены изменения, позволяющие применять трехсимвольные. В версии 1 CDS/ISIS в формате вывода по умолчанию показывались только две цифры метки, что делало этот формат непонятным; указанный недостаток устранили в последующих версиях. Формат MARC использует только трехсимвольные метки, поэтому проблем при хранении и экспорте данных не возникает. Экспорт и импорт данных осуществляется посредством модуля "Обслуживание мастер-файлов". (В версии 1 CDS/ISIS была программа с именем
Подполя ISO 2709CDS/ISIS поддерживает подполя с алфавитными метками, следовательно, можно использовать подполя MARC. Первый символ идентификатора подполя, а именно ASCII код 31 в формате MARC, следует представлять в микроISIS при помощи символа "^", которому соответствует код ASCII 94 в наиболее распространенных таблицах кодировок, например в 450 и 851. Замену ASCII кода 31 на 94 можно осуществить при помощи таблицы конвертирования на выходе, либо глобальным редактированием, либо специальной программой на языке PASCAL. К сожалению, повторяющиеся подполя в пределах одного поля, широко используемые в большинстве MARC-форматов, нельзя обработать корректно. При выводе и обработке посредством ТВП учитывается только первый повтор, поэтому при выводе и экспорте данных результаты не всегда соответствуют желаемым. Повторяющиеся подполя можно обработать корректно при импорте и экспорте, если не используется таблица конвертирования ТВП. Для решения этой проблемы пишутся форматные выходы, которые обеспечивают корректный вывод повторяющихся подполей; их можно использовать при экспорте и импорте. Существуют и другие способы, а именно, определять как повторяющиеся те поля, которые обычно таковыми не являются, например поле выходных данных. Поле выходных данных формата UK MARC (260), которое не повторяется на уровне поля, но имеет повторяющиеся подполя, можно ввести следующим способом: ^aLondon%^aMoscow^bLanguage Press^c1990 Такое представление корректно обрабатывается системой и при экспорте данных конвертируется в одно поле. Но это решение — специфическое, принятое для отдельного поля, и применять его для других полей следует с осторожностью. MARC-форматы разработаны в соответствии с ISBD — Международным стандартом на библиографическое описание; интересно отметить, что он в основном поддерживается CDS/ISIS. Подполя MARC соответствуют пунктуации ISBD (это одна из причин, почему они повторяются). К тому же повторяющиеся подполя не показываются при выводе, поэтому возможно изменить их идентификаторы при втором и следующих повторах подполя. Потом можно вернуться к исходному состоянию с помощью переформатирующей таблицы ТВП, используемой при экспорте.
Индикаторы в CDS/ISISИндикаторы можно вводить в начале каждого поля так, как они появляются в записи ISO 2709. Они не будут выводиться при печати, когда обрабатываются подполя (и когда повторяющиеся подполя не выводятся). Если индикаторы не используются (например "00") или всегда принимают одно и то же значение в определенном поле, их можно учесть при выполнении ISISXCH с помощью переформатирующей таблицы ТВП для того, чтобы избежать необходимости ввода их во всех случаях и хранения в базе данных.
Поля связывания записейВ UNIMARC используется механизм связывания различных записей. Он употребляется для установления связи между "родителями" и "детьми", и наоборот, между первоначальными и последующими заглавиями и т. п. Связь между различными записями базы данных осуществляется с помощью номера записи, которым может послужить MFN или иной идентификатор. На выходе можно создать встроенные поля, которые лучше не хранить, а создавать, используя связь с записью и включив в ТВП такую запись, которая воспроизведет функцию REF для связывания посредством MFN или функцию REF(L), применяемую для установления связи с помощью другого идентификатора. В данном случае методология UNIMARC сложна и предполагает непростые решения, но механизм их реализации в CDS/ISIS имеется.
Маркер записи ISO 2709Маркер записи недоступен для изменений, поэтому ввести коды статуса записи или библиографического уровня в соответствии с требованиями формата MARC невозможно. Здесь следует работать с выходным файлом CDS/ISIS с помощью специальной программы. Единственно возможное решение переписать модуль ISISXCH, чтобы обеспечить создание маркера записи из библиографических полей записи, зарезервированных для этих целей.
Поля фиксированной структуры формата MARCПоля фиксированной структуры (например 100) представляют трудность при вводе, но это преодолимо. В базу данных следует ввести дополнительные поля (не в формате UNIMARC), каждое из которых будет содержать один элемент фиксированной длины. Затем при создании записи в ISO 2709 вывести их как одно поле UNIMARC, используя переформатирующую таблицу ТВП.
Использование формата CCF с CDS/ISISСегменты в CDS/ISISМодуль ISISXCH содержит программу конвертирования данных из формата и в формат ISO 2709. CDS/ISIS использует нестандартную версию ISO 2709, приспособленную к файловой системе MS—DOS. CDS/ISIS не позволяет манипулировать маркером записи и не осуществляет считывание и запись расширенного справочника, введенного в ISO 2709—1981. Эти моменты можно учесть, написав специальную программу обработки записи в ISO 2709. Исследовательский центр международного развития в Оттаве разработал программу на языке BASIC, выполняющую конвертирование выходного файла в ISO 2709 из MINISIS, (пакет программ семейства ISIS) в формат ISO 2709, который воспринимает CDS/ISIS. Эту программу следует адаптировать, с тем чтобы делать другие добавления к записям, например преобразование символа ^ в код ASCII 31. Разумеется, понадобится и включение в записи сегментов CCF. Это достигается двумя способами.
1. Линейная структура записи Представляется, что для простоты сегменты CCF лучше всего включить, используя линеаризацию структуры записи, например использовать основные поля CCF для первичного сегмента и добавить другие поля во вторичный сегмент; затем разработать другой набор, соответствующий полям сегмента 1, следующий — для сегмента 2 и т. д. Конечно, привлекательно ограничить число сегментов, чтобы избежать появления большого числа полей. Ниже представлены эквиваленты линейной структуры записи в CDS/ISIS.
CCF CDS/ISIS CCF CDS/ISIS CCF CDS/ISIS Seg 0 Seg 1 Seg 2 001 001 010 700 010 800 100 100 100 701 100 801 200 200 200 720 200 820 300 300 300 730 300 830 400 400 400 740 400 840 440 440 440 744 440 844 620 620 620 762 620 862
Эти поля легко конвертируются логически в структуру CCF. Все, что потребуется (и чего в настоящее время нет) — это средства порождения идентификатора сегмента в четвертом элементе справочника и полей связи. В CDS/ISIS допускаются метки из пяти цифр, поэтому можно использовать метку из четырех цифр для включения идентификатора сегмента. Тогда повторяющийся индикатор следует добавлять с помощью программы, написанной для этого представления. При этом следует помнить, что ISO 2709 не допускает наличия меток более чем из трех цифр и что в CDS/ISIS нет средств экспорта меток не из трех цифр, хотя внутри себя он обрабатывает метки и из пяти цифр. 2. Порождение отдельных сегментов из отдельных записей базы данных CDS/ISIS. Реализация этого подхода возможна в версии 2 CDS/ISIS. Каждый сегмент можно сделать отдельной записью, связать и вывести на печать как одну запись в версии 2. Поля связи (080) может ввести каталогизатор. Как альтернативу можно предложить методику ввода, позволяющую создавать поля связи 080. С помощью простой программы можно преобразовать поле записи CDS/ISIS, содержащее связь, в поле 080. Представляется, что модуль ISISXCH, отвечающий за конвертирование из формата и в формат ISO 2709, не сможет порождать сегмент и повторяющиеся идентификаторы. Подполя формата CCF в CDS/ISISПодполя CCF не отличаются от подполей в MARC-форматах. Индикаторы в формате CCF и CDS/ISISИспользование индикаторов в CCF факультативно. В позиции маркера, в которой задается количество индикаторов, следует записать 0.
Внедрение CCFСтоит отметить, что в ЮНЕСКО разработаны модельные базы данных, основанные на применении CCF, которые распространяются на дискетах. В них используются метки из четырех цифр для того, чтобы решить проблему сегментов. Одна из таких баз опубликована ЮНЕСКО [3], а другую, Интегральную базу данных в формате CCF можно получить через дистрибьюторов.
Версия под WINDOWSДо сих пор мы не упоминали о версии CDS/ISIS под WINDOWS, которая проходит сейчас бета-тестирование. Интересно отметить, что одна из основных проблем, рассмотренных выше, а именно, проблема повторяющихся подполей, кажется, решена, хотя еще не протестирована в полном объеме. К сожалению, в имеющейся бета-версии не реализованы форматные выходы, а попытка применить формат вывода с использованием функций REF и L в базе данных со связыванием записей приводила к системным ошибкам.
ЗаключениеПоскольку сейчас CDS/ISIS не может обеспечить вывод данных в полном соответствии с форматами MARC или CCF, оба эти формата почти поддерживаются. Более того, возможно их использование таким образом, чтобы избежать некоторые проблемы, описанные выше. Например, во многих системах связи между записями реализуются с помощью комментариев, а не реальным механизмом связи записей: для системы может оказаться предпочтительным оставаться простой для пользователей, а не задействовать механизмы, усложняющие и ввод в нее. Кроме того, всегда нужно помнить, что цель обменного формата — служить средством обмена данными. Нет необходимости хранить данные во внутреннем формате такой же структуры. И все же, чем ближе формат ввода и хранения к формату обмена, тем легче управлять системой, поэтому желательно, чтобы в CDS/ISIS были внесены небольшие изменения, позволяющие решить описанные здесь проблемы, или чтобы они были учтены в версии под WINDOWS; особенно выиграли бы от этого небольшие организации, которые не могут написать собственных программ на языке Pascal.
СПИСОК ЛИТЕРАТУРЫ
|
|