Использование языка XML для создания
многошрифтового OPAC на основе Web-сайта
Using XML for the Creation of a Web-based Multiscript OPAC
Використання мови XML для створення
багатошрифтового OPAC на основі Web-сайта

Клемент Арсено

Школа библиотековедения и информатики Университета Монреаля, Монреаль, Канада

Clement Arsenault

Universite de Montreal, Ecole de bibliotheconomie et des sciences de l’information, Montreal, Canada

Клемент Арсено

Школа бібліотекознавства та інформатики Університету Монреаля, Монреаль, Канада

Обработка библиографических данных, созданных без использования латиницы, представляется особенно сложной проблемой с точки зрения управления компьютеризованными системами и создания метаданных. Несмотря на то, что обработка многошрифтовых данных технически осуществима в компьютеризованной библиографической среде, большое количество компьютеризованных интегрированных систем крупных академических библиотек в Северной Америке не располагает совершенными средствами, позволяющими это делать. Особенно это относится к поисковым функциям систем.

Библиографические описания документов, написанных не на латинице, часто подготавливаются в автономных системах, что делает еще более проблематичной их интеграцию в главный каталог. Отчасти из-за ограничений, налагаемых работающими в них системами, многие организации редактируют для каталога описания документов, составленных не на латинице, просто удаляя поля с данными на языке, на котором они были представлены, и лишь затем загружая их в онлайновый каталог открытого доступа. В результате конечные пользователи могут ознакомиться лишь с полями, заполненными на романских языках, и лишаются ценнейшей информации, которая во многих случаях необходима для распознавания и поиска многих документов и ресурсов. В сущности, разделение данных по признаку латинских и нелатинских шрифтов в онлайновых каталогах сокращает видимость фондов литературы не на латинице, усложняя опознание и поиск документов.

Целью данного исследования является анализ эффективности использования языка XML (eXtensible Markup Language — расширяемый язык разметки) для создания базы данных библиографических записей, содержащих нелатинские символы, что в дальнейшем может использоваться, с одной стороны, для создания онлайновых каталогов на базе Web-серверов и предназначенных и адаптированных специально для обработки нелатинских символов. С другой стороны, записи, переведенные на язык XML, также могут быть интегрированы путем конвертирования и в стандартные каталоги, использующие формат MARC. Установлено, что использование языка XML дает ряд преимуществ при манипулировании данными и их преобразовании, а также при обработке и интеграции многошрифтовых данных.

Целью проекта является изучение, на основе анализа библиографических записей на азиатских языках (китайском, японском, корейском и вьетнамском), эффективности использования языка XML в качестве основной платформы конверсии. Также рассматриваются аспекты, которые редко анализируются специалистами в области создания многошрифтовых метаданных, в частности, обработка библиографических данных на базе различных стандартов кодирования. Кроме того, в рамках проекта будут созданы и испытаны различные прототипы онлайновых каталогов, разработанных специально для поиска записей на азиатских языках. Таким образом, станет возможной не только разработка стандартных процедур обработки данных, но и выявление функций, желательных для интеграции в Web интерфейсы крупных онлайновых каталогов.

The processing of non-Roman bibliographic data is a particularly thorny problem for managers of computerized systems and creators of metadata. For technical reasons, bibliographic records describing items written in non-Roman alphabets are often prepared on independent systems, making their integration within the main catalogue more problematic. The segregation of Roman and non-Roman data in online catalogues reduces the visibility of the non-Roman items, making it more difficult to identify and retrieve these resources. The aim of this study is to investigate the use of XML (eXtensible Markup Language) for the creation of a database of bibliographic records containing non-Roman characters. The research project will cover aspects that have seldom been investigated in the field of multiscript metadata creation. Various prototypes of Web-based online catalogues designed specifically for retrieval of Asian-language records will be tested with the aspiration of producing a list of desirable standard functionalities which could potentially be integrated into Web interfaces of large online catalogues.

Обробка бібліографічних даних, створених без використання латиниці, є особливо складною проблемою з точку зору управління комп ’ ютеризованими системами і створення метаданих. Незважаючи на те, що обробка багатошрифтових даних є технічно можливою у комп ’ ютеризованому бібліографічному середовищі, велика кількість комп’ютеризованих інтегрованих систем великих академічних бібліотек у Північній Америці не має у своєму розпорядженні досконалих засобів , які дозволяють це робити. Особливо це стосується пошукових функцій систем.

Бібліографічні описи документів, написаних не латиницею, часто готуються в автономних системах, що робить ще більш проблематичною їх інтеграцію в головний каталог. Почасти через обмеження, які існують у бібліотечних комп’ютерних системах, багато організацій редагують записи для каталогу опису документів, складених не латиницею, вилучаючи поля, які містять інформацію, подану мовою оригіналу, і тільки після цього завантажують їх до читацького каталогу. У результаті користувачі можуть ознайомитися лише з полями, заповненими латиницею, і таким чином позбавляються найціннішої інформації, що у багатьох випадках необхідна для розпізнавання і пошуку багатьох документів і ресурсів. По суті, розподіл даних за ознакою латинських і нелатинських шрифтів у онлайнових каталогах зменшує видимість наявності фондів літератури не на латиниці, ускладнюючи розпізнання і пошук документів.

Метою даного дослідження є аналіз ефективності використання мови XML (eXtensible Markup Language — розширювана мова розмітки) для створення бази даних бібліографічних записів, які містять нелатинські символи, що надалі може використовуватися, з одного боку, для створення онлайнових каталогів на базі Web-серверів і призначених і адаптованих спеціально для обробки нелатинських символів. З іншого боку, запису, переведені на мову XML, також можуть бути інтегровані шляхом конвертування і у стандартні каталоги, які використовують формат MARC. Встановлено, що використання мови XML дає ряд переваг при маніпулюванні даними і їх перетворенні, а також при обробці та інтеграції багатошрифтових даних. Метою проекту є вивчення, на основі аналізу бібліографічних записів азіатськими мовами (китайською, японською, корейською та в ’ єтнамською), ефективності використання мови XML як основної платформи конверсії. Також розглядаються аспекти, які рідко аналізуються фахівцями в галузі створення багатошрифтових метаданих, зокрема, обробка бібліографічних даних на базі різних стандартів кодування. Крім того, в рамках проекту будуть створені і випробувані різні прототипи онлайновых каталогів, розроблених спеціально для пошуку записів азіатськими мовами. Таким чином, стане можливої не тільки розробка стандартних процедур обробки даних, але і виявлення функцій, бажаних для інтеграції в Web інтерфейси великих онлайнових каталогів.

Context of the Research

In a North-American context, the processing of non-Roman bibliographical data has for many years posed specific problems for managers of computerized systems and creators of metadata. Information storage and retrieval systems for bibliographical data are usually conceived to process mainly Roman-based data. With non-Roman data, it is often more difficult to carry out the regular processing functions, such as data entry, display, storage, encoding, and exchange. Users of these systems are often facing very challenging retrieval problems. The causes of these problems are directly connected to the fact that the system interfaces of traditional retrieval systems, such as Online Public Access Catalogues (OPAC), do not allow the users to build or launch queries in non-Roman alphabets. To this day, the display, retrieval and exchange of simple accented characters from the Roman alphabet remain problematic under certain environments. It is thus not surprising that retrieving non-Roman documents or metadata is still today a sizeable problem on which further research is urgently needed. The proposed investigation will be used to develop and test ideas for the design of interfaces and other components of information retrieval systems adapted to the specificities of non-Roman data. The results will also be used to establish more effective models in the processing of this type of data.

Research Framework

Although it is technically possible to handle and accommodate multiscript data in a computerized bibliographical environment, the large majority of the integrated systems used in academic libraries are not equipped with very elaborate multiscript capabilities. Bibliographic records for non-Roman items are often prepared on independent systems, thus making their integration within the whole catalogue more difficult. It is not unusual that only the Romanized fields are preserved, thus depriving the users from very valuable information that is often essential for the proper identification of many documents and resources. Moreover, for several years, research has shown that, in many cases, retrieval carried out solely on the Romanized data poses major obstacles to the end users (Aissing 1995; Aliprand 1992, Arsenault 2002). The difficulty of integrating these records in traditional OPACs results in the fact that collections of non-Roman resources have less visibility than other collections, thus depriving users of information that can be vital to their work. In addition, even if these non-Roman records are integrated into the catalogue, since conventional bibliographic information retrieval systems do not, in most cases, have the required functionalities for retrieving and even displaying non-Roman characters, gaining access to these metadata remains, in the end, more limited.

This research project will investigate the potential of XML (eXtensible Markup Language) in creating a repository of bibliographic records containing non-Roman data. These XML records could be used on the one hand in the creation of a Web-based public access catalogue (WebPAC) that would be custom-built to handle non-Roman data more efficiently, and on the other hand for integrating non-Roman bibliographic records in a standard multiscript catalogue operating under the MARC (Machine Readable Cataloging) format standard. The many benefits of XML for encoding metadata are now widely recognized, in particular whit regards to interoperability and unification of multiscript data (Rhyno 2002, 97; Tennant 2001; Holzner 2001, 9—13, 32—33). Within that framework, a set of bibliographic records containing CJK characters (Chinese, Japanese, and Korean) will be used to test the viability of using XML as a central platform of conversion.

In the past decade, research in the field of encoding standards for multiscript data has produced highly interesting and promising results, starting with the publication in 1991 of the first version of the Unicode standard. The latest version of the Unicode standard, version 4.0ß, now comprises a total of 96, 382 characters (Unicode 2003), allowing the coexistence of various alphabets and scripts within a single document without having to resort to multiple encoding schemes through the use of escape sequences. Several operating systems and applications are now entirely compatible with the Unicode standard. It is the case of XML and MARC21 (the most recent version of the MARC standard used in North America), two encoding systems allowing, amongst other things, the handling and exchange of bibliographic metadata (Library of Congress 2000). It should nonetheless be noted that, for historical reasons, MARC21 records are, for the vast majority, encoded under the Marc-8 environment (consisting of simple bytes with multiple encoding standards governed by ISO/IEC 2022: 1994 for character encoding switching) and not under the UCS/Unicode environment. Interoperability between the two standards is workable (McCallum 2000) and the Library of Congress (LC) has recently developed a schema for working with MARC data in a XML environment (Library of Congress 2003). Moreover, the DB/TextWorks® software, library management software often used in small libraries, is now offering a XML-WebPublisher companion that allows the publication of XML data on the Web (Inmagic 2003). It is reasonable to think that other similar applications will follow soon. In this context the use of the XML as a conveyer of multiscripts bibliographical data is particularly promising and deserves further investigation. It would be possible to improve interoperability between various local metadata production systems for non-Roman items and standard OPACs, in addition to facilitating the diffusion of these data on the Web in a local environment (diagram 1).

 

Diagram 1 — Model illustrating the central role of XML for system interoperability

Under this environment, bibliographic records produced with various local systems, for example with DB/TextWorks®, could be transferred in XML format in a central repository. This would be advantageous on two fronts since it would then be possible on the one hand to easily integrate these records in a MARC21 format catalogue, and on the other hand, to publish these records directly on the Web, using an interface and an environment specifically adapted to the processing of non-Roman data. The integration of non-Roman bibliographic records within the larger catalogue of an institution could increase the visibility of these special collections. In addition, the publication of these records on the Web, would allow the development of specialized retrieval tools adapted to the specific needs for a given language or script. For example, for Chinese-language records, the Web interface could be equipped with IME modules (input methods editors) allowing the end users to construct queries in vernacular Chinese. These IMEs could be based on Romanization input or on other input modes according to the needs and ability of every end user. Additional indexing procedures adapted to the Chinese language would offer alternatives to transliteration as a means for retrieval, which is not currently the case in the majority of OPACs.

We thus propose, within the framework of this project, an investigation on the usability of the XML encoding standard for handling Asian-language records containing Chinese characters. The main objectives are, on the one hand, transferring the records to a MARC-format bibliographic database, and on the other hand, producing Web-based specialized retrieval tools, under which it will be possible to display the non-Roman data, and also to utilize the potential offered by the vernacular data for information retrieval. The project will cover aspects seldom investigated in the field of the metadata management, namely the manipulation of bibliographic data under various encoding standards, and the processing of non-Roman bibliographic data. The project is very relevant within the current global environment where issues regarding system interoperability and the management of information existing in various forms and formats are paramount to equal access to information.

Research Questions

To test interoperability among the various elements proposed in the model, it is essential to test the usability of XML as a central conversion point. Three questions thus arise:

Is it viable to convert bibliographic records containing non-Roman data produced locally (with DB/TextWorks® for instance) to the XML format? What are the particular procedures that need to be followed to ensure the safeguarding and the stability of the non-Roman data?

Is the XML ~ MARC conversion schema developed by LC applicable under such an environment?

Does XML offer the required flexibility to easily publish on the Web the bibliographic records containing non-Roman characters?

Various Web-OPAC prototypes for Asian-language records will be created and tested in this project. Based on these prototypes, it will be possible not only to develop standard procedures for the handling of the data, but also to present a list of desirable functionalities, which could be integrated into the Web interface of local catalogues.

Timetable

It is estimated that the project will stretch over a three-year period. The first year will be devoted to the analyses of transfer of the Asian-languages records in various local formats to the XML format. These records will be used to feed a central database of bibliographic records in XML format. Procedures for verifying the integrity of the non-Roman data will be developed and tested. During the second year, tests for integrating these data to MARC-format OPACs will be conducted along with the development and establishing of standard procedures. The third stage of the project, which will spread out until the end of the third year, will consist of developing procedures for the publication and distribution of the non-Roman bibliographic records on the Web. Different interfaces and various retrieval functionalities will be tested. These will include for instance the integration of specific IMEs adapted to each language, and various indexing models for non-Roman data, such as n-grams indexing, word or character-based indexing.

Applicability and benefits

It is hoped that this project will demonstrate the viability of the proposed model supporting a more decentralized approach to the creation of bibliographic records for specialized collections. The managers of cataloguing departments and services know that processing these specialized collections requires specific expertise, in particular with regards to the creation of non-Roman metadata. With its decentralized and distributed structure, the proposed model facilitates the creation of these metadata. The model also increases the visibility of these specialized collections by allowing their integration within the whole OPAC. Moreover, under this model, it is also possible to utilize the locally produced metadata in specialized tools having functionalities that are adapted to the specific nature of the data. All of these elements will in turn hopefully facilitate the retrieval of non-Roman resources and thus increase their visibility and usage.

References

Aissing, Alena L. (1995). Cyrillic transliteration and its users. College & Research Libraries, 56(3): 207—19.

Aliprand, Joan M. (1992). Nonroman scripts in the bibliographic environment. Information Technology and Libraries, 11(2): 105—19.

Arsenault, Clément (2000). Word Division in the Transcription of Chinese Script in the Title Fields of Bibliographic Records, Unpublished doctoral thesis, University of Toronto, Supervisor, Lynne C. Howarth.

Arsenault, Clément (2002). Pinyin romanization for OPAC retrieval: is everyone being served? Information Technology and Libraries, 21(2): 45—50.

Holzner, Steven (2001). Inside XML. Indianapolis: New Riders.

Inmagic (2003). XML Demo. http: //support. inmagic. com/textbases/xml/demo/. Accessed 15 March 2003.

Library of Congress (2000). MARC 21 Specifications for Record Structure, Character Sets, and Exchange Media. Character sets. http: //www. loc. gov/marc/specifications/. Accessed 15 March 2003.

Library of Congress (2003). MARC 21 XML Schema. http: //www. loc. gov/standards/marcxml/. Accessed 15 March 2003.

McCallum, Sally (2000). Extending MARC for Bibliographic Control in the Web Environment: Challenges and Alternatives. http: //lcweb. loc. gov/catdir/bibcontrol/mccallum_paper. html. Accessed 15 March 2003.

Rhyno, Art (2002). XML and relational databases: uses and opportunities for libraries. OCLC Systems & Services, 18(2): 97—103.

Tennant, Roy (2001). XML, the digital library hammer. Library Journal, 126(5): 30—2.

Unicode (2003). Unicode Beta. http: //www. unicode. org/versions/beta. html. Accessed 15 March 2003.