Home page | Международные мероприятия | Международная Конференция "Крым-94"

Thesaurus work in the CDS/ISIS software environment

Mr. Viktor Zakharov
Mr. E. Pimenov

Library of the Russian Academy of Sciences, St.Petersburg, Russia


Работа с тезаурусом в программной среде CDS/ISIS/M

Захаров В.П.
Пименов Е.Н.

Библиотека Академии наук, Санкт-Петербург, Россия

  1. Пакет CDS/ISIS обеспечивает пользователю программные и лингвистические средства, позволяющие строить простые информационно-поисковые языки и системы так называемого бестезаурусного типа, т.е. системы поиска по элементам неформализованного текста на естественном языке. Имеется в виду, что при этом исключается лексический контроль, выполняемый в дескрипторных ИПС на стадии индексирования.

    Для систем без контроля лексики, как правило, характерна довольно высокая точность. Очевидно, что никакой тезаурус не в состоянии охватить все многообразие лексики естественного языка (ЕЯ), поэтому можно утверждать, что процесс индексирования ведет к обеднению содержания документов. Там, где преобладают узкие многоаспектные запросы, системы на базе ЕЯ имеют преимущество. Тезаурус никогда не может быть настолько специфичен, как ЕЯ.

  2. Согласно авторитетному утверждению А.И.Черного в ИПС по науке и технике коэффициент полноты поиска обычно составляет 60-70%, а коэффициент точности – 40-50%. Увеличение этих параметров на каждые 10% требует едва ли не удвоения сложности лингвистических и/или программных средств. Причем если показатель точности дается пользователю, так сказать, в непосредственном восприятии, то потери релевантных документов остаются незамеченными, а вычисление показателя полноты требует выполнения специальной работы. Очевидно, что обеспечить приемлемую полноту без специальных лингвистических средств и методов практически невозможно. И поэтому во многих локальных системах, построенных в БАН на основе CDS/ISIS, либо возникает потребность в тезаурусах, либо они могут существенно улучшить показатели ИПС. Хорошие реэультаты дает комбинация поиска по тезаурусу с поиском по "свободному" тексту и с использованием архива отлаженных запросов.

  3. Стандартные тезаурусные средства пакета CDS/ISIS, а именно БД THES, довольно ущербны. Использованию этой БД препятствуют два обстоятельства: то, что размер поискового выражения (ПОЗа) и, следовательно, словарной статьи в ISISе ограничен 250 символами. (Одному из авторов этой статьи приходилось работать с дескрипторами – классами условной эквивалентности – в несколько сот нижестоящих понятий). Второе препятствие – это то, что длина ключевого слова в ISISe не должна превышать 30 знаков. В условиях БАН по многим причинам было признано целесообразным разрабатывать собственную подсистему создания и использования тезауруса. Результаты м порядок выполнения этой работы описываются ниже.

  4. Поскольку создание информационно-поисковых тезаурусов (ИПТ) сложнее, чем разработка привычных для библиотечных работников тематических рубрикаторов информации, и требуется квалификация как в части "тезаурусостроения", так и в определенной предметной области, возникает проблема, каким образом сделать простые, то есть посильные пользователям, но семантически сильные ИПТ.

    Разработка ИПТ представляет собой большую и сложную работу, включающую отбор ключевых лексических единиц (ЛЕ) (формирование словника), группирование ЛЕ в классы условной эквивалентности, установление парадигматических отношений между ЛЕ, выбор их типов, построение словарных статей и указателей.

    С наших позиций, в небольших ИПС основная масса запросов неплохо описывается тезаурусом объемом до одной тысячи дескрипторов. Здесь предлагается методика выявления и группировки дескрипторов (составления ИПТ) способом квазииндексирования по "нулевому" тезаурусу.

  5. Индексирование массивов исходной информации (составление поля ключевых слов) ведется с использованием логической схемы (можно назвать ее также шаблоном, моделью, стандартной фразой), изоморфной структуры главных- второстепенных членов предложения. Предмет индексирования интерпретируется как "подлежащее" текста, аспект – это обычно слова с процессуальным значением – выступает как семантический аналог сказуемого. В позиции локализатора выступают слова, определяющие область применения или среду, где предмет индексирования получается, изучается и т. д. В фасетно-грамматической схеме, регламентирующей индексирование, есть также аналоги определения (характеристики предметов) и обстоятельства образа действия (методы). Опыт показывает, что индексирование хорошо подобранного представительного массива объемом в одну тысячу документов почти всегда выявляет по частотным характеристикам и экспертным оценкам специалистов центральные для этой АИПС предметы, аспекты и т.д. Они и образуют совокупность лексических единиц, на множестве которых устанавливаются синонимические, иерархические и др. отношения тезауруса. Периферийные элементы текста в поле ключевых слов не выписываются. Впоследствии поиск по этим словам может вестись путем комбинации тезаурусного и бестезаурусного поиска.

  6. Далее описывается технология разработки тезауруса на примере АИПС "Реставрация и консервация документов".

    Программой ISISINV в режимах F и P формировался текстовый файл ключевых слов. Затем проводился фасетный анализ лексического материала. Ключевые слова группировались в классы ПРЕДМЕТЫ, АСПЕКТЫ, ХАРАКТЕРИСТИКИ, ЛОКАЛИЗАТОРЫ, МЕТОДЫ и записывались отдельными файлами. Внутри каждого класса (фасета) устанавливались субфасеты и более мелкие классы. Определялись отношения синонимии, родо-видовые и ассоциативные связи КС. В рассматриваемой базе данных к классу предметов относятся, в частности, ДОКУМЕНТЫ [реставрируемые и в консервации] и РЕСТАВРАЦИОННЫЕ МАТЕРИАЛЫ. Первый фасет делится на ПЕЧАТНЫЕ ИЗДАНИЯ, РУКОПИСИ и NEW MEDIA (нижестоящий термин – АУДИОВИЗУАЛЬНАЯ ИНФОРМАЦИЯ). Класс ПЕЧАТНЫЕ ИЗДАНИЯ, в свою очередь, содержит понятия КНИГИ, ГАЗЕТЫ, ГРАФИЧЕСКИЕ ИЗДАНИЯ (ниже – АЛЬБОМЫ, ГРАВЮРЫ и т.п.). Таким образом формировалась основа тезауруса по данной тематике.

    С целью автоматизации работ по созданию и ведению тезауруса была написана программа, создающая перекрестные ссылки от синонимов к дескрипторам (например, из пары "Aging synonym Старение" формировались ссылки типа "Старение use Aging"), от нижестоящих к вышестоящим дескрипторам и наоборот. Той же программой осуществлялась алфавитная сортировка дескрипторов (словарных статей).

  7. В качестве языка индексирования был принят английский язык, на котором написано большинство поступающих в ИПС документов по консервации и реставрации библиотечных материалов. Русские, немецкие, французские, голландские и термины других языков рассматривались как слова-синонимы, которые в поисковых образах и индексном файле заменялись на их английские эквиваленты-дескрипторы. Таким образом получился довольно компактный, хорошо контролируемый и удобный в работе инвертированный файл ISISа и большой по объему многоязычный тезаурус (текстовый файл) вне этой программной среды.

  8. В настоящее время отлаживается программа поиска информации по тезаурусу. Данная подсистема призвана обеспечить:

    • хорошие средства навигации в тезаурусе, что особенно важно при работе с объемными многоязычными ИПЯ. К этим средствам относятся поиск термина по ключу (то есть по начальным символам слова), по стрелкам "влево", "вправо" и "вверх", "вниз", клавишам PageUp и PageDn, Home и End;
    • объемный он-лайновый help размером во всю правую половину экрана дисплея. Напомним, что объем help'ов в ISISе ограничен двумя строками экрана, что делает их малоэффективными;
    • возможность выбора поискового термина или нескольких терминов. Выбранные слова выделяются и, в отличие от ISISa, возможно также снятие выделения;
    • возможность выбора в качестве "пускача" любого слова в тезаурусе: дескриптора, выше– и нижестоящего термина, синонима на русском, английском и других языках;
    • удобные средства формирования поисковых (булевых) выражений. Программа находит, например, по поисковому термину-синониму соответствующий ему дескриптор и приписывает ему (в поисковом выражении) все нижестоящие понятия, а в случае многоуровневой иерархии терминов также нижестоящие термины второго, третьего и т.д. уровня. В дальнейшем, по-видимому, соответствующие понятия будут представлены в особом поле каждой словарной статьи;
    • возможность инициировать поиск по сформированным поисковым выражениям.
  9. У фасетной классификации материала были оказавшиеся очень полезными "отходы производства", а именно ANY-файлы ISISa, легко создаваемые текстовыми редакторами из классов условной эквивалентности, охарактеризованных выше. В свою очередь, из ANY-файлов (и не только из них, а любых поисковых выражений) формировался архив запросов – текстовый файл.

    Для поиска информации по архиву запросов написана специальная программа, реализующая также функцию пакетного поиска (для режима ИРИ).

    Структура архива запросов отражает описанную выше предметно-аспектную классификацию текстов и терминов.

  10. Таким образом, все элементы лингвистического обеспечения АИПС (методика индексирования информации, тезаурус, ANY-файлы и архив информационных запросов) строятся на одном лингвистическом основании, а именно – на использовании синтаксической модели главных-второстепенных членов предложения. Эта схема анализа и индексирования, простая и хорошо знакомая пользователям хотя бы по школьной грамматике, оказалось полезной в разных, но взаимосвязанных звеньях "лингвистической технологии" АИПС.


Copyright © 1995-97 ГПНТБ России. Все права защищены.