К вопросу о совместимости средств лингвистического обеспечения баз данных по сельскому хозяйству
Databases on Agriculture: Compatibility of Linguistic Support
До питання про сумісність засобів лінгвістичного забезпечення баз даних із сільського господарства
Пирумова Л.Н.
Центральная научная сельскохозяйственная библиотека
Российской академии сельскохозяйственных наук, Москва, Россия
Lidia N. Pirumova
Russian Academy of Agricultural Sciences' Central Scientific Agricultural Library, Moscow, Russia
Пірумова Л.М.
Центральна наукова сільськогосподарська бібліотека
Російської академії сільськогосподарських наук, Москва, Росія
Рассматриваются проблемы совместимости лингвистического обеспечения информационно-поисковых систем сельскохозяйственных библиотек РФ. Анализируются средства и методы решения этой проблемы в зарубежных базах данных. Приводятся результаты исследования совместимости тезаурусов двух международных баз данных и отечественного тезауруса по сельскому хозяйству.
Considered is compatibility of linguistic support of the information-retrieval systems of agricultural libraries. Foreign experience in solving this problem is examined. Presented are the results of the study into thesaurus compatibility of two international databases and the domestic agricultural thesaurus.
Розглядаються проблеми сумісності лінгвістичного забезпечення інформаційно-пошукових систем сільськогосподарських бібліотек РФ. Аналізуються засоби і методи вирішення цієї проблеми в зарубіжних базах даних. Наводяться результати дослідження сумісності тезаурусів двох міжнародних баз даних та вітчизняного тезауруса з сільського господарства.
Совместимость лингвистических средств остается одной из важнейших проблем разработки лингвистического обеспечения. Под совместимостью понимается возможность использования в различных базах данных (БД) поисковых образов документов (ПОД) на одном информационно-поисковом языке (ИПЯ), а поисковых предписаний на другом, т.е., запросы сформулированные на одном ИПЯ должны давать удовлетворительные результаты поиска в различных базах данных. Совместимость средств лингвистического обеспечения различных информационно-поисковых систем (ИПС) существенно облегчит поиск необходимой информации, обеспечит ее полноту и релевантность. Проблема совместимости осложняется осознанием невозможности создания единого ИПЯ, обеспечивающего все информационные задачи, стоящие перед ИПС, что предполагает использование нескольких ИПЯ, каждый из которых выполняет свою функцию в ИПС и удовлетворяет определенные информационные потребности пользователя. Существует несколько методов достижения совместимости лингвистических средств среди которых: методологическая совместимость, стандартизация и унификация языковых средств, создание универсальных языковых средств, сосуществование разных ИПЯ в ИПС. Средствами, обеспечивающими лингвистическую совместимость, являются рубрикаторы, классификаторы, унифицированные коммуникационные форматы представления информации в БД, тезаурусы и др. Проблема совместимости лингвистических средств существует как для отдельных БД и ИПС, так и для отраслевых информационных сетей. Очевидно, что добиться совместимости отдельной ИПС легче, чем в отраслевой сети, в состав которой входит множество различных ИПС с разнообразными средствами лингвистического обеспечения. Актуальна проблема совместимости лингвистических средств и для ИПС библиотек сельскохозяйственной отрасли. Для достижения методологической совместимости лингвистических средств отраслевой информационной системы необходимо разработать нормативную и методическую документацию, определяющую структуру и состав лингвистического обеспечения всех библиотек сети, добиться использования в них коммуникативного формата представления информации в БД. На сегодняшний день большинство сельскохозяйственных библиотек используют как традиционные, так и автоматизированные формы поиска: карточные и электронные каталоги, БД. Как правило, по карточным каталогам осуществляется ретропоиск, а по электронным каталогам - поиск текущей информации. В качестве ИПЯ используются: Универсальная десятичная классификация (УДК) и Библиотечно-библиографическая классификация (ББК) (при традиционном поиске), язык библиографического описания (ЯБО) и язык ключевых слов (при автоматизированном поиске). К сожалению, пока ни УДК, ни ББК не могут быть эффективно использованы при автоматизированном поиске и считаться универсальными лингвистическими средствами для всех ИПС. В отличие от органов информации, в библиотеках РФ никогда прежде не использовали Государственный Рубрикатор научно-технической информации (ГРНТИ), который может претендовать на роль универсального ИПЯ. Использование универсального отраслевого ИПЯ могло бы существенно облегчить решение проблемы совместимости ЛО сельскохозяйственной отрасли. Таким ИПЯ может стать Отраслевой Рубрикатор по сельскому хозяйству и продовольствию (ОР), разработанный на основе ГРНТИ по методике локальных рубрикаторов, что делает его совместимым с ГРНТИ и другими отраслевыми рубрикаторами. В библиотеках сельскохозяйственной отрасли практически не используется тезаурус, поскольку работа по его созданию требует больших усилий. Использование языка ключевых слов не может полностью решить проблему релевантного поиска, кроме того, как правило, индексирование ключевыми словами не унифицировано, отсутствуют соответствующие методические и регламентирующие документы. Использование методик по индексированию, разработанных в ЦНСХБ может способствовать не только повышению качества индексирования, но и решению проблемы совместимости. Применение Отраслевого тезауруса (ОТ) также могло бы решить эту задачу. Таким образом, ОР и ОТ могли бы стать отраслевыми ИПЯ. Решению этой проблемы могло бы способствовать снабжение рубрик ОР индексами УДК, что позволит облегчить работу индексатора, давая ему готовую систематизацию, и вести поиск как в электронных каталогах (по Рубрикатору) так и в традиционных (по УДК). Использование нескольких ИПЯ в ИПС также способствует решению проблемы совместимости лингвистических средств, поскольку обеспечивает быстрый поиск информации на том ИПЯ, который знаком пользователю. Не менее важной является совместимость лингвистических средств отечественных и зарубежных БД по сельскому хозяйству. Особенно актуально это стало с подключением многих библиотек к Интернет и открывшейся возможности поиска информации в этих БД в интерактивном режиме. Вопросы совместимости лингвистических средств зарубежных БД по сельскому хозяйству решаются по-разному: методологически, с использованием стандартизации и унификации языковых средств, использованием единых ИПЯ и др. Существуют 3 наиболее крупные международные базы данных по сельскому хозяйству: CABI (Международное бюро информации по сельскому хозяйству стран британского содружества) ведет БД "CAB Abstracts", NAL (Национальная сельскохозяйственная библиотека США) ведет БД "Agricola", при ФАО (Международная организация по сельскому хозяйству и продовольствию) создается БД "Agris". БД Ag r is создается усилиями более чем 100 стран, использует в качестве ИПЯ Рубрикатор и Тезаурус "Agrovoc", который издается на нескольких языках. Использование странами-участниками этого единого тезауруса решает для них проблему лингвистической совместимости. C ABI и NAL решили проблему совместимости, используя общий тезаурус, созданный на базе тезауруса CABI. Однако существует идея создания общего для этих 3-х БД тезауруса, которая неоднократно обсуждалась, но из-за финансовых проблем до сих пор не реализована. Создание единого тезауруса CABI и NAL облегчило то обстоятельство, что в этих странах общий естественный язык - английский. Однако даже при этом существует проблема национальной терминологии. Идея перевода одного из международных тезаурусов на русский язык изучалась в ЦНСХБ Россельхозакадемии, поскольку известно создание и практическое использование русской версии MESH информационной системы MEDLARS. В свое время была начата работа ВНИИТЭИ агропром по подготовке русскоязычной версии тезауруса Agris "Agrovoc". При этом логическая структура английского тезауруса повторялась в его русскоязычной версии. Создание совместимых версий требует организации и ведения БД тезаурусов и соответствующего программного обеспечения, решения проблем перевода отсутствующих эквивалентов в русском языке некоторых английских понятий, а также несовпадения объемов понятий и т.д. При этом если структура английского тезауруса не адаптируется к русскому языку и научным традициям, то достигается полная совместимость. Если происходит адаптация, то следует говорить о национальной версии какого-либо зарубежного тезауруса. Плодотворно ведется работа по созданию единого тезауруса когда стороны договариваются о создании единого продукта, разрабатывают его идеологию и структуру, создают, а затем и пополняют созданный на этих основах тезаурус. Так предполагается вести работу по созданию единого CABI Abstracts -Agris тезауруса. Сотрудниками отдела систематизации ЦНСХБ проведено исследование совместимости 2-х англоязычных тезаурусов CABI и Agris (Agrovoc) в сравнении с отечественным тезаурусом в целях достижения его совместимости с зарубежными тезаурусами. Трудности совместимости существующих тезаурусов возникают из различий языков, тематического диапазона, структуры словарных блоков и др. Была предпринята попытка сравнения тезаурусов по этим аспектам: анализировались особенности развития, тематический охват, структура словарного блока, проведен сравнительный анализ нескольких терминологических областей. При этом очевидно, что для глубокого исчерпывающего анализа необходимы исследования не только лингвистических, но и психологических, национальных особенностей страны, ее традиций, а также менталитета организации - разработчика тезауруса. Необходима статистика по тезаурусам, по количеству словарных деревьев, глубине иерархии, по количеству связей у одного дескриптора. Англоязычный тезаурус CABI (ТС) используется для индексирования реферативной БД CABabstracts и поиска в ней. Последнее (4-е) издание содержит 59577 терминов (49419 дескрипторов и 10158 аскрипторов). За 5 лет включено 3500 новых терминов, в основном в области медицины в связи с формированием БД CAB HEALTH (Здоровье). Тематический охват БД: сельское хозяйство и смежные с ним отрасли, питание, здоровье и медицина (в основном тропические заболевания, инфекционные болезни). В тезаурусе учтены спеллинговые различия между английскими и американскими вариантами термина: 550 терминов представлены в обоих вариантах с соответствующими пометками, но полная иерархия дается только английскому варианту. Тезаурус разрабатывался и ведется в соответствии с международным стандартом по многоязычным тезаурусам. Иерархические связи между терминами используются в БД CABabstracts процедурой автоматического приписывания вышестоящих терминов тезауруса терминам, использованным индексатором при семантической обработке документа и отражения содержания документа. Это облегчает поиск документов одной широкой предметной категории. Многоязычный тезаурус "Agrovoc" (ТА) используется для индексирования и поиска документов в БД Agr i s, и др. БД , созданных в рамках ФАО. Тематический диапазон БД Agris включает все области относящиеся к сельскому хозяйству ( в т.ч. история, образование, право, социология, питание, загрязнение окружающей среды) и смежные с ним. Существует английская, французская, испанская, разрабатывается немецкая, итальянская, португальская версии ТА. Английская версия включает перевод дескриптора на 3-х языках: английском, французском, испанском. Как видно по объему ТС превышает объем ТА, однако если в ТА нет дескрипторов без семантического окружения, т.е. без установления всех или почти всех связей, то в ТС они встречаются часто. Количество аскрипторов в ТА и ТС составляют соответственно 58 и 20% от общего числа терминов. Наличие в ТА большого количества аскрипторов свидетельствует о высокой проработанности вводимых новых терминов. Роль аскрипторов важна как с точки зрения раскрытия объема понятия, так и с точки зрения простоты нахождения нужного термина в тезаурусе. В ТА(также как в ТС) существует процедура автоматического приписывания вышестоящих терминов. В ТА иной подход к установлению иерархических связей: многие иерархические связи имеют статус ассоциативных в отличие от ТС. Замена части иерархических терминов ассоциативными предполагает высокий профессиональный уровень индексаторов, которые будут подбирать нужные термины из числа ассоциативных. В ТС усилена роль тезауруса, где четко выражена полииерархия, многие термины имеют всевозможные иерархические связи, отражающие разные аспекты данного понятия. Замена в ТА некоторых иерархических связей ассоциативными предполагает, что последние будут использованы только в том случае, если они нужны индексатору для отражения конкретного документа. Благодаря построению ТС, в БД CABabstracts они автоматически всегда будут приписаны независимо от содержания документа и хотя некоторые из них окажутся полезными при поиске, но другие будут создавать "информационный шум". Ведение тезауруса по идеологии ТС требует больших затрат труда и времени на разработку тезауруса как терминологической системы, отражающей данную область знаний, требует ведения тезауруса как отдельной БД и существенно увеличивает объем тезауруса. Тезаурус по сельскому хозяйству и продовольствию (ТЦ) разрабатывается в ЦНСХБ Россельхозакадемии с 1992 г. на основе тезауруса ВНИИТЭИагропром. ТЦ включает около 20 тыс. терминов. Используется для индексирования документов и поиска в БД "Агрос". Тематический диапазон включает все отрасли сельского хозяйства и смежные с ним области, а также отрасли пищевой промышленности, охрану окружающей среды и др. Осуществляется процедура автоматического приписывания вышестоящих терминов. Сопоставление лексических элементов данных в статьях показывает, что принципиальных различий в их наборе во всех 3-х тезаурусах нет. Основные связи и категории терминов (вышестоящий, нижестоящий, ассоциативный) есть в ТЦ, ТА и ТС. В англоязычных тезаурусах совпадают метки, в ТЦ эквивалентные метки обозначены кириллицей. Из трех тезаурусов способы замены аскрипторов (синонимов, омонимов) наиболее полно и разнообразно представлены в ТС:
В ТА и ТЦ способ 1 используется, а неявным эквивалентом способа 2 в ТЦ является ссылка от запрещенного термина к дескриптору "ИСП", которая изначально устанавливалась для разграничения "истинных" омонимов (типа бор-элемент и бор-лес или белки-вещества и белки-животные), а в настоящее время используется и для указания других альтернативно используемых дескрипторов. В ТА способ 2 не используется. Способ замены 3 используется в ТА и начинает использоваться в ТЦ, т.к. полезен тем, что носит характер методической рекомендации и не позволяет индексаторам использовать большое количество слишком узких терминов (как предлагать для включения в тезаурус так и использовать при индексировании). В ТА присутствует полезный лексический элемент - "входной термин", который представляет собой инверсные формы терминов, которым в отличие от ТС, не придан статус аскрипторов, т.е. от них нет классических ссылок к дескрипторам типа "use" и "use and", и они не присутствуют в словарных блоках соответствующих дескрипторов. В ТС существует лексическое примечание, касающееся истории термина "с 1990 исп. Agricola". В ТЦ и ТА таких "исторических" лексических примечаний нет, хотя с точки зрения прослеживания исторического изменения терминологии, он может быть интересен. Во всех 3 тезаурусах структура словарного блока приспособлена для использования других эквивалентов дескриптора. В ТА это французские, испанские и др. эквиваленты, в ТК это английская и американские формы. В ТЦ они пока не используются, хотя предполагается введение английского эквивалента. Идеология введения ТС в части естественно-научной лексики отражает взгляд на тезаурус как на научную терминосистему. Такой тезаурус является носителем полной и самой последней информации, которая иногда даже опережает информацию из документального потока, поскольку многие авторы склонны долго использовать привычные научные названия. В ТС происходит замена новыми латинскими названиями старых терминов и изменение их статуса (т.е. статуса дескриптора на статус аскриптор), в то время как ТА отражая изменения, которые со временем возникают в научных классификациях, предпочитает радикально не менять ни структуру уже введенных словарных статей (частей классификации) ни статус термина: новые варианты терминов вводятся, как правило, в виде синонимов уже имеющимся в ТА названиям. Для ведения тезауруса ТС в соответствии с последними научными данными требуются справочные БД, программные средства, штат специалистов, связь с научными авторитетами. Достоинства ТС очевидны, но привлекательными сторонами идеологии ведения ТА являются стабильность, устойчивость лексики, принятие во внимание негативных последствий внезапного исчезновения старых привычных терминов, которые приводят к ошибкам как в индексировании так и в составлении запросов. В ТС просматривается тенденция создать жесткие конструкции словарных блоков в области "растения" и "животные", т.е. каждому термину приписываются все возможные иерархические связи. Так конкретным видам животных приписываются вышестоящие понятия, в аспекте которых этот вид животного может рассматриваться. Это верно с научной точки зрения, но не отвечает прагматическим (поисковым) задачам тезауруса, при условии автоматического приписывания вышестоящих терминов тезауруса терминам, использованным индексатором. В ТК объем статьи "кролики" имеет 19 терминов, а ТА - 8. В ТА иерархические отношения заменены ассоциативными, и термин "кролики" приписан только к словарному дереву зоологической классификации млекопитающих. Поэтому индексатор (а не машина) приписывает документу нужное количество терминов, отражающих аспекты, в которых кролики рассматриваются в данном документе. В ходе исследования проанализирована лексика нескольких областей: ветеринария; селекция растений и животных; болезни и вредители растений; растения и сельскохозяйственные культуры; естественно-научные классификации, и др. Структура каждого тезауруса определяет свою особую методику индексирования документов и только таким образом достигается точность и полнота информационного поиска. Анализ выявил несовпадение в структуре словарных блоков и в выборе дескрипторов и синонимов в лексике по "вирусам растений и вредителям растений". Общее для обоих тезаурусов в представительных массивах лексики и использовании научного названия вредителя при индексировании. В ТЦ вводятся латинские названия вредителей, которые обязательно используются при индексировании. Вводятся также русские названия вредителей. В области лексики, относящейся к понятию "животные" в ТА и ТС так много несовпадающих решений, что невозможно говорить о их совместимости. В лексике по "селекции растений" также отмечены значительные расхождения: в ТС лексика собрана в 7 блоков, половина которых отсутствует в ТА, а имеющиеся существенно отличаются по структуре и связям. В области лексики по естественно-научным классификациям отмечены существенные расхождения в ТА и ТС в выборе синонимов и дескрипторов. Однако, эта проблема решается программными средствами, осуществляющими замену в ПОДах и запросах аскрипторов на дескрипторы и поэтому эти различия могут не влиять на качество поиска. Таким образом, в этой части ТС и ТА тождественны и совместимы несмотря на прямопротивоположный статус многих терминов. В области лексики по растениям и сельскохозяйственным культурам структура словарных статей ТС разработана по типу научной классификации и не совпадает со структурой ТА, где прагматическая задача информационного поиска и "экономичности" ведения тезауруса преобладает над научностью классификации знаний. Структура ТА и ТС не отвечает традиционной отечественной классификации культур и растений, реализованные в Рубрикаторе БД "Агрос" и ТЦ. Анализ ТС, ТА и ТЦ как систем знаний и терминосистем показал, что они не искажают представляемую ими область знаний (сельское хозяйство в широком смысле), имеют большое количество совпадающих понятий и расходятся лишь в деталях. Но если сравнивать тезаурусы как практически предлагаемые системы индексирования, то эти детали приводят к существенным различиям в методах индексирования и т.о. увеличивается различие между ними. При большом совпадении лексического состава результаты поиска зависят от толкований понятий, их смысла. Смысл терминов раскрывается в тезаурусах через иерархические, синонимические и ассоциативные связи или буквально через пояснительный текст (лексические примечания). Сравнительный анализ разных терминологических областей ТС и ТА выявил достаточно большое количество несовпадающих понятий как буквально, так и в плане их раскрытия через связи. Поэтому можно говорить лишь о большом сходстве тезаурусов, но в практическом плане достижение их совместимости потребует значительных усилий. В настоящее время поиск по запросам, заиндексированным по "чужому" тезаурусу, может дать неожиданные результаты, но следует отметить, что есть немало областей, поиск в которых по таким запросам будет полным и релевантным. Тематический диапазон 3 тезаурусов существенно не отличается. Однако со временем в ТК (из-за создания БД "Здоровье") будет больше в сравнении с ТА и ТЦ медицинских терминов. В ТА медицинская терминология отражает только вопросы физиологии питания и здоровья человека в связи с составом и качеством продуктов. В ТЦ примерно также. ТА отражает вопросы сельского хозяйства, но не отражает общебиологические или зоологические вопросы, которые входят в тематический охват ТК и ТЦ. По количеству терминов ТС является наиболее полным тезаурусом. Особенно хорошо представлены в нем естественнонаучные классификации и ферменты; их словарные блоки являются прекрасным справочным материалом. Очевидны противоположные тенденции в построении тезаурусов: ТС (научность системы), а ТА (прагматичность). Этим объясняются сложные, длинные полииерархические цепочки в ТС и более короткие в ТА, где части иерархических понятий приданы ассоциативные связи. Основные связи между терминами и метки в ТС и ТА совпадают, они присутствуют и в ТЦ (обозначение меток на кириллице). В структуре словарного блока ТЦ заложена возможность присутствия иноязычных элементов (английских эквивалентов). Выявлено, что ТЦ стремится к научности, но соблюдает прагматизм в своей идеологии построения. Исследование выявило некоторые элементы, отсутствующие в ТЦ, введение которых повысит его качественный уровень. Представляет интерес предпочтительная связь ТС "use and" (используй в комбинации), а также инверсная форма в ТА многословных терминов в качестве "входных терминов". Заслуживает введения в ТЦ широкого использования лексических примечаний обоих международных тезаурусов: историческая справка, определение понятий, границы его использования, рекомендации и т.п. Проведенный сравнительный анализ двух тезаурусов позволяет сделать следующие выводы: