О совершенствовании структуры лингвистических
средств ЦНСХБ Россельхозакадемии


On Improving the Linguistic Techniques Structure at CSAL RAAS

Про удосконалення структури лінгвістичних засобів ЦНСГБ Россільгоспакадемії

Пирумова Л.Н., Поздняков В.Г.

Центральная научная сельскохозяйственная библиотека
Российской Академии сельскохозяйственных наук, Москва, Россия

Lidia N. Pirumova and Vyacheslav G. Pozdnyakov

Central Scientific Agricultural Library of the Russian Agricultural Academy, Moscow, Russia

Л.М. Пірумова, В.Г. Поздняков

Центральна наукова сільськогосподарська бібліотека
Російської академії сільськогосподарських наук, Москва, Росія

Рассматривается состав существующих лингвистических средств, используемых в ИПС ЦНСХБ Россельхозакадемии. Раскрывается назначение и функции ИПЯ, их роль в формировании, обработке, хранении и поиске информации в БД “Агрос”. Даны предложения по совершенствованию структуры лингвистических средств автоматизированной информационно-поисковой системы ЦНСХБ Россельхозакадемии.

The content of available linguistic techniques used in IRS at the CSAL of the Russian Academy of Agricultural Sciences is considered. The purpose and functions of IRLs, their role in building, processing, storage and retrieving information in the AGROS database are discussed. Some proposals aimed to improve the structure of linguistic techniques for the CSAL RAAS Automated Information Retrieval System are given.

Розглядається склад існуючих лінгвістичних засобів, що використовуються в ІПС ЦНСГБ Россільгоспакадемії. Висвітлюються призначення і функції ІПМ, їх роль у формуванні, обробці, збереженні і пошуці інформації в БД “Агрос”. Дано пропозиції по удосконаленню структури лінгвістичних засобів автоматизованої інформаційно-пошукової системи ЦНСГБ Россільгоспакадемії.

 

Лингвистическое обеспечение — это комплекс средств, используемых в библиотеке для формирования, обработки, хранения и поиска информации, а также средств и методов их создания, ведения, использования и контроля. Лингвистическое обеспечение (ЛО) требуется на всех направлениях деятельности библиотеки. Состав и структура ЛО зависят от того, в какой области библиотечной деятельности оно используется. Можно выделить несколько функций, возложенных на ЛО и отсюда несколько видов ЛО: ЛО подготовки баз данных (обработка, ввод информации, формирование баз данных); ЛО подготовки информационных изданий; ЛО процессов распределения потоков информации между ее потребителями. ЛО включает в себя лингвистические средства и средства манипулирования с данными и информационными массивами. Лингвистические средства — это совокупность информационно-поисковых языков (ИПЯ), используемых в информационно-поисковой системе (ИПС), правил перевода информации с естественного языка на ИПЯ и критерия выдачи информации, обеспечивающих представление смыслового содержания документов информационных массивов в виде, удобном для машинной обработки и обеспечивающем автоматизированный поиск информации. ИПЯ являются основным элементом ЛО, поскольку от них зависит эффективность поиска. Они предназначены для выражения основного содержания документов и информационных запросов с целью последующего хранения и поиска информации в ИПС. ИПЯ по сути считаются главной характеристикой ИПС, поскольку от их качества (терминологической наполненности, терминологической однозначности лексических единиц, наличия логической связи между элементами, справочного аппарата, удобства пользования и т. д.) зависит эффективность поиска, его полнота и точность. ИПЯ используются как в традиционных так и в электронных каталогах и базах данных, в традиционном и автоматизированном поиске. Автоматизированные технологии активно используются во всех технологических процессах библиотеки. Большинство пользователей предпочитают работать в автоматизированном режиме, обеспечивающем быстрый поиск. Задача лингвистических средств — обеспечить не только быстрый, но эффективный поиск, предоставляющий максимально полно релевантную информацию по запросу пользователя. Автоматизированные системы обычно обеспечивают поиск текущей информации, в то время ретроспективную информацию пользователю приходится искать традиционным способом в карточных каталогах. Таким образом ,ИПС библиотек сегодня включают электронные каталоги, базы данных и карточные каталоги. Эффективное использование информационно-библиотечной системы предполагает взаимосвязи составляющих ее компонентов, тесного взаимодействия всех библиотечных процессов. Нельзя забывать, что значительная часть библиотечных документов отражена только в карточных каталогах. В ЦНСХБ Россельхозакадемии в карточном комплексно-системном каталоге свыше 6 млн. карточек, а в электронном — около 1 млн. записей. Структура лингвистических средств ЦНСХБ включает ИПЯ, используемые ,как при автоматизированном, так и при традиционном поиске. В состав лингвистических средств входят классификационные и дескрипторные ИПЯ. Классификационные языки: схема комплексно-системного каталога (КСК), Отраслевой рубрикатор по сельскому хозяйству и продовольствию (ОР), Универсальная десятичная классификация (УДК). Дескрипторные языки, используемые в ЦНСХБ — Информационно-поисковый тезаурус по сельскому хозяйству и продовольствию (ИПТ), язык ключевых слов. Ретроспективный поиск традиционным путем ведется по карточному комплексно-системному каталогу (КСК), строящемуся по классификационной схеме КСК, текущий поиск ведется по электронному каталогу (ЭК) и БД “Агрос”. В процессе аналитико-синтетической обработки, на все документы, поступающие в фонд библиотеки, проставляются: систематизация КСК, индексы УДК, рубрики Отраслевого рубрикатора, дескрипторы ИПТ и ключевые слова. Т.е. в ЭК и БД “Агрос” вводится информация на всех ИПЯ, используемых в ЦНСХБ. От индексаторов, создающих поисковый образ документа (ПОД), требуется знание всех ИПЯ, что создает повышенную нагрузку на них. Ведение, поддержка и разработка ИПЯ требуют огромных трудозатрат. Использование нескольких ИПЯ объясняется, с одной стороны, тем, что каждый из них выполняет свою функцию в ИПС, а с другой стороны, аксиомой, гласящей, что не существует идеального единого ИПЯ, выполняющего одновременно все функции лингвистических средств и обеспечивающего все информационные задачи, решаемые ИПС. Каждый ИПЯ предназначен для удовлетворения определенных информационных нужд и поисковых задач. Кроме того, использование нескольких ИПЯ помогает в некоторой степени решить проблему совместимости ЛО разных ИПС, поскольку предполагает, что один из используемых в ИПС ИПЯ знаком пользователю, что значительно облегчает для него поиск в ней. Этим объясняется, что некоторые библиотеки не только не сокращают, а наоборот расширяют состав своих лингвистических средств. Примером этому служит ГПНТБ, которая ввела в состав своих лингвистических средств Классификацию Дьюи, поскольку она используется во многих американских библиотеках. Но все ли ИПЯ используются при поиске текущей информации в автоматизированной системе ЦНСХБ? Отраслевой Рубрикатор по сельскому хозяйству и продовольствию (ОР), разработан на основе Государственного Рубрикатора научно-технической информации (ГРНТИ). Его назначение: структурировать информационные массивы, полно и точно отражать политематический поток документов, поступающих на ввод в ЭК и БД “Агрос”, обеспечить полноту и точность информационного поиска, удовлетворять требованиям сортировки массивов документов при создании различных информационных продуктов, выполнять формально-логический контроль рубрик вводимых документов. ОР выполняет функции ЛО информационных изданий: текущих библиографических и реферативных журналов. ОР используется при тематическом поиске и формировании больших информационных массивов, комплектовании фонда, определяя его тематический диапазон, при индексировании документов. Пять уровней иерархии обеспечивают достаточно глубокий тематический поиск. Использование ГРНТИ во всех информационных центрах РФ позволяет использовать ОР в качестве межсистемного языкового средства, обеспечивающего взаимодействие как на отраслевом, так и на межотраслевом уровне. С его помощью возможен обмен информацией, поиск в различных ИПС. Информационно-поисковый тезаурус по сельскому хозяйству и продовольствию (ИПТ) разрабатывается в ЦНСХБ с 1992 г., за основу взят тезаурус ВНИИТЭИагропром. Терминологическая база содержит свыше 20 тыс. терминов, включающих все отрасли АПК и смежные с ним области, охрану окружающей среды и т. д. Используется при индексировании документов в ходе аналитико-синтетической обработки документов и при поиске информации в ЭК и БД “Агрос”. В автоматизированной ИПС ЦНСХБ осуществляется процедура автоматического приписывания вышестоящих терминов, что обеспечивает полноту тематического поиска. Назначение ИПТ — отражение терминологической лексики отрасли, отражении парадигматических отношений, существующих между лексическими единицами-терминами, используемыми в сельскохозяйственной науке и практике, в обеспечении контроля и нормализации отраслевой лексики и единообразном, формализованном ее представлении в БД “Агрос” и ЭК ЦНСХБ. ИПТ выполняет функцию терминологического справочника АПК. Язык ключевых слов используется в ЦНСХБ с 1992 г. при индексировании документов и информационном тематическом поиске. Ключевые слова — слово или словосочетание из текста документа, несущие наибольшую смысловую нагрузку в нем. Язык ключевых слов — это нормализованная лексика; ключевые слова записываются индексатором в процессе аналитико-синтетической обработки документа в соответствии с правилами, разработанными в библиотеке. Язык ключевых слов дополняет ИПТ, позволяя осуществлять максимально полный тематический поиск. Ключевые слова являются терминологическим резервом лексики ИПТ, из которой после соответствующей лексической обработки в ИПТ вводятся новые дескрипторы и создаются новые словарные статьи. Универсальная десятичная классификация (УДК) — используется в ЦНСХБ с 1963 г. УДК является международной классификацией, используемой более чем в 60 странах мира. Все документы, поступающие в фонд ЦНСХБ, сопровождаются систематизацией по УДК, которая вводится в ЭК и БД “Агрос”. Однако в качестве ИПЯ используется только для фонда открытого доступа книг и справочного фонда. До 1992 г. систематизация УДК печаталась на каталожных карточках ЦНСХБ, которые распространялись по системе Централизованной библиографической информации (ЦБИ) по библиотекам отрасли. Большинство библиотек отрасли строят карточные систематические каталоги по отраслевым таблицам УДК. Карточки ЦБИ выполняли функции централизованной каталогизации и систематизации; готовые каталожные карточки использовались для пополнения каталогов и картотек. Далеко не все сельскохозяйственные библиотеки уже оснащены компьютерами, карточные каталоги остаются для них единственным средством тематического поиска, а те, кто автоматизировал уже обработку документов и создает ЭК, продолжают использовать УДК наряду с ключевыми словами в качестве ИПЯ. Пока поиск по УДК не очень эффективен, но создаются авторитетные файлы УДК, электронные таблицы классификации, разрабатываются технологии приспособления этого ИПЯ для автоматизированного поиска. Вопрос о централизованной обработке документов актуален, возможно его решение на качественно новом уровне: информацию можно получать по запросу в электронной форме на дискете или по электронной почте, а затем использовать либо в ЭК, либо, распечатав в виде карточек, в карточных каталогах. Принимая во внимание, что УДК используется не только во многих зарубежных странах, странах СНГ, но и во всех технических библиотеках РФ, этот ИПЯ остается перспективным с точки зрения использования его в автоматизированном поиске, поэтому ЦНСХБ продолжает использовать его в своей ИПС. Комплексно-системный каталог (КСК) существует с 1935 г., долгое время он был единственным средством тематического поиска в ЦНСХБ. Его схема сочетает в себе принципы предметного и систематического каталогов. Разделы КСК включают предметные рубрики, расположенные в алфавитном порядке, внутри рубрик материал размещен в систематическом порядке. Отличительной чертой КСК от прочих каталогов является то, что он собирает в комплексе всю (книжную и статейную) информацию по какому-либо вопросу. В этом смысле он приближен к базам данных. Расположение документов в подрубриках в обратнохронологическом порядке делает его удобным для пользователя, предпочитающего в первую очередь знакомиться с последними документами, вышедшими по интересующему его предмету. Объем КСК составляет свыше 6 млн. карточек. В 1999 г. каталог законсервирован, это означает, что в него сегодня вливаются карточки на документы, изданные до 1999 г., которые продолжают поступать в фонд библиотеки. Таким образом, для текущего тематического поиска каталог закрыт. С 1992 г. в ЦНСХБ создается электронный каталог и с 1992 по 1998 гг. в библиотеке параллельно велись карточный и электронный каталоги, что требовало больших трудозатрат. Это объясняется необходимостью адаптировать пользователя к автоматизированной ИПС, научить его работать с ЭК и БД “Агрос”. Кроме того, требовалось оснастить читательскую зону необходимым количеством ПЭВМ. Решение о консервации КСК было принято на основе того, что пользователь уже приобрел необходимые навыки работы с ЭК и БД “Агрос”, может самостоятельно, либо с помощью посредника (дежурного библиографа) формировать тематический запрос и вести поиск в автоматизированном режиме. С консервацией КСК встает вопрос об использовании схемы КСК в качестве ИПЯ автоматизированной ИПС, о необходимости систематизации по КСК текущего входного документального потока и ввода ее в ЭК и БД “Агрос”. КСК остается основным средством тематического ретроспективного поиска и, в этом смысле он должен и будет поддерживаться (редактироваться и т. д.). Однако в библиотеке начался процесс ретроконверсии карточных каталогов, который пока идет медленно, но работа началась и, главное, будет продолжаться. Это, вероятно, сократит количество обращений пользователей к карточному каталогу. В ходе ретроконверсии систематизация КСК используется как важный источник раскрытия содержания документа, но она трансформируется и термины из систематизации записываются в поля “дескрипторы” и “ключевые слова”. Проведенные в библиотеке исследования по эффективности тематического поиска показали, что поиск по систематизации КСК, записанной в традиционном виде, невозможен, поскольку запись систематизации содержит точки, тире, цифры, которые автоматизированная система не может распознать и идентифицировать из-за отсутствия схемы КСК в электронном виде. Рассматривалась возможность создания алгоритма распознавания записи систематизации КСК; выяснилось, что этот процесс потребует больших финансовых и трудовых затрат, поскольку запись каждого из 8 разделов каталога имеет свою специфику и за годы существования ИПЯ видоизменялась много раз. Кроме того, потребуется перевести в электронную форму АПУ КСК и сами схемы, которые насчитывают 8 томов. Задача — дорогостоящая, но выполнимая, если бы этот ИПЯ был единственным лингвистическим средством тематического поиска в ЦНСХБ. Если рассматривать термины (рубрики и подрубрики), использованные в систематизации, как ключевые слова и составить поисковое предписание по ним, то поиск возможен. Но из этого следует, что необходимо преобразовать запись одного ИПЯ в другой ИПЯ — язык ключевых слов, который самостоятельно используется в автоматизированной ИПС. В таком виде поиск по предметным рубрикам КСК будет дублировать поиск по дескрипторам тезауруса и ключевым словам. КСК как ИПЯ, существующий 65 лет, накопил богатую терминологическую базу — около 45 тыс. понятий, включенных в алфавитно-предметный указатель (АПУ) и представляющих собой алфавитный список предметных рубрик и подрубрик, а также “скрытых” терминов, отраженных в документах фонда ЦНСХБ. АПУ долгое время являлся единственным терминологическим справочником отрасли, но ИПТ также отражает в алфавитном порядке терминологию отрасли и является терминологическим словарем по АПК. При этом ИПТ уже существует в электронной форме, разработано программное обеспечение его ведения и поддержки. Однако ИПТ собирает отраслевую лексику с 1975 г. и насчитывает свыше 20 тыс. терминов, что меньше объема АПУ КСК. Было проведено изучение областей терминологического покрытия ИПЯ КСК и ИПТ, которое показало, что словарный состав ИПТ позволяет адекватно отображать большую часть понятий КСК и очевидно, что с каждым годом тенденция к совместимости будет усиливаться. Предполагается, что через несколько лет термины ИПТ полностью повторят термины АПУ КСК. Степень покрытия и совпадения терминологии двух ИПЯ имеет несущественные различия. Причинами отсутствия терминов КСК в ИПТ следует считать либо “привычку” индексатора отражать какое-либо понятие уже имеющимися ,возможно менее специфическим, более широким термином ИПТ и по этой причине не поступающими от них предложениями на ввод термина в тезаурус в качестве дескриптора, либо уже принятым для ИПТ решением не включать данный термин из-за появления новой формулировки, из-за решения не вводить узкие термины в статус дескрипторов, а использовать их в качестве ключевых слов. Выявленные в ходе исследования отсутствующие в ИПТ термины включены в лексическую обработку, но выявлен ряд устаревших терминов, введение которых в ИПТ из КСК не будет осуществлено. Это позволяет сделать вывод, что хотя КСК более богатая терминологическая система, но в ней присутствует некоторый процент терминов неиспользуемых в аграрной науке, несовременных, забытых или неактуальных, в то время как ИПТ включает таких терминов значительно меньше. Это объясняется, в частности, тем, что автоматизированное ведение ИПТ позволяет отслеживать частоту встречаемости терминов, что делает работу более эффективной. С карточным АПУ КСК этот процесс требует значительно больших временных затрат. Термины, используемые в качестве ключевых слов, значительно сокращают разницу в объемах терминологических баз ИПТ и КСК, что позволяет говорить о значительном отражении терминологического состава ИПЯ КСК лингвистическими средствами автоматизированной ИПС. Кроме того, ИПТ является контролируемым автоматизированным путем лингвистическим средством обработки документов, а КСК не контролируется автоматически. Таким образом, в целях оптимизации структуры лингвистических средств автоматизированной ИПС ЦНСХБ целесообразна консервация КСК в качестве ИПЯ обработки входного документального потока, прекращение терминологического наполнения, ведения справочно-поискового аппарата и дальнейшей разработки его схемы.