Лингвистическое обеспечение автоматизированных
библиотечно-информационных систем: шаги на месте
и движение вперед в сравнении с другими
информационными системами
Linguistic Support of Automated Library and Information
Systems: Steps on the Spot and Progression in Comparison
with Other Information Systems
Лiнгвiстичне забезпечення автоматизованих
бiблiотечно-iнформацiйних систем: кроки на мiсцi i рух
вперед у порiвняннi з iншими iнформацiйними системами

Зайцева Е. М.

Государственная публичная научно-техническая библиотека России,
Москва, Россия

Ekaterina M. Zaitseva

Russian National Public Library for Science and Technology, Moscow, Russia

Зайцева К. М.

Державна публiчна науково-технiчна бiблiотека Росiï, Москва, Росiя

 

Рассматриваются состав и задачи лингвистического обеспечения автоматизированных библиотечно-информационных систем на современном этапе. Выявляются тенденции в его развитии и обсуждаются проблемные вопросы. Проводится сопоставление с лингвистическим обеспечением других автоматизированных информационных систем.

The paper considers the structure and objectives of linguistic support of automated library and information systems at the current stage. It reveals the trends in its development and discusses the issues. The matching with the linguistic support of other automated information systems is realized.

Розглядаются склад i задачi лiнгвистичного забеспечення автоматизованих бiблiотечно-iнформацiйних систем на сучасному етапi. Виявляються сучаснi тенденцiï в його розвитку i обговорюються проблемнi питання. Проводиться зiставлення з лiнгвистичним забезпеченням iнших автоматизованих iнформацiйних систем.

Состав и задачи лингвистического обеспечения различаются в зависимости от вида информационной системы: автоматизированной библиотечно-информационной системы (АБИС), электронной библиотеки, информационно-поисковой системы в Интернете и т. д.

Начнем с рассмотрения лингвистического обеспечения библиотечно-информационных систем, имеющего более глубокие традиции, более разработанного и способного в определенной степени выступать в качестве основы лингвистического обеспечения других информационных систем.

Лингвистическое обеспечение современной АБИС можно определить как совокупность применяемых в технологии АБИС информационных языков, лингвистических процессоров, словарей и авторитетных файлов. Основные функции лингвистического обеспечения АБИС связаны с обеспечением индексирования документов и запросов и эффективного поиска в электронном каталоге. Лингвистическое обеспечение корпоративной АБИС в отличие от локальной АБИС носит более универсальный или комплексный характер (например, может включать несколько классификационных языков или единую систему предметных рубрик) и требует соблюдения дополнительных условий реализации лингвистической совместимости.

Словарные средства АБИС обычно требуют многолетнего рутинного ведения, поэтому прогресс в развитии лингвистического обеспечения не столь очевиден, как, например, в развитии аппаратного или программного обеспечения. При этом очень часто именно изменение или усложнение последних компонент вызывает продвижение вперед первой. Можно выделить следующие современные тенденции в развитии лингвистического обеспечения АБИС:

1. Комплексное использование элементов библиографического описания, классификационных индексов, ключевых терминов/слов, предметных рубрик в качестве ключевых элементов при поиске.

Следует избегать смешения понятий ключевых терминов и ключевых слов и применения при индексировании одновременно и тех, и других элементов. Это приводит к усложнению правил нормирования лексики и правил индексирования, что затрудняет работу индексаторов. Использование стандартизованных изолированных прилагательных в форме единственного числа требует знания пользователем правил индексирования или же обязательного наличия в системе лингвистического процессора отсечения окончаний. Перевод прилагательных в существительные при нормировании ключевых слов влечет за собой проблему выбора слов/основ при составлении поискового предписания. Кроме того, индексирование документов с помощью ключевых слов не дает возможности пользователю получить представление о содержании документа на основе ПОДа и судить о релевантности документа.

2. Применение в технологии индексирования одного или нескольких классификационных языков, обеспечивающих поиск по широкотематическим запросам, и хотя бы одного вербального языка, обеспечивающего поиск по узкотематическим запросам. В числе классификационных языков один должен быть универсальным, а другие могут носить отраслевой или локальный характер (например, классификация стандартов, патентов, архивная классификация).

3. Среди вербальных языков наблюдается тенденция к предпочтительному использованию в качестве языка индексирования языка ключевых терминов, в наибольшей степени отвечающего потребностям пользователя в актуальной терминологии при узкотематических запросах. Возможно применение контролируемого (на основе словаря) или свободного (неконтролируемого словарем) индексирования. В любом случае предпочтительно иметь тезаурус и использовать его для обогащения поисковых предписаний. Преимущества тезауруса по сравнению со списком ключевых слов/терминов очевидны. В списках ключевых слов/терминов не отражены смысловые связи между терминами, при этом алфавитный порядок расположения терминов усугубляет эту разобщенность: родственные понятия удалены друг от друга. Использование тезауруса в информационно-поисковых системах повышает качество анализа текста и полноту поиска информации, позволяя расширить запрос синонимическими, более общими или более частными понятиями.

4. Ведение и поддержка в актуальном состоянии баз данных классификационных систем, тезаурусов, предметных рубрик, применяемых при индексировании и поиске. Ведение авторитетных файлов и их использование при каталогизации и поиске документов.

5. Организация поиска в классификационных базах данных по ключевым словам с последующим выходом на поиск по классификационному индексу/ам в электронном каталоге. Ведутся работы по созданию конкордансных таблиц разных классификаций, классификационной системы и системы предметных рубрик или ключевых терминов.

6. Увеличение количества и усложнение лингвистических процессоров в составе лингвистического обеспечения АБИС. К таким процессорам относятся процессоры транслитерации, трансляторы ПОДов с одного языка индексирования на другой, грамматические процессоры типа процедур отсечения окончаний или идентификации словоформ одного слова, словарные процессоры, т. е. средства автоматизированного ведения словарей, например, процессор словарно-грамматической фильтрации слов, процессор тезаурусной фильтрации терминов.

Лингвистическое обеспечение электронной библиотеки, оперирующей текстовой информации, неизбежно должно иметь свои особенности. Большие объемы текстовой и гипертекстовой информации создают значительные трудности при ее классификации традиционными “библиотечными” способами. Интеллектуальная обработка требует значительных временных затрат, что несовместимо с необходимостью оперативного анализа текстовых документов. Поэтому в рассматриваемой сфере реализуются разработки технологий автоматической обработки текста (в частности, автоматического смыслового анализа), автоматического индексирования текстов, аннотирования или реферирования и смыслового поиска в информационных ресурсах на естественном языке (напр., Университетская информационная система “Россия” http: //www. cir. ru , работающая по модели тематических узлов; электронная архивная система RetrievalWare, реализующая технологию семантических сетей). Таким образом, лингвистическое обеспечение в этой сфере идет по пути интенсивного развития лингвопроцессорной компоненты, которая сопровождается развитыми тезаурусными и грамматическими словарями. Следует отметить, что классификационные и вербальные информационно-поисковые языки в электронных библиотеках практически не используются, что является, на наш взгляд неоправданным упущением.

Электронные библиотеки, помимо указанных немногочисленных интеллектуальных библиотек, характеризуются следующими видами представления информации и поиска:

1. Представление ресурсов в виде списков с предоставлением выбора из них, например авторов и произведений (Online библиотека http: //www.bestlibrary.ru, ЭБ художественной литературы http://www.e-kniga.ru).

2. Представление ресурсов в виде списков и организация поиска по элементам библиографического описания, например по автору и словам, содержащимся в заглавии (ЭБ Максима Машкова http: //www. lib. ru ).

3. Представление ресурсов в виде списков и организация поиска в полных текстах документов по ключевым словам (ЭБ Мир энциклопедий http: //www. encyclopedia. ru ).

4. Организация поиска по элементам библиографического описания и в полных текстах документов по ключевым словам (ЭБ Русская литература и фольклор http: //feb-web. ru ).

5. Организация поиска по элементам библиографического описания, в полных текстах документов по ключевым словам и поиска с использованием информационно-поисковых языков классификационного или вербального типа, например, по автору, по словам, содержащимся в заглавии, аннотации, полном тексте документов, и по самостоятельно оформленным ключевым словам и рубрикатору ГРНТИ (ЭБ РФФИ http: //elibrary. ru ).

Современные требования к электронным библиотекам позволяют считать полноценной только библиотеку пятого типа и разработки интеллектуальных библиотек.

Аналогичное положение в плане соотношения компонент лингвистического обеспечения наблюдается в практике работы поисковых машин в Интернете. Каталоги (классификации), использующиеся в наиболее крупных российских поисковых системах Rambler, Aport и Yandex, разнородны, малы и не носят универсального характера. В силу этого они оказывают слабую помощь пользователю при поиске нужной информации. Очевидно, что число классификаций должно быть минимальным и они должны носить универсальный характер. Лингвопроцессорная часть в указанных поисковых системах находится на высоком уровне, включая морфологический анализ обрабатываемых терминов или даже обработку составленного на естественном языке фразового запроса, как например в Yandex. Для описания электронных ресурсов, по аналогии с элементами библиографического описания, целесообразно использовать систему метаданных, например, схему Dublin Core. Однако наличие последних двух компонент не обеспечивает удобный и эффективный поиск.

Таким образом, для Интернета актуальна задача разработки качественной поисковой системы, которая при использовании хорошо разработанных классификационных или вербальных средств гарантировала бы высокую точность, полноту и оперативность поиска в сочетании с разнообразными возможностями составления запроса.