Сельскохозяйственная электронная библиотека знаний — подход к созданию
Аветисов М.А.
Центральная научная сельскохозяйственная библиотека, Москва, Россия
M.A. Avetisov
Central Scientific Agricultural Library, Moscow, Russia
М.А. Аветісов
Центральна наукова сільськогосподарська бібліотека, Москва, Росія
Рассматривается подход к созданию электронной библиотеки, при обращении к которой пользователь может иметь доступ не только к полнотекстовым документам, но и к справочным материалам, словарям, тезаурусу, рубрикатору ГРНТИ, информационным базам по различной тематике, объединенным в единое поисковое пространство с запросами на языке, близком к естественному.
The report is devoted to an approach to establishing a digital library capable of providing access to fulltext documents, reference materials, dictionaries, thesauruses, GRNTI codes, and information bases on various subjects, all of which are integrated in a common search space and accept queries formulated in a language close to natural.
Розглядається підхід до створення електронної бібліотеки, при зверненні до якої користувач може мати доступ не тільки до повнотекстових документів, але і до довідкових матеріалів, словників, тезаурусу, рубрикатора ДРНТІ, інформаційних баз різної тематики, об'єднаних в єдиному пошуковому просторі з запитами на мові, близькій до природної.
Бурное развитие компьютерных технологий, средств телекоммуникации и сети Интенет привело к соответствующему стремительному росту информации, которая генерируется в электронной форме и становится доступной широкому кругу пользователей. Возможность хранения огромных массивов информации, включающих полные тексты документов, изображений, аудио и видеоматериалов позволяет создавать центры, в которых эти материалы накапливаются и предоставляются в доступ.
В большинстве случаев такого рода сервис именуется электронными библиотеками, хотя до сих пор нет четкого определения, что же такое электронная библиотека. В соответствующей литературе рассматриваются всевозможные аспекты, связанные с понятием “электронная библиотека”, например, Вильям И. Армс
(William Y. Arms), “Цифровые библиотеки”, подготовленная к изданию С. Арнаутовым. На практике появляются различные коллекции самого разнообразного характера, авторы которых также именуют их “электронными библиотеками”.Опыт, накопленный ЦНСХБ при создании своих электронных каталогов и баз данных, современное состояние технических средств библиотеки позволило нам поставить задачу о создании электронной библиотеки. РФФИ поддержало нашу заявку, а соответствующий грант на создание сельскохозяйственной электронной библиотеки знаний (СЭБиЗ) позволил начать работы.
Какие цели ставили мы перед собой, и для кого создается электронная библиотека?
ЦНСХБ является крупнейшей научной библиотекой страны, обслуживающей ученых, аспирантов, учащихся высших учебных заведений в области сельскохозяйственной науки. В последнее время библиотека ориентируется и на практиков сельского хозяйства, а с включением в фонды библиотеки фондов библиотеки пищевой и перерабатывающей промышленности, — и на специалистов этой отрасли народного хозяйства. Библиотека принимает активное участие как научный информационный орган в создаваемой в стране Информационно-консультационной службе по сельскому хозяйству. В связи с этим декларируемая цель состоит в создании такой коллекции информационных ресурсов, которая дополняла бы электронные каталоги библиотеки и позволяла бы пользователю получить необходимые сведения справочного характера или полные тексты документов по актуальным проблемам науки. Нам представляется, что “репертуар” электронной библиотеки как минимум, должен включать, кроме электронных каталогов и реферативной информации, как упоминалось выше, следующие разделы:
В дальнейшем эти разделы электронной библиотеки будем именовать информационными ресурсами (ИР) СЭБиЗ. Каждый ИР имеет, вообще говоря, свою структуру данных. Документы могут содержать иллюстративные материалы — графику, фотографии, а в ряде случаев и фрагменты аудио и
видеоматериалов, могут содержать ссылки на соответствующие страницы в сети Интернет.К сожалению, нет единообразного механизма формирования информационных ресурсов электронных библиотек. В настоящее время для традиционных библиотек наиболее продвинутой следует считать процедуру формирования электронных каталогов. Здесь отработаны форматы, имеется необходимое программное обеспечения для ввода, поддержки, поиска и отображения соответствующих записей. Что касается других материалов, представляемых в электронных библиотеках, то здесь приходится решать целую серию задач, для обеспечения достаточно производительного и безошибочного ввода и преобразования данных к тем форматам, которые позволяют обеспечивать эффективный поиск и отображения информации. Некоторые подходы к их решению приводятся ниже.
Следующим принципиальным моментом при подходе к созданию СЭБиЗ является выбор организации данных, средств и механизма преставления их пользователю и персоналу для обслуживания электронной библиотеки. Очевидно, что использование современных СУБД, в которых организована поддержка гипертекстовых связей и которые обеспечивают доступ к данным по протоколу
HTTP, являлось бы идеальным решением. Однако, если таковые решения и имеются, то они нам не доступны по различным достаточно понятным причинам.Следует отметить характерную особенность данных, представляемых в электронной библиотеке. Эти данные слабодинамичны, т.е. будучи единожды введенными они практически на изменяются. Эта особенность данных позволила нам рассмотреть схему создания библиотеки, где данные вводятся, корректируются и обогащаются, например, при аналитико-синтетической обработке информации, в одну среду, например
ISIS или SQL, а для предоставления их в доступ пользователям они перегружаются в другую среду, связную структуру HTML-страниц — базу данных информационно-поисковой системы.Естественно, при таком подходе необходимо отдавать себе отчет, что к ИПС должны предъявляться достаточно жесткие требования, а именно:
В полной мере удовлетворяет этим требованиям ИПС “Артефакт”, первая версия которой использована в ЦНСХБ для предоставления в доступ пользователям в Интернете и Интранете электронных каталогов и различных баз данных. Система разработана специалистами информационного агентства “Интегрум-Техно”. Как основа при создании СЭБиЗ используется следующая версия системы, которая позволяет работать с данными в HTML-формате.
Здесь уместно сделать еще одно замечание. В настоящее время ситуация в развитии компьютерной техники такова, что большая часть библиотек при нынешних уровнях инвестиций гораздо медленнее накапливают электронные ресурсы, чем возрастет быстродействие компьютеров и объемы памяти для хранения информации. Это позволяет надеется, что принимаемые решения достаточно долговременны и технические ограничения наступят не скоро.
ИПС Артефакт учитывает морфологию русского языка (а также английского, в версии ЦНСХБ и ряда других европейских языков в полной версии), соотношение слов в предложении, обеспечивает возможность поиска в поименованных данных, обработку дат.
Принципиальным при выборе ИПС “Артефакт” является и то обстоятельство, что имеется возможность осуществлять обработку как текста, который пользователь формирует в качестве запроса, так и результата поиска. Обработка текста запроса на входе позволяет обеспечить дополнительные возможности, такие, как поиск с расширением запроса по тезаурусу, подключение перевода, использование лексики и кодов различных классификаторов и т.п. Обработка результатов поиска позволяет воспользоваться не только возможностями поиска в структурированных данных, определяемых собственно Артефактом, но и позволяет значительно глубже структурировать данные, обеспечив при этом полноценный поиск.
Возможности, представляемые языком
HTML, позволяют подключать модули для вызова динамически меняющихся данных из основных баз данных, в которые вводятся ИР.Отдельно следует сказать и о проблеме наполнения ИР.
Значительная часть материалов образуется в результате сканирования и распознавания печатной продукции. Поскольку поиск в СЭБиЗ обеспечивается по всему текстовому пространству электронной библиотеки, то существенным для отображения найденного документа является разумное его структурирование на фрагменты, выделение среди текста необходимых элементов типа фамилий авторов, аннотаций, оглавлений и т.п. Отдельной задачей представляется и организация поиска и отображения документов старых книг (книг с дореформенной 1918 г орфографией). Следует учитывать, что поисковые системы даже использующие (тем более использующие)
морфологический разбор текста, не работают со старыми языковыми формами, что, в частности, относится и к ИПС Артефакт. Используемые нами методы позволяют обеспечить поиск с учетом современных правил написания слов и алфавита, а также отображения, при необходимости соответствующих страниц первоисточников в исходном виде. Словари и справочники, загружаемые в электронную библиотеку, если они создаются на основе печатной продукции, требуют решения дополнительных проблем. Это разбиение на отдельные статьи, выделение заголовков статей, автоматическое распознавание ссылок на другие статьи. При вводе дореволюционных словарей возникают еще проблемы связанные с изменением грамматики и правописания русского языка. Предлагаются некоторые процедуры формирования такого типа информационных ресурсов. Значительное количество справочного материала в библиотеках размещается на каталожных карточках. В частности, в ЦНСХБ это и картотеки латинских наименований вредителей сельского хозяйства, и картотеки наименований растений, гербицидов и инсектицидов и т.п. Разработаны механизмы образования соответствующего ресурса.При формировании информационных ресурсов типа справочников персоналий и организаций приходится решать вопросы форматов представления этих данных, а также организации взаимосвязи между этими ресурсами.
В заключение следует отметить, что изложенный подход частично уже реализован на сайте ЦНСХБ (в разделе поиски в информационных ресурсах) и на сайте сельскохозяйственной электронной библиотеки знаний (
www.cnshb.ru/akdil). Мы находимся в начале пути. Предстоит большая работа по совершенствованию структуры и СЭБиЗ и данных ИР и, главное, по наполнению ИР необходимой информацией.