Концепция удаленной ретроконверсии
Remote retrospective Conversion Concept
Концепція віддаленої ретроконверсії
Гурбатов Д.
ЗАО “Гипер”, Москва, Россия
D. Gurbatov
“Giper” Company, Moscow, Russia
Гурбатов Д.
ЗАТ “Гіпер”, Москва, Росія
Доклад посвящен одному из самых перспективных вариантов проведения ретроконверсии библиотечных фондов – удаленной ретроконверсии. Рассматривается общая концепция данного подхода, а также практическая реализация описанной схемы на примере работы фирмы по ретроконверсии каталогов ВГБИЛ.
One of the most prospective way of retroconversion of library catalogue funds – the remote retro-conversion is described. The general concept of this method and its practical realization are considered on the basis of experience of the Library’s catalogue retrospective conversion.
Проблема ретроспективной конверсии, пожалуй, волнует сейчас любую библиотеку. Слишком велик соблазн иметь структурированное электронное хранилище всех библиотечных фондов, избавиться от пыльных и малоэффективных бумажных каталогов, представить информацию о библиотеке и ее фондах в сети Internet, иметь удобную систему поиска информации, контроля и управления.
Как правило, проблема решается следующим образом. Создается система ввода каталожной информации (в виде специализированного автоматизированного рабочего места), в которой, обычно вручную, вводятся записи о всех вновь поступивших изданиях.
При этом встает целый ряд проблем и первая из них: “Что делать с теми сотнями тысяч или миллионами каталожных карточек, которые уже находятся в каталогах?”.
Компания “ГИПЕР” работающая более пяти лет на рынке информационных технологий и специализирующаяся в области обработки больших массивов неструктурированной информации предлагает свое решение этой проблемы. Совместно со Всероссийской Государственной Библиотекой Иностранной Литературы им. Рудомино (ВГБИЛ) компания провела тематические исследования, в результате которых была выявлена низкая производительность ручного ввода информации и абсолютная его непригодность для проведения комплексной ретроспективной конверсии .
Суть нового метода заключается в максимальной автоматизации всего процесса перевода бумажных каталожных карточек в электронные записи базы данных. И в данной области компания уже имеет положительные результаты, подтверждаемые уже годовым сотрудничеством ЗАО “Гипер” с ВГБИЛ. Суть моего доклада заключается не в описании особенностей нашего метода проведения ретроконверсии, а в попытке определить дальнейшие перспективы этой технологии.
Общее описание удаленной ретроспективной конверсии.
В чем же заключается суть удаленной ретроспективной конверсии. Технологически весь процесс использует клиент/серверную концепцию обработки информации, согласно которой только простейшие операции (нересурсоемкие) проводятся на месте, в конкретной библиотеке, вне зависимости от ее географического расположения. Основная обработка, требующая больших вычислительных ресурсов, проводится на территории главного офиса компании “Гипер” в Москве. Для этого в коллективе ЗАО “Гипер” созданы две группы: “мобильная” и “стационарная”.
Работа “Мобильной группы” заключается в первую очередь в настройке программного обеспечения в библиотеке и сканирования библиотечных фондов.
Численность мобильной группы может варьироваться от двух до четырех человек. В ее состав входят только операторы, ответственные за настройку программного обеспечения и сканирование информации в каталогах библиотеки. В числе оборудования, перевозимого с собой мобильной группой, входят сканеры, записывающие устройства СD-ROM (для записи отсканированной информации) и необходимое программное обеспечение.
Отсканированные каталожные карточки предварительно учитываются во внутренней системе учета и записываются в виде графических файлов на CD-ROM. Далее готовые диски по мере их готовности отсылаются в центральный офис ЗАО “Гипер” (с использованием обычных почтовых служб, таких как DHL и т.д.) “стационарной” группе обработки информации.
“Стационарная группа” является главным звеном в проведении ретроспективной конверсии. И если, в принципе, работа нескольких мобильных групп в разных библиотеках и в разных городах не исключена, то стационарная группа может быть только одна и может обрабатывать информацию от нескольких мобильных групп одновременно. Конечной целью работы “стационарной” группы является занесение информации из каталожных карточек (поступивших в виде графических изображений) в базу данных, заранее согласованного с библиотекой формата.
В обязанности группы входят процессы:
- распознавания поступившей графической информации, т.е. перевода информации из графического в текстовый вид;
- предварительного автоматизированного исправления информации;
- анализа информации (самый технологически сложный процесс, устанавливающий однозначную принадлежность того или иного элемента неструктурированного текста к одному из полей базы данных);
- внесение записей, соответствующих каталожным карточкам, в базу данных;
- возвращение данных в библиотеку в виде базы данных требуемого заказчиком формата и сопутствующего программного обеспечения.
В состав данной группы входят все остальные сотрудники ЗАО “Гипер”.
Преимущества удаленной ретроспективной конверсии.
В чем основные достоинства и недостатки такого подхода? Прежде всего о достоинствах. Одним из самых главных преимуществ является снижение себестоимости проведения ретроспективной конверсии для отдельно взятой библиотеки. Учитывая малочисленность “мобильной” группы и относительную независимость от используемых на месте ПЭВМ, топологии локальной вычислительной сети, затраты могут уменьшиться на порядок.
Помимо этого, учитывая, что вся основная обработка проводится стационарно, уменьшается общее время на организацию работы по проведению ретроспективной конверсии. Нет необходимости прокладки локальной сети, перевозки большого количества ПЭВМ и т.д. Время на настройку системы в “мобильном” варианте ничтожно по сравнению с настройкой всего комплекса программного обеспечения, необходимого для проведения анализа и разнесения информации в базу данных.
Поддержка интернационализации.
Одной из самых неразрешимых проблем до недавнего времени было отсутствие единых стандартов для представления и обработки информации на различных языках. Наш подход основывается на новейших технологиях компании Microsoft. Последние продукты этой одной из самых известных в области информационных технологий фирмы позволяют решить большинство проблем языковой несовместимости. К ним в первую очередь относятся семейство офисных продуктов Microsoft Office 2000 и мощный сервер баз данных SQL Server 7.0, поддерживающие международный стандарт кодирования UNICODE. В результате информация, обработанная в компании и переданная в библиотеку, вне зависимости от основного языка библиотечных фондов, будет представлена на языке оригинала без искажений (с диакритами).
Учитывая ближайший выход Microsoft Office 2000 на русском языке и наличие в нем универсального шрифта для всех стран СНГ (как латиницу, так и кириллицу), можно в перспективе говорить о возможности проведения удаленной ретроспективной конверсии в любой библиотеке бывшего СССР.
Недостатки удаленной ретроспективной конверсии и пути их решения.
Конечно, не следует отрицать и наличие недостатков данного подхода. Учитывая, что весь процесс ретроспективной конверсии является очень ресурсоемким процессом, предусматривающим помимо самой обработки и стадию приема библиотекой готовой информации, неизменно будут возникать различные ситуации возврата информации по причине брака и т.д. В этом случае оперативность реагирования на замечания может оставлять желать лучшего. Возникает также вопрос с возвратом части данных на повторную обработку с учетом возникших замечаний и т.д. В этом случае весь процесс грозит превратиться в постоянную автомобильную пробку для обрабатываемой информации. Компанией “Гипер” были проведены исследования данной проблемы и найдены адекватные решения по ее устранению. Суть их заключается в следующем:
Выводы.
Безусловно, сложность данной технологии, наличие до недавнего времени непреодолимых проблем (интернационализации, качества распознавания графических образов) во многом определила отсутствие до недавнего времени положительного опыта в области ретроспективной конверсии. Однако в последние пять лет ситуация кардинально изменилась. Решены проблемы интернаци-онализации, вычислительные мощности ПЭВМ уже позволяют проводить сложный многоступенчатый анализ информации. Мы надеемся также, что положительный опыт нашей компании во Всероссийской Государственной Библиотеке Иностранной Литературы будет замечен как ведущими библиотеками стран СНГ, так и библиотеками других государств мира.