The Universal Decimal Classification as a Basis for the Library Language of Subject 
Presentation and Search of Documents in 21st Century  
Shpakov A.A.  
Private consultant, Moscow, Russia  
  
   "As to your idea - that most or all existing classification systems should be replaced by a 
more unified, comprehensive system - I suppose that will come". 
   Heilprin L.B. - to Shpackov A.A., 1990.  
   "It (the Universal Knowledge Organisation or Universal Classification - S.A.A.) is a 
scheme that most certainly should attract the attention of those devoted to the 
development of the "World Brain". 
   Debons A. (J. Amer. Soc. Inform. Sci., vol.43, no.10, 1992).  
   On the base of the classiology the Universal Classification (UC) of all matter forms 
(objects) and their attributes (phenomena, laws, sciences and practices) is made. UC was 
transformed into noiseless and multilingual Universal theme presenting-searching dictionary 
(UTPSD) according to the search informology. It has matemathics, combinatorics, 
homology, cibernetics, universology, informology, phisiology and other foundations.  
   The informological technology permits to increase efficacy in particularly library bases for 
theme searches (LBTS) in a lot of times. It had proved by several real informological 
systems for theme searches (STS).  
   UC is the universal Knowledge Organisation or the Mankind Intelligence. Therefore 
informological LBTS and STS are intellectual ones. The document presentation and theme 
searches algorithms are simple. Hence these processes may be automatic, cheap and 
accessable for all users.  
   It is proposed to make complete UC and UTPSD (INFORMOTRON Project) and with help 
of the ready these tools to unify all LBTS and other STS. The LBTS and STS unifying will 
help easy to make setization of all world's information systems. The future libraries set will 
become virtual library of the Earth and possible of the Universe.

Универсальная классификация как основа библиотечного языка тематического представления и поиска документов в XXI веке

Шпаков А.А.

Частный консультант, Москва, Россия

"Что касается вашей идеи, что большинство или все существующие классификационные системы следует заменить одной, более общей и всеохватывающей, то я полагаю, что это свершится".

Хейльприн Л.Б. - Шпакову А.А., 1990 г.

"Универсальная Организация Знания (Универсальная Классификация - Ш.А.А.) является схемой, которая должна привлечь внимание тех, кто занимается созданием "Мирового Мозга".

Дебонс А. (журнал Амер. об-ва для информац. науки, т.43, № 10, 1992 г.).

В XX веке библиотечное дело во многом претерпело положительные изменения в результате научно-технического прогресса. Главным достижением является использование электронного копирования и передачи практически на любые расстояния изображения дублей документов и других информативных объектов, их звуковых и иных характеристик по отдельности (данные) или в комплексе (мультимедиа). Электронное копирование стало ключевым инструментом информационных и компьютерных технологий библиотечных и других информационных систем и сетей.

Несмотря на оснащение ряда библиотек электронной техникой, один аспект библиотечной работы остается таким же, как в средние века. Речь идет о предметно- тематическом поиске. Методом получения тематических подборок документов (ТПД) является прямой поиск - прочтение, листание или просмотр (броузинг) документальных баз библиотечных СТП. Компьютеризированным видом прямого поиска являются поиски ТПД при просмотре полнотекстовых баз данных. Автоматический поиск тематической информации при помощи БТП настолько несовершенен, что прямой визуальный или компьютеризированный виды поиска остаются решающими. Но прямой поиск дорогой, длительный и не может применяться для массового он-лайнового пользователя, для глобального решения проблемы поиска тематической информации.

Для массового автоматического поиска ТПД предназначены БТП, к которым относятся записи ключевых слов документов, дескрипторные поля, форматы, электронные предметные и систематические каталоги и т.п. Несовершенство работы СТП в автоматическом режиме заставляет использовать автоматизированный (с участием человека) метод, который фактически является все тем же прямым поиском. Человеко-машинные диалоги являются одним из главных средств прямого поиска максимально полных и релевантных ТПД. Именно диалоги удлиняют и удорожают тематические поиски.

Этот аспект библиотечной деятельности требует кардинальных перемен сначала в мышлении теоретиков и практиков библиотек, а затем в их работе, в библиотечных технологиях. Поисковая информология призвана сделать этот переворот. Ее сущность заключается в переходе от индексирования к тематизации. В основе переворота лежит идея универсального классифицирования.

Воспитанные в течение многих поколений на монодисциплинарном подходе эмпирических библиотечных классификаций исследователи проблем библиотек должны понять, что индексирование, т.е. определение предметной (дисциплинарной) области документа, не идентично представлению поисковых тематических признаков документов (ПТПД) в автоматических БТП - тематизации.

Тематизация требует универсального метода, каким располагает информологическая технология. Она старше индексирования и поэтому никак не связана и независима от него. Универсализм необходим потому, что отдельные объекты, явления, законы, науки, практики, их денотации (информативные слова), документы, фонды, базы данных и т.д. универсальны, служат многим дисциплинам и поэтому полидисциплинарны (полиаспектны, междисциплинарны, политематичны, кроссдисциплинарны и т.д.).

Монодисциплинарный подход оправдывал себя в организации небольших библиотечных фондов. Но с их увеличением до десятков миллионов единиц хранения и в связи с перспективной виртуальной библиотеки мира, которую в 30-х годах XX века Х.Г.Уэльс назвал Мировым Мозгом, он не только себя изжил, но и стал тормозом в библиотечном деле. До сих пор не многие это осознали, многие пытаются развивать основу монодисциплинарного подхода - УДК, ББК, ДКД (десятичная классификация Дьюи), КБК (классификация библиотеки Конгресса США) и т.п. Однако, это тупиковое направление.

Давнишнюю идею Универсальной Классификации ученые пытались воплотить в названных классификациях, в которых первичным признаком группирования документов является предметная область, наука, дисциплина или сфера практической деятельности. И хотя эти классификации не стали полноценными информационно- поисковыми языками (ИПЯ) идея Универсальной Классификации не дескридитирована. К ней периодически возвращаются исследователи и нашего времени. Она исходит из концепции материалистической диалектики утверждащей, что объективный мир представляет собой единую систему родственных друг другу объектов, явлений, законов, наук и практик. Из концепции единства следует вывод, что о едином мире должно существовать единое истинное значение, которое фрагментировано в документах и других информативных объектах, перемешано в библиотечных и других хранилищах, в базах данных и т.п.

Библиотечные и другие всеобщие классификации в форме ИПЯ должны являться этим знанием и должны были по мере надобности восстанавливать это единство между любыми носителями сведений и опыта. Библиотечные и другие информационно-поисковые системы (ИПС) должны выдавать релевантные ТПД на основе ИПЯ по тематическим запросам, представляющим собой отдельные слова, их группы или фразы без полных библиографических описаний требуемых документов. СТП сначала должны найти библиографические данные соответствующих документах, а затем по ним - выдавать ТПД. Однако...

Индустрия информационного тематического обеспечения, значительную долю которой составляют библиотеки, оказалась в кризисе. Его корни уходят в методологию, логику и философию, в частности, классифицирования.

До недавнего времени теории классифицирования не существовало и классификации создавались эмпирически /Parker S.P., 1982; Чебанов С.В., 1983; Розова С.С., 1986; Мучник И.Б., 1989; Фоскетт Д.Д., 1989; Николаев И.Б., Серебрянская Л.А., 1991; Grolir E., 1991, 1990/. Не было также философских, методологических и логических /Peters A.T., 1991; Александров Г.Н., Тшиева Т.Л., 1991; Brier S., 1992; Carapuca R., Andrade L., Sernadas A., 1988; Д'Авис В., 1991; Dahlberg I., Fugman R., 1990; Debons A., 1990; Fazekas A., 1990, Georg F.H., 1989; Гераськова Л.С., 1992; Grolier E. 1990, 1991; Guido G., Tasso C., 1989; Hirscheim R., Klein H.K., 1992; Iivari J., 1988; Leazer G.K., 1992; Leith P., 1989; Reynold S.J., 1989; Соколов А.В., 1991; Weichelberger K., Polmann S., 1990/, информационных /Debons A., 1990; Van Rijsbergen C.J., 1991; Bing J., Fjeldvig T., Harvold T., Svoboda R., 1984; Brown J.S., 1986; Хархардин М.В., 1983; Gillman P.L., 1990; Ginsberg M.J., Zmud R.W., 1988; Heilprin L.B., 1989; Jones K.P., 1989; Jordan J.S., 1989; Корогодин В.И., 1981; Shively D., 1988; Van Rijsbergen C.J., 1986; Wagner G., 1990/ оснований классификационного процесса. Эмпирическими были и ИПЯ, созданные на базе эмпирических классификаций. К тому же отсутствовала теория представления документов в БТП при помощи ИПЯ.

Кризис особенно невыносим для библиотекарей, психологически испытывающих на себе недовольство как читателей-пользователей, так и тех, кто финансирует библиотеки. Последние рассуждают примерно так: с каждым десятилетием расходы на библиотеки удваиваются, а улучшения их работы в аспекте тематического обслуживания не видно, хотя библиотеки ряда стран компьютеризированы, информатизированы и сетизированы, в том числе при помощи телекоммуникаций. Престиж библиотекарей и информационных работников падает.

В течение 25 лет исследования информационной проблемы было создано учение об универсальном классифицировании (классиология /В.Л.Кожара, 1984/) и на его основе неполная УК (рис.). Основаниями классиологии являются математика, комбинаторика, гомология, кибернетика, универсология (учение об универсальных и других аспектах взаимопревращения всех форм материи и ее атрибутов), физиология высшей нервной деятельности (И.П.Павлов), информология (истинная или нейрофизиологическая теория информации), терминология и т.д. Классиология интегрировала известные и новые истинные идеи названных наук и в свою очередь является основанием поисковой информологии. Последняя обеспечит наибольшую эффективность библиотечно-информационных технологий и систем.

Истинными являются знания, которые в 100% случаев обеспечивают предвидение, воспроизводимость и управляемость результатами практического применения сведений. Примером истинных знаний является закон Архимеда о выталкивающей силе, действующей на тела, которые погружены в жидкость. Кораблестроение основано на этом законе, подтверждая аксиому, что нет ничего более практичного, чем истинные знания и теории. Поисковая информология также может служить доказательством справедливости этой аксиомы.

Метод создания УК заключается в следующем. Отнести объект к тому или иному классу можно только зная морфологию, т.е. состав и структуру (пространственное положение элементов и/или частей) объекта. Это познавательный этап или гносеологический материал классифицирования.

Собственно классификацию создает классиолог. На основе критериев старшинства была установлена иерархия классов объектов и был построен объективный стержень будующей УК, ступени и разветвления которого представляют физическую систему мира, упоминавшуюся еще М.В.Ломоносовым. Названия классов объектов на схеме УК (рис.) напечатаны заглавными буквами без интервалов, соединены стрелками.

Каждый объект данного класса является комбинацией объектов нижележащего, старшего класса. Это морфолого-генезисная связь между всеми формами материи и ее атрибутами. Генетическая связь однонаправленная: атомы образуют молекулы и молекулы происходят из атомов, а не из веществ, хотя вещества и могут переходить в отдельные молекулы, переставая быть веществами. То же можно сказать и об атомах, которые происходят изначально из элементарных частиц, а не из молекул. Формирование объектов из старших материальных образований (элементов) - это прогресс, из младших (получение атомов из молекул) - это регресс. Между любыми объектами существует родство, его можно выявить на схеме УК (рис.) и его реализация контролируется законами физики, химии и других наук.

Против каждой объектной ступени (класса) после трех точек указаны относительно специфичные явления объектов данного класса. Названия явлений напечатаны строчными буквами без разрядки. Три точки означают все явления всех более старших классов, наследуемых объектами данного класса в соответствии с законами сохранения, старшинства и однонаправленности универсальности (рис.).

Вблизи соответствующих объектов и явлений были проставлены их законы (Группы слов, каждое из которых начинается с большой буквы, заканчивающихся точкой.).

Предметы определили места наук (крупный в разрядку шрифт), а затем - практик (слова, напечатанные в разрядку и начинающиеся с большой буквы).

Первое достоинство УК заключается в ее компактности. На одной странице уместилась гносеологическая картина мира. Данная версия УК неполная. Ее полный вариант, по-видимому, не превысит площади десятка страниц формата А4. УДК составляет десятки томов.

Вторым преимуществом УК по сравнению с эмпирическими классификациями является то, что она фактически и потенциально включает, как мне представляется, все другие классификации в информологическом варианте. Ук открытая система благодаря своей комбинаторности и может расти бесконечно, оставаясь дружелюбной, простой и доступной для всех.

Одной из проблем всеобщих эмпирических классификаций является то, что в них трудно встроить новые знания. По этому поводу Л.Б.Хейльприн писал мне: "Эти системы (например, УДК и классификация библиотеки конгресса США) постоянно нарушаются новыми знаниями, которые необходимо ввести внутрь этих систем... куда?... в какие уровни?... в связи с какими другими областями?..." (1990). Первичность объектов, вторичность явлений, третичность законов, четвертичность наук и пятеричность практик, комбинаторность классификантов УК и их "вложенность" (Чебанов С.В., 1983), морфолого-генезисные отношения, мощная эвристичность УК и ее классификантов позволяют практически полностью ответить на вопросы ныне покойного профессора, других ученых, сталкивавшихся с проблемой развития библиотечных классификаций и использования их в роли ИПЯ. На основе теории и схемы УК можно при помощи карандаша и бумаги прогнозировать новые ее ступени, линии и ветви. Эвристичность УК, похоже, наиболее мощная по сравнению с этим свойством эмпирических всеобщих классификаций, которые крайне сложны, что мешает предвидению.

Третьим положительным свойством УК представляется то, что она без особых сложностей превращается в универсальный словарь тематического представления и поиска (УСТПП) документов, знаний, визуальных, звуковых и других свойств информативных объектов как по отдельным признакам, так и в их сочетании (мультимедиа). Сложные информативные объекты становятся единицами хранения современных библиотек - видеотек и т.п. Информационные потребности в них выражаются словами. Следовательно, поисковые тематические описания тоже должны быть словесными. Поэтому УСТПП применим в гипертекстовых, мульти- и других сложных информативных средах. Сетизация информологически унифицированных БТП библиотек сделает реальной идею глобальной виртуальной библиотеки-Мирового Мозга-Глобального Интеллекта-Внемозговой Памяти Человечества.

При превращении УК в УСТПП проблемы полисемии, омонимии и синонимии слов естественных языков ликвидируется следующим образом. Все смыслы одного слова получают уникальные коды. Например, А - ключ в смысле шифр, Б - ключ для замка, В - ключ-водный источник, Г - гаечный ключ, Д - ключ скрипичный и т.д. Один и тот же смысл разных слов приобретает один и тот же уникальный шифр: А - код, А - ключ, А - шифт, А - индекс. Коды с дескрипторами-словами названы кодесками, обратная их форма (Ключ - А) - десконами. Эти лексиканты образуют алфавитные списки кодесков по классам УК (АСК) и алфавитный список десконов (АСД).

УК, АСК и АСД являются частями УСТПП. Классификантами УК и следовательно лексикантами УСТПП являются только слова и эквивалентные им словосочетания (биологическая химия, химический элемент - химент на схеме УК). Это позволяет любой тематический фразовый запрос без искажения и путем комбинирования лексикантами превратить во фразовое поисковое предписание.

Естественно бесшумный УСТПП дает бесшумные поисковые тематические описания документов и предписания. Это делает ненужными диалоги, позволяет вести автоматические, однократные, максимально быстрые и поэтому самые дешевые поиски ТПД.

Недостатком эмпирических классификаций-ИПЯ является то, что в качестве классификантов-лексикантов в них используются, наряду со словами фразы и даже небольшие тексты, состоящие из нескольких предложений. Из фраз нельзя сформировать фразовое предписание, т.к. соединение предложений дает текст. Трудности, вытекающие из этого факта, известны всем, кто переводил тематические фразовые запросы в поисковые предписания; эта работа, как правило, вызывает психологический стресс из-за несостыкованности естественных языков и ИПЯ, подобно индексированию.

Словный уровень УСТПП позволяет точно и полно представлять информативные слова источников сведений в поисковых тематических описаниях документов (ПТОД) и тематических запросов в предписаниях.

Информологическая организация БТП, в которых каждые ПТОД представляется цельной записью, допускает возможность использовать в реальном ИПЯ-УСТПП миллионы слов для составления ПТОД и предписаний. В интерпритации УСТПП описания и предписания представляют собой наборы кодов, не принадлежащие ни одному естественному языку.

Унитермная организация эмпирических БТП позволяет применять для создания ПТОД и предписаний ИПЯ в среднем с сотней лексикантов, которыми являются названия дескриптовых полей носителей поисковых тематических признаков документов, разделов форматов и т.п. Если увеличить число лексикантов реального ИПЯ, то на носителе поместятся меньше документов, и наоборот. Это закон унитермных БТП. Бедный лексический состав приводит к искажению почти в 100% случаев документов и ПТОД и запросов в предписаниях, которые базируются на естественных языках с десятками миллионов слов.

Реальность УСТПП обеспечивается тем, что в полном (многомиллионно-словном) УСТПП отмечают точками использованные для составления ПТОД лексиканты. У каждой СТП реальность УСТПП своя. Реальность УСТПП обеспечивает предсказание результатов тематических поисков: если в предписание вошли все отмеченные лексиканты, то вероятность получить ТПД имеется и она тем больше, чем короче предписание и больше точек у лексикантов. Долей документов со специфичными сведениями и ТПД тоже можно управлять: чем больше в предписании лексикантов, тем выше доля источников со специфичными сведениями в ТПД, и наоборот. У каждой СТП свой предел длины предписания, после которого СТП не выдает документы. У информологических СТП, БТП которых состоят в среднем из 100-слов ПТОД, этот предел в несколько раз выше, чем у эмпирических СТП, БТП которых обычно включает 10-словные ПТОД. При этом репрезентативность первых равна 1030 поисковых тематических признаков документов (2100 - 1), у вторых - 103 (210 - 1). Поэтому информативность будущих крупных информологических СТП окажется в тысячи раз выше числа разных ТПД, которые может выдать крупная эмпирическая СТП. Бесшумность и тотальность представления документов в ПТОД (БТП) обеспечивает преимущество информологических СТП по сравнению с эмпирическими в сотни раз по полноте автоматически отыскиваемых ТПД и по релевантности - в десятки раз.

Информологическая технология позволит библиотекам стать экономически самостоятельными информационно-коммерческими предприятиями со значительной долей бесплатных привычных библиотечных услуг, резко повысить престижность библиотечных специальностей и работников информационных учреждений.

Чтобы реализовать упомянутые и другие положительные перспективы информологической технологии, необходимо разработать полную УК и УСТПП. Это проект "Информотрон".

Проблема тематического поиска имеет глобальный масштаб и средство ликвидации кризиса индустрии информационного тематического обеспечения должно быть интернациональным, т.е. мультилингвальным. УСТПП может стать полиглотом. УК и АСД несложно перевести на языки информационно развитых стран. Лексиканты АСК легко могут стать мультилингвальными. Например, А - ключ, key, schlusser. Таким образом, этап поиска ТПД не требует знания иностранных языков и на язык пользователя переводятся только источники ТПД. Так преодолевается барьер незнания чужих языков при поиске.

Таким образом, проект "Информотрон" имеет международный аспект. Поэтому можно считать целесообразным принять участниками Конференции, если они конечно убедились в высокой эффективности информологической технологии, резолюцию- обращение к Правительству России, чтобы оно выступило с инициативой международного научно-практического проекта по созданию полной УК и УСТПП для ликвидации кризиса, который ежегодно в глобальном масштабе наносит ущерб на десятки миллиардов долларов международному сообществу.