Методы автоматического создания тематических каталогов информационных ресурсов Internet для информационно-библиотечных систем

Methods of Automated Acquisition of Internet Information Resources
Thematic Catalogs for Library Information Systems

Методи автоматичного створення тематичних каталогів інформаційних
ресурсів Internet для інформаційно-бібліотечних систем

Касумов В.А.

Азербайджанский Технический Университет, Баку, Азербайджан

Vagif A. Kasumov

Azerbaijan Technological University, Baku, Azerbaijan

В.А. Касумов

Азербайджанський Технічний Університет, Баку, Азербайджан

Несмотря на то, что информационно-поисковые системы Internet, содержащие тематические каталоги, дают более точные результаты, они имеют не мало недостатков. Так как создание и ведение тематического каталога выполняется человеком вручную, а это требует огромную интеллектуальную работу и профессионализм персонала, обновление базы данных такой системы является очень трудоемким и т.д. Автоматические индексы наоборот являются гибкими, простыми для реализации, охватывают больше информационных источников, но точность результатов поиска при этом относительно меньше. Разработка методов создания автоматических тематических каталогов без вмешательства человека является актуальной. Исследования показывают, что данная проблема может заменить человека (администратора или оператора поисковой системы), позволит выполнить работу по созданию, обслуживанию и обновлению тематического каталога поисковой системы. При этом созданный тематический каталог может быть построен согласно существующим стандартам УДК, ББК и т.д. В настоящей статье исследуется модель информационного поиска, рассматриваются методы определения тематики информационных ресурсов, разбиения информационного массива по тематическим направлениям и улучшения тематического каталога. Здесь предполагается, что система должна определять тематику информационного ресурса, наиболее подходящие тематические профили из тематического каталога и включить ресурс в них. Для решения поставленных задач используется аппарат нечетких множеств и отношений, а также подход Беллмана-Заде.

Despite the fact that Internet information retrieval systems containing thematic catalogs provide rather accurate output, they still have many disadvantages. Thematic catalogs are acquired and maintained by humans manually which requires great intellectual efforts and professionalism; update of databases of such systems is labor consuming, etc. On the contrary, automated indices are flexible, easy to realize, cover the greater range of information resources; however the accuracy of search output is relatively lower. The development of methods to acquire automated thematic catalog without human participation is a very urgent problem. Studies demonstrate that solving this problem would enable to replace humans (retrieval system administrator or operator), to acquire, support, and update retrieval system thematic catalog. In doing so, the obtained thematic catalog can be structured in accordance with accepted classification (UDC, BBC) or other standards. The author examines the model of information retrieval, the methods of defining information resources subject scope, thematic structuring information array, and upgrade of thematic catalog. It is supposed that the systems have to define the subject scope of information resources, the more suitable thematic profiles within thematic catalog to include the resource into selected profiles. To solve the problems, the apparatus of fuzzy sets and ratio, and Bellman-Zade approach are used.

Незважаючи на те, що інформаційно-пошукові системи Internet, які містять тематичні каталоги, і дають більш точні результати, вони мають чимало недоліків. Оскільки створення і ведення тематичного каталога здійснюється людиною вручну, а це потребує значну інтелектуальну працю і професіоналізм персоналу, оновлення бази даних такої системи є дуже трудомістким і т.д. Автоматичні індекси, навпаки, є гнучкими, простими для реалізації, охоплюють більше інформаційних джерел, але точність результатів пошуку при цьому є відносно меншою. Розробка методів створення автоматичних тематичних каталогів без втручання людини є актуальною. Дослідження показують, що вирішення даної проблеми може замінити людину (адміністратора чи оператора пошукової системи), дозволить виконати роботу по створенню, обслуговуванню та поновленню тематичного каталога пошукової системи. При цьому створений тематичний каталог може бути побудований відповідно до існуючих стандартів УДК, ББК і т.д. У даній статті досліджується модель інформаційного пошуку, розглядаються методи визначення тематики інформаційних ресурсів, розташування інформаційного масиву за тематичними напрямками і удосконалення тематичного каталога. Тут передбачається, що система повинна визначати тематику інформаційного ресурсу, найбільш вдалі тематичні профілі з тематичного каталога і включати ресурси в них. Для вирішення поставлених завдань використовується апарат нечітких множин і відношень, а також підхід Беллмана-Заде.

 

Введение

Для построения эффективных информационно-поисковых систем необходимо изучить информационную среду поиска в целом, разработать методов индексирования, тематического разбиения, поиска и представления информационных ресурсов и запросов. Модели поисковых систем должны включить в себя как необходимые множества (множества документов, тематических каталогов, терминов, синонимов и т.д.), так и отношения между этими множествами [1].

На практике используются два способа создания поисковых систем: индексы и тематические каталоги. Исследования показывают, что поисковые системы, ориентированные на тематические каталоги имеют более высокие показатели точности, чем ориентированные на автоматические индексы. Однако полнота автоматических индексов обычно намного превышает полноту тематических каталогов. Автоматические каталоги являются более гибкими и легко адаптируются, т.е. программы-индексаторы (роботы, пауки, спайдеры и др.) периодически без особого труда могут обновлять базу [2].

Существующие методы индексирования создаются на основе двух механизмов: -приписка терминов из тематического рубрикатора по смысловому анализу; -извлечение терминов (соответственно тематическому рубрикатору) из тела информационных ресурсов. Первый подход требует применение мощного семантического аппарата или ручное индексирование специалистами в области тематики индексируемого ресурса. Методы, основанные на семантический анализ, трудно реализовать и, вообще, мало развиты. Ручное индексирование является более точным, однако, создание хорошего тематического каталога зависит от профессионализма персонала и требует огромную интеллектуальную работу [3,4]. Традиционно, работу по созданию и адаптации тематических каталогов выполняет администратор или оператор поисковой системы ручным способом.

Далее в статье рассматривается индексирование с помощью методов второго типа, т.е. при индексировании термины извлекаются из содержания информационных ресурсов согласно тематическому рубрикатору. Однако, применяемые дополнительные методы позволяют приписать к документам терминов из тематического рубрикатора.

Методы индексирования позволяют извлечь из тела информационного ресурса наиболее важных терминов и вычислить коэффициентов их важности [3,5]. Хорошим примером такого метода является статистический метод, с помощью которого достигается хороший результат, если при этом использовать справочник исключений “стоп-слов”, т.е. справочника служебных слов, глаголов, местоимений и т.д. [6].

Слабым местом данного метода является следующее: – разные авторы могут использовать разные термины, смысл которых очень близки (возможно идентичны), например, “information retrieval” и “information search”; – в информационном ресурсе вместо терминов могут использовать английские, латинские или другие эквиваленты; – в результате индексирования из источника выделяется ключевое слово с большим весовым коэффициентом, однако оно не является распространенным термином в данной области и не входит тематический рубрикатор, а другие наиболее значимые термины в данной области могут оказаться синонимами данного ключевого слова; – один термин может ассоциировать достаточно близкие по тематике другие термины; – языки источников по одной тематике могут быть разными [7,8].

Без учета выше перечисленных обстоятельств нельзя достичь достаточного уровня индексирования, от которого непосредственно зависит результат поиска. Выход из положения является применение справочников и словарей синонимов, ассоциирующих слов, а также переводчиков [8].

Эти проблемы намного лучше решаются в тематических каталогах. Как было сказано выше, тематические каталоги имеют недостатки. В этом смысле исследование проблемы создания автоматических тематических каталогов является много обещающим. Суть данной проблемы заключается в автоматизации работы “комплектатора” информационно-библиотечной системы, т.е. распределения документов по тематическим каталогам путем автоматического определения тематики документа и нахождения наиболее релевантных тематических каталогов.

Далее в статье рассматривается модель информационного пространства, построенная с помощью нечеткой математики, излагаются методы, позволяющие создать автоматические тематические каталоги без вмешательства человека и улучшения качества тематических каталогов с применением синонимов и ассоциирующих терминов. С этой целью используется аппарат нечетких множеств и подход Беллмана-Заде [9].

Распределение информационных ресурсов по тематическим профилям

Пусть D={di}Iмножество информационных ресурсов Internet, которое требуется разбить на категории по темам аналогично библиотечно-информационной системе. Тематический каталог определяется множеством классификационных направлений, т.е. тематических профилей. Тематический каталог обозначается через K={Kl}L и рассматривается как отношение множества тематических профилей к множеству терминов, что является тематическим рубрикатором информационных ресурсов Internet. Каждый тематический профиль определяется собственными своими дескрипторами, ключевыми словами или другими лексическими единицами, которые входят в тематический рубрикатор и называются терминами. Множество терминов тематического профиля Kl, обозначим через . Необходимо отметить, что эти множества могут частично пересекаться, т.е. одни и те же термины могут входить в несколько множества.

Объединение множеств терминов всех тематических каталогов поисковой системы составляет множество терминов системы T={tj}J, которое составляет тематический рубрикатор для поисковой системы. В качестве тематического рубрикатора можно использовать любой универсальный библиографический классификатор, такие как УДК, ББК и т.д. Возможен другой подход, который лежит на основе многих современных информационно-поисковых систем для Internet. В этом случае, тематический рубрикатор, т.е. множество терминов создается самой информационно-поисковой системой или ее администратором, как база индексов или метаданных и дополняется в процессе функционирования системы.

Введем еще одно множество – множество синонимов и ассоциирующих слов терминов , которое представляется в виде нечеткого отношения. Для простоты будем предполагать, что синонимы и ассоциирующие термины составляют одно множество S={sv}V.

Учитывая выше сказанное информационный поиск можно представить в виде пятерки IR={K,D,T,Q,R}, где IR – результат информационного поиска (Information Retrieval) и выдается пользователю в виде вектора (списка) названий, адресов и других реквизитов источников информации, Qзапросы пользователей. - множество отношений, которое определяет отношения типа информационный ресурс – термин” (), “тематический каталог – термин” (), “термин – синоним” () и запрос – термин” (). Необходимо отметить, что все отношения, определяемые здесь и рассматриваемые далее, являются нечеткими.

Тематический каталог представляется в виде нечеткой реляционной матрицы размерности LxJ, строки которой соответствуют тематическим профилям, а столбцы – терминам. Таким образом, каждый тематический профиль задается в следующем виде где является функцией релевантности термина tj к тематическому профилю Kl и получает значения в интервале [0,1].

Значения элементов матриц отношений и (рассматривается далее) определяются в начальном этапе создания информационно-поисковой системы, для чего применяется метод экспертных оценок, а в процессе функционирования системы их значения подвергаются адаптации, т.е. обучению.

Далее множество терминов информационного ресурса di обозначим через , которое является подмножеством множества T. Весовые коэффициенты терминов относительно каждого информационного ресурса определяются функцией принадлежности термина множеству , которая так же получает значения в пределе [0,1]. Для простоты в множество включаются все терминами T, но термины не являющиеся важными для di имеют нулевые весовые коэффициенты.

Таким образом, множество информационных ресурсов D представляется в виде нечеткой реляционной матрицы размерности IxJ, строки которой соответствуют ресурсам, а столбцы – терминам:

,

где является функцией принадлежности термина tj в множество терминов , значения которой определяются в результате индексирования информационного ресурса в пределе [0,1].

Теперь рассмотрим задачу распределения информационных ресурсов Internet по тематическим профилям, т.е. разбиения информационных ресурсов на тематические каталоги. Исходя из степеней релевантности терминов к информационному ресурсу и профилям тематического каталога, тематический профиль ресурса можно определить пересечением множеств отношений и .

Задача ставится следующим образом: найти наиболее предпочтительный (недоминируемый) по релевантности профиль для ресурса di среди всех профилей тематического каталога.

Сначала определим степени релевантности информационного ресурса di каждому профилю тематического каталога K по отношению всех терминов. Как отметили выше, в поисковой системе ресурс di и тематический профиль Kl представляются соответственно отношениями и Тогда релевантность i-го информационного ресурса к l-му тематическому профилю можно найти как пересечение нечетких отношений и .

Как известно, пересечение нечетких множеств определяется как алгебраическое произведение соответствующих элементов этих множеств [9], т.е. если , тогда где – степень релевантности тематики i-го информационного ресурса к l-му тематическому профилю Kl по отношению j-го термина.

Пусть – “идеальный” тематический профиль, объединяющий в себя все наилучшие отношения релевантности всех профилей к данному информационному ресурсу по всем его терминам, тогда тематический профиль можно определять путем объединения всех нечетких множеств , т.е. нахождения максимумов среди по всем терминам для всех профилей:

где – степень релевантности i-го ресурса к “идеальному” тематическому профилю по отношению j-го термина. Исходя из этого, можно сказать, что представляет собой наиболее релевантный ресурсу di абстрактный профиль.

Далее из множества {Kl}L найдем такой , тематический профиль которого является наиболее близким “идеальному” профилю относительно всех терминов информационного ресурса di. С этой целью вычисляется суммарное среднеквадратическое отклонение коэффициентов релевантности всех профилей Kl от коэффициентов релевантности “идеального” тематического профиля .

Тематический профиль , имеющий минимальное среднеквадратическое отклонение является наилучшим (наиболее предпочтительным) профилем из множества {Kl}L, т.е. его профиль является наиболее близким профилю и, соответственно, наиболее подходящим тематике информационного ресурса. Отсюда следует, что данный ресурс необходимо включить в тематический каталог K по профилю .

Таким образом, можно определять один тематический профиль для информационного ресурса, он в реальности требуется определять не один, а все наиболее близкие тематические профили, так как ресурсы могут относиться к нескольким тематическим профилям. Так, например, документы о медицинских проборах могут быть включены как в “Медицинское приборостроение”, так и “Электронные устройства”. С этой целью вводится пороговые значения для степени релевантности тематических профилей и требуется найти все тематические профили, среднеквадратическое отклонение которых не превышает заданное пороговое значение, т.е. удовлетворяют условие: .

Повышение качества автоматического тематического каталога

В предыдущем разделе отметили, что для улучшения полноты и точности поиска можно использовать множество синонимов, ассоциирующих слов, тезаурусов и словарей, которые объединяются в одном множестве S={sv}V={Sj}J, где Sj множество синонимов и ассоциирующих слов термина tj, sv – синонимы, ассоциирующее слово. Для простоты в дальнейшем множество S назовем множеством синонимов. Необходимо отметить, что синонимы в свою очередь также являются терминами, т.е. синонимы терминов одного информационного ресурса, могут быть важным (часто встречающимся) термином другого ресурса. Это означает, что множество синонимов S является подмножеством множества терминов T, т.е. . Тогда будет вместо множества S можно использовать множество T. Следовательно, вместо отношения между термином и синонимом, можно рассмотреть отношение между терминами, которое представляется в виде нечеткой реляционной матрицы , где функция принадлежности термина tv в множество синонимов Sj, иначе говоря степень близости терминов tj и tv. Если термин tv не является синонимом термина tj, тогда .

Синонимы и степени смысловой близости их терминам дает больше знаний о тематике информационного ресурса, что позволяет более точно определять его тематический профиль. Если коэффициент важности j-го термина для i-го информационного ресурса и степень близости термина tj термину tv, можно вычислить новые коэффициенты важности терминов для информационного ресурса следующим образом:

.

Новые коэффициенты важности терминов являются более улучшенными (уточненными) и позволяют более точно определить тематику информационных ресурсов. Использование новых значений для решения поставленной в предыдущем разделе задачи позволяет достичь лучше результатов и составить более эффективного тематического каталога.

Литература

  1. Храмцов П. Моделирование и анализ работы информационно-поисковых систем Internet. Открытые Системы. Москва. № 6. 1996.
  2. Касумов В.А. Организация системы поиска в Азербайджанской части Internet. Москва. Журнал “Открытые системы”. № 3. Стр.59-62.
  3. Солтон Дж. Динамические библиотечно-информационные системы. -М.: Мир. 1979. 558 с.
  4. Касумов В.А. Поисковые механизмы библиотечно-информационных систем Internet. VI Международная конференция “Крым-2000”. Библиотеки и ассоциации в меняющем мире, новые технологии и новые формы сотрудничества”. Судак. Автономная Республика Крым. Украина. 3-11 июня 2000. Стр.240-244.
  5. Yanhong Li. Toward a qualitative search engine. IEEE Internet Computing. July-August. 1998. pp.24-29. (Internet: Http://coputer.org/internet/.
  6. V.N.Gudivada. Information search on World Wide Web. Compouter Weekly, Moscow, 35, 1997, pр. 19-21, 26,27.
  7. Касумов В.А. Разработка полнотекстовой поисковой системы по информационным ресурсам Азербайджана. VI Международная научно-практическая конференция “Проблемы создания, интеграции и использования научно-технической информации на современном этапе”. Киев. 16-17 декабря. 1999. Стр.15-16.
  8. Roberto Okada, Eun-Seok Lee, Tetsuo Kinoshita, Nurio Shiratori. A method for personalized web searching with hierarchical document clustering. Transaction of Information Processing Society of Japan. Vol.39.N:4. Apr. 1998. pp. 868-877.
  9. Орловский С.А. Проблемы принятия решений при нечеткой исходной информации. М.: Наука. 1981. 208 с.