1.6.4. ИНФОРМАЦИОННО-ПОИСКОВЫЕ ЯЗЫКИ, СЛОВАРНЫЕ СРЕДСТВА

ИНФОРМАЦИОННО-ПОИСКОВЫЙ ЯЗЫК (ИПЯ )

[information retrieval language, indexing language] -

Искусственный язык, предназначенный для формализованного описания смыслового содержания документов, данных, отдельных понятий или терминов и обеспечения последующего их поиска в информационно-поисковых массивах.

Формализация лексики и создание различных ИПЯ вызвано необходимостью устранения "избыточности" и "недостаточности" естественного языка для целей информационного поиска, а также ликвидации присутствующий в нем синонимии и омонимии (см. ниже) для реализации "однозначности" информационного поиска.

Различают языки описания (декларативные языки ), которые в свою очередь подразделяются на языки предкоординатные (классификационные) и посткоординатные (координатные), а также - процедурные языки (языки запросов и манипулирования данными ). Подробнее см.:[36 - 38].

Каждый тип языковых средств включает в себя: алфавит и микро синтаксис (графические средства представления данных), лексику с парадигматикой (отражаемых словарями) и синтаксис, который для языков описания может быть представлен в виде наборов форматов.

По области или по сфере применения информационно-поисковых языков можно выделить:

1. Коммуникативные (общесистемные) ИПЯ - предназначенные для обеспечения взаимодействия между различными (информационными, библиотечными и др.) системами (в т.ч. распределенными по государственной, ведомственной или территориальной принадлежности);

2. Локальные (внутренние) ИПЯ - предназначенные для использования в рамках отдельной системы;

3. Внешние ИПЯ - используемые в других системах и предназначенные для взаимодействия только с ними.

ПРЕДКООРДИНАТНЫЕ ИПЯ (ИПЯ КЛАССИФИКАЦИОННОГО ТИПА )

[pre-coordination language] -

ИПЯ , построенные на принципах предкоординации (см. ниже). Эти языки представлены известными классификационными системами вида: УДК, МКИ, ГРНТИ, ББК, ТБК и др.

Предкоординация [pre-coordinatin] - Построение словарного состава ИПЯ (до его использования при индексировании), которое характеризуется применением словосочетаний и фраз, выражающих сложные понятия.

ПОСТКООРДИНАТНЫЕ ИПЯ (ИПЯ ДЕСКРИПТОРНОГО ТИПА )

[post-coordination language] -

ИПЯ, построенные на принципах посткоординации (см. ниже). Эти языки представлены различного вида “тезаурусами ”, а также “ключевыми словами ".

Посткоординация [post-coordination] - Построение словарного состава путем разделения сложных понятий на составные элементы и последующего объединения полученных лексических единиц ИПЯ при индексировании документов вводимых в информационно-поисковые массивы и запросов путем использования логических операторов и других средств, представляющих его синтаксис .

Термины, связанные с посткоординатными ИПЯ:

СЛОВАРЬ [dictionary] -

1. Упорядоченный перечень слов, словосочетаний, терминов, символических имен или наименований, знаков с указанием их значений или толкований или без них. Важным требованием к словарям, используемым в автоматизированнных системах является устранение “синонимии” и “омонимии ” для обеспечения “точности” и “полноты ” поиска;

2. В автоматизированных информационных системах “словарь” это структура данных, обеспечивающая доступ к БД и отдельным записям по их текстовому имени.

Виды словарей:

1. Словарь, который содержит разрешенные для использования при индексировании лексические единицы ИПЯ, а также парадигматические отношения между этими лексическими единицами. Тезаурусы различают по принципу их организации (например, - алфавитный, иерархический, фасетный), способу использования (например, - машинный тезаурус , т.е. находящийся в памяти ЭВМ), тематике и полноте охвата его лексикой определенной предметной области (например, - базовый тезаурус, рабочий тезаурус, многоотраслевой тезаурус, узко тематический тезаурус и т.п). В некоторых автоматизированных информационных системах словари, выполняющие функции тезауруса, носят иные названия, например, - “Базовый терминологический словарь (БТС)” ВИМИ.

2. Словарь синонимов (см. ниже - “Синонимия ”), в прогаммном обеспечении: файл с синонимами, записанными на диске совместно с программой, использующей этот файл [35].

Понятия и термины, связанные со словарями:

ГРАММАТИКА [gramma] -

Система правил построения и описания естественного или искусственного языка, в том числе правил словообразования и построения словосочетаний (см. синтаксис) ИПЯ.

С грамматикой связаны следующие термины:

ОТНОШЕНИЯ [relations] -

Форма связи между объектами, выражающая то что их объединяет. Различают отношения: парадигматические, синтагматические, ассоциативные, семантические и др. (см. ниже).

Виды отношений и связанные с ними термины:

1. Разновидность парадигматических отношений (см. ниже), отражающих представление пользователя о взаимосвязи понятий, которые они отображают. Часто под ассоциативными отношениями понимаются все виды парадигматических отношений кроме отношений типа: "вид-род" и "часть-целое". Так же как и парадигматические отношения они являются внетекстовыми и служат для реализации конкретных задач пользователей;

2. Отношения между данными в структурах данных .

Некоторые дополнительные термины, связанные с видами ИПЯ:

1.6.5. ИНДЕКСИРОВАНИЕ И КОДИРОВАНИЕ ДАННЫХ

ИНДЕКС [index, code, notation, mark, symbol] -

1. Условный знак (в т.ч. слово, словосочетание, цифра, буквенный или буквенно-цифровой код и т.п.), обозначающий определенное понятие и используемый для записи результатов классифицирования а также идентификации объектов поиска в информационно-поисковых массивах;

2. Указатель адреса ;

3. Таблица в электронном каталоге , определяющая местоположение набора данных;

4. Совокупность указателей, при помощи которых можно найти запись в файле данных;

5. Уровень в иерархической структуре системы многоуровневого индекса (см. ниже).

Виды индексов, связанных с их структурой:

В зависимости от характера используемой системы знаков различают:

В зависимости от структуры и организации записи различают:

1. Индекс, образованный в результате объединения нескольких, каждый из которых сохраняет свое основное значение:

2. Индекс, в качестве которого используется комбинация атрибутов (см. "Реляционная модель ");

В вычислительных системах элементы нижнего уровня многоуровневого индекса, также как элементы т.н. одноуровневых индексов (т.е. не являющихся многоуровневыми) непосредственно указывают на отдельную запись или группу записей. Элементы верхних уровней многоуровневого индекса указывают на группу элементов более низкого уровня. Использование многоуровневых индексов производится в тех случаях, когда время поиска по одноуровневым индексам оказывается недопустимо большим;

В зависимости от уровня приоритетности различают:

В зависимости от характера индексируемых объектов и/или назначения индекса различают:

ИНДЕКСАЦИЯ [subscripting, notation system, indexing] -

1. Метод, обеспечивающий возможность обращения к элементу массива с помощью указания массива и выражений, определяющих местоположение этого элемента в массиве:

2. Система (совокупность) индексов, используемая для индексирования (см. ниже) и соответствующая определенной системе классификации.

Примечание: В указанных выше определениях понятия "индексация" оно ни коим образом не обозначает процесс и его нельзя смешивать с понятием "индексирование"! 1. Автоматическое определение истинного адреса путем сопоставления содержимого индексного регистра с адресной частью команды.

Различаются следующие виды индексации:

ИНДЕКСИРОВАНИЕ [indexing] -

Процесс выбора и присвоения документам, их частям, данным и/или отдельным понятиям (терминам) индексов - лексических единиц ИПЯ (в том числе - цифровых или символьных кодов, если они предусмотрены).

В зависимости от характера используемого ИПЯ различают предкоординатное индексирование и координатное (посткоординатное) индексирование, в т.ч. свободное индексирование (разновидность координатного индексирования производимого ключевыми словами, т.е. без использования какого-либо словаря). В зависимости от полноты учета разнородных признаков индексируемого материала (объекта индексирования) различают "одноаспектное" и "многоаспектное" индексирование (см. ниже).

Процесс индексирования включает:

1. Анализ содержания индексируемого материала и выбор из него т.н. номинативных лексических единиц, существенных для его понимания;

2. Формирование перечня ключевых слов, используемых при свободном индексировании ;

3. Нормализацию ключевых слов по форме и содержанию при помощи словаря используемого ИПЯ пред- или посткоординатного типа;

4. Избыточное индексирование (см. ниже);

5. Заполнение рабочего листа с введением в него грамматических средств.

В зависимости от объекта и содержания процесса индексирования его результатами являются: поисковый образ документа (ПОД), поисковый образ лексической единицы (ПОЛЕ), поисковый образ запроса (ПОЗ) или поисковое предписание (ПП).