Почему люди заходят на сайт ГПНТБ России?
Why do Users Visit the NPLS&T Web-site?
Чому люди заходять на сайт ДПНТБ Росії?

Гончаров M. В., Земсков А. И.

Государственная публичная научно-техническая библиотека России, Москва, Россия

Mikhail V. Goncharov, Andrei I. Zemskov

Russian National Public Library for Science and Technology, Moscow, Russia

Гончаров M. В., Земсков А. І.

Державна публічна науково-технічна бібліотека Росії, Москва, Росія

В работе на основании статистических исследований делается попытка проанализировать поведение пользователей веб сайта ГПНТБ России. По внешним признакам веб-сайт больше похож на библиотеку, а не на тематическую коллекцию.

Statistic data on the web-site visits and OPAC statistics are applied to the analysis of user behavior. In its form, the Web-site looks like a library rather than a topical collection.

У роботі на підставі статистичних досліджень робиться спроба проаналізувати поведінку користувачів веб-сайта ДПНТБ Росії. За зовнішніми ознаками веб-сайт більше схожий на бібліотеку, ніж на тематичну колекцію.

1. Рост Интернет активности в России хорошо иллюстрируется показателями работы сервера ВИНИТИ, крупнейшей в России организации по обработке информации. Нагрузка на сервер ВИНИТИ в 1995 — 2002 гг круто растет. (данные из доклада “Информационные ресурсы России” на сервере www. inforeg. ru)

2. Что публикуется. Как отмечается в Национальном докладе “Информационные ресурсы России” за 2001 год: “Основная часть информационных ресурсов (по ряду оценок не менее 90%), создающихся на предприятиях, в организациях и органах управления, используется исключительно или в основном для обеспечения их собственной деятельности. Информационные ресурсы, создаваемые для предоставления информационных продуктов и услуг неопределенному заранее множеству потребителей, условно можно назвать ресурсами “массового” использования. Они составляют не более 5% общего количества информационных массивов, фондов, баз данных и т. д. “. Эти оценки подтверждаются и другими источниками, например из доклада г-жи Клэр Харт, президента аналитической компании Фактива, созданной совместно компаниями Доу Джонс и Рейтер .

Табл. 1. В год в мире производится:

25 терабайт газетной информации;

10 терабайт журнальной (примерно 1 млн годовых комплектов научных журналов);

2 терабайт книжной (считая, что в 2000 году было выпущено 1 300 тыс. книг);

195 терабайт — внутриофисной документации!

Итак, использование электронных ресурсов растет быстрыми темпами, а в составе производимой информации 84% приходится на технологическую документацию и управленческую переписку.

3. Цель нашей работы — понять, что же привлекает пользователей на веб сайт крупной научно-технической библиотеки.

4. Методика. Поскольку прямых опросов посетителей сайта мы не проводили, то пришлось прибегнуть к косвенным методикам, сравнивая поведение физических читателей, пришедших в библиотеку и статистику работы вебсайта библиотеки. Авторы благодарят А. И. Бродовского, С. М. Дунаевскую, Е. А. Еронину и М. В. Залужскую за представленные статистические данные. Период сбора статистики 15.12.02—15.01.03. Предыдущие выборки показывали сходные результаты. Сложности такого рода исследований и оговорки применимости понятны:

Различны содержание документов сайта и документов основного фонда.

Разные методические возможности мониторинга: для печатных изданий — учет требований; в локальной сети — запрос документа; в сетевой работе — обращения к сайту (hits, visitor sessions).

Сравниваются разные субъекты и их отношение, вообще говоря, к различным объектам. Нет оснований утверждать о каком либо совпадении массивов читателей библиотеки и посетителей вебсайта, проще говоря, вполне возможно, что это совершенно разные люди, и это предположение было экспериментально подтверждено.

5. Ресурсы ГПНТБ России. В печатных фондах и микроформах ГПНТБ России около 8 млн. экз. Традиционная библиотечная статистика по видам публикаций:

Таблица 2. Содержание фондов ГПНТБ России (в единицах хранения)

Книги 2,0 млн

Периодика 3,8 млн.

Др. издания 1,9 млн,

В т. ч.

Микроформы 1,6 млн

Электронные ресурсы 6,2 тыс.

 

Если вести учет в традиционных показателях, то электронные офлайновые публикации составляют менее одной тысячной от общего фонда. Несколько иная картина получается, если используется статистика с учетом объема информации, которая может быть предоставлена посетителю библиотеки:

Таблица 3. Содержание фондов ГПНТБ России (в единицах объема информации)

Книги

2 Терабайта

Периодические и другие издания

3 Терабайта

Офлайновые электронные ресурсы

0, 6 Терабайт (около 10 % от общего количества).

Как видим, расхождение примерно в 100 раз.

На февраль 2003 г в ГПНТБ России имелось 358 персональных компьютеров, из них в локальной сети 324; читателям предоставляется 83, из них имеют доступ в Интернет 45 шт., в том числе в Интернет клубе 30 шт. Во время проведения эксперимента библиотека оплачивала выход в Интернет пропускной способностью 512 кб/с.

6. Что читали в России в 2001 году? Мы воспользуемся анализом А. М Ильницкого, Книгоиздание в контексте социально-экономических преобразований в современной России. —М., : Вагриус, 2002.

Таблица 4. Указан процент от читающей аудитории; допускался ответ из нескольких видов
литературы, поэтому итоговый процент более 100%

Детективы

31%

Профессиональная литература

22%

Учебники

20%

Детская литература

19%

Словари, справочники

14%

Любовные романы

12%

Энциклопедии

11%

Книги рецептов, советы хозяйке

11%

Фантастика

8%

Сказки

8%

Зарубежная поэзия

1,5%

7. К каким материалам обращаются чаще наши читатели?

Таблица 5. Основные тематики книг, отраженные в ЭК
(первые 11 по численности тематических рубрик из рубрикатора ГРНТИ) и число выдач книг
по данной тематике, поступившее через систему ЭК ГПНТБ России

№№

№ рубрики
ГРНТИ

Название
рубрики ГРНТИ

Количество
записей в ЭК

Число
выдач книг

1.

06

Экономика, экономические науки

26 819

4 919

2.

29

Физика

20511

553

3.

55

Машиностроение

18 691

2 043

4.

50

Автоматика и телемеханика, вычислительная техника

15 333

1 064

5.

27

Математика

9 605

560

6.

47

Электроника, радиотехника

9 201

716

7.

38

Геология

8 970

435

8.

67

Строительство, архитектура

8 748

861

9.

31

Химия

7 274

516

10.

10

Государство и право. Юридические науки

6 319

423

11.

87

Охрана окружающей среды. Экология человека

6 092

1 400

Рассмотрим очень интерйесный показатель, в какой-то мере характеризующий интенсивность спроса по данной тематике — отношение числа отраженных в электроном каталоге наименований литературы к числу выдач, прошедших через систему электронного каталога, назовем его “коэффициент полноты фонда”. В данной выборке этот показатель меняется достаточно хаотично от 5, 5 (экономика и экономические науки) до 37 (физика). В целях сглаживания случайных выбросов мы провели тематическое группирование экспериментальных данных.

Таблица 6. Числа документовыдач по группам индексов ГРНТИ

Группа смежных
тематических рубрик

Суммарная
выдача

Коэффициент тематических рубрик полноты фонда

1. Группа промышленности:

Энергетика, горное дело, машиностроение, металлургия, химическая технология и промышленность, строительство и архитектура, транспорт

(рубрики ГРНТИ 44, 52, 53, 55, 61, 67, 73)


735


9,0

2. Группа экономика:

Экономика, экономические науки

(рубрика ГРНТИ 06)


4919


5, 5

3. Группа экология и смежные:

Экология, геология, управление, общие вопросы

(рубрики ГРНТИ 38, 81, 82, 87)


3318


7, 3

4. Группа точных наук:

Математика, кибернетика, физика, химия, механика

(рубрики ГРНТИ 27, 28, 29, 30, 31)


2532


18, 2

5. Группа радиопромышленности:

Электротехника, Электроника и радиотехника, связь, автоматика и телемеханика, вычислительная техника

(рубрики ГРНТИ 45, 47, 49, 50)


2357


12, 9

6. Группа библиотечных и смежных наук:

Культура, массовые коммуникации, журналистика, средства массовой информации, информатика

(рубрики ГРНТИ 15, 19, 20)


262


23, 3

8. Вывод из тематического анализа. Читатели библиотеки интересуются в первую очередь прикладными и точными науками, а обращение к материалам по библиотековедению, информатике и т. п. (группа 6) далеко отстает в приоритетах среди пользователей ГПНТБ России

9. Зависит ли активность спроса читателей читальных залов от объема предлагаемой литературы?

Таблица 7. Сравнение объема записей в электронном каталоге с числом запросов
литературы, в нем отраженной, данные за 2002 год

Месяц

Количество записей в ЭК

Количество запросов

май

287 820

11 614

июнь

291 420

7 679

июль

295 129

8 548

август

297 767

5 689

сентябрь

300 058

3 982

октябрь

304 328

17 479

ноябрь

307 594

11 338

декабрь

310 789

н/д

При монотонном росте числа записей в электронном каталоге библиотеки количество запросов изменялось немонотонным образом. Попытка ответить на вопрос, имеется ли зависимость между объемом и активностью посещений оказалась неудачной. Корреляции не обнаружено или она маскируется широкомасштабными сезонными колебаниями посещения библиотеки.

10. Как зависит спрос от года публикации изданий ? Поскольку выставленные на сайте материалы доступны только с момента их сетевой публикации, то есть с момента открытия или модернизации сайта, мы провели анализ спрашиваемости книг по выбранной тематической группа в зависимости от года публикации.

Спрос на книги по математике в зависимости от года публикации. Интегральный спрос за апрель — декабрь 2002 составил 560 шт из общего количества документовыдач 24 176 (т. е. доля спроса очень небольшая, 2. 3%). При этом “коэффициент полноты” данной тематики в ГПНТБ — более 17 (за апрель-декабрь 2002 г. — те же самые 560 выданных книг при наличии в электронном каталоге записей, касающихся 9605 книг). Заметим, что спрос на журналы по математике через электронную библиотеку РФФИ — 18% от общего спроса, то есть значительно выше. Мы изучали также спрос на публикации инженерным и промышленным тематикам (группа 1), по экологии, геологии, управлению (группа 3), по электротехнике и т. п. (группа 5), по информатике и т. п. (группа 6), по экономике (группа 2), на иностранные книги (без тематических разделений), на книги в целом (без разделения на отечественные и иностранные и без тематических разделений).

В нашем распоряжении были данные по спросу на журналы; к сожалению, выяснить какие либо корреляции по ним оказалось затруднительно.

11. Выводы из проведенного анализа зависимостей спроса от года публикации книги.

Все изученные профили демонстрируют схожие черты .

1) примерно 1, 5 года от начала публикации до начала массового спроса на издания;

2) максимум спроса, приходящийся на 2 — 3 года после издания;

3) дальнейшее поведение зависит от дисциплины, либо начинается достаточно резкий спад интереса к изданиям, при этом средняя “полуширина” кривой распределения спроса по годам составляет около5 лет; либо некая площадка (длительностью около 4-5 лет) постоянного или слабо изменяющегося спроса и затем падение спроса, при этом полуширина кривой распределения спроса по годам составляет около 8 лет.

Отметим как любопытный для отечественного исследователя факт проявления совершенно ясно выраженного всплеска интереса к изданиям, выпущенным в период 1965 — 1970 гг.; на графике их не видно, но они существуют в виде небольших пиков.

Что же является основной причиной падения спроса на публикации по самому широкому спектру тематик? Ведь в огромном большинстве рассмотренных предметных рубрик никаких крутых изменения не происходило и, по крайней мере, старых фактов и выводов никто не отменял. Нет, люди гоняются за новым, их привлекает, во-первых ожидание появления новых, дополнительных фактов и во-вторых новое изложение старых наблюдений. Итак, потребность в обновлении — это экспериментально наблюдаемый факт поведения пользователя. Вывод для конструктора вебсайта может быть такой : необходимо очень тщательно подходить к обновлению материалов, размещенных на сайте.

12. Сайт ГПНТБ России (www.gpntb.ru). Интернет-комплекс ГПНТБ начал интенсивно развиваться с 1995 года. До этого действовала Система Телекоммуникационного Доступа-2, обеспечивающая работу удаленных пользователей с информационными ресурсами ГПНТБ по телефонным каналам и каналам сети Х.25.

В рамках собственных проектов и проекта LIBWEB в октябре 1995 года была введена в эксплуатацию первая версия сайта ГПНТБ, обеспечивающая доступ пользователей к Электронному каталогу (ЭК) и Российскому Сводному Каталогу Научно-технической литературы (РСК). Для этого была разработана оригинальная система доступа к CDS/ISIS базам данных, в которых ведется ЭК ГПНТБ в версиях для LINUX и WINDOWS NT. Общий объем сайта практически не менялся в течении 1995-97 года и составлял порядка 700 Мб. При этом 95 процентов объема — это собственно БД ЭК и РСК. В состав Интернет-комплекса входили два сервера — сервер коммуникационного центра на базе Linux и сервер приложений на базе Windows NT. В 1997-98 году был разработан действующий дизайн (как с технической и программной точки зрения, так и собственно оформление страниц сайта.). Общий объем достиг к началу 1999 года 1, 2 Гб за счет включения ряда библиографических БД и полнотекстовых материалов.

В 2001-2002 начаты (и в настоящее время активно продолжаются) работы по модернизации коммуникационной и программно-технической инфраструктуры Интернет-комплекса. Расширены оптоволоконные каналы связи до 2 МБ, установлены два новых сервера. В настоящее время комплекс состоит из 4 серверов — коммуникационного центра, межсетевого защитного экрана (сервера безопасности), сервера приложений и технологического сервера БД. По объему представленной информации достигнуто некое насыщение. С 2000 года он увеличивается на несколько процентов ежегодно за счет увеличения объемов БД и представляемых полнотекстовых материалов. При этом необходимо отметить, что увеличение объема не коррелирует с популярностью сервера. При постоянном росте посещаемости объем не увеличивается в тех же масштабах.

Вывод: не удалось установить однозначную корреляцию между объемом выставленных на веб сайт материалов. Очевидно, что пользователю более важна оперативность, актуальность и качество представления информации.

13. Место сайта ГПНТБ среди других библиотечных сайтов. Если рассматривать в целом сайты библиотек федерального уровня — РГБ, РНБ, БЕН, ЦНСХБ, ГЦНМБ, Патентно-технической, а также центров Научно-технической информации, то можно сказать, что сайт ГПНТБ России достаточно схож с другими и по времени создания и по дизайну и по насыщенности материалами.

Существенная разница — наличие Российского Сводного Каталога Научно-технической литературы (РСК). Тем не менее, можно полагать, что наблюдения, сделанные в ГПНТБ России, могут быть использованы и при анализе других библиотечных российских сайтов.

14. Сравнение посещений библиотеки и посещений сайта ГПНТБ России.

Данные о посещаемости библиотеки, наряду с характеристиками фонда, составляют основу любой библиотечной статистики. Рассматривалась динамика посещений ГПНТБ России традиционными пользователями и сайта ГПНТБ России удаленными пользователями. Если интерес читателей к посещению библиотеки за период 1995 — 2002 гг. демонстрирует небольшой рост после кризиса 1998 года, а в целом скорее колебания около некоей линии насыщения (для ГПНТБ Росси это 240 — 270 тысяч посещений в год), то посещаемость сайта растет более определенно, неуклонно и круто уже на протяжении 6 лет. Можно констатировать, что популярность в целом сервера растет из года в год. При этом все показатели опять-таки имеют положительную динамику, хотя имеется некоторое насыщение роста. Это видно из анализа параметра Visitor Ses s ion который является наиболее показательным.

Таблица 8. Среднее количество посещений веб сайта ГПНТБ в рабочие дни

Год

Количество посещений

2000

998

2001

1180

2002

1450

2003

1700

За период с 15 декабря по 15 января 2003 года сайт посещало по рабочим дням в среднем 1700 уникальных пользователей. (Если один пользователь заходил на сервер 100 раз — все равно он считается как один). Особое внимание следует уделить распределению пользователей по числу посещений. Это — один из самых важных критериев которые определяют ядро аудитории. Из 28 тысяч посетителей за указанный период только 5500 можно отнести к ядру. (В Интернете считается, что посетивший ресурс более одного раза может рассматриваться как активный пользователь). При этом выделяется 2, 18 процента пользователей посетивших сервер в течение месяца более 10 раз. Отметим, что для физического посетителя приход каждые 3 дня — это проявление неслыханного усердия.

15. С каких страниц начинается просмотр сайта? Интересные результаты, коррелирующие с числом наиболее активных пользователей, можно получить из таблицы страниц, на которые заходят пользователи как на первую (за исключением главной страницы). Можно говорить о том, что 22 процента заходящих на сайт не посещают главную страницу, а напрямую адресуются к уже известным им разделам сервера. При этом значительная часть таких пользователей входит на поисковые страницы ЭК, РСК, авторефератов и т. д. То есть пользователи уже знают структуру сервера и работают только и интересующими их фрагментами. Более того, аналогичная картина и по страницам, с которых они уходят с сервера — подавляющее число пользователей уходит с поисковых страниц. Кроме того, анализ “скольжения” пользователей с главной страницы также показывает, что большинство переходит к поисковым разделам.

Заметим, что полнотекстовые материалы занимают 17-ю и 18-ю позиции в приоритете посещенеий, отставая от справочных начальных страниц в 20 — 30 раз. Это в общем то логичное соотношение : в гигантской по объему статистике запросов и заказов на распечатку, поступивших в систему цифрового хранилища полнотекстовых документов JSTOR, соотношение составляет 8 (более 79 миллионов обращений и 10 млн. распечатанных статей). То есть требуется полный текст только каждого 8-ого документа из всех просмотренных.

16. Откуда приходят читатели в библиотеку?

Подавляющее большинство зарегистрированных читателей ГПНТБ России — москвичи и жители Московской области. Обслуживание удаленных коллективных абонентов и читателей по системе межбиблиотечного абонемента составляет (в терминах документовыдачи) около 1% от обслуживания в помещениях библиотеки. Это означает, что условно географическое распределение читателей ГПНТБ России можно представить очень узким распределением (фактически дельта-функцией) с полушириной порядка 150— 2 00 километров. В этом регионе проживает около 15 млн. человек, это и есть потенциальная аудитория читальных залов библиотеки.

Анализируя региональное распределение удаленных пользователей (естественно, в терминах Интернет), необходимо отметить, что представлены все континенты и регионы даже самые экзотические. К примеру, имеется 7 пользователей из Полинезии. Обращает внимание большое число пользователей из США. Но здесь нужно иметь в виду, что в терминах Интернет это могут быть пользователи из филиалов сетевых и других компаний, базирующих в России. Это рассуждение никоим образом не умаляет привлекательности сайта для информационно грамотного пользователя.

Также интересные результаты можно получить из анализа адресов серверов, с которых пользователи приходят на сервер ГПНТБ. При этом внутренние переходы тоже учитываются, однако они не превалируют. Наиболее часто пользователи переходят с Яндекса, Апорта, Рамблера и Google. При этом сервер ГПНТБ индексируется более чем 300 поисковыми серверами и директориями ресурсов Интернет.

17. Распределение спроса по месяцам года, по дням недели и времени суток.

Из-за краткосрочности мониторинга сезонные колебания спроса не позволяют увидеть корреляцию между объемом предоставляемой в пользование информации и интенсивностью запросов на документы. В отличие от активности читателей, трафик веб сайта не имеет явно выраженных сезонных колебаний. Анализ активности пользователей в зависимости от дня недели и времени суток показывает, что наиболее загруженным днем является четверг — 19, 98 процента от общего числа посещений, наименее загруженным — воскресенье. По времени пиковым является период с 11. 00 до 17. 00 (московское время), при этом максимальное число пользователей работает в 15. 00. Особо интересным является отсутствие провала в ночное время, что в какой-то степени объясняет упоминавшиеся неожиданно большое число пользователей из США. Разница между наиболее активным периодом и наименее активным не является большой. При этом нет ни одного пустого периода, сервер постоянно опрашивается и работает.

Выводы. По результатам анализа активности пользователей можно сделать вывод о практически линейной загрузке Интернет-комплекса ГПНТБ России, что явно контрастирует с обычными режимами обслуживания. В частности, резкого падения активности в летние месяцы не наблюдается. Очевидное преимущество веб сайта — круглосуточная загруженность во все дни недели не нуждается в дополнительных комментариях.

18. Локальные пользователи цифровых ресурсов. Проведено сопоставление телезаходов с активностью использования электронных материалов “на месте”

19. Технические показатели. Важную техническую информацию для разработчиков можно получить из анализа браузеров и платформ, используемых пользователями. Она позволяет эффективно определить базовую кодировку материалов сервера и избежать не нужно загрузки операциями по перекодированию. Подавляющее число пользователей использует Microsoft Internet Explorer (порядка 80 процентов) и порядка 97 процентов пользователей работает на платформах Windows и использует кодировку cp-1251.

В свое время, когда делались попытки внедрить в централизованном порядке в качестве базовых кодировки ISO и KOI, данная статистика позволила указать на неэффективность подобных мероприятий, которые привели бы к необходимости перекодировки в 98 случаях из 100.

20. Итоговые цифры.

Среднее время посещения 14 минут означает, что просматривается информация, эквивалентная 7 страницам печатного текста. Заметим, что это “чистое время”, без учета потерь на поиски сайта или установление связи.

Средний физический посетитель (их до 1 тысячи человек в сутки в рабочие часы приходят на 370 мест в читальных залах) проводит в помещениях библиотеки около 3 часов, и заметную долю этого времени он тратит на поиск необходимой литературы и ожидание заказанных документов. Традиционная библиотечная статистка неопределенна. По данным за 2002 год в ГПНТБ России было зарегистрировано около 260 тыс. посещений и книговыдача в читальных залах составила 2 300 тыс экз., то есть в среднем 9 экз. на посетителя. Если вспомнить, что посетитель за 3 часа более 100 страниц не может прочесть, а получил он 2700 страниц (мы полагаем примерно по 300 страниц в одном экземпляре), то низкая эффективность использования печатных коллекций становится еще более заметной.

За 2002 год на веб сайте было просмотрено 6 370 тысяч файлов, содержащих 32 Гигабайта информации. За этот же период в пользование физическому посетителю было предоставлено 1725 Гигабайта информации, из которых можно было просмотреть не более 65 Гигабайт (число посещений, умноженное на средний просмотр 100 страниц за посещение).

21. Выводы

телекоммуникационные технологии обеспечивают десятикратное превосходство над традиционными в объеме коммуникативности, в той роли социальной вовлеченности (то есть возможности не быть одиноким в обществе), которую выполняют и традиционные и электронные библиотеки.

Географический охват читателей традиционной библиотеки и пользователей веб сайта совершенно различный: если традиционная библиотека по сути своей локальна, ее географический охват представляет собой очень крутую, узкую функцию с центром в Москве, то функция распределения веб-сайта теоретически охватывает весь мир, а практически представляет собой очень широкую функцию, со многими максимумами — в Москве, СПетербурге (то есть охватом в радиусе порядка 700 — 800 км) и заметными значениями на очень больших удалениях от Москвы — вплоть до дистанций от 2000 (Израиль, Германия) до 10000 км (США, Владивосток). Помимо притягательности самого сайта, возможность пользователей определяются их технической вооруженностью, то есть наличием Интернет соединения.

Теледоступ показывает значительное “сглаживание” спроса по временам года, дням недели и времени суток.

Важной чертой является очень слабая или отсутствующая зависимость спроса на материалы сайта от их объема; по-видимому, дело в психологии поведения пользователя. Он приходит на сайт, потому, что знает его заранее или сайт заранее зарегистрирован в поисковых машинах. В случае, если что то сразу не нашлось, он уходит на другой сайт. Итак, на сайт приходят скорее за справкой, чем за документами длительного изучения.

В целом сайт ведет себя скорее как библиотека, а не как отдельная публикация или тематическая коллекция публикаций.

Как мы думаем развивать сайт? Развитие ЭК через пополнение его дополнительными документами, например созданными при сканирование рефератов или электронной доставке документов. Роль электронной доставки в обслуживании пока невелика (10% от МБА и соответственно 0,1 % в общем обслуживании), но дает возможность непрерывного пополнения.