Создание архивов Интернет-документов
как новая задача национальных библиотек
Archiving Internet-documents as a New Task for National Libraries
Створення архівів Інтернет-документів
як нове завдання національних бібліотек

Нежурбеда Г.Г.

Национальная библиотека Украины имени В. И. Вернадского, Киев, Украина

Galina G. Nezhurbeda

V. I. Vernadsky National Library of Ukraine, Kiev, Ukraine

Нежурбіда Г.Г.

Національна бібліотека України ім. В. І. Вернадського, Київ, Україна

 

Рассматриваются подходы к решению задачи сохранения Интернет-документов как части культурного, научного и исторического наследия человечества. Анализируются проекты национальных библиотек Швеции, Австралии и других стран, направленные на разработку методов сбора, регистрации, архивирования Интернет-документов с целью их долгосрочного хранения. Подчеркивается необходимость незамедлительного начала работ по созданию архивов Интернет-документов.

The approaches to the preservation of Internet documents as a part of cultural, scientific and historical heritage of the humankind are discussed. The projects by the national libraries of Sweden, Australia and some other countries aimed at developing collection, registration and archiving methods to provide the long-term storage of Internet documents are analyzed. The necessity for prompt initiation of work on Internet documents archiving in the country is proved.

Розглядаються підходи до вирішення завдань збереження Інтернет-документів як частини культурної, наукової та історичної спадщини людства. Аналізуються проекти національних бібліотек Швеції, Австралії та інших країн, спрямовані на розробку методів збору, реєстрації, архівування Інтернет-документів з метою їх довготривалого зберігання. Підкреслюється необхідність негайного початку робіт по створенню архівів Інтернет-документів.

 

Большинство стран мира стремиться собрать, описать, сохранить, обеспечить доступ к культурному и интеллектуальному наследию народа, используя музеи, архивы и библиотеки. С появлением сети Интернет стремительно возросло количество электронных документов. Не имея печатных аналогов, большая их часть, несомненно, обладает исторической, культурной или научной ценностью. Однако применять традиционные приемы и методы формирования и использования фондов к сетевым документам невозможно в связи с иной природой, свойствами и характером этих документов.

Традиционный библиотечный фонд состоит из документов, являющихся собственностью библиотеки. Механизмы поступления документов в библиотечный фонд (как обязательный экземпляр или путем приобретения) определены и регламентированы. Вопросы, связанные с обработкой фонда (каталогизация, систематизация, размещение) и предоставлением документов в пользование решаются в соответствии с имеющимися в распоряжении библиотеки документами. Для печатных документов определены и закреплены национальными и международными стандартами характеристики идентифицирующие документ, а также правила размещения этих характеристик на документе.

Печатный документ всегда имеет определенный физический объем и линейную структуру. Содержание его неизменно в течение времени, в отличие от сетевых документов, которые, располагаясь под одним URL, могут изменятся в течение времени и иметь разные содержание и объем. Документы World Wide Web чаще всего, являясь гипертекстовыми файлами, содержат ссылки на другие документы. Гипертекстовый файл может включать рисунки, звук, видео и ссылки на другие текстовые файлы. Учитывая международный характер сети и множественность связей между документами, сложно выделить признаки, определяющие понятие “сетевой документ” и национальную принадлежность документа.

Другая группа проблем, возникающая при решении задач сохранения электронных документов, связана с зависимостью электронных документов от программных и аппаратных средств. Магнитные и оптические носители информации, на которых хранятся электронные документы, в настоящее время имеют срок службы около 10 лет. Далее они либо морально устаревают, либо приходят в негодность из-за физических повреждений. Десятилетний срок неумолимо мал по сравнению со столетиями, в течение которых могут сохраняться бумажные документы.

С другой стороны процесс подготовки электронного документа требует гораздо меньшего времени и значительно дешевле, чем создание традиционного бумажного документа. Легкость копирования электронной информации, простота и исчерпывающая полнота поиска, быстрота получения абонентом необходимой информации в любое время суток независимо от места ее хранения привели к стремительному росту количества сетевых документов во всем мире.

Национальные библиотеки, неся моральную, а в ряде стран и законодательно закрепленную ответственность за то, чтобы любой изданный документ, который стал доступен общественности, был сохранен и доступен в дальнейшем, начали работу над созданием инструментов и технологий для сбора, регистрации и архивирования интернет-ресурсов с целью их долгосрочного хранения.

Целью данной статьи является рассмотрение методов, которые могут быть использованы для создания архивов интернет-документов. Поскольку подавляющее большинство документов в сети Интернет являются веб-ресурсами, далее под интернет-документами будут подразумеваться только веб-ресурсы.

Первым проектом, предполагающим создание постоянной электронной коллекции веб-документов в библиотеке, вероятно, был проект ЕРРР (Electronic Publication Pilot Project) Национальной библиотеки Канады, стартовавший в июне 1994 года [1 ]. В июне 1996 года Национальная библиотека Австралии начала проект PANDORA (Preserving and Accessing Networked Documentary Resources of Australia) [2, http: //pandora. nla. gov. au]; в сентябре 1996 года национальная библиотека Швеции – проект Kulturarw3 [3, http: //kulturarw3. kb. se]; в июне 1997 года в Финляндии стартовал проект EVA [4]; в 2000 году: в Библиотеке Конгресса США – проект MINERVA (Mapping the INternet Electronic Resources Virtual Archive) [5, 11] ; в Национальной библиотеке Эстонии – проект ERIC@ (Estonian Resources on the Internet: Cataloguing and Archiving)) [6 ]; в национальной библиотеке Австрии– проект AOLA (Austria On-Line Archive).

Следует отметить также совместный проект NEDLIB восьми национальных библиотек Европы (Нидерландов, Франции, Норвегии, Финляндии, Германии, Португалии, Швеции и Италии) [7] . И проект организации Internet Archive (www. archive. org).

Проведенные исследования показали, что рост количества интернет-документов происходит по экспоненциальному закону, а среднее время жизни документа в сети по разным оценкам колеблется от 30 дней до 4-х месяцев. В связи с этим промедление с началом осуществления сбора и накопления интернет-документов в библиотеках (или других специализированных учреждениях) приведет к невосполнимой потере части культурного наследия человечества.

Почему создание архивов интернет-документов должно стать задачей именно национальных библиотек? Очевидно, что ответственность за долгосрочное хранение и обеспечение доступа к собранным документам должна быть возложена на учреждение с устойчивым финансированием, имеющим опыт работы с документами (их обработкой и организацией пользования). Национальные библиотеки большинства стран накопили большой опыт работы, неся ответственность за хранение национальных печатных изданий и регистрацию их в национальной библиографии. В случае возложения ответственности за создание архивов интернет-документов на отдельные организации (например, владельцев веб-сайтов), гиперссылки в архиве, указывающие на ресурсы другой организации, будут разорваны (не будут функционировать). С этой точки зрения лучшее решение – организация международного архива, но вероятность скорого создания организации с долгосрочным, устойчивым финансированием, имеющего твердую юридическую основу своей деятельности на международном уровне очень мала. Гораздо реалистичнее начать работы по созданию национальных архивов интернет-документов в национальных библиотеках, учитывая уже существующие межбиблиотечные традиции по обмену опытом и проведению совместных работ по выработке международных стандартов, форматов и протоколов обмена информацией.

При рассмотрении создания архивов интернет-документов с точки зрения традиционных подходов к формированию библиотечных фондов можно выделить следующие процессы:

Опыт зарубежных коллег показал, что в качестве единицы учета фонда интернет-документов (веб-ресурсов) удобно использовать веб-сайт. Процесс комплектования фонда заключается в создании в библиотеке копии (“зеркала”) веб-сайта. Поскольку информация на веб-сайте изменяется в течение времени, библиотека должна создавать зеркала одного и того же сайта периодически.

Количество веб-сайтов в странах, где развита сеть Интернет, значительно больше количества издательств, выпускающих печатную продукцию. Например, в Швеции – около 60 000 веб-сайтов, это в 20 раз больше, чем традиционных издателей [8 ]. Обязательный экземпляр печатных документов в национальной библиотеке Швеции составляет 1, 7 км полок в год, а архив веб составил бы приблизительно 25 км полок [9 ]. В настоящее время архив состоит из 138 млн. файлов объемом в 4 497 гигабайт. “Снимки” Интернет производились 9 раз. Архив включает все веб и gopher страницы доменов . se и . nu; веб-сайты доменов .com, .org, .edu и .net, содержащие шведские адреса и/или телефонные номера; а также иностранные материалы, имеющие отношение к Швеции (т. н. Suecana).

Для формирования архива используется программа-робот, которая ищет интернет-документы, используя специальный алгоритм, а затем сохраняет найденные документы на компьютере библиотеки. Стремясь таким образом осуществить исчерпывающее комплектование фонда интернет-документов.

Другой подход был предложен в национальной библиотеке Австралии, в которой отбор сохраняемых веб-ресурсов производиться не программой роботом, а персоналом библиотеки. Разрабатывая принципы отбора интернет-документов для хранения в Национальной библиотеке Австралии, учитывалось как то, что объем интернет-публикаций очень велик, так и то, что многие из них имеют очень низкую ценность. Поэтому принципы отбора интернет-документов более строгие и не столь всесторонние как при отборе печатных изданий. Документы в архив включаются независимо от того находятся они на серверах в Австралии или за ее пределами. Отбор производится на основе анализа содержания и определения его ценности. Следует отметить, что Интернет-документы часто не содержат сведений, составляющих библиографическое описание традиционных документов, и служащих основой отбора. Документ включается в архив, если его большая часть посвящена общественной, политической, культурной, религиозной, научной или экономической жизни Австралии или автор документа – австралиец, внесший вклад в познание мира [10].

После того как документ отобран для включения в архив, библиотека обращается к издателю с просьбой разрешить включить публикацию в архив и если необходимо получить помощь в создании копии. Копии документа включаются в архив с периодичностью, устанавливаемой персоналом библиотеки.

И метод ручного отбора Интернет-документов, и метод автоматического сбора имеют свои недостатки и достоинства. При использовании метода автоматического сбора объем одного “снимка” Интернет в Швеции превышает 1 терабайт. Процедура сбора полного “снимка” может занимать несколько месяцев. При этом нет гарантии, что документы связанные гиперссылками, будут соответствовать по содержанию именно тем документам, которые предполагались авторами, из-за изменчивостью сети в течение времени (времени формирования “снимка”). Автоматический сбор html-документов являющихся результатом обращения к базе данных не возможен. В связи с нерешенностью юридических вопросов создания таких архивов (копирование без согласия автора – нарушение закона об авторском праве), а также вопросов предоставления в пользование документов архива, в Швеции доступ к архиву закрыт. В Австралии – разрешен, благодаря практике заключения договоров между библиотекой и автором интернет-ресурса. Периодичность изменения Интернет-документов колеблется в широких пределах: от одного дня до нескольких лет. Благодаря гибкости австралийской политики сбора интернет-документов, в архив не попадают “дублеты” и есть возможность чаще сохранять ресурсы, имеющие периодичность изменения меньше времени создания одного “снимка” автоматическим путем. Сравнение затрат на создание архивов показывает, что австралийский проект во много раз дороже, чем Шведский. В создании архива в Швеции участвуют лишь 4 человека [9]. Однако в будущем вероятно обслуживание архива, поддержание его в рабочем состоянии будет дороже в Швеции из-за его большого объема.

Несмотря на принципиальную разницу, оба метода не являются взаимоисключающими. Их успешное сочетание можно видеть в проекте Библиотеки Конгресса США – MINERVA [11]. Проект осуществляется благодаря тесному сотрудничеству между библиотекой и некоммерческой организацией Internet Archive, которая хранит и обеспечивает доступ к общедоступным с 1996 года мировым интернет-ресурсам (html-файлам). Ядро архива составляют html-файлы, которые передает в Internet Archive компания Alexa Internet спустя 6 месяцев после автоматического сбора. Ежедневно архивируется около 100 гигабайт общедоступной сетевой информации. Объем накопленной информации к октябрю 2001 года составил 100 терабайт (11 миллиардов страниц).

Для пилотного проекта, Библиотекой Конгресса из архива Internet Archive были отобраны 35 сайтов, связанных с президентскими выборами 2000 года, 29 из них – архивировано и включено в электронный каталог библиотеки (Рис. 1). 4 сайта не были архивированы в связи с отсутствием на момент проведения мероприятий по архивированию (URL not found), 1 сайт – в связи с невозможностью создать зеркало. Для создания зеркал веб-сайтов была использована свободно доступная программа HTTrack [www. httrack. com]. Во время создания зеркала веб-сайта программа регистрировала обнаруженные ошибки. Большинство из них были связаны со ссылками на несуществующие файлы. В настоящее время архивные интернет-материалы доступны со страницы web. archive. org/collections/e2k. html.

Трагические события 11 сентября 2001 года нашли свое отражение и в Интернет-документах. Чтобы сохранить эти материалы, Библиотека Конгресса, совместно Alexa Internet, webArchivist. org и Pew Internet & American Life, приступила к созданию следующей крупномасштабной коллекции веб-документов [12]. Коллекция начала создаваться спустя несколько часов после атаки. Поиск материалов в архиве возможен по ключевому слову, названию, URL или путем выбора одной из 12 тематических рубрик: пресса, правительство, религиозные организации и т. д.

Архив интернет-ресурсов организуется как электронная библиотека. Наряду с файлами, образующими “зеркало” веб-сайта, в электронной библиотеке хранятся метаданные связанные с объектами (файлами) архива и метаданные связанные с процессом архивирования. Как правило, файлы “зеркала” веб-сайта являются модифицированными файлами, в которых прямые гиперссылки заменены косвенными для удобства навигации в архиве. Под косвенной гиперссылкой понимается ссылка на файл архива. Прямая гиперссылка – гиперссылка на страницу сети, определенная html-оригиналом.

Способы организации архива могут быть разными. Так, в Королевской библиотеке Швеции документы одного сервера группируют в один каталог (папку). В качестве имени каталога используют имя сервера. Этот каталог имеет столько подкаталогов, сколько “снимков” сервера производилось. Имена подкаталогов – порядковые номера “снимков”. В проекте NEDLIB – на верхнем уровне каталогов архива – каталоги с именами, соответствующими календарной дате создания “зеркала”. Файлы не группируются в папки, согласно веб-сайтам, которым они принадлежат. Для доступа используется информация о месте нахождения файла из базы данных.

Для хранения накопленной информации чаще всего используют магнитные ленты. Технические проблемы, связанные с обслуживанием архива интернет-документов такие же, как и при обслуживании любой другой электронной библиотеки. Это обеспечение сохранности носителя информации и неизменности самой информации на нем; обеспечение наличия программных и аппаратных средств, необходимых для прочтения информации с авторским “внешним видом” документа. К сожалению, эти проблемы еще ждут своего от решения.

Помимо создания и сохранения информации, важный вопрос – организация доступа к электронному архиву. Именно обеспечение доступа к информации – предоставление материалов архива в пользование – конечная цель всех работ. Ключом к документам архива является электронный каталог. Очевидно, что поисковая форма должна включать такие поля как URL, дата архивирования, название, автор (индивидуальный, коллективный), систематическая и/или предметная рубрика, ключевые слова. Несомненно, что лишь на основе изучения запросов и потребностей пользователей архива будет возможно создать оптимальный интерфейс.

В заключение хочется еще раз подчеркнуть: сеть Интернет растет и изменяется быстрыми темпами. Дни ее становления уже миновали. Сегодня Интернет представляет собой зеркало нашего общества. Сохранение ресурсов сети для будущих поколений – безотлагательная и посильная задача для национальных библиотек.

  1. Electronic Publications Pilot Project (EPPP). Summary of the Final Report. Prepared by Words That Matter Inc. for the National Library of Canada 7 May 1996. – URL: www. nlc-bnc. ca/e-coll-e/ereport. htm
  2. Law Cliff. PANDORA – Towards a National Collection of Selected Australian Online Publications // 66th IFLA General Conference (Jerusalem, Israel, 13-18 August 2000). – URL: http: //www. ifla. org/IV/ifla66/papers/174-157e. htm
  3. Mannerheim Johan, Arvidson Allan, Persson Krister. The Kulturarw3 project – The Royal Swedish Web Archiw3e – An example of “complete” collection of web // 66th IFLA General Conference (Jerusalem, Israel, 13-18 August 2000). – URL: http: //www. ifla. org/IV/ifla66/papers/154-157e. htm.
  4. Lounama Kirsti. EVA. The Acquisition and Archiving of Electronic Network Publications In Finland. – URL: www. ercim. org/publication/ws-proceedings/DELOS6/ eva. rtf
  5. Arms William Y. A Report to the Library of Congress. Web Preservation Project: Interim Report. – 2001. – URL: www. cs. cornell. edu/ wya/LC-web/interim. doc
  6. Metsar Silvi. Estonian Resources on the Internet: Cataloguing and Archiving: ERIC@ / National Library of Estonia. – URL: www. nlib. ee/inglise/textid/lilaest2001/ silvi_metsar. doc
  7. Nordic Web Archive. – URL: www. lib. helsinki. fi/tietolinja/0100/ nwa. pdf
  8. Mannerheim Johan. The WWW and our digital heritage – the new preservation tasks of the library community // 66th IFLA General Conference (Jerusalem, Israel, 13-18 August 2000). – URL: http: //www. ifla. org/IV/ifla66/ papers/158-157e. htm.
  9. Arvidson Allan, Persson Krister. Kulturarw3: The Swedish. WWW-Archive. Or, to preserve the Swedish World Wide Web. – URL: kulturarw3. kb. se/files/svetlogorsk. ppt
  10. Guidelines for the Selection of Online Australian Publications Intended for Preservation by the National Library of Australia. – URL: http: //pandora. nla. gov. au/selectionguidelines. html
  11. Arms William Y., Adkins Roger, Ammen Cassy, Hayes Allene. Collecting and Preserving the Web: The Minerva Prototype // RLG DigiNews. – 2001. – Vol. 5, № 2 (April). – URL: http: //www. rlg. org/preserv/diginews/ diginews5-2. html
  12. Library of Congress, Internet Archive, webarchivist. org and the Pew Internet & American Life Project Announce Sept. 11 Web Archive // News from of The Library of Congress October 11, 2001. – URL: http: //www. loc. gov/today/pr/2001/01-150. html

Title: The White House [computer file]. 
Published: Washington, D. C. : White House Web Team, 1994-
LC Call No.: F204. W5
Dewey No.: 975. 3 13
Notes: Mode of access: Internet. 
Title from home page as viewed on Aug. 19, 2000. 
Features the White House. Highlights the
Executive Office of the President, which includes senior policy advisors and offices responsible for the President's correspondence and communications, the Office of the Vice President, and the Office of the First Lady. Posts contact
information via mailing address, telephone and fax numbers, and e-mail. Contains the Interactive Citizens' Handbook with information on health, travel and tourism, education and training, and housing. Provides a tour and the history of the White House. Links to White House for Kids. 
Subjects: White House (Washington, D. C.)
United States. Executive Office of the President. 
United States. Office of the Vice President. 
United States. Office of the First Lady. 
Other authors: White House Web Team. 
Control No.: 12149120
Access: 
Location: http: //www. whitehouse. gov
Access: 
Location: http: //lcweb. loc. gov/staff/wpp/whitehouse. html

Note: Web site archive

Рис. 1. Запись электронного каталога Конгресса США, описывающая веб-сайт Белого
Дома. Содержит гиперссылки на сам сайт и на сайт веб-архива.