web archive org что это за сайт

Ответы на популярные вопросы

Подробнее узнать о веб-архиве и как он работает вы можете на главной странице нашего сайта. Там же можете найти интересующий вас домен и оставить заявку на восстановление.

Наша услуга заключается в восстановлении сайтов из веб-архива (archive.org). Тоесть по итогу, Вы получаете zip архив с сайтом, который сможете разместить у себя на хостинге, и он будет работать как полноценный сайт. Также осуществляем сопутствующие услуги: чистка кода, установка счетчиков и т.д. С полным перечнем можете ознакомиться тут.

Во-первых, аналогов по качеству результата в интернете пока что нету, т.к. мы восстанавливаем до 98% сайтов которые у нас заказывают. Во-вторых сайт будет иметь возможность массового редактирования кода, и иметь удобную файловую структуру. В-третьих, служба поддержки всегда онлайн, и делая заказ по восстановлению сайта, мы можем информировать Вас о ходе процесса, и оказать краткую консультацию, если что-то не описано на нашем сайте.

Зависит от количества страниц/файлов и ответа сервера. Поэтому время условно не определено. По опыту, если сайт имеет большое количество страниц (2000-5000), то до 4-7 часов. Бывает, что сайт имеет несколько страниц, но количество ресурсов (файлы и изображения), например PDF файлов более 400 штук. Соответственно потребуется время на восстановление этих файлов.

Да, оплата происходит за количество страниц (в рамках указанной даты) попадающих в диапазон тарифов. Например, по тарифу «Одиночный», цена восстановления сайта с 10 страницами и сайтом с 3 000 страницами будет одинаковой. При этом, количество файлов и ресурсов неограниченно.

Раздел с описанием тарифов, услуг и их стоимости описаны в соответствующем разделе.

Нет. Сайт восстанавливается за определенную дату, которую выбирает пользователь.

Мы предлагаем вам другой сайт либо возвращаем деньги. Возврат осуществляется на Яндекс.Деньги, WEBMONEY либо мобильный телефон.

Все зависит от того, что Вам нужно. Идеальным вариантом является самая последняя дата. Если сайт поменял дизайн и структуру, то лучше «вытаскивать» последнюю копию этой версии из имеющихся дат.

Нет, в общем это лишено смысла. Архив работает по следуюшему принципу: когда он создает каждую последующую копию, он сравнивает новые страницы со старыми. Если новые страницы не изменились, он просто отдает ссылку на старую. В связи с этим предпочтительно делать именно последнюю версию. Бывает, что на новых страницах исчезают ссылки на старые, т.к. предыдущий владелец сайта вносил изменения, но отследить довольно проблематично.

Да, только при заказе от 30 штук (дат) и четко сформулированных требований. Предоставляете список ссылок, и мы сделаем эту работу за Вас.

Заказ будет доступен для оплаты в течении 5 (пяти) дней с момента его оформления. По истечению данного периода, заказ будет удален. В случае удаления заказа, Вам необходимо отправить новую заявку.

Не переживайте, если оплата прошла, то статус обновится спустя некоторое время, т.к. бывают проблемы с ответом от платежных систем. При оплате с мобильного телефона, желательно дополнительно прислать нам на почту номер заказа, который был оплачен.

Archive.org сохраняет страницы таким образом, что если на момент внесения копии уже проиндекированная ранее страница не изменилась, то архив вставляет ссылку на старую версию, т.к. нету смысла хранить одну и ту же страницу (не измененную) за разные даты.

Да, все верно. Часто бывает, что ресурсы сайта (изображения, css и js файлы) лежат на другом поддомене. Поэтому наша программа сохраняет поддомены в коде. Если Вам необходимо, чтобы файлы располагались на текущем домене, после оформления заказа дополнительно отправьте нам на почту список внешних доменов (поддоменов) с которых должны браться ресурсы, и тогда в коде их не будет. Более того, файлы и изображения лежащие на других доменах/поддоменах будут сохранены вместе с восстановленным сайтом, и в коде будут заменены на корректные пути к файлу (без внешнего домена).

Источник

Что такое веб-архив сайта

web archive org что это за сайт. Смотреть фото web archive org что это за сайт. Смотреть картинку web archive org что это за сайт. Картинка про web archive org что это за сайт. Фото web archive org что это за сайт

Еще не зарегистрированы?

Создание и наполнение онлайн-ресурса — это многоэтапный системный процесс. Контент фирменного сайта, интернет-магазина, лэндинга или портала должен постоянно обновляться с учетом целей и задач компании, изменений предпочтений целевой аудитории и алгоритмов поисковых систем. Но иногда старые тексты могут пригодиться, и тогда их можно найти на веб-архивах.

web archive org что это за сайт. Смотреть фото web archive org что это за сайт. Смотреть картинку web archive org что это за сайт. Картинка про web archive org что это за сайт. Фото web archive org что это за сайт

Что такое веб-архив

Веб-архив (web archive, internet archive) — это онлайн-платформа Wayback Machine, созданная в 1996 году. Здесь хранятся копии контента сайтов, интернет-магазинов, блогов, информационных и развлекательных порталов и других интернет-ресурсов, которые разрешены для сохранения. Это бесплатная онлайн-библиотека web.archive.org, где можно найти разные версии всех веб-ресурсов и просмотреть, как выглядел их контент, сохраненный на дату посещения сайта роботом сервиса.

Со времени создания веб-архива, здесь накопилось и на данный момент хранится больше 330 миллиардов файлов:

web archive org что это за сайт. Смотреть фото web archive org что это за сайт. Смотреть картинку web archive org что это за сайт. Картинка про web archive org что это за сайт. Фото web archive org что это за сайт

Зачем нужен web archive и как его можно использовать

Веб-архивирование нужно для того, чтобы можно было восстановить важную утерянную информацию с сайта, которая может не сохраниться из-за технических проблем или повреждения вирусом.

web archive org что это за сайт. Смотреть фото web archive org что это за сайт. Смотреть картинку web archive org что это за сайт. Картинка про web archive org что это за сайт. Фото web archive org что это за сайт

Например, владелец сайта создал его и наполнил описанием продукции, полезными статьями и изображениями по тематике. Через время веб-ресурс был обновлен и тексты заменены на новые. А еще через время понадобились именно старые тексты. В таких случаях и нужен открытый интернет-архив, в котором можно найти десятки сохраненных версий сайта на разные даты.

web archive org что это за сайт. Смотреть фото web archive org что это за сайт. Смотреть картинку web archive org что это за сайт. Картинка про web archive org что это за сайт. Фото web archive org что это за сайт

Сохранение авторского контента — это важная функция. Намного проще корректировать уже имеющиеся тексты, чем писать новые с нуля. Можно сделать рерайт (переписывание текста другим словами с сохранением смысла и структуры). Особенности использования резервных копий приведены в Табл. 1.

Табл. 1. Для каких целей можно использовать более ранний контент

ЦелиОсобенности применения
Восстановление сайтаБывают случаи непоправимого повреждения онлайн-ресурса — из-за вирусов, хакерских атак. Если не было проведено резервное копирование на своем хостинге, то можно будет найти свои тексты в веб-архиве
Наполнение сайта по похожей тематикеСтарый экспертный текст по своей тематике может понадобиться при создании лэндинга, вспомогательного онлайн-ресурса. Если тексты неуникальны, их нужно рерайтить
Ведение блогаДля привлечения трафика на профильный сайт нужно вести блог с текстами узкой тематики. Это могут быть советы по выбору товаров, использованию продукции и другой контент. Для написания таких текстов может потребоваться информация со старых копий веб-ресурса
Публикации на странице в социальных сетяхБизнес-аккаунт в соцсетях помогает поднять узнаваемость бренда и компании, привлечь новых покупателей, расширить рынки сбыта. Для постов в социальных сетях можно использовать тексты, которые ранее были опубликованы на сайте (если они не дублируются с новыми)

web archive org что это за сайт. Смотреть фото web archive org что это за сайт. Смотреть картинку web archive org что это за сайт. Картинка про web archive org что это за сайт. Фото web archive org что это за сайт

Как просмотреть старые версии сайтов на Wayback Machine

Если вам необходимо найти старую версию страниц какого-либо веб сайта, выполните следующие действия:

web archive org что это за сайт. Смотреть фото web archive org что это за сайт. Смотреть картинку web archive org что это за сайт. Картинка про web archive org что это за сайт. Фото web archive org что это за сайт

Важно! Если веб-страницу через некоторое время не удается просмотреть, это может быть вызвано несколькими причинами:

Если вы хотите посмотреть, как выглядел веб-сайт, но на сохраненной копии нет изображений или других элементов дизайна (иногда они не сохраняются), нужно открыть другую версию, которую веб-архив сохранил в другой день.

web archive org что это за сайт. Смотреть фото web archive org что это за сайт. Смотреть картинку web archive org что это за сайт. Картинка про web archive org что это за сайт. Фото web archive org что это за сайт

Как добавить современную версию сайта в веб-архив Wayback Machineи выполнить другие действия

Онлайн-платформа по веб-архивированию сайтов предоставляет множество возможностей разработчикам и владельцам ресурсов (Табл. 2).

Табл. 2. Как работать с веб-архивом

ВозможностиОсобенности выполнения
Сохранение нужной версии сайта на платформе интернет-архиваНужно самостоятельно инициировать сохранение. В разделе платформы «Save Page Now» нужно забить домен онлайн-ресурса и нажать «Save page». Такую процедуру рекомендуется повторять каждый раз, когда в контент были внесены исправления или дополнения
Запрет на добавление интернет-ресурса в память веб-архиваДля запрета добавления нужно прописать это в файле robots.txt. В панелях хостеров есть корневой каталог, в котором предусмотрена возможность редактирования файлов. При введении кода User-agent: ia_archiverDisallow: /User-agent: ia_archiver-web.archive.orgDisallow: / файл будет скрыт от копирования. При введении такого кода из веб-архива удаляется и текущая версия сайта и не осуществляется системное копирование (до тех пор, пока в файле robots.txt есть такие настройки или пока не закончится срок регистрации домена)
Восстановление веб-сайта из интернет-архиваЕсли сайт был поврежден вирусами или есть другие технические проблемы, из-за которых контент был нарушен, можно восстановить файлы из онлайн-хранилища. Для этого применяются специальные сервисы. Есть платные и бесплатные варианты, которые выбираются с учетом количества страниц для восстановления

web archive org что это за сайт. Смотреть фото web archive org что это за сайт. Смотреть картинку web archive org что это за сайт. Картинка про web archive org что это за сайт. Фото web archive org что это за сайт

Уникальный контент из веб-архива

Многие коммерческие сайты через некоторое время существования закрываются. Если на них был опубликован полезный контент (экспертные статьи, аналитические обзоры и другая важная информация), то после закрытия первоисточника они могут быть востребованными. То есть, сайт уже не работает и ранее написанные статьи могут использоваться на информационных порталах (если они уникальны).

Веб-архив является очень полезным сервисом, который может пригодиться в различных ситуациях. Быстрое восстановление потерянных данных может значительно сэкономить время и финансы, если сайт подвергнется хакерской атаке или же перестанет работать из-за серьезной технической проблемы. Веб-архив дает возможность не только просматривать старые версии своего сайта, но и анализировать контент конкурентов, сохраненный в разные периоды времени.

Источник

Что такое веб-архив и как его использовать

web archive org что это за сайт. Смотреть фото web archive org что это за сайт. Смотреть картинку web archive org что это за сайт. Картинка про web archive org что это за сайт. Фото web archive org что это за сайт

Веб-архив сайтов — это сервис, который собирает и хранит копии сайтов. Это своего рода машина времени интернета, которая позволяет отследить развитие веб-ресурса с начала его создания, просмотреть уже несуществующий сайт, а также восстановить его даже при отсутствии резервной копии.

В этой статье вы найдете обзор базовых возможностей веб-архива сайтов и детальные инструкции по использованию сервиса.

Из статьи вы узнаете

Что такое Web Archive и зачем он нужен

Архив интернета — это некоммерческая библиотека книг, программного обеспечения, сайтов, аудио- и видеозаписей. Наиболее популярным проектом — Wayback Machine, также известный как веб-архив сайтов.

Это бесплатный сервис, где собраны архивные копии веб-ресурсов за разные даты. Копии появляются при сохранении вручную, а также когда веб-краулеры посещают сайт.

Веб-краулер, он же паук или бот — это программа, которая посещает сайты, оценивает содержимое, а затем переносит их в базу поисковых систем или веб-архива, как в нашем случае.

С помощью интернет-архива можно узнать, как выглядел сайт раньше: месяц или несколько лет назад.

web archive org что это за сайт. Смотреть фото web archive org что это за сайт. Смотреть картинку web archive org что это за сайт. Картинка про web archive org что это за сайт. Фото web archive org что это за сайтКопия сайта hostiq.ua в Wayback Machine за 24 февраля 2018

Именно это и было изначальной целью проекта. Однако за последнее время функций у машины времени сайтов стало больше.

Веб-архив сайтов используют, чтобы:

Статья по теме:

web archive org что это за сайт. Смотреть фото web archive org что это за сайт. Смотреть картинку web archive org что это за сайт. Картинка про web archive org что это за сайт. Фото web archive org что это за сайт

Как пользоваться веб-архивом

Интерфейс веб-архива сайтов интуитивный в использовании.

Перейдите на страницу машины времени сайтов, укажите URL-адрес и нажмите «BROWSE HISTORY»:

web archive org что это за сайт. Смотреть фото web archive org что это за сайт. Смотреть картинку web archive org что это за сайт. Картинка про web archive org что это за сайт. Фото web archive org что это за сайтКак найти веб-страницу в Wayback Machine

По умолчанию веб-архив подгружает секцию «Calendar», где можно посмотреть старые версии нужного сайта:

web archive org что это за сайт. Смотреть фото web archive org что это за сайт. Смотреть картинку web archive org что это за сайт. Картинка про web archive org что это за сайт. Фото web archive org что это за сайтСекция «Calendar» в Wayback Machine

После обработки запроса вы сразу же увидите общую информацию о веб-странице: количество сгенерированных архивов и шкалу времени, начиная с первой копии по текущий момент:

web archive org что это за сайт. Смотреть фото web archive org что это за сайт. Смотреть картинку web archive org что это за сайт. Картинка про web archive org что это за сайт. Фото web archive org что это за сайтОбщая информация о веб-странице в Wayback Machine

Выберите год на шкале времени. Ниже вы увидите календарь, где цветными маркерами обозначены даты, когда веб-краулеры интернет-архива сканировали страницу:

web archive org что это за сайт. Смотреть фото web archive org что это за сайт. Смотреть картинку web archive org что это за сайт. Картинка про web archive org что это за сайт. Фото web archive org что это за сайтКалендарь копий веб-ресурса в Wayback Machine

Маркеры отмечены одним из четырех цветов:

Диаметр круга зависит от количества обращений робота веб-архива к странице в этот день. Чем больше круг, тем больше копий за этот день создал веб-краулер.

Попробуйте хостинг с кучей плюшек: автоустановщиком 330 движков, конструктором сайтов и теплой поддержкой 24/7!

web archive org что это за сайт. Смотреть фото web archive org что это за сайт. Смотреть картинку web archive org что это за сайт. Картинка про web archive org что это за сайт. Фото web archive org что это за сайт

Выбрав дату, наведите курсор на нее и нажмите на время сохранения:

web archive org что это за сайт. Смотреть фото web archive org что это за сайт. Смотреть картинку web archive org что это за сайт. Картинка про web archive org что это за сайт. Фото web archive org что это за сайтВремя сохранения копии веб-ресурса в Wayback Machine

Вы увидите желаемую версию веб-страницы.

Бывают ситуации, когда в интернет-архиве нет старых версий ресурса: правообладатель потребовал удалить принадлежащий ему контент или сайт закрыт из-за нарушения закона о защите интеллектуальной собственности. Дополнительно, на сайте могут быть настройки, которые ограничивают работу веб-краулеров. Таким образом, боты его не сканируют.

Иногда нужный ресурс доступен, но в копии нет картинок или части контента. Это происходит, если сайт был не полностью заархивирован Wayback Machine. В таком случае попробуйте открыть версию сайта за другой день.

Дополнительную информацию о сайте можно найти в секциях «Summary» и «Site Map»:

web archive org что это за сайт. Смотреть фото web archive org что это за сайт. Смотреть картинку web archive org что это за сайт. Картинка про web archive org что это за сайт. Фото web archive org что это за сайтСекции «Summary» и «Site Map» в Wayback Machine

В секции «Summary» собрана статистика по типу файлов, например HTML, CSS, PNG, на вашем сайте.

Функционал секции «Site Map» группирует все архивы нужного ресурса по годам, а затем строит визуальную карту сайта — радиальную диаграмму. Центральный круг — это «корень» сайта, его главная страница. Следующие кольца — остальные страницы. При наведении курсора на кольца и ячейки обратите внимание, что URL-адреса вверху меняются. Вы можете выбрать страницу, чтобы перейти к архиву этого URL-адреса.

Чтобы выявить и отобразить изменения в содержимом архивов, используйте секцию «Changes»:

web archive org что это за сайт. Смотреть фото web archive org что это за сайт. Смотреть картинку web archive org что это за сайт. Картинка про web archive org что это за сайт. Фото web archive org что это за сайтСекция «Changes» в Wayback Machine

Выберите две даты и нажмите кнопку «Compare»:

web archive org что это за сайт. Смотреть фото web archive org что это за сайт. Смотреть картинку web archive org что это за сайт. Картинка про web archive org что это за сайт. Фото web archive org что это за сайтКак сравнить две версии веб-страницы в Wayback Machine

На новой странице появятся две версии сайта. Удаленный контент окрашен в желтый цвет. Синий указывает на добавление содержимого.

Как сохранить текущую версию сайта в веб-архиве

Копии сайтов попадают в веб-архив благодаря веб-краулерам, которые их сканируют. Однако это не единственный способ. Просканировать сайт можно самостоятельно.

Чтобы создать копию одного URL-адреса, найдите опцию «Save page now» на главной странице Wayback Machine, введите ссылку и нажмите «Save page»:

web archive org что это за сайт. Смотреть фото web archive org что это за сайт. Смотреть картинку web archive org что это за сайт. Картинка про web archive org что это за сайт. Фото web archive org что это за сайтКак сохранить текущую версию веб-ресурса в Wayback Machine

Таким образом, в веб-архив сайтов добавится текущая версия заданного URL-адреса.

Повторяйте это действие перед важными изменениями на сайте и после них. В случае поломки или утери данных вы всегда сможете восстановить сайт через веб-архив.

Создавать копию всего сайта постранично трудоемко. Интернет-архив предоставляет платный сервис, который архивирует сайт в несколько кликов — Archive It.

Источник

web.archive.org (веб архив)

Что такое web.archive.org?

это сервис с помощью которого можно изучить историю домена с момента его первого попадания в базу сервиса. Его еще могут искать так цуи фксршму.

С помощью сервиса можно посмотреть скрины сайта, которые сервис делает с некоторой периодичностью.

Веб архив сайтов:

История сайтов с 1996 года

Сервис работает с 1996 года.

Если Ваш домен ранее использовался и был активен (размещался контент и присутствовал в поиске), WayBackMachine хранить историю о нем.

web archive org что это за сайт. Смотреть фото web archive org что это за сайт. Смотреть картинку web archive org что это за сайт. Картинка про web archive org что это за сайт. Фото web archive org что это за сайт

Частота сканирования и создания истории

Активные сайты в поиске и большого размера чаще сканируются сервисом.

web archive org что это за сайт. Смотреть фото web archive org что это за сайт. Смотреть картинку web archive org что это за сайт. Картинка про web archive org что это за сайт. Фото web archive org что это за сайт

web archive org что это за сайт. Смотреть фото web archive org что это за сайт. Смотреть картинку web archive org что это за сайт. Картинка про web archive org что это за сайт. Фото web archive org что это за сайт

Можно ли удалить историю домена?

Как написано в документации — можно.

Для этого необходимо отправить запрос по адресу info@archive.org с указанием URL-адреса домена и аргументацией, почему необходимо удалить историю. Так-же необходимо подтвердить право владения доменом.

Можно добавить страницы в Wayback Machine?

Да. На https://archive.org/web модно использовать функцию «crawl my site now!» для единоразового сохранения страницы.

Он не сохраняет несколько страниц, каталогов или целых сайтов.

Как пользоваться сервисом Web Archive?

Пример использования Web Archive для просмотра истории сайта.

Founder & CEO в Академии IMT, 13 лет в маркетинге из них 10 в Digital Marketing. Автор курсовSEO, SMM, интернет-маркетинг. Спикер конференций. Организатор ежегодной конференции Digital Marketing Trends

Источник

На каких серверах держится Архив Интернета?

web archive org что это за сайт. Смотреть фото web archive org что это за сайт. Смотреть картинку web archive org что это за сайт. Картинка про web archive org что это за сайт. Фото web archive org что это за сайт
Фото 1. Один из дата-центров Internet Archive в Сан-Франциско

Internet Archive — некоммерческая организация, которая с 1996 года сохраняет копии веб-страниц, графические материалы, видео- и аудиозаписи и программное обеспечение. Каждый может зайти в Wayback Machine и посмотреть, как выглядел Хабр в 2006 году или «Яндекс» в 1998 году, хотя загрузка архивных копий занимает около минуты (это не для реализма 90-х, а по техническим причинам, см. ниже).

Архив быстро растёт. Сейчас объём всех накопителей достиг 200 петабайт. Но Internet Archive принципиально не обращается к стороннему хостингу или облачному сервису вроде AWS. У некоммерческой организации собственные дата-центры, свои серверы и свои инженеры. Это гораздо дешевле, чем услуги AWS.

Архив Интернета против облаков

Технические подробности серверного устройства Internet Archive раскрыл Джона Эдвардс (Jonah Edwards), руководитель инженерной группы Core Infrastructure Team.

По его мнению, понятие «облако» многих людей вводит в заблуждение как нечто абстрактное. На самом деле это просто чужие компьютеры, то есть серверы посторонней компании. Для Internet Archive это неприемлемо. У организации собственные серверные в собственных зданиях, компьютеры принадлежат им, и персонал тоже свой.

web archive org что это за сайт. Смотреть фото web archive org что это за сайт. Смотреть картинку web archive org что это за сайт. Картинка про web archive org что это за сайт. Фото web archive org что это за сайт
Четыре дата-центра Internet Archive располагаются в Сан-Франциско, Ричмонде и Редвуд-Сити (это пригороды Сан-Франциско)

Кто-то может посчитать такой подход архаичным, но в некоторых случаях он действительно оправдан. В случае Internet Archive на то есть три причины: это дешевле, обеспечивает лучший контроль за серверами и даёт гарантию, что пользователей не отслеживают рекламные трекеры.

Инфраструктура

Что представляет собой инфраструктура, которой управляет Core Infrastructure Team? На февраль 2021 года цифры такие:

Разумеется, техника постепенно обновляется. На смену старым накопителям приходят новые. Например, маленькие диски на 2 и 3 терабайта полностью вышли из обращения в 2017 и 2018 годах, соответственно, а с прошлого года постоянно растёт доля дисков на 16 ТБ.

Как показано на графике ниже, несмотря на увеличение ёмкости накопителей, общее число HDD тоже постепенно растёт: за три года оно выросло с 15 тыс. до 20 тыс.

web archive org что это за сайт. Смотреть фото web archive org что это за сайт. Смотреть картинку web archive org что это за сайт. Картинка про web archive org что это за сайт. Фото web archive org что это за сайт
Количество жёстких дисков разного объёма на серверах Internet Archive

Диски реплицируются по дата-центрам, для производительности контент по запросу выдаётся одновременно со всех копий. Все элементы Архива представляют собой директории на дисках. Веб-страницы Wayback Machine хранятся в файлах WARC (Web ARChive, сжатые файлы Web Archive). При запросе отдельной страницы её нужно извлечь из середины архива WARC, а если страница требует загрузки дополнительных ресурсов, то процесс повторяется. Это одна из причин, почему полная загрузка страниц из Wayback Machine достигает 90 секунд, хотя закэшированные копии и популярный контент загружаются быстрее.

web archive org что это за сайт. Смотреть фото web archive org что это за сайт. Смотреть картинку web archive org что это за сайт. Картинка про web archive org что это за сайт. Фото web archive org что это за сайт

Для надёжности копии Архива хранятся не только в Сан-Франциско, но и ещё в нескольких локациях по всему миру, в том числе в Амстердаме (Нидерланды) и Новой Александрийской библиотеке (Египет).

В 1996 году первые серверы Internet Archive подняли на недорогих компьютерах из стандартных комплектующих: по сути, на обычных десктопах под Linux. Хотя инфраструктура сильно выросла, в качестве операционной системы всегда использовали только Linux. С 2004 года все серверы перешли на Ubuntu, сейчас продолжается миграция на Ubuntu 20.4 LTS (Focal Fossa).

Объём Архива

В последнее время объём Архива возрастает примерно на 25% в год, сейчас это соответствует 5−6 петабайтам в квартал. С учётом резервных копий нужно добавлять накопителей на 10−12 петабайт в квартал.

Одна копия Архива занимает более 45 петабайт, но на дисках и лентах хранится минимум две копии каждого объекта.

Как видно на графике вверху, обновление дискового массива происходит только за счёт моделей максимальной ёмкости. Например, в конце 2021 года планируется переход на диски по 20 ТБ, и тогда в серверы будут устанавливать только их. Остальные HDD постепенно доживают свой век, и их количество медленно снижается.

Internet Archive возлагает большие надежды на новые технологии записи данных, такие как HAMR (heat-assisted magnetic recording), чтобы ёмкость HDD увеличивалась ещё быстрее. Технология HAMR предусматривает предварительное нагревание магнитной поверхности лазером в процессе записи, что позволяет значительно уменьшить размеры магнитной области, хранящей один бит информации — и увеличить плотность записи. Нагрев выполняется с помощью лазера, который за 1 пс разогревает область записи до 100 °C.

Разработка этой технологии затянулась на 15 лет, но в январе 2021 года были официально представлены первые диски HAMR на 20 ТБ. Пока что они официально поставляются только избранным клиентам в рамках фирменного сервиса Seagate Lyve, но вскоре должны появиться в свободной продаже.

Seagate обещает, что HAMR позволит наращивать ёмкость HDD на 20% в год. Поэтому в ближайшее время можно ожидать модель на 24 ТБ, а в будущем — диски на 30 и 50 ТБ. Internet Archive тоже надеется на это и внимательно следит за последними разработками.

На текущем размере дисков понадобится 15 вот таких серверных стоек, чтобы разместить одну копию Архива:

web archive org что это за сайт. Смотреть фото web archive org что это за сайт. Смотреть картинку web archive org что это за сайт. Картинка про web archive org что это за сайт. Фото web archive org что это за сайт
У Internet Archive 750 серверов и 20 000 жёстких дисков

Сейчас в дата-центрах установлено 75 серверных стоек, что обеспечивает некоторый запас и избыточное копирование.

По состоянию на февраль 2021 года на серверах хранились копии 534 млрд веб-страниц, 16 млн аудиозаписей, 8,7 млн видеозаписей фильмов, клипов и телепередач, 3,8 млн изображений, 629 тыс. компьютерных программ, более 29 млн книг и текстов, в том числе 72 771 текстов на русском языке.

web archive org что это за сайт. Смотреть фото web archive org что это за сайт. Смотреть картинку web archive org что это за сайт. Картинка про web archive org что это за сайт. Фото web archive org что это за сайт

Любой пользователь может создать аккаунт и добавить в архив медиафайлы.

В 2020 году Internet Archive пережил серьёзный рост количества запросов и объёма внешнего трафика с 40 до 60 Гбит/с. Из-за пандемии коронавируса и самоизоляции ресурсы Архива стали более востребованы. Количество запросов росло так быстро, что в определённый момент маршрутизаторы Internet Archive перестали справляться с нагрузкой, пришлось делать апгрейд сетевой инфраструктуры быстрее, чем планировалось. Сейчас веб-сайт входит в топ-300 крупнейших сайтов интернета.

Работа на собственных серверах имеет и свои недостатки. Основные причины сбоев Internet Archive — обрывы оптоволокна из-за строительных работ в городе, сбои энергоснабжения, случайные провалы напряжения в сети. Впрочем, прошлый год сайт завершил с аптаймом 99,9%.

web archive org что это за сайт. Смотреть фото web archive org что это за сайт. Смотреть картинку web archive org что это за сайт. Картинка про web archive org что это за сайт. Фото web archive org что это за сайт

Internet Archive планирует расширять внешний канал. Ожидается, что в ближайшее время внешний трафик вырастет до 80 Гбит/с.

Примерно так выглядит дизайн внутренней сети:

web archive org что это за сайт. Смотреть фото web archive org что это за сайт. Смотреть картинку web archive org что это за сайт. Картинка про web archive org что это за сайт. Фото web archive org что это за сайт

Дата-центры подключены к нескольким провайдерам первого уровня (Tier 1) и соединены между собой по оптоволокну с применением технологии плотного спектрального уплотнения (DWDM). Локальные университетские сети подключаются к этому кольцу напрямую через локальные точки обмена трафиком.

Вместо нынешнего оптоволокна планируется проложить пары 100-гигабитных кабелей по всему кольцу из четырёх дата-центров, так что внешний трафик тоже можно будет увеличить до 100 Гбит/с.

Прокладка новых кабелей по Сан-Франциско — весьма хлопотное и дорогое дело. Приходится перекладывать асфальт на автомобильных дорогах и тротуарах. К счастью, Internet Archive удалось получить официальный статус библиотеки, что даёт доступ к государственным субсидиям, в том числе к бюджету Федеральной комиссии по связи США (FCC) на подключение всех библиотек к интернету. Таким образом, львиную долю расходов на прокладку, обслуживание оптоволокна и трафик оплачивает FCC по программе E-Rate Universal Service Program.

С 2005 года Internet Archive начал проект Open Library по сканированию книг. С одной стороны, это действительно важный общественный проект. С другой стороны, он позволил получить государственные льготы и финансирование в качестве публичной библиотеки.

Кроме государственных грантов и пожертвований, организация оказывает платные услуги по сканированию книг, в основном, для других библиотек и университетов. Это ещё один источник финансирования.

Планы на будущее

Инженеры Internet Archive сейчас обдумывают варианты использования SSD и GPU в основных серверах, чтобы увеличить их производительность. Главная проблема здесь в том, что все дата-центры находятся в стеснённых городских условиях Сан-Франциско и пригородов с очень ограниченными возможностями охлаждения (см. фото 1). Так что каждый апгрейд требуется хорошо обдумать: не приведёт ли он к повышению температуры.

Интересно наблюдать за ростом инфраструктуры Internet Archive с увеличением количества серверных стоек. Есть подозрение, что рано или поздно наступит момент, когда сложность поддержания своей инфраструктуры превысит некий порог — и библиотека откажется от собственных дата-центров. Но пока что инженеры Core Infrastructure Team успешно справляются с работой.

В зависимости от методологии расчёта, хранение данных в собственных дата-центрах Internet Archive обходятся в 2−5 раз дешевле, чем в облаке. И это только хранение. Сложно даже посчитать, сколько будет стоить круглосуточный исходящий трафик 60 Гбит/с на AWS. Вероятно, он обойдётся даже дороже, чем хранение 200 петабайт.

Похоже, что некоторые сервисы просто «слишком велики» для облака. Компаниям приходится поднимать собственные дата-центры, потому что у них нет выхода. Другой вопрос: должна ли библиотека заниматься этим самостоятельно? Получается, что современная цифровая библиотека — это по сути хостинг-провайдер и дата-центр?

На правах рекламы

Эпичные серверы — это надёжные VDS на Linux или Windows с мощными процессорами семейства AMD EPYC и очень быстрой файловой системой, используем исключительно NVMe диски от Intel. Попробуйте как можно быстрее!

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *