wayback machine что это такое

Что такое веб-архив сайта

Еще не зарегистрированы?

Создание и наполнение онлайн-ресурса — это многоэтапный системный процесс. Контент фирменного сайта, интернет-магазина, лэндинга или портала должен постоянно обновляться с учетом целей и задач компании, изменений предпочтений целевой аудитории и алгоритмов поисковых систем. Но иногда старые тексты могут пригодиться, и тогда их можно найти на веб-архивах.

Что такое веб-архив

Веб-архив (web archive, internet archive) — это онлайн-платформа Wayback Machine, созданная в 1996 году. Здесь хранятся копии контента сайтов, интернет-магазинов, блогов, информационных и развлекательных порталов и других интернет-ресурсов, которые разрешены для сохранения. Это бесплатная онлайн-библиотека web.archive.org, где можно найти разные версии всех веб-ресурсов и просмотреть, как выглядел их контент, сохраненный на дату посещения сайта роботом сервиса.

Со времени создания веб-архива, здесь накопилось и на данный момент хранится больше 330 миллиардов файлов:

Зачем нужен web archive и как его можно использовать

Веб-архивирование нужно для того, чтобы можно было восстановить важную утерянную информацию с сайта, которая может не сохраниться из-за технических проблем или повреждения вирусом.

Например, владелец сайта создал его и наполнил описанием продукции, полезными статьями и изображениями по тематике. Через время веб-ресурс был обновлен и тексты заменены на новые. А еще через время понадобились именно старые тексты. В таких случаях и нужен открытый интернет-архив, в котором можно найти десятки сохраненных версий сайта на разные даты.

Сохранение авторского контента — это важная функция. Намного проще корректировать уже имеющиеся тексты, чем писать новые с нуля. Можно сделать рерайт (переписывание текста другим словами с сохранением смысла и структуры). Особенности использования резервных копий приведены в Табл. 1.

Табл. 1. Для каких целей можно использовать более ранний контент

Цели	Особенности применения
Восстановление сайта	Бывают случаи непоправимого повреждения онлайн-ресурса — из-за вирусов, хакерских атак. Если не было проведено резервное копирование на своем хостинге, то можно будет найти свои тексты в веб-архиве
Наполнение сайта по похожей тематике	Старый экспертный текст по своей тематике может понадобиться при создании лэндинга, вспомогательного онлайн-ресурса. Если тексты неуникальны, их нужно рерайтить
Ведение блога	Для привлечения трафика на профильный сайт нужно вести блог с текстами узкой тематики. Это могут быть советы по выбору товаров, использованию продукции и другой контент. Для написания таких текстов может потребоваться информация со старых копий веб-ресурса
Публикации на странице в социальных сетях	Бизнес-аккаунт в соцсетях помогает поднять узнаваемость бренда и компании, привлечь новых покупателей, расширить рынки сбыта. Для постов в социальных сетях можно использовать тексты, которые ранее были опубликованы на сайте (если они не дублируются с новыми)

Как просмотреть старые версии сайтов на Wayback Machine

Если вам необходимо найти старую версию страниц какого-либо веб сайта, выполните следующие действия:

Важно! Если веб-страницу через некоторое время не удается просмотреть, это может быть вызвано несколькими причинами:

Если вы хотите посмотреть, как выглядел веб-сайт, но на сохраненной копии нет изображений или других элементов дизайна (иногда они не сохраняются), нужно открыть другую версию, которую веб-архив сохранил в другой день.

Как добавить современную версию сайта в веб-архив Wayback Machineи выполнить другие действия

Онлайн-платформа по веб-архивированию сайтов предоставляет множество возможностей разработчикам и владельцам ресурсов (Табл. 2).

Табл. 2. Как работать с веб-архивом

Возможности	Особенности выполнения
Сохранение нужной версии сайта на платформе интернет-архива	Нужно самостоятельно инициировать сохранение. В разделе платформы «Save Page Now» нужно забить домен онлайн-ресурса и нажать «Save page». Такую процедуру рекомендуется повторять каждый раз, когда в контент были внесены исправления или дополнения
Запрет на добавление интернет-ресурса в память веб-архива	Для запрета добавления нужно прописать это в файле robots.txt. В панелях хостеров есть корневой каталог, в котором предусмотрена возможность редактирования файлов. При введении кода User-agent: ia_archiverDisallow: /User-agent: ia_archiver-web.archive.orgDisallow: / файл будет скрыт от копирования. При введении такого кода из веб-архива удаляется и текущая версия сайта и не осуществляется системное копирование (до тех пор, пока в файле robots.txt есть такие настройки или пока не закончится срок регистрации домена)
Восстановление веб-сайта из интернет-архива	Если сайт был поврежден вирусами или есть другие технические проблемы, из-за которых контент был нарушен, можно восстановить файлы из онлайн-хранилища. Для этого применяются специальные сервисы. Есть платные и бесплатные варианты, которые выбираются с учетом количества страниц для восстановления

Уникальный контент из веб-архива

Многие коммерческие сайты через некоторое время существования закрываются. Если на них был опубликован полезный контент (экспертные статьи, аналитические обзоры и другая важная информация), то после закрытия первоисточника они могут быть востребованными. То есть, сайт уже не работает и ранее написанные статьи могут использоваться на информационных порталах (если они уникальны).

Веб-архив является очень полезным сервисом, который может пригодиться в различных ситуациях. Быстрое восстановление потерянных данных может значительно сэкономить время и финансы, если сайт подвергнется хакерской атаке или же перестанет работать из-за серьезной технической проблемы. Веб-архив дает возможность не только просматривать старые версии своего сайта, но и анализировать контент конкурентов, сохраненный в разные периоды времени.

Источник

Когда интернет-архив забывает

В интернете есть определённые организации, на работу которых мы привыкли ежедневно полагаться в надежде предотвратить превращение правды в эластичную или неопределённую субстанцию. Не обязательно таким методом, к которому стремятся такие глупые проекты, как Verrit, но, по крайней мере, способом, способным подтвердить, что вы не сходите с ума, что старый пост или статья, которую вы вроде бы читали, реально существует. Это может быть такое поверхностное действие, как чтение быстро удалённого твита через кэш Google, или же такое глубокое погружение в контент, как изучение архива ныне почившего сайта через Wayback Machine. Но что произойдёт, если архив становится менее надёжным и по якобы убедительным причинам решает прогнуться и удалить спорный материал, попавший в архив?

Несколько недель назад при записи подкаста речь зашла о старом блоге за авторством The Ultimate Warrior [Последний воин] – бодибилдера, ставшего хиропрактиком, ставшего профессиональным реслером, ставшего политическим оратором, склонным к напыщенным речам, выступавшим под своим реальным именем – да, Воин. Как описывал Барри Петески с блога Deadspin после того, как Воин умер в 2014 году, он был «безумным козлом», разглагольствуя в блогах и в студенческих кампусах по поводу инвалидов, гомосексуалистов, жителей Нью-Орлеана и многих других. Однако когда я решил поискать определённую запись в блоге, я увидел, что они были не просто удалены – сайта не было даже в архиве Internet Archive, вместо него висело сообщение об ошибке: «Этот URL был исключён из Wayback Machine».

Оказалось, что сайт Воина был удалён из архива уже несколько месяцев – это произошло вскоре после того, как Роб Руссо прошёлся по нему в статье для Vice Sports, обвинив WWE в лицемерии в связи с использованием фотографии Воина для рекламы «Месяца борьбы с раком груди». Кампания призывала женщин «выпустить своего внутреннего воина», но поскольку в своих блогах Воин желал смерти людям, пережившим рак, ситуация выглядела плохо. Руссо был удивлён тем, как архив удалил этот сайт «почти сразу после выхода моей статьи, буквально в течение недели» – так он рассказал об этом сайту Gizmodo.

Руссо подозревал, что за этим стоит WWE, однако представитель компании рассказал журналу Gizmodo, что они не имеют к этому отношения. Стив Уилтон, управляющий из Ultimate Creations, также отверг свою причастность к этому. Представитель Internet Archive рассказал Gizmodo, что архив был удалён по запросу, сделанному в рамках DMCA бизнес-менеджером компании Уилтона от 29 октября 2017 года, через два дня после публикации статьи в Vice.

За последние несколько лет восприятие сервиса Wayback Machine поменялось под влиянием политических настроений. Долгое время этот сайт оставался полезным инструментом для поиска содержимого сломавшихся ссылок, а теперь его считают арбитром правды и оплотом противостояния стиранию истории.

То, что сайты в архиве демонстрируют цифровой след и происхождение контента, не только полезно для журналистов, но и эффективно практически для любого человека, пытающегося отследить исчезающие веб-страницы. Учитывая это, тот факт, что Internet Archive практически не пытается бороться с запросами на удаление контента, становится проблемой. И это не единственный пример: когда админ сайта решает заблокировать робота Wayback при помощи настроек в файле robots.txt, то архив не просто прекращает обход сайта, но и удаляет всю его историю из публичного доступа.

Иначе говоря, если вы занимаетесь публикацией спорного контента и хотите избежать ответственности, существует, по меньшей мере, два стандартных способа удалить его из наиболее надёжного стороннего веб-архива в публичном интернете.

Для Internet Archive, быстрое реагирование на требования об удалении контента, обращённые ко вроде бы добросовестно используемым им копиям веб-сайтов, а также практика обработки robots.txt, немного уменьшают риски, зато идут вразрез с духом его деятельности. А если бы кто-то решил подать на сервис в суд из-за неподчинения требованиям, даже готовые, имеющиеся в распоряжении архива методы юридической защиты, могли бы обойтись невероятно дорого. И неважно, что использование материалов ничего не нарушает по любым стандартам. Если правообладатель делает подобную попытку, вам всё равно придётся защищаться в суде.

«В данном контексте пока ещё никто не пытался оспаривать добросовестное использование», — отметила Аннамария Брайди, профессор юриспруденции из Университета Айдахо и внештатный сотрудник Центра интернета и общества при Стэнфордской юридической школе. «Internet Archive – организация некоммерческая, поэтому она несёт большие риски, связанные с возможными судебными процессами. Учитывая размах их работы, то, что они архивируют практически всё, что есть в общем доступе в интернете, их риски феноменальны. Можно понять, почему они ведут себя осторожно, даже если это идёт вразрез с их основной миссией – создать точный исторический архив всего, что было в интернете, и помешать людям стереть свидетельства из их истории».

Internet Archive не стал отвечать на конкретные вопросы, связанные с обработкой robots.txt, его готовностью выполнять запросы на удаление, и то, довелось ли ему использовать в суде аргумент о добросовестном использовании материалов. Однако представитель сервиса отправил следующее сообщение:

Через несколько месяцев после запуска Wayback Machine в 2001 году мы участвовали в работе группы сторонних архивариусов, библиотекарей и адвокатов, составивший черновой набор рекомендаций по реагированию на запросы на удаление контента, который Internet Archive в результате принял как набор инструкций по поведению, и придерживался их в первые лет десять существования.

В этом году мы провели совещание с группой сходного состава, чтобы пересмотреть эти рекомендации и изучить возможную ценность их обновлённой версии. Мы ещё обсуждаем некоторые проблемы и надеемся, что весьма скоро сможем представить обновлённую информацию на нашем сайте, чтобы помочь обществу лучше понять, как мы относимся к запросам на удаление. Некоторые из наших мыслей по поводу robots.txt мы изложили в отдельной статье.

По сути, мы пытаемся найти баланс между беспокойством владельцев сайта и правообладателей, и интересом общественности, заслуживающей свободного доступа к как можно более полной истории интернета.

Учитывая всё это, вспомним, что Internet Archive всегда позиционировал себя, как библиотеку – разве это не должно иметь значение?

«В текущем законе об авторском праве, хотя там и есть особые случаи, дающие определённые права библиотекам, нет определения библиотеки», — пояснил Брэндон Батлер, директор информационной политики Библиотеки Виргинского университета. «По этому поводу правообладатели всегда возмущались, а также по поводу таких организаций, как Internet Archive, не представляющих собой 200-летние публичные или университетские библиотеки. Они часто утверждают, что боятся появления подложных библиотек, которые будут называть себя библиотеками, а на самом деле служить прибежищем пиратов». Единственным исключением, которое смог вспомнить Батлер, был тот случай с некоммерческой онлайн-библиотекой буддистских текстов American Buddha, которая обнаружила, что на неё подало в суд издательство Penguin, из-за нескольких книг, на которые оно получило права. «Суду было всё равно, что это место называло себя библиотекой; это не защитило их от обвинений в нарушении прав». Батлер отмечает, что хотя статус библиотеки не будет защищать Internet Archive так, как это было бы возможно, «право на создание копий для хранения», как называет это Батлер, говорит в их пользу.

«Обычно на библиотеки не подают в суд, из этого выходит плохая реклама», — говорит Батлер. Поэтому нет никакой горы современных юридических прецедентов, связанных с библиотеками в цифровую эру, за исключением нескольких случаев, связанных с делами Google Books.

Как отмечает Брайди, в США авторское право – это «коммерческое право». Дело не в ущербе репутации, а в защите ценности работы, и, конкретнее, возможности постоянно на ней зарабатывать. «Мы оправдываем это тем, что хотим побудить художников и других творческих людей публиковать и продавать свои работы, — сказала она. – Использование авторского права для попыток контроля приватности или репутации… Его, конечно, можно и так использовать, однако можно заявить, что это неправомерное использование авторского права, выходящее за его сферу ответственности».

Мы много чего принимаем, как само собой разумеющееся, особенно из-за того, что всё больше полагаемся на технологию. «Интернет навсегда» – этот рефрен может часто встречаться в СМИ, а скрытая в этом заявлении мудрость о необходимости вести себя осторожно, вероятно, обоснована, однако это не стоит понимать буквально. Люди удаляют посты. Веб-сайты и целые платформы исчезают из-за бизнеса и других причин. Богатые, знаменитые и власть имущие не стесняются запугивать мелкие некоммерческие организации. Хорошо иметь защиту на всякий случай, однако постоянству интернета есть границы – а там, где есть границы, есть и пути обхода.

Источник

Web-Archive как средство доказывания

Нередко авторы (правообладатели) сталкиваются с ситуацией, когда нарушение их исключительных прав в сети Интернет правонарушитель устраняет до предъявления ему требований в досудебном или судебном порядке (претензии или искового заявления). Подобные ситуации практически полностью лишают автора (правообладателя) возможности взыскать по суду с виновных лиц денежную компенсацию, поскольку истец при сложившихся обстоятельствах, скорее всего, не сможет подтвердить перед правоприменителем факт нарушения его исключительных прав, входящий в предмет доказывания по такой категории дел. Однако действительно ли приведенный случай является абсолютно безвыходным или всё же в практике существуют какие-либо способы решения указанной проблемы? Попытаемся разобраться.

Традиционным методом фиксации размещения тех или иных объектов на сайтах в сети Интернет признается составление нотариального протокола осмотра сайта. Между тем, у такого способа есть ряд существенных недостатков:

Учитывая вышеперечисленные негативные стороны, можно заключить, что составление нотариального протокола хотя и является на настоящий момент основным средством доказывания факта размещения спорного контента на сайтах в сети Интернет, но абсолютно не гарантирует успешную защиту исключительных прав в суде.

Существуют ли альтернативные способы подтвердить обстоятельства размещения на определенном веб-ресурсе в конкретную дату произведения или иного объекта интеллектуальных прав?

Прежде всего, необходимо уточнить, что Интернет, как и любой файл в памяти компьютера, не существует «в воздухе»: каждый сайт во всемирной паутине не только имеет свой адрес (доменное имя), подобно недвижимому имуществу, но и физически размещается на определенных серверах, обслуживаемых чаще всего хостинг-провайдерами. В большинстве распространенных мессенджеров уже давно закрепилась функция архивации старых ненужных бесед, которая позволяет убрать те или иные чаты с главного экрана приложения, но при этом допускает восстановление доступа к ним в случае необходимости. Поскольку, как мы уже сказали, сайты в сети Интернет в сущности ничем не отличаются от текстовых, графических или аудиовизуальных файлов, составляющих содержание чатов в мессенджерах, то для всего, что содержится на просторах сети, также была предусмотрена функция архивации, которая в обиходе программистов получила условное наименование «Web-Archive». Именно использование Web-Archive позволяет ретроспективно посмотреть на страницы сайтов в сети Интернет, отмотать стрелки часов назад и зафиксировать размещение на тех или иных веб-ресурсах интересующих нас объектов, которые в настоящем времени уже могут быть удалены с такого веб-ресурса.

Web-Archive (также Internet Archive, Архив Интернета, Wayback Machine) — сервис, изначально разработанный в 1996 году некоммерческой организацией «Internet Archive» в США, предназначенный для сбора и последующей архивации копий веб-страниц, а также графических, аудио и видеоматериалов, размещенных на таких веб-страницах, предоставляющий доступ к своему архиву неограниченному кругу лиц на безвозмездной основе. URL-адрес сайта: archive.org. На март 2019 года объем данных, содержащихся в Web-Archive, насчитывал 45 петабайт (то есть около 47 миллионов гигабайт

Механизм работы сайта предельно прост: в поле поиска, по аналогии с адресной строкой браузера, вводится URL-адрес необходимой веб-страницы в сети Интернет. После осуществления поискового запроса система предлагает пользователю календарь с датами, в которые Web-Archive делал снимки искомой веб-страницы. Когда пользователь выберет наиболее удовлетворяющую его интересам дату, сервис покажет, как веб-страница выглядела в указанный период времени и какие материалы были на ней размещены. Кроме того, в Web-Archive имеется рубрикация, позволяющая совершить поиск текстовых, графических, звуковых, аудиовизуальных файлов, а также найти то или иное программное обеспечение.

Позже появились схожие, в том числе российские, сервисы, занимающиеся архивацией различных сегментов сети Интернет. В качестве примера можно привести ресурсы web-arhive.ru и archive.is. Для удобства в дальнейшем все сервисы такого типа мы будем называть Web-Archive.

Впрочем, позиции судов насчет принятия в качестве средств доказывания сведений из сервисов Web-Arсhive не являются единообразными, в связи с чем представляется интересным более детально проанализировать имеющиеся в базах судебные акты.

Судебная практика. Как ни странно, практика использования сведений из Web-Archive в целом складывается благоприятно. Так, Арбитражный суд города Москва в своём Решении от 17 июля 2017 года по делу № А40-206553/2015 указал следующую характеристику рассматриваемого сервиса:

Доказательства, представленные Истцом с сайта https://archive.org/web, являются допустимыми и относимыми.

Сайт https://archive.org/web является общедоступными сайтом, представляющим собой архив по сбору копий веб-страниц, графических материалов, видео- и аудиозаписей и программного обеспечения. Архив обеспечивает долгосрочное архивирование собранного материала и бесплатный доступ к своим базам данных для широкой публики.

Использование приведенного сайта при доказывании рекомендовано федеральными государственными органами, в частности Федеральной антимонопольной службой России в Письме от 28.08.2015 № АК/45828/15 «О рекламе в сети «Интернет», что означает, что данному ресурсу можно доверять в части предоставления им информации.

Схожие позиции содержатся в следующих судебных актах: Постановление Девятого арбитражного апелляционного суда от 20 октября 2017 года по вышеприведенному делу № А40-206553/2015; Решение Суда по интеллектуальным правам от 15 ноября 2018 года по делу № СИП-317/2017; Решение Бутырского районного суда от 16 августа 2016 года по делу № 2-5527/16 (Апелляционным определением от от 12 декабря 2016 года Московского городского суда оставлено в силе).

Некоторые суды, однако, склонны не признавать сведения из Web-Archive надлежащими доказательствами. Так, в рамках рассмотрения по существу в своём Решении по делу № А53-17108/2013 Арбитражный суд Ростовской области не стал анализировать распечатки с сервиса Web-Archive, в которых содержались важные обстоятельства, имеющие значение для дела, признав их недопустимыми средствами доказывания. Суд апелляционной инстанции (Постановление Пятнадцатого арбитражного апелляционного суда от 13 июня 2014 года) Решение нижестоящей инстанции отменил, указав:

Доводы представителя истца о том, что представленные ответчиком материалы не могут являться допустимыми доказательствами по делу, судом апелляционной инстанции отклоняются, поскольку они распечатаны со страниц специализированного сервиса, имеющего юридический статус библиотеки. К указанному сервису имеет доступ любой пользователь сети «Интернет», в связи с чем у суда нет оснований не доверять информации, находящейся на данном сервисе. Кроме того, сайт web.archive.org и создан специально для хранения информации о том, каким именно было содержимое интернет-страницы (сайта) в то или иное время. Учитывая, что указанный информационный ресурс расположен за пределами Российской Федерации и вмешательство заинтересованных лиц (участников спора) в указанный информационный ресурс исключено, апелляционный суд находит возможным принять распечатки страниц указанного ресурса.

В Решении Суда по интеллектуальным правам от 16 ноября 2018 года по делу № СИП-324/2018 правоприменитель признал, что представленной в материалы дела распечаткой с Интернет-сайта, полученной посредством электронного сервиса «Web archive», подтверждается факт размещения объекта на сайте, но при этом уточнил, что ей не подтверждается фактическое использование спорного товарного знака ответчиком в отношении определенного класса МКТУ.

Иные способы доказывания. Несмотря на имеющиеся неоспоримые преимущества сведений из систем Web-Archive, имеются и другие средства доказывания, позволяющие в отсутствие нотариального протокола подтвердить в суде факт размещения тех или иных объектов на сайтах в сети Интернет.

Наиболее доступным большинству способом доказать, что в определенный момент времени на определенном сайте был размещен тот или иной объект правовой охраны, является создание ретроспективных скриншотов необходимых веб-страниц. Сообщество IP view рекомендует: Если Вы случайно заметили, что кто-то разместил Ваши фотографии, стихотворения, музыкальные композиции или иные объекты интеллектуальных прав на своём сайте, не проходите мимо — потратьте несколько минут и зафиксируйте нарушения, нажав на клавиатуре клавишу «PrintScreen» и сохранив получившиеся изображения с помощью любых графических редакторов (Microsoft Paint, Adobe Photoshop и других). Так Вы сможете в той или иной степени обеспечить защиту своих исключительных прав в случае, если в дальнейшем решите наказать нарушителя за его противоправные деяния.

При создании ретроспективных скриншотов, которые в дальнейшем потенциально будут использоваться в качестве доказательств по делу, нужно придерживаться некоторых правил. Так, скриншоты должны сохраняться в исходном виде и размере, не допускается их переработка, на них обязательно должны присутствовать время и дата, которые обычно показываются на панели внизу экрана, — несоблюдение этих требований многократно увеличивает дальнейшее признание судом таких доказательств ненадлежащими (недостоверными, сфальсифицированными). Кроме того, если фиксируется размещение нескольких охраняемых объектов, расположенных на разных URL-адресах, рекомендуется запечатлевать всю последовательность переходов с одной веб-страницы на другую. И конечно, если не прибегать к помощи нотариуса в подобных ситуациях, то придется заверять скриншоты самостоятельно, в противном случае суд, вероятнее всего, такие доказательства отклонит.

Более подробно о ретроспективных скриншотах как о средствах доказывания Сообщество IP view расскажет в одной из своих следующих статей.

На практике встречаются случаи, когда в качестве подтверждения размещения спорного контента на сайте в сети Интернет стороны представляют самостоятельно составленные протоколы по типу нотариальных. Содержательная часть таких самодельных протоколов практически не отличается от сведений, закрепляемых в нотариальных протоколах, однако суды традиционно доверяют нотариату больше, нежели простому гражданину или представителю юридического лица. Поэтому нередко возникают сложности, связанные с несоответствием таких протоколов требованию достоверности, обычно предъявляемому к доказательствам. Правильный порядок составления самодельных протоколов осмотра сайта мы более детально осветим в рамках отдельного исследования.

Выводы. Таким образом, мы можем сделать вывод, что в настоящее время в судебной практике не выработалось единого подхода относительно оценки сведений из систем Web-Archive. В качестве крайней меры полученные из такого источника данные, которые сторона либо ее представитель заверили самостоятельно, могут быть использованы для подтверждения позиции стороны по делу, однако в ординарных ситуациях всё же пока рекомендуется не экономить на нотариальных протоколах и фиксировать юридические факты наиболее распространенным способом. Впрочем, хочется выразить надежду, что в недалеком светлом будущем процедуры доказывания будут упрощаться и скоро любой пользователь, представивший в судебном заседании выписку из Web-Archive, сможет беспрепятственно защитить свои права в суде, особенно в аспекте соблюдения принципа доступности правосудия.

Источник