Автор Тема: Archivarix.com - Восстановление контента из web.archive.org  (Прочитано 2396 раз)

29 Сентябрь, 2017, 11:19:55

Оффлайн archivarix

  • Школьник
  • *
  • Сообщений: 9
  • Репутация: 0
  • OS: Windows NT 10.0 Windows NT 10.0
  • Browser: Firefox 55.0 Firefox 55.0
    • Просмотр профиля
https://ru.archivarix.com/ это сервис позволяющий восстанавливать контент из Веб Архива ( web.archive.org ).
- Скачивание контента и обработка происходит на нашем сервере, вы не тратите время и траффик, а только получаете готовый архив с сайтом.
- Восстановленные файлы с текстом (html, css, js) находятся в отдельной папке, чтобы было удобнее делать поиск и замену. Перелинковка сайта воссоздается с помошью mod_rewrite в .htaccess
- Вы получаете готовый работоспособный сайт не содержаший 404 страниц, битых картинок, внешних ссылок, не работающих скриптов и прочего мусора. Все битые файлы заменяются заглушками которые вы можете редактировать, а баннеры, счетчики и прочие внешние скрипты удаляются используя базу данных AdBlock.
- А главное, наш сервис оптимизирует восстанавливаемый сайт в соответствии с рекомендациями Google Developers. Пережимаются файлы изображений и выкидывается из них все EXIF, удаляются из html комментарии, оптимизируются css и js и еще много чего другого. Так что восстановленный сайт может оказаться с точки зрения google лучше изначального.

200 файлов можно восстановить бесплатно, эта цена не зависит от количества восстанавливаемых сайтов - вы можете скачать сколько угодно архивов содержащих менее 200 файлов по цене $0. Если вы захотите скачать сайт большего размера то цена будет $5 за каждые 1000 файлов.
Пожалуйста, после восстановления сайта у нас оставьте отзыв тут, на форуме, или напишите в ответе на е-мейл который приходит на почту вместе с архивом восстановленного сайта. Мы будем рады любым замечаниям а особенно рекомендациям как лучше и удобнее для вебмастера сделать наш сервис.
https://ru.archivarix.com/ - парсер web.archive.org, восстановление контента из Веб Архива.

Форум вебмастеров


09 Октябрь, 2017, 19:00:55
Ответ #1

Оффлайн archivarix

  • Школьник
  • *
  • Сообщений: 9
  • Репутация: 0
  • OS: Windows NT 10.0 Windows NT 10.0
  • Browser: Firefox 56.0 Firefox 56.0
    • Просмотр профиля
Мы сделали короткие видео с объяснением как работает система на русском - https://youtu.be/vGD1QknNWSc и на английском языке - https://youtu.be/jqhjz3Z94KQ
https://ru.archivarix.com/ - парсер web.archive.org, восстановление контента из Веб Архива.

22 Декабрь, 2017, 18:45:32
Ответ #2

Оффлайн archivarix

  • Школьник
  • *
  • Сообщений: 9
  • Репутация: 0
  • OS: Windows NT 10.0 Windows NT 10.0
  • Browser: Firefox 57.0 Firefox 57.0
    • Просмотр профиля
Мы сделали новый лоадер контента, теперь восстановленный сайт может совместно рабоать с любой CMS - например Wordpress, Joomla и так далее. Лоадер использует PHP + SQLite но так же мы оставили возможность использовать старую версию которая работает без php используя только .htaccess. Вообще в лоадер можно интегрировать любой свой скрипт такой как система распределения трафика или ссылки sape. Так же сделана возможность посмотреть состав архива сайта перед восстановлением, сколько и каких файлов там содержится. Сколько картинок, текста, скриптов и так далее.
Все так же цена за восстановление 200 файлов равна нулю. Далее восстановление тысячи файлов стоит $5, а затем каждаю последующая тысяча файлов стоит всего $0.5.
Подробнее инструкции тут - https://ru.archivarix.com/tutorial

А тут короткрое видео с инструкцией как все работает - https://youtu.be/Z7MmiYabAiA
https://ru.archivarix.com/ - парсер web.archive.org, восстановление контента из Веб Архива.

22 Февраль, 2018, 14:07:13
Ответ #3

Оффлайн archivarix

  • Школьник
  • *
  • Сообщений: 9
  • Репутация: 0
  • OS: Windows NT 10.0 Windows NT 10.0
  • Browser: Firefox 58.0 Firefox 58.0
    • Просмотр профиля
Наша система восстановления сайтов из Веб Архива стала еще лучше, мы научились обходить при скачивании сайтов инструкции robots.txt. Известно что archive.org учитывает параметр Disallow: но он не удаляет этот контент а просто "скрывает" доступ, открыть его можно разрешив индексацию спайдеру архива в файле robots.txt купив домен и загрузив туда этот файл.
Мы разработали алгоритм игнорирующий "скрытость" архивных файлов и позволяющий восстанавливать даже сайты на которых в robots.txt было прописано закрытие от индексации. То есть теперь можно скачать контент с любого имеющегося в archive.org сайта, даже если владельцами его был закрыт вход для ботов параметром Disallow: На сколько я знаю таких возможностей пока не предоставляет ни одна другая программа или сервис по восстановлению из Веб архива.
https://ru.archivarix.com/ - парсер web.archive.org, восстановление контента из Веб Архива.

11 Май, 2018, 10:10:46
Ответ #4

Оффлайн archivarix

  • Школьник
  • *
  • Сообщений: 9
  • Репутация: 0
  • OS: Windows NT 10.0 Windows NT 10.0
  • Browser: Firefox 59.0 Firefox 59.0
    • Просмотр профиля
Мы выпустили новую версию нашего сервиса. Кроме всего что было раньше - восстановление полностью работоспособного сайта без 404 страниц, баннеров, внешних ссылок, неработающих скриптов и негрузящихся картинок мы сделали работу с восстановленным контентом гораздо удобнее.
Теперь у нас есть своя CMS - https://ru.archivarix.com/cms/ которая идет с каждым восстановленным сайтом. В ней вы можете редактировать код в простом текстовом или WYSIWYG редакторе, вставлять или удалять страницы, проводить поиск и замену в коде по регулярным выражениям и многое другое. Наша CMS может работать совместно с дургой, например с Wordpress или Drupal. Теперь ваши восстановленные сайты стало гораздо легче редактировать и использовать для создания TDS дополняя или убирая контент, вставляя на них собственные скрипты и рекламу.
https://ru.archivarix.com/ - парсер web.archive.org, восстановление контента из Веб Архива.

14 Май, 2018, 18:57:17
Ответ #5

Оффлайн pavel1985

  • Школьник
  • *
  • Сообщений: 8
  • Репутация: 0
  • OS: Windows 7/Server 2008 R2 Windows 7/Server 2008 R2
  • Browser: Chrome 63.0.3239.132 Chrome 63.0.3239.132
    • Просмотр профиля

02 Октябрь, 2019, 12:23:19
Ответ #6

Оффлайн archivarix

  • Школьник
  • *
  • Сообщений: 9
  • Репутация: 0
  • OS: Windows NT 10.0 Windows NT 10.0
  • Browser: Firefox 69.0 Firefox 69.0
    • Просмотр профиля
Недавно мы обновили нашу систему и теперь у нас появились две новых опции.
Теперь с помощью системы скачивания существующих сайтов можно скачать даркнетовские .onion сайты. Просто введите адрес .onion сайта в поле "домен" https://ru.archivarix.com/website-downloader-cms-converter/ и сайт будет качаться из сети Tor так же как и обычный.
А ещё Archivarix может не только скачивать существующие сайты  или восстанавливать их из Веб Архива, но и вытаскивать из них контент. Для этого тут https://ru.archivarix.com/restore/ в "продвинутых параметрах" надо выбрать "Извлечь структурированный контен".
После завершения скачивания сайта вместе с полным архивом всего сайта формируется архив статей в формате xml, csv, wxr и json.
При формировании архива статей наш парсер учитывает только значащий контент исключая дубли статей, управляющие элементы и служебные страницы.
https://ru.archivarix.com/ - парсер web.archive.org, восстановление контента из Веб Архива.

04 Декабрь, 2019, 16:26:41
Ответ #7

Оффлайн archivarix

  • Школьник
  • *
  • Сообщений: 9
  • Репутация: 0
  • OS: Windows NT 10.0 Windows NT 10.0
  • Browser: Firefox 70.0 Firefox 70.0
    • Просмотр профиля
Мы выпустили свой плагин для Wordpress - Archivarix External Images Importer https://wordpress.org/plugins/archivarix-external-images-importer/ . Он импортирует изображения со сторонних сайтов, ссылки на которые находятся в постах и страницах, в галерею WordPress. Если картинка в данный момент не доступна или удалена, то плагин скачивает её копию из Веб Архива. Плагин предназначен для работы с нашим экстрактором структурированного контента. Если при запуске восстановления сайта отметить "Извлечь структурированный контент" во вкладке "Продвинутые параметры", то после завершения скачивания вместе с полным архивом всего сайта формируется архивы статей со ссылками на медиаконтент в формате xml, cvs, wxr и json. При формировании архива статей наш парсер учитывает только значащий контент исключая дубли статей, управляющие элементы и служебные страницы, оставляя только готовые к импорту на ваш сайт статьи с сохранённым форматированием.
Еще мы запустили Archivarix Blog - https://ru.archivarix.com/blog/ Там мы будем выкладывать статьи о том, как работать с нашей системой, с Веб Архивом и другие полезные вещи о восстановлении контента и создании PBN.
https://ru.archivarix.com/ - парсер web.archive.org, восстановление контента из Веб Архива.

12 Май, 2020, 16:24:01
Ответ #8

Оффлайн archivarix

  • Школьник
  • *
  • Сообщений: 9
  • Репутация: 0
  • OS: Windows NT 10.0 Windows NT 10.0
  • Browser: Firefox 75.0 Firefox 75.0
    • Просмотр профиля
Система Архиварикс https://ru.archivarix.com предназначена для скачивания и восстановления сайтов - как уже не работающих из Интернет Архива archive.org, так и живых, находящихся в данный момент онлайн. Задача системы восстановить сайт в таком виде, в котором его можно будет использовать в дальнейшем на своем сервере как источник ссылок и трафика. Вместе с восстановленным сайтом идет бесплатная CMS, что делает Archivarix отличным инструментом для как для построения сетей PBN так и для «оживления» сайтов с целью последующей их продажи.

Недавно мы выпустили обновление нашей CMS, в котором появились:
- Новый дэшборд для просмотра статистики, настроек сервера и обновления системы.
- Возможность создавать шаблоны и удобным образом добавлять новые страницы на сайт.
- Интеграция с Wordpress и Joomla в один клик.
- Теперь в Поиске-Замене дополнительная фильтрация сделана в виде конструктора, где можно добавить любое количество правил.
- Фильтровать результаты теперь можно и по домену/поддоменам, дате-времени, размеру файлов.
- Новый инструмент сброса кэша в Cloudlfare или включения/отключения Dev Mode.
- Новый инструмент удаления версионности у урлов, к примеру, "?ver=1.2.3" у css или js. Позволяет чинить даже те страницы, которые криво выглядели в ВебАрхиве из-за отсутствия стилей с разными версиями.
- У инструмента robots.txt добавлена возможность сразу включать и добавлять Sitemap карту.
- Автоматическое и ручное создание точек откатов у изменений.
- Импорт умеет импортировать шаблоны.
- Сохранение/Импорт настроек лоадера содержит в себе созданные кастомные файлы.
- У всех действий, которые могут длиться больше таймаута, отображается прогресс-бар.
- Инструмент добавления метатега viewport во все страницы сайта.
- У инструментов удаления битых ссылок и изображений возможность учитывать файлы на сервере.
- Новый инструмент исправления неправильных urlencode ссылок в html коде. Редко, но может пригодиться.
- Улучшен инструмент отсутствующих урлов. Вместе с новым лоадером, теперь ведётся подсчёт обращений к несуществующим урлам.
- Подсказки по регулярным выражениями в Поиске & Замене.
- Улучшена проверка недостающих расширений php.
- Обновлены все используемые js инструменты на последние версии.
https://ru.archivarix.com/ - парсер web.archive.org, восстановление контента из Веб Архива.