Есть возможность автоматически каждый день отправлять сайт wordpress в web.archive.org?
1. для начала в /robots.txt добавьте правило:
в самый верх файлаUser-agent: ia_archiver Allow: /Это разрешает боту Wayback Machine (ia_archiver) архивировать весь сайт.
2.Чтобы автоматически архивировать каждый день, добавьте в cron на хостинге
curl -s 'https://web.archive.org/save/https://zaplata.ru' > /dev/nullили внутреннюю старницу
curl -s 'https://web.archive.org/save/https://zaplata.ru/share.html' > /dev/nullНа web.archive.org после запуска крона страница появляется не сразу - 3-4 минуты.
Если нужно загружать весь сайт каждый день, то можно через bash-скрипт, который будет автоматически получать все URL из вашей карты сайта sitemap_index.xml, и архивировать все страницы (между каждой делать паузу несколько секунд) и по крону запускать
но это уже совсем другая история
сейчас тестирую парсинг и отправку всего сайта с разбивкой всех url на несколько дней
Итог тестирования:
К карте сайта sitemap.xml все же можно подвязаться, но у мне показалось слишком муторно, и количество страниц на моем сайте уже засталяет разбивать на несколько запусков CRON.
У меня определенный список URL для web.archive.org, который достаточно загружать.
Инструкция - Для массовой загруки на web.archive.org сайта каждый день:
1. На хостинге бегет https://beget.com/p676856/hosting/virtual в файловом менеджере в корневой папке создаем 2 файла (названия можно редактировать):
archive-zaplata.sh
и
wget_archive-zaplata-urls.txt
В первый файл добавляем код:
#!/bin/bash
# Если будут ошибки с \r, выполните в терминале:
# sed -i 's/\r$//' ~/archive-zaplata.sh
# sed -i 's/\r$//' ~/wget_archive-zaplata-urls.txt
URL_FILE="$HOME/wget_archive-zaplata-urls.txt"
while IFS= read -r url; do
[[ -z "$url" || "$url" =~ ^[[:space:]]*# ]] && continue
echo "Архивирую: $url" # ← эта строка покажет прогресс
curl -s "https://web.archive.org/save/$url" > /dev/null
sleep 3
done < "$URL_FILE"
Во второй файл список наших URL (важно чтобы страницы без суффикса заканчивались косой чертой)
Пример:
https://zaplata.ru/
https://zaplata.ru/forum.html
https://zaplata.ru/cat/domain/
2. Эти файлы капризные на скрытие символы поэтому, после их сохранения оба файла нужно очистить от Windows-символов \r.
Для этого переходим в аккаунт нашехо хостинга и в колнсоле хостинга "Terminal" (слева зафиксирована кнопка)
вбиваем по очереди
sed -i 's/\r$//' ~/archive-zaplata.sh
и
sed -i 's/\r$//' ~/wget_archive-zaplata-urls.txt
3. В разделе крон-задач хостинга добавляем задачу (по вашим правилам, я выставил каждый день)
/bin/bash ~/archive-zaplata.sh
4. Можно вручную запустить (крон задача ведет логирование через скрипт, что очень удобно)
