Привет! Хочу сделать автонаполняемый блог на WordPress — чтобы посты и ссылки подтягивались автоматически из внешних источников.
Кто сталкивался?
Где брать контент и ссылки, чтобы не нарушать авторские права и не получить санкции от поисковиков?
Смотри в сторону RSS-лент тематических сайтов, которые разрешают рерайт или агрегацию.
Также можно парсить открытые API (например, новостные агрегаторы, государственные порталы, научные репозитории). Главное — указывать источник и делать уникальную обработку: переписывать заголовки, добавлять свой комментарий, менять структуру.
В аграрной тематике, например, есть много открытых данных: Росстат, Минсельхоз, FAO, AgroServer.
RSS у них тоже есть. Я использую WPGrabber + Cron — контент подтягивается раз в сутки, проходит через нейросеть на перефразирование, и публикуется. Пока без замечаний от Google.
Если хочешь полностью легально — бери только материалы с лицензией CC0 или CC-BY.
Или заключай партнерства с другими блогерами/СМИ на републикацию. Для автоматизации можно писать собственные парсеры на Python (с Beautiful Soup или Scrapy) и отправлять данные в WP через REST API.
Спасибо! А как быть со ссылками внутри постов?
Нужно, чтобы они вели не только на источник, но и на другие материалы внутри блога — чтобы не было «висячих» страниц.
Настрой внутреннюю перелинковку через плагины типа Link Whisper или автоматизируй через скрипт: при создании поста сканируй базу на предмет похожих ключей и вставляй ссылки на уже опубликованные материалы.
Это усилит SEO и снизит риск «мёртвых» страниц.