23.03.2026

Краткий обзор парсинга сайта через Datacol

Инструкция парсинга DAtacol и экспорта в WordPress

На самом деле за много лет работы с Datacol у меня накопилось более десятка различных уловок. В этой статье я максимально кратко расписываю принцип работы парсера.

Создаем новую кампанию.


При проверке сайта на сбор советую немного выждать 10-15 секунд. Сайт не всегда сразу загружается.

Сайт открылся. Подобрали Xpath ссылок.

Не забываем про пагинацию

Совет: Очень важно понимать что Datacol парсит не все сайты. Однако, иногда он не парсит сайты через стандартный загрузчик.
Поэтому если у вас получилось собрать ссылки, прописать к полям, но он не собирает. Попробуйте переключить загрузчик - "браузер".

Добавляем какие поля нам нужно парсить

Основные поля для настройки:

1. Сам выбор и переход к настройке полей.

2. Переход на сайт, чтобы задать путь к полю

3. Можно настроить сохранять теги (все, любые теги в пределах выбранного вами пути)

4. Можно указать Допустимые теги, чем я и пользуюсь (зачем мне собирать например ссылки, скрипты и прочее)

5. Статистическое поле нужно указывать, когда по пути поля нужно через запятую собрать все значения. (использую когда нужно собрать путь категории (крошки) или список меток к статье - потом использую как свои метки)

6. Случайно наткнулся на "стандартные замены". Очень сильно подрезает всякий мусор. Также экспериментирую с заменой некоторых классов на свои, чтобы скрыть то, что не нужно.

7. Тоже сравнительно недавно придал значение этому полю. Когда замучался парсить кусками из-за проблем с ограничением количества символов в эксель. Уникальная вещь. Обязательно используйте.

На данный момент я поступаю так:
Я создал 2 шаблона (для парсинга через стандартный загрузчик и через браузер) с отключенным парсингом ссылок.
Отдельными кампаниями собираю ссылки. Тестирую одну на сбор. Если ошибку выдает - уже знаю через какую кампанию их парсить.

Вторым этапом - уже обработка в эксель. Там тоже не мало особенностей, формул и лайф-хаков.

Возможно будет запись видео когда-нибудь.

guest
Закрыть меню