Плагин автоматизирует процесс извлечения контента из внешних источников и публикации на веб-сайте WordPress. Его функционал предоставляет пользователям возможность собирать информацию с указанных веб-сайтов и эффективно размещать ее на собственной платформе. Этот инструмент значительно упрощает задачи курирования контента для владельцев сайтов на WordPress.

Версия плагина: 2.0.6
 
WordPress плагин CodeCanyon Scraper

Особенности плагина

С помощью плагина пользователи могут установить конкретные параметры для извлечения целевого контента с внешних сайтов. Эта функция позволяет настроить процесс на основе категорий контента, ключевых слов и других определенных критериев. Автоматизируя процесс извлечения контента, он сокращает ручные нагрузки и обеспечивает стабильный поток обновленных публикаций на сайте WordPress.

Инструмент предлагает гибкость в скрапинге контента, позволяя пользователям выбирать частоту обновления контента. Эта функция гарантирует, что веб-сайт на WordPress остается актуальным с последней информацией, извлеченной из внешних источников. Пользователи могут планировать автоматические обходы контента в предпочтительные интервалы, повышая эффективность управления контентом.

Используя продвинутые алгоритмы, плагин гарантирует сохранение оригинального форматирования и структуры извлеченного контента. Эта возможность поддерживает целостность и визуальную последовательность импортированных публикаций на сайте WordPress, обеспечивая безупречный пользовательский опыт. Механизмы обработки контента плагина придерживаются принципов точности и точности в передаче данных.

Одной из выдающихся особенностей CodeCanyon Scraper являются интеллектуальные опции фильтрации контента. Пользователи могут указать критерии включения и исключения, чтобы отсортировать типы контента извлекаемого с внешних веб-сайтов. Эта функциональность дает пользователю возможность подобрать качественный, релевантный контент для своего сайта на WordPress, повышая его ценность и авторитет. Возможности фильтрации плагина поддерживают стратегические усилия по курированию контента.

Кроме того, плагин обеспечивает надежную поддержку для обработки мультимедийного контента в процессе скрапинга. Пользователи могут легко импортировать изображения, видео и другие медиа-элементы наряду с текстовым контентом с внешних источников. Это комплексное интегрирование контента гарантирует, что сайт на WordPress представляет собой богатый и увлекательный пользовательский опыт с разнообразными мультимедийными ресурсами. Возможности обработки мультимедийного контента плагина повышают визуальное привлекательность контента сайта.

Спецификации:

Дата выхода: 12-07-2019
Дата обновления: 24-08-2023
Тип расширения: Платный
Лицензия: GPL
Тематика: Контент и авторинг
Совместимость: W5.x W6.x
Включает в себя: Плагин
Языковые пакеты: Английский
Разработчик: CodeCanyon

Рейтинг:
4.3971119133574 1 1 1 1 1 (Оценок: 277)
4.3971119133574 277

Скачивание по подписке!

Вам необходимо авторизоваться на сайте и приобрести клубную подписку!

Поделись с друзьями!

 

Руководство по настройке и безопасному применению CodeCanyon Scraper

CodeCanyon Scraper полезен не как кнопка для бездумного копирования чужих страниц, а как инструмент для управляемого переноса, обновления и нормализации данных в WordPress. В этом руководстве разберём, как подготовить сайт, создать задачу в визуальном редакторе, настроить поля, расписание, лимиты, обновления, вложения и проверку результата.

Материал рассчитан на владельца сайта, вебмастера или контент-менеджера, который уже понимает, откуда должен приходить контент, имеет право использовать источник и хочет не сломать сайт массовым импортом. Отдельно разберём, где у плагина сильные стороны, где начинаются ограничения, почему Ajax-сайты и защищённые источники требуют осторожности, и как диагностировать типичные сбои.

Главная идея проста: сначала строится маленькая проверочная модель, затем она запускается на черновиках, потом добавляются правила обновления и только после этого включается автоматическая публикация. Такой порядок снижает риск дублей, пустых записей, перегруза сервера и SEO-проблем из-за некачественного импортированного материала.

Обложка руководства по CodeCanyon Scraper с визуальной картой импорта в WordPress
Схема руководства: источник, визуальный выбор данных, правила преобразования, публикация в WordPress и контроль результата.

Что на самом деле автоматизирует этот плагин

CodeCanyon Scraper относится к классу WordPress-плагинов для автоматического извлечения данных с веб-страниц и публикации результата в записи, товары, пользовательские типы записей и связанные поля. Официальное описание делает акцент на визуальном редакторе, XPath, регулярных выражениях, атрибутах элементов, JSON-фрагментах, изображениях, галереях, WooCommerce, расписании, прокси, cookie и функции обновления уже созданных записей.

Важно понимать механику. Плагин не превращает любой сайт в стабильный API. Он получает HTML, RSS, XML или другой доступный ответ источника, а затем применяет выбранные пользователем правила: где искать ссылку на материал, какое поле считать заголовком, какой блок брать в контент, что назначать изображением, какие строки заменить, какие теги очистить, куда сохранить пользовательское поле и как часто повторять задачу.

Поэтому сильная настройка выглядит не как «вставил URL и забыл», а как связка из нескольких решений:

  • Определить, разрешён ли источник и подходит ли его структура для автоматической обработки.
  • Выбрать режим: одиночная страница, последовательный список ссылок, RSS/XML или bulk URL.
  • Собрать модель полей через визуальный редактор и проверить образцы.
  • Назначить результату тип записи, рубрики, статус, вложения, пользовательские поля и правила уникальности.
  • Ограничить объём обработки, включить предварительный просмотр и не публиковать массово, пока результат не проверен вручную.

В руководстве ниже слово «задача» означает сохранённую модель Scraper: источник, селекторы, поля, преобразования, лимиты, расписание и правила обновления. Именно задача решает, что будет создано в WordPress после запуска.

Кому CodeCanyon Scraper подходит, а кому лучше выбрать другой путь

Плагин особенно уместен там, где контент имеет повторяемую структуру: каталоги, справочники, партнёрские витрины, агрегаторы собственных материалов, внутренние базы знаний, прайс-листы, RSS-ленты, XML-выгрузки, карточки товаров с похожей разметкой. Если у источника есть понятный список ссылок и каждая страница устроена похоже, визуальный редактор даёт шанс собрать устойчивую модель без отдельного парсера.

Лучший сценарий для первого запуска - источник с небольшим числом страниц, одинаковыми блоками, стабильными заголовками, обычным HTML и понятной правовой основой. Например, партнёрский каталог с разрешённым импортом карточек, сайт компании с собственными филиалами, внутренняя база документов или открытая лента, которую нужно привести к единому WordPress-формату.

Когда плагин экономит время

CodeCanyon Scraper помогает, если редактору приходится регулярно переносить однотипные данные: заголовок, описание, изображение, цену, ссылку на PDF, категорию, SKU, тег или произвольное поле. Вместо ручного копирования можно один раз настроить выбор элементов, проверить образцы и запускать задачу по расписанию или вручную.

Отдельно полезен режим обновления. Документация описывает Track Changes: плагин может проверять исходные страницы и обновлять значения, если источник поменялся. Это важно для данных, которые устаревают: цены, статусы, расписания, ссылки на вложения, текстовые параметры товара. Но такой режим требует аккуратных правил уникальности и сохранения статуса, иначе обновление может перезаписать запись, которую редактор уже доработал.

Когда лучше не начинать с автоматического импорта

Плагин не подходит как замена редакционной работе, если цель - массово наполнить сайт чужими материалами без добавленной ценности. Поисковые системы отдельно предупреждают о риске масштабного создания неоригинальных страниц ради ранжирования. Для WordPress-сайта это означает простое правило: импортированный материал должен проходить отбор, редактуру, нормализацию, проверку источника и, при необходимости, оставаться в статусе черновика.

Не стоит рассчитывать на стабильную работу с источниками, которые активно защищаются от автоматического доступа, меняют HTML, грузят данные только через сложный JavaScript, требуют прохождения антибот-проверок или запрещают автоматическое копирование. Официальные заметки wpBots отдельно указывают, что некоторые крупные сайты могут блокировать серверы, а Ajax-контент требует отдельного сервиса Scraper Pro.

Практическая граница: если один и тот же источник не открывается в preview, даёт пустые поля, меняет разметку от запроса к запросу или возвращает защитную страницу, не запускайте массовую задачу. Сначала проверьте подключение, права на использование данных и технический формат источника.

Что проверить перед установкой и первым запуском

Подготовка для Scraper важнее, чем для простого визуального плагина. Здесь WordPress будет выполнять сетевые запросы, скачивать изображения или вложения, создавать записи, обновлять поля и запускать задачи по расписанию. Ошибка настройки может дать не один битый блок, а десятки некорректных записей.

Сервер и сетевые требования

Официальная поддержка wpBots указывает базовые требования к ресурсам и рекомендует учитывать память, процессор, сетевой трафик, входящие и исходящие соединения, PHP memory limit и max execution time. Для практики это значит: на дешёвом общем хостинге Scraper может работать на маленьких задачах, но крупные импорты, галереи и частые проверки лучше переносить на более предсказуемый сервер.

Перед установкой проверьте:

  • Разрешены ли исходящие HTTP/HTTPS-запросы с сервера.
  • Доступны ли cURL или fopen, если это требуется вашей конфигурации.
  • Есть ли запас памяти для обработки HTML, изображений и галерей.
  • Не отключён ли WP-Cron, если вы рассчитываете на расписание внутри WordPress.
  • Можно ли включить серверный cron или внешний вызов wp-cron.php для производственного сайта с низким трафиком.

WordPress WP-Cron запускает запланированные события при посещениях сайта, а не как постоянный системный планировщик. Поэтому на малопосещаемых сайтах расписание может сработать позднее ожидаемого. Для Scraper это критично: если задача должна обновлять каталог строго по графику, обсудите с хостингом системный cron или контролируемый внешний запуск.

Права на источник и качество будущей страницы

Перед импортом решите не технический, а редакционный вопрос: какую ценность получит читатель после переноса данных. Если страница будет только копией источника, она плохо подходит для публичной индексации. Если вы используете данные как основу для собственной карточки, добавляете проверку, описание, локализацию, сортировку, фильтры, внутреннюю структуру и полезные комментарии, автоматизация становится частью рабочего процесса, а не источником мусора.

Для безопасного старта держите первые задачи в статусе draft или аналогичном черновом состоянии. Так редактор увидит, какие поля заполнены, где потерялись изображения, не сломалась ли кодировка, не появились ли лишние ссылки и не попал ли служебный блок источника в публичный контент.

Тип источника: HTML, список URL, RSS/XML или динамический сайт

Scraper поддерживает несколько рабочих подходов. Одиночная страница подходит для обновления одной записи или постоянного значения. Последовательный список используется, когда есть страница категории с карточками или ссылками на материалы. Bulk URL полезен, если у вас уже есть список адресов, а пагинационный генератор помогает собрать URL с числовой последовательностью. Документация также упоминает XML/RSS и отдельный режим для Ajax через Scraper Pro.

Выбор режима должен идти от структуры источника, а не от привычки. Если есть RSS, его часто проще и стабильнее обрабатывать, чем визуально выбирать элементы на HTML-странице. Если есть обычный список страниц, bulk URL может быть надёжнее, чем попытка проходить пагинацию. Если данные грузятся только после JavaScript, сначала проверьте, нужен ли платный Ajax-сервис или вообще другой инструмент.

Установка, включение и первичная проверка в WordPress

Установка у Scraper стандартная для коммерческого WordPress-плагина: загрузка ZIP-архива через админ-панель или ручная загрузка папки плагина в wp-content/plugins, затем активация в списке плагинов. В документации wpBots также есть пункт про страницу настроек Dashboard -> Scraper -> License and Settings, но в рабочем руководстве важнее не сам код доступа, а дальнейшая проверка: видит ли WordPress меню Scraper, открывается ли редактор задач и может ли сервер получить тестовую страницу.

После активации не запускайте сразу большую модель. Сделайте короткую проверку:

  1. Откройте меню Scraper и убедитесь, что доступен пункт Create New Task.
  2. Введите простой URL, который точно отдаёт обычный HTML без авторизации и сложной защиты.
  3. Нажмите Fetch и проверьте, загружается ли визуальный редактор.
  4. Выберите заголовок страницы через Select или укажите простой путь вроде //h1 для теста.
  5. Перейдите к preview и посмотрите, совпадает ли образец с реальным заголовком источника.

Если уже на этом этапе нет соединения, бессмысленно настраивать поля, рубрики и расписание. Сначала проверьте сетевой доступ, блокировку источника, прокси, cookie, требования сервера и сообщения PHP. В настройках плагина есть Error Reporting, который может показать ошибки процесса при запуске задачи.

Первая задача: от визуального выбора до сохранённой модели

Работа с CodeCanyon Scraper начинается с модели. В официальной инструкции создание задачи выглядит как последовательность: открыть Scraper -> Create New Task, ввести URL, нажать Fetch, выбрать одиночный режим или последовательный список, определить элементы, открыть Post Content, выбрать поля записи, проверить preview и сохранить проект.

Карта основных настроек CodeCanyon Scraper после установки
Основная карта задачи: источник, Post Items, Post Content, Preview Results, General, Schedule, Track Changes, Attachments и Limits.

Single Post и последовательный импорт

Режим Single Post нужен, когда одна исходная страница соответствует одной записи WordPress или когда задача обновляет уже созданную страницу. Например, можно периодически брать одно значение, таблицу, блок расписания или страницу с условиями, если источник стабилен и разрешён.

Последовательный импорт нужен для категорий, каталогов и списков. В этом режиме сначала выбирается элемент ссылки на карточку: заголовок товара, новость, документ или другой повторяющийся блок. Важно не просто кликнуть на первый похожий элемент, а проверить samples и item count. Если Scraper видит 5 элементов вместо ожидаемых 20, значит селектор слишком узкий. Если он видит меню, рекламные блоки и похожие материалы, селектор слишком широкий.

Post Content и Advance Mode

После определения списка Scraper переходит к структуре записи. Плагин может предложить, что это запись или товар, но для сложной модели лучше использовать Advance Mode. В нём поля задаются осознанно: title, content, featured image, tags, category, custom fields, taxonomy, product attributes и другие элементы, если они доступны в вашей версии и сценарии.

Хорошая модель не обязана брать весь видимый блок источника. Иногда правильнее создать отдельные переменные: одну для чистого описания, одну для цены, одну для ссылки на PDF, одну для изображения, одну для SKU. Потом эти переменные можно вставить в шаблон контента, сохранить в пользовательское поле или использовать в условии исключения.

Preview как обязательный фильтр ошибок

Preview Results нельзя пропускать. Он показывает, что Scraper реально извлекает до сохранения и массового запуска. В тестовом режиме документация упоминает ограниченный набор результатов, но этого достаточно, чтобы заметить основные проблемы: пустой заголовок, неверный URL, лишний HTML, не та картинка, дублирующийся блок, сломанная кодировка или неверная цена.

Мини-итог первого этапа: задача считается готовой к сохранению только тогда, когда preview показывает несколько правильных образцов, а каждый образец можно сопоставить с реальной страницей источника.

Поля, переменные и трансформации: где плагин становится полезным

Смысл Scraper не только в том, чтобы взять текст со страницы. Его ценность раскрывается в трансформациях: найти нужный атрибут, извлечь ссылку, очистить лишние теги, заменить фрагменты, выполнить математическое преобразование, сохранить значение в базу, использовать переменную в шаблоне или подготовить имя файла изображения.

XPath, атрибуты и JSON-фрагменты

Официальная карточка продукта указывает XPath, регулярные выражения, meta tags, attributes и JSON как способы извлечения данных. На практике это решает разные задачи. XPath удобно использовать для HTML-блоков и повторяющихся элементов. Атрибуты нужны, когда полезное значение находится не в тексте, а в href, src, alt или другом параметре. Regex стоит применять точечно, когда данные спрятаны в строке, JSON-фрагменте или нестандартном блоке.

Не делайте регулярные выражения первым выбором, если данные можно взять стабильным селектором. Regex сложнее сопровождать, и при небольшом изменении исходной строки он может вернуть пустоту или лишний кусок. Но для цен, артикулов, ID видео, фрагментов JSON и числовых параметров регулярное выражение иногда оказывается самым точным инструментом.

Find & Replace, Clean HTML и шаблон контента

Transform-меню в демо-редакторе показывает функции Find & Replace, Math Functions, Clean & Split, Translation, Database, Shortcodes и Image Name. Для типового сайта чаще всего нужны три вещи: удалить служебный фрагмент, привести HTML к безопасному виду и собрать итоговый шаблон записи из переменных.

Здесь легко ошибиться. Если включить очистку HTML на поле post_content, можно потерять полезные элементы: iframe, таблицу, списки, ссылки или нужные вложенные блоки. В troubleshooting-документации wpBots описан случай, когда очистка HTML удаляет нужный контент. Рекомендуемый подход - создать отдельную переменную для исходного блока, применить очистку к переменной, а в post_content использовать уже подготовленное значение.

Пользовательские поля и ACF

Документация по Custom Fields объясняет важный нюанс: Scraper может обнаружить пользовательские поля, если создать пустую запись и заполнить поля вручную, но не все структуры WordPress определяются автоматически. Некоторые плагины хранят данные не в обычных custom fields, а в отдельных таблицах. Для Advanced Custom Fields отдельно упоминается ограничение по некоторым типам, например repeater.

Если вы собираете каталог, не пытайтесь сразу отправлять все данные в текст записи. Часть информации лучше хранить структурно: цена, город, дата, SKU, ссылка на исходный документ, размер файла, внешний ID. Тогда фильтры, шаблоны темы и экспорт будут работать предсказуемее. Но перед запуском проверьте, что конкретное поле действительно записывается в post_meta или поддерживается вашим плагином каталога.

Перевод и внешние API

Официальные материалы Scraper указывают поддержку перевода через Google Translate API и альтернативные сервисы, но также предупреждают о платности официального Google Translation API. В руководстве это стоит воспринимать как дополнительный слой, а не как обязательный режим. Автоматический перевод может помочь подготовить черновик, но публичный материал всё равно нужно проверять редактором, особенно если источник содержит юридические, медицинские, финансовые или технические формулировки.

Для SEO безопаснее публиковать меньше, но проверенных и дополненных страниц, чем много машинно перенесённых черновиков. Если используете перевод, сохраняйте импорт в черновики, добавляйте собственные объяснения, проверяйте термины и не обещайте пользователю точность, которую не проверяли.

WooCommerce, товары и условия исключения

Scraper поддерживает сценарии WooCommerce: создание товаров, категории, теги, атрибуты, custom fields, математические функции для числовых значений и специальные условия. Это делает плагин интересным для партнёрских каталогов, витрин, справочников поставщиков и внутренних синхронизаций, но именно товарные сценарии требуют наиболее жёсткой проверки.

Что важно для товарной карточки

Для товара недостаточно перенести заголовок и описание. Обычно нужна связка: название, SKU или внешний ID, цена, изображение, галерея, категория, атрибуты, статус публикации и источник обновления. Если нет уникального поля, при повторном запуске легко получить дубли. Если цена парсится как текст с валютой и пробелами, математические функции могут не сработать до очистки от лишних символов.

Документация по специальным условиям показывает, что условия работают с переменными и исключают товары, которые подходят под выражение. Это удобно, если надо не импортировать позиции вне ценового диапазона, без обязательного признака или с неподходящим значением. Но важно помнить: условия не «исправляют» товар, а исключают его из процесса. Поэтому сначала создайте переменную, включите числовую обработку, проверьте образец и только потом добавляйте условие.

Цены, математика и округление ожиданий

Math Functions позволяют складывать, вычитать, делить и умножать числовые значения. Это может быть полезно для наценки или конвертации, если исходная цена приходит в предсказуемом виде. Но не стоит превращать Scraper в полноценную систему учёта. Он может изменить число по правилу, однако не знает ваших складских остатков, налогов, статусов оплаты и внутренних договорённостей.

Для WooCommerce-сценария безопасная последовательность такая:

  1. Получить цену в отдельную переменную.
  2. Очистить её от нечисловых символов, если это нужно для математической функции.
  3. Проверить sample для нескольких товаров: обычная цена, скидка, пустая цена, нестандартный формат.
  4. Сохранять первые импорты как draft и вручную сверять карточку товара.
  5. Включать Track Changes только после проверки уникальности по URL, title или SKU.
Схема работы CodeCanyon Scraper от источника до записи или товара WooCommerce
Механика задачи: источник отдаёт данные, Scraper выбирает поля, трансформации нормализуют значения, WordPress получает запись, товар или пользовательские поля.

Расписание, лимиты и обновление записей без хаоса

Автоматизация становится опасной там, где она запускается без ограничений. В Scraper есть настройки General, Schedule, Track Changes, Attachments, Limits и Conditions. Их стоит воспринимать как панель безопасности: что создавать, когда запускать, сколько обрабатывать, что обновлять, что скачивать и что исключать.

General: статус, тип записи и рубрики

В разделе General документация описывает имя задачи, категории, статус импортированных элементов и тип записи. Для первого запуска выбирайте статус черновика. Это не лишняя осторожность, а нормальный рабочий фильтр: вы увидите, как тема отображает импортированный контент, не попали ли в запись навигация и рекламные блоки, правильно ли назначились рубрики и не создались ли лишние таксономии.

Если источник сам содержит категорию, можно назначать её через data fields, но для первого запуска разумно добавить отдельную служебную рубрику вроде «Импорт на проверку». Так редактор быстро найдёт все созданные записи и сможет удалить тесты без смешивания с обычным контентом.

Schedule и WP-Cron

Раздел Schedule задаёт интервал запуска задачи. На сайтах с нормальным трафиком WP-Cron обычно достаточно для нестрогих обновлений. На сайтах с редкими посещениями или в задачах, где задержка важна, лучше проверить, как хостинг запускает WordPress cron. Если задача должна обновлять цены или события регулярно, расписание без системного контроля может дать неожиданные задержки.

Не ставьте слишком частый интервал до того, как поняли время выполнения. Сначала запустите задачу вручную, измерьте, сколько элементов проходит один запуск, сколько весит скачивание изображений, не растёт ли память. Затем выбирайте интервал так, чтобы следующая попытка не накладывалась на предыдущую.

Limits: Loop Limit и Total Run

Limits позволяют задать, сколько URL обрабатывается за один триггер и где задача должна остановиться. Документация приводит пример Loop Limit 5: за один цикл будет обработано 5 элементов. Для реального сайта это один из самых важных параметров. Он снижает нагрузку, помогает избежать memory issues и даёт редактору возможность проверить первые результаты до массового заполнения.

Практичная схема для старта:

  • Для теста: Loop Limit 1-3 и статус draft.
  • Для первого контролируемого импорта: небольшая пачка и отдельная рубрика проверки.
  • Для регулярного режима: лимит, который сервер проходит без ошибок памяти и таймаута.
  • Для одноразовой загрузки архива: Total Run, чтобы задача не продолжала импорт после нужного объёма.

Track Changes и уникальность

Track Changes может обновлять записи при изменении источника, сбрасывать задачу после завершения, реагировать на удаление источника и проверять уникальность. В документации указаны методы уникальности по title, URL и product SKU. Выбор метода зависит от сценария: для статей часто подходит URL, для товаров - SKU, для простых записей иногда title, но title хуже, если источник меняет заголовки или использует одинаковые имена.

Не включайте обновление, пока не определили, что считать той же сущностью. Иначе плагин может создать дубль вместо обновления или обновить запись, которую редактор уже поправил вручную. Для редакционного процесса полезна настройка, которая не меняет статус при обновлениях: если запись была оставлена на проверке, автоматический запуск не должен внезапно публиковать её.

Attachments: изображения, галереи и PDF

Scraper умеет скачивать изображения или вложения в медиатеку, задавать имя файла и работать с PDF-ссылками через отдельный тип поля Download File. Это удобно, но скачивание файлов заметно увеличивает нагрузку и риск ошибок. Источник может отдавать относительные ссылки, требовать авторизацию, блокировать прямой доступ или возвращать слишком большие файлы.

Для галерей начните с ограничения количества изображений. В документации по memory issues есть пример XPath-ограничения с [position() < 5], чтобы не скачивать слишком много картинок. В публичной карточке товара четыре нормальных изображения часто лучше, чем двадцать случайных миниатюр из исходной страницы.

Практический пример: собрать черновой каталог партнёрских товаров

Этот пример показывает не «идеальный автопилот», а безопасный рабочий сценарий. Допустим, у вас есть разрешённый партнёрский источник с категорией товаров, каждая карточка содержит название, описание, цену, главное изображение, SKU и ссылку на PDF-инструкцию. Нужно создать черновики товаров WooCommerce, проверить их и затем включить обновление цен.

Цель

Получить в WordPress серию черновиков WooCommerce-товаров с заполненными основными полями: title, content, featured image, price, SKU, category и ссылкой на PDF. Публикация вручную остаётся за редактором, чтобы не выпускать ошибочные карточки.

Подготовка

До настройки задачи создайте тестовую категорию WooCommerce, проверьте, что поля цены и SKU доступны в вашей версии магазина, откройте несколько карточек источника и убедитесь, что структура повторяется. Если часть товаров имеет другую разметку, вынесите их в отдельную задачу или исключите условиями.

Шаги настройки

Выбор источника и списка товаров

  1. Откройте Scraper -> Create New Task, вставьте URL категории и нажмите Fetch.
  2. В блоке Post Items выберите ссылку на карточку товара через Select и проверьте item count.
  3. Если есть пагинация, выберите Next Page или используйте bulk URL, если список адресов уже подготовлен.
  4. Перейдите в Post Content и включите Advance Mode.
  5. Создайте поля: заголовок товара, описание, изображение, цена, SKU, ссылка на PDF и, при необходимости, атрибуты.
  6. Для цены включите числовую обработку только после проверки sample. Если символ валюты мешает, сначала очистите значение.
  7. Для PDF используйте отдельное поле типа Download File и берите атрибут attr:href, если источник отдаёт прямую ссылку без авторизации.
  8. В General выберите тип записи товара, статус draft и тестовую категорию.
  9. В Limits поставьте маленький Loop Limit, например 2 или 3, чтобы первый запуск не импортировал весь каталог.
  10. В Track Changes пока не включайте массовое обновление. Сначала сохраните проект, запустите вручную и проверьте карточки.

Проверка результата

Админ-панель перед публичной страницей

После первого запуска откройте созданные товары в админ-панели. Сверьте название, цену, SKU, главное изображение, описание, PDF-ссылку и категорию. Затем откройте предварительный просмотр на сайте и проверьте, как тема отображает импортированный HTML. Если описание выглядит как кусок исходного сайта с лишними кнопками, вернитесь к трансформациям и очистке.

Проверка результата импорта CodeCanyon Scraper в карточке WordPress или WooCommerce
Связка результата: слева настройки задачи, справа черновая карточка с полями, изображением и проверкой перед публикацией.

Нюанс, который часто мешает

Если источник меняет цену через JavaScript, обычный HTML-запрос может не увидеть финальное значение. В таком случае не пытайтесь угадывать селектор. Проверьте исходный HTML, preview Scraper и, если нужно, отдельный Ajax-режим или другой источник данных. Публиковать цену, которую preview не показывает стабильно, рискованно.

Практичные идеи применения без превращения сайта в автоспам

Автоматический импорт можно использовать аккуратно и полезно, если он закрывает конкретную редакционную задачу. Ниже не список «где угодно», а сценарии, где функции Scraper действительно помогают: визуальный выбор полей, шаблоны, вложения, расписание, обновления и ограничения.

Практические сценарии применения Scraper для WordPress-сайтов
Карта сценариев: каталог товаров, база документов, справочник филиалов и редакционный мониторинг работают по разным правилам проверки.

Партнёрская витрина с ручной модерацией

Scraper берёт повторяемые карточки из разрешённого источника, сохраняет товары как черновики, переносит изображение и основные параметры, а редактор добавляет собственное описание, проверяет цену и публикует только качественные позиции. Здесь автоматизация экономит время на черновом заполнении, но не заменяет редакционную ценность.

База документов с PDF-вложениями

Если источник регулярно публикует PDF-файлы, можно извлекать название документа, краткое описание, дату из текста страницы и прямую ссылку на PDF. Для файла используется отдельное поле загрузки, а в записи остаётся понятная структура: описание, ссылка на вложение и рубрика. Проверка особенно важна, потому что источник может требовать авторизацию или менять путь к файлу.

Справочник филиалов, событий или объявлений

Для справочника полезны custom fields: город, адрес, телефон, дата, внешний ID. Scraper может заполнить эти значения из повторяемых блоков, а WordPress-тема затем выводит их в карточке. Такой сценарий работает лучше, чем импорт всего в один текстовый блок, потому что данные можно фильтровать, сортировать и проверять отдельно.

Редакционный мониторинг изменений

Track Changes помогает отслеживать обновления источника, но для публичного сайта лучше использовать его в связке с черновиками или ручной проверкой статуса. Например, плагин обновляет отдельное поле «значение из источника», а редактор видит, что карточка изменилась, и решает, как адаптировать публичный текст.

Как проверить качество опубликованного результата

Проверка Scraper-задачи не заканчивается успешным созданием записи. Нужно убедиться, что WordPress получил правильные данные, тема вывела их корректно, сайт не перегружен, поисковые системы не видят низкоценные дубли, а редактор понимает, какие записи созданы автоматически.

Проверка в админ-панели

Откройте несколько созданных записей и проверьте поля не выборочно, а по схеме: title, slug, content, status, category, featured image, custom fields, source URL, attachment. Если задача работает с товарами, добавьте SKU, цену, тип товара, наличие, галерею и атрибуты. Для каждого поля задайте вопрос: оно пришло из правильного места или случайно захватило соседний блок?

Проверка в публичной части сайта

Откройте предварительный просмотр записи и посмотрите на страницу как посетитель. Лишние ссылки источника, рекламные вставки, обрывки HTML, пустые изображения и некрасивые таблицы лучше увидеть до публикации. Если тема применяет фильтры или конструктор страниц, проверьте, что импортированный HTML не ломает сетку и не конфликтует с короткими кодами.

Проверка SEO и индексации

Автоматически созданная страница не должна попадать в индекс только потому, что она появилась. Если материал является черновой копией, дублем, машинным переводом или непроверенным набором данных, оставьте его в черновиках или закройте от индексации штатными средствами SEO-плагина. Поисковая политика Google отдельно описывает риск масштабных страниц без добавленной ценности, поэтому редакционная проверка здесь не формальность.

Хороший результат Scraper-задачи - это не количество импортированных страниц, а стабильная модель, которую можно объяснить: откуда пришли данные, как они преобразованы, куда сохранены, что проверено и кто отвечает за публикацию.

Почему Scraper может не сработать и как искать причину

Диагностику лучше вести от простого к сложному: соединение, источник, селектор, трансформация, запись в WordPress, расписание. Если сразу менять все настройки, вы не поймёте, что именно исправило ошибку и почему она вернётся.

Диагностическая схема ошибок CodeCanyon Scraper для WordPress
Путь диагностики: симптом, вероятная причина, проверка и безопасное исправление без массового перезапуска.

Задача не получает данные с источника

Сначала отделите сетевую ошибку от ошибки селектора

Симптом: Fetch или preview возвращает пустой экран, защитную страницу, ошибку соединения или не тот HTML. Возможные причины - серверу запрещены исходящие запросы, источник блокирует IP, требуется cookie, страница защищена, данные грузятся через Ajax или источник недоступен.

Что проверить: создайте single-post задачу на простую страницу, попробуйте выбрать //h1, включите Error Reporting для просмотра деталей, проверьте сетевые ограничения хостинга. Если источник требует авторизацию и это разрешённый сценарий, используйте cookie-настройку. Если источник блокирует IP, рассмотрите прокси, но не используйте его для обхода правил источника.

Preview показывает не те элементы

Симптом: вместо карточек Scraper выбирает пункты меню, рекламные блоки, похожие материалы или только первый элемент. Причина почти всегда в слишком широком или слишком узком селекторе. В последовательном режиме проверьте item count и samples, а в полях записи сравните каждый sample с реальной страницей.

Исправление: выберите более точный контейнер, отделите список ссылок от содержимого карточки, используйте отдельные переменные для спорных значений. Если источник имеет несколько типов карточек на одной странице, иногда проще сделать две задачи, чем пытаться покрыть всё одним селектором.

HTML, iframe или таблица пропали после импорта

Симптом: в preview блок виден, но в записи остаётся простой текст или пустой фрагмент. В документации wpBots такая проблема связана с функциями очистки HTML и конфликтами transform-настроек. Если очистка включена на post_content, она может удалить нужные элементы.

Исправление: создайте отдельную переменную для исходного блока, применяйте очистку к переменной осознанно, а в post_content вставляйте подготовленный результат. После изменения запустите маленький тест на черновике, а не всю задачу.

Появляются дубли записей или товаров

Симптом: повторный запуск создаёт новые записи вместо обновления старых. Проверьте Track Changes и Uniqueness Check Method. Документация описывает проверку по post title, post URL и product SKU. Если у товара есть стабильный SKU, он обычно надёжнее заголовка. Если речь о статьях, URL источника часто стабильнее, чем title.

Исправление: выберите один метод уникальности, проверьте, что переменная действительно заполняется, и запустите задачу на маленьком лимите. Если дубли уже созданы, не удаляйте их массово вслепую: сначала найдите общий признак тестовой рубрики или даты импорта.

Задача падает по памяти или таймауту

Уменьшайте объём задачи до изменения сервера

Симптом: процесс обрывается, часть элементов создаётся, часть нет, появляются ошибки памяти или таймаута. Официальный troubleshooting рекомендует ограничивать задачу, использовать Limits, при необходимости отключать memory limit только если сервер действительно имеет ресурс, уменьшать количество галерейных изображений и повышать ресурсы хостинга.

Исправление: уменьшите Loop Limit, ограничьте галерею, отключите скачивание вложений на тесте, проверьте PHP memory limit и max execution time. Если задача всё равно нестабильна, перенос на более предсказуемый сервер часто надёжнее, чем бесконечное увеличение интервала.

Расписание не запускается вовремя

Симптом: вручную задача работает, но по расписанию не обновляется. Возможная причина - WP-Cron зависит от посещений сайта или отключён на уровне конфигурации. Проверьте, запускаются ли другие события WordPress, нет ли запрета на wp-cron.php, и может ли хостинг настроить системный вызов.

Откат: временно выключите расписание, запускайте задачу вручную и не увеличивайте частоту до выяснения причины. Для производственного каталога лучше иметь контролируемый cron, чем надеяться на случайные посещения.

Безопасные улучшения без правки кода плагина

Для Scraper не стоит придумывать PHP-хуки или править файлы плагина, если они не описаны разработчиком. Безопаснее улучшать процесс через настройки, структуру WordPress и редакционный контроль. Это не менее полезно, чем кодовый фрагмент, потому что главные риски здесь связаны не с CSS, а с массовыми данными.

Служебные рубрики и статусы

Создайте отдельную рубрику или метку для импортированных черновиков. В General назначьте её первым тестовым задачам. Так редактор быстро увидит, какие материалы пришли автоматически, и сможет фильтровать их в списке записей. Для товаров можно использовать отдельную категорию проверки или внутренний атрибут, если это не путает публичный каталог.

Источник как отдельное пользовательское поле

Если ваша структура WordPress позволяет, сохраняйте URL источника в отдельное custom field. Это помогает сверять обновления, искать дубли, объяснять происхождение данных и быстрее исправлять ошибки. Не выводите это поле публично без необходимости, но храните его для админ-проверки.

Черновой режим для спорных трансформаций

Если задача использует перевод, математическое изменение цены, очистку HTML, PDF-вложения или пользовательские поля, сначала сохраняйте результат как черновик. Публичная автопубликация уместна только после нескольких успешных запусков и ручной проверки разных типов источника: обычная карточка, карточка без изображения, карточка с нестандартной ценой, карточка с длинным описанием.

Вопросы, которые стоит решить до рабочего запуска

Можно ли сразу публиковать импортированные записи?

Технически статус публикации задаётся в General, но для первого запуска лучше использовать черновики. Так вы проверите поля, изображения, HTML, рубрики, дубли и качество текста до индексации. Автопубликацию включайте только для стабильного источника и после нескольких успешных тестов.

Что выбрать для уникальности: title, URL или SKU?

Для товаров обычно надёжнее SKU, если источник даёт стабильный артикул. Для статей часто лучше URL источника. Title подходит только если заголовки уникальны и редко меняются. Главное - не менять метод уникальности после массового импорта без теста, иначе можно получить дубли.

Почему Scraper не видит данные, которые видны в браузере?

В браузере контент может появляться после JavaScript, Ajax-запроса, авторизации или антибот-проверки. Обычный fetch может получить другой HTML. Проверьте preview, исходный код страницы, cookie, прокси и Ajax-возможности. Если значение не видно стабильно в preview, не стройте на нём массовую задачу.

Можно ли использовать прокси для любого источника?

Прокси в документации предусмотрены для случаев, когда есть сетевое ограничение или источник блокирует подключение. Но прокси не решает вопрос прав на данные и не делает нестабильный источник стабильным. Используйте его осторожно, тестируйте preview и не запускайте частые запросы без необходимости.

Как не перегрузить сервер при скачивании изображений?

Начните с маленького Loop Limit, отключите лишние вложения на тесте, ограничьте галереи и проверьте размер файлов. Для галерей полезно брать только первые нужные изображения, а не все найденные img на странице. Если появляются memory issues, уменьшайте объём задачи раньше, чем увеличиваете расписание.

Подходит ли плагин для Ajax-сайтов?

Обычный режим лучше работает с доступным HTML. В документации wpBots Ajax-контент вынесен в Scraper Pro и headless browser service. Если источник динамический, сначала проверьте, нужен ли этот режим, и не обещайте себе результат, пока preview не показывает реальные данные.

Нужно ли добавлять ссылку на источник в каждую запись?

Это зависит от прав на источник, редакционной политики и формата сайта. С технической стороны Scraper может сохранять URL или переменную источника, но публичный вывод нужно решать осознанно. Для внутренней проверки полезно хранить source URL в custom field, даже если посетитель его не видит.

Когда CodeCanyon Scraper будет удачным выбором

CodeCanyon Scraper стоит использовать, если у вас есть разрешённый и технически доступный источник, повторяемая структура данных, понятная цель импорта и готовность проверять первые результаты вручную. Плагин особенно силён в задачах, где нужно соединить визуальный выбор элементов, переменные, трансформации, вложения, WooCommerce-поля, расписание и обновление записей.

Он будет слабым выбором, если вы хотите одним действием наполнить сайт чужими материалами, обойти защиту источника, импортировать динамические страницы без проверки или заменить редактора машинной публикацией. В таких случаях риски выше пользы: дубли, пустые записи, SEO-проблемы, нестабильное расписание и конфликт с правилами источника.

Практичный путь такой: создать маленькую задачу, проверить preview, сохранить результат в черновики, настроить uniqueness, limits и status, затем добавить Track Changes и только после этого решать, нужна ли автоматическая публикация. Если такой рабочий процесс вам подходит, можно скачать ZIP-архив и протестировать его на одном безопасном источнике, не включая массовый импорт до проверки результата.

Автор: Редакция JoomFox.org

Вы не зарегистрированы, чтобы оставлять комментарии.