Начать беседу

Почему Netpeak Spider и браузер показывают разные данные?

В некоторых случаях вы можете обнаружить, что данные в Netpeak Spider отличаются от тех, что вы видите на сайте. Вот ряд причин, из-за которых возможна подобная ситуация:

  1. Некорректный ответ сервера при обращении к странице. Эта проблема может быть связана с тем, что сервер, на котором расположен данный сайт, некорректно работает при получении большого количества запросов, или же на нём установлена защита от большого количества одновременных запросов.

    Показателями такой ситуации могут быть:

    • значительное увеличение времени ответа сервера (TTFB);

    • большое количество сканируемых страниц, которые возвращают 5хх код ответа.

      Иногда сервер возвращает код ответа «200 ОК», однако содержимое страницы является неполным и/или некорректным, что видно по отсутствующим значениям во множестве параметров. Самый простой способ проверить, какой именно исходный код был отдан краулеру в ходе сканирования, — задайте настройки парсинга «XPath» по значению «/», выберите опцию «Внутренний HTML-код» и запустите сканирование.

  2. Для различных устройств, пользователей и поисковых роботов отображается разный контент. Таким образом, в браузере и Netpeak Spider вы видите две разные версии сайта, так как они были сформированы для двух разных User Agent (по умолчанию в Netpeak Spider используется Google Chrome).

    Чтобы проверить влияние этого параметра на получаемые данные, нужно изменить User Agent в соответствующем разделе настроек. Например: Поисковые системы → Google → Googlebot.

    Проверям как Google видит наш сайт

  3. Некоторые сайты могут отдавать различное содержимое (например, языковую версию, цены и т.д.) в зависимости от местоположения устройства, с которого осуществляется запрос. Чтобы просмотреть другие версии сайта, воспользуйтесь функцией доступа с помощью прокси.

    Использовать прокси

  4. Сайт содержит информацию, которая отображается пользователю с помощью JavaScript (JS). По умолчанию Netpeak Spider сканирует только статичный HTML-код без рендеринга JS-кода.

    Чтобы начать сканирование страниц с использованием JS, вам необходимо отметить галочкой пункт «Рендерить JavaScript» на вкладке основных настроек. При необходимости измените Ajax Timeout (по умолчанию установлена задержка в 2 секунды).

  5. Включить рендеринг JavaScript
Выберите файлы или перетащите файлы
Была ли эта статья Вам полезна?
Да
Нет

Всё ещё думаете?

Тысячи специалистов по всему миру используют Netpeak Spider и Checker. Регистрируйтесь, чтобы начать бесплатный 14-дневный триал!