Почему Netpeak Spider не сканирует мой сайт?

Изменено Mon, 09 Oct 2023 на 07:45 PM

Обратите внимание, что скорее всего роботы поисковых систем во время сканирования сайта испытывают те же трудности, что и Netpeak Spider. Поэтому следующие ошибки советуем устранять как можно скорее, чтобы избежать возможной пессимизации поисковыми системами и ухудшения поведенческих показателей.


Список причин, из-за которых определённые сайты могут не сканироваться:

  1. Сайт закрыт от индексации одним или несколькими из возможных способов — robots.txt, Meta Robots, X-Robots-Tag.

    Решения:

    • отключить учёт этих правил в настройках на вкладке «Продвинутые»;

    • открыть сайт к индексации, так как иначе высока вероятность, что у сайта будут большие проблемы с трафиком из поисковых систем.
      Не учитывать инструкции по индексации

  2. На сайте некорректно прописан canonical. Это часто происходит при переезде на новый протокол.

    Решения: 

    • отключить учёт инструкции canonical в настройках на вкладке «Продвинутые»;

    • прописать корректную ссылку на сайте.
      Отключить учёт инструкции Canonical

  3. На сайте запрещён доступ для определённых User Agent, например, для Googlebot.

    Решение: сменить текущий User Agent в настройках Netpeak Spider.
    Сменить текущий User Agent

  4. По каким-то причинам ваш IP-адрес был заблокирован на сканируемом сайте.

    Решение: использовать прокси.
    Использовать прокси

  5. На сканируемом сайте требуется авторизация.

    Решение: прописать данные для входа (логин и пароль) в настройках сканирования в разделе «Аутентификация». Данный способ работает только для базовой аутентификации, которая включается в HTTP-запрос и зачастую используется на этапе разработки сайта.
    Прописать данные для аутентификации

  6. Ошибка «SendFailure» может проявиться на сайтах с HTTPS-протоколом, если вы используете Netpeak Spider на Windows версии ниже 7 SP2, так как такие версии операционных систем не поддерживают шифрование TLS 1.2.

    Решения: 

    • запустить Netpeak Spider на устройстве с Windows 7 SP2 и более поздних версий;

    • если вы владелец сайта, настроить поддержку более ранних версий шифрования (TLS 1.0).

  7. Ошибка «ConnectFailure» означает, что невозможно установить соединение с сервером. Зачастую она появляется при сканировании сайтов с HTTP-протоколом. Если в поле «Начальный URL» вы ввели только имя домена, срабатывает автоматическая подстановка префикса защищённого протокола HTTPS, что не даёт установить соединение.

    Решение: достаточно в начальном URL изменить префикс на http://.

  8. Сканируемый сайт написан на JavaScript. По умолчанию Netpeak Spider сканирует только статичный HTML-код без рендеринга JavaScript-кода.

    Решение: отметить галочкой пункт «Рендерить JavaScript» на вкладке основных настроек. При необходимости измените Ajax Timeout (по умолчанию установлена задержка в 2 секунды).   Включить рендеринг JavaScript


  9. Страницы сканируемого сайта с самого начала или с определённого момента отдают 5хх код ответа сервера. Эта проблема может быть связана с тем, что сервер, на котором расположен данный сайт, некорректно работает при получении большого количества запросов, или же на нём установлена защита от большого количества одновременных запросов.

    Решения: 

    • пересканировать только страницы с 5хх кодом ответа сервера: уменьшить количество потоков в настройках на вкладке «Основные», отфильтровать страницы с 5хх кодом ответа и в контекстном меню выбрать пункт «Текущая таблица» → «Пересканировать таблицу»;

    • пересканировать весь проект: аналогично уменьшить количество потоков и повторить сканирование, нажав кнопку «Рестарт».

      Мы рекомендуем установить значение в 2 потока. Если проблема повторится снова, следует выставить значение в один поток, а также задать дополнительную задержку между запросами в 2000 мс. Сканирование займёт больше времени, но такие настройки позволят избежать чрезмерной нагрузки на сервер.

Настроить скорость сканирования сайта


Обратите внимание, что нагрузка в 5-10 потоков не является слишком большой: мы советуем обеспечить корректную работу сервера при такой нагрузке, чтобы посетители сайта могли быстро и комфортно перемещаться по нему без длительного ожидания ответа. Если вы часто встречаетесь с такими проблемами, рекомендуем провести оптимизацию скорости ответа сервера и/или выбрать более подходящий хостинг.

Статья помогла?

Отлично!

Спасибо за ваш отзыв

Извините, что не удалось помочь!

Спасибо за ваш отзыв

Расскажите, как мы можем улучшить эту статью!

Выберите хотя бы одну причину
Требуется проверка CAPTCHA.

Комментарий отправлен

Мы ценим вашу помощь и постараемся исправить статью