Как сканировать медленные сайты

Изменено Mon, 09 Oct 2023 на 07:40 PM

Обсудим как сканировать сайты с низкой скоростью обработки запросов: 

  1. Выбор режима и области сканирования.
  2. Настройка скорости сканирования.
  3. Автоматическая остановка и последующее возобновление сканирования.

1. Выбор области сканирования

Если в рамках сканирования медленного сайта вам не обязательно сканировать весь сайт целиком, подвергая его длительной нагрузке, — ограничьте область сканирования. Это можно сделать несколькими способами:

  • Ограничить сканирование одной категорией → это можно сделать, указав в поле «Начальный URL» адрес нужного каталога и активировав опцию «Сканировать только внутри раздела» в разделе «Настройки» → «Основные».  Учтите, что для этого режима сканирования нужна соответствующая структура URL, при которой  URL категории и страниц, которые к ней относятся, начинаются одинаково. 

Пример: website.com/category и website/category/first-item. 


  • Ограничить сканирование при помощи правил → при помощи этой функции вы можете сосредоточиться исключительно на страницах, отвечающих определённым правилам. Это могут быть, к примеру, страницы с адресами, содержащими те или иные слова. 

2. Настройка скорости сканирования

Чтобы настроить скорость сканирования с учётом низкой производительности сканируемого сайта, воспользуйтесь следующими настройками раздела «Настройки» → «Основные»:

  • Выставьте небольшое количество потоков сканирования → в соответствующем поле выставьте не более 5 потоков, чтобы минимизировать количество одновременных параллельных соединений и снизить нагрузку на сайт.

  • Установите задержку между отправкой запросов → в поле «Задержка между запросами, мс» укажите длительность задержки между обращениями краулера к сайту. Задержка активируется для каждого отдельного потока, так что если сайт крайне чувствителен к высокой нагрузке, используйте задержку в сочетании с минимальным количеством потоков.

  • Увеличьте время максимального ожидания ответа → по умолчанию Netpeak Spider ждёт ответа от страницы в течение 30 000 миллисекунд, после чего переходит к сканированию следующей страницы. Если вам заведомо известно, что скорость отклика страниц на сканируемом сайте ниже, то вы можете задать в соответствующем поле большее значение.

3. Автоматическая остановка и последующее возобновление сканирования

Если в процессе сканирования вы столкнётесь с кодом ответа 429 Too Many Requests, мы рекомендуем:

  1. Открыть «Настройки» → «Продвинутые» и поставить галочки в разделе «Автоматически приостанавливать сканирование»: 

  • если сайт возвращает код ответа 429 Too Many Requests;
  • когда было превышено время ожидания ответа от сервера.

  1. Снизить количество потоков.

  2. Изменить настройки согласно рекомендациям, описанным в параграфе 1.

  3. Сохранить настройки.

Продолжить сканирование, если ошибка возникла в самом начале процедуры; перезапустить сканирование для всего сайта (кнопка «Рестарт»);

выборочно пересканировать отдельные страницы с проблемными кодами ответа.


Статья помогла?

Отлично!

Спасибо за ваш отзыв

Извините, что не удалось помочь!

Спасибо за ваш отзыв

Расскажите, как мы можем улучшить эту статью!

Выберите хотя бы одну причину
Требуется проверка CAPTCHA.

Комментарий отправлен

Мы ценим вашу помощь и постараемся исправить статью