- Настройки учёта инструкций по сканированию и индексации.
- Настройки сканирования ссылок из тега link.
- Автоматическая остановка сканирования.
- Дополнительные настройки.
Продвинутые настройки находятся в главном меню → «Настройки» → «Продвинутые» и необходимы для настройки сканирования, в частности:
- следовать ли инструкциям по индексации;
- учитывать ли ссылки из тега <link>;
- настроить автоматическую остановку сканирования.
1. Настройка учёта инструкций по сканированию и индексации
Раздел «Учитывать инструкции по сканированию и индексации» — первый и самый важный раздел в продвинутых настройках. Он включает в себя:
-
1.1. robots.txt → отмечайте, чтобы учитывать инструкции из файла robots.txt для выбранного User Agent. Директивы Allow/Disallow отвечают за добавление определённых страниц в таблицу результатов.
По умолчанию User Agent для HTTP запросов — это браузер Google Chrome. Для учёта виртуального robots.txt используется нейтральный бот Netpeak Spider. Сделано это для того, чтобы проверить как работают его директивы для разных ботов, а не только для Google Chrome. - Вы можете протестировать инструкции в robots.txt на этапе разработки сайта с помощью функции «Виртуальный robots.txt» в Netpeak Spider. Она позволяет протестировать новые или обновлённые инструкции в файле robots.txt, не меняя актуальный.
-
1.2. Canonical → отмечайте, чтобы учитывать инструкции Canonical:
- в HTTP-заголовках ответа сервера,
- из тега <link rel="canonical"/ > в блоке <head>,
- в HTTP заголовке «Link: rel=”canonical”»,
и считать ссылки из этих директив единственными исходящими ссылками со страницы. Настройка по умолчанию включена.
-
1.3. Refresh → отмечайте, чтобы учитывать инструкции Refresh в HTTP-заголовках ответа сервера или тега <meta http-equiv="refresh" /> в блоке <head> и считать ссылки из этой директивы единственными исходящими ссылками со страницы.
-
1.4. X-Robots-Tag → отмечайте, чтобы учитывать инструкции X-Robots-Tag в HTTP-заголовке ответа сервера для выбранного User Agent:
- Follow/nofollow отвечает за учёт ссылок с определённой страницы;
- Index/noindex отвечает за добавление определённой страницы в таблицу результатов.
-
1.5. Meta-Robots → отмечайте, чтобы учитывать инструкции из тега <meta name="robots" /> для выбранного User Agent:
- Follow/nofollow отвечает за учёт ссылок с определённой страницы;
- Index/noindex отвечает за добавление определённой страницы в таблицу результатов.
-
1.6. Атрибут «nofollow» у ссылок → отмечайте, чтобы не переходить по ссылкам с атрибутом «nofollow», например, <a href="https://example.com/" rel="nofollow">Example</a>.
Когда включена хотя-бы одна инструкция по индексации, программа не будет сканировать закрытые от индексации страницы, но добавит их в таблицу «Пропущенные URL». Однако, Netpeak Spider всегда разделяет результаты на:
- индексируемые страницы,
- неиндексируемые страницы,
- не HTML.
Помните, что роботы поисковых систем в любом случае учитывают инструкции канонизации, robots.txt и Meta Robots, поэтому у сайта могут возникнуть проблемы с индексацией в случае их отсутствия или неверной настройки.
2. Настройки сканирования ссылок из тега link
Для настройки сканирования ссылок из тега <link> используйте следующие параметры:
- Hreflang → Отметьте, чтобы переходить по ссылкам из атрибута hreflang в теге <link rel="alternate" /> блока <head> или HTTP-заголовке «Link: rel="alternate"» — это необходимо для проверки корректности настройки hreflang. Обратите внимание, Netpeak Spider будет сканировать все URL из hreflang (как внутренние, так и внешние) вне зависимости от настройки «Сканировать внешние ссылки».
- Next/Prev → отмечайте, чтобы переходить по ссылкам из тегов <link rel="next" /> и <link rel="prev" /> в блоке <head>.
- AMP HTML → отмечайте, чтобы переходить по ссылкам из тегов <link rel="amphtml" /> в блоке <head>.
- Остальные → отмечайте, чтобы добавлять в таблицу результатов все URL из остальных тегов <link> в блоке <head>. Данная настройка не учитывает директивы rel="stylesheet" (CSS), rel="next/prev" и rel="amphtml", так как они устанавливаются с помощью других настроек.
3. Автоматическая остановка сканирования
В разделе «Автоматически приостанавливать сканирование» можно настроить автоматическую остановку сканирования в случаях:
- Если сайт возвращает код ответа 429 Too Many Requests → сканирование будет приостановлено, если сервер возвращает 429 код ответа. Этот код сигнализирует, что пользователем было отправлено слишком много запросов за короткий промежуток времени. Вы сможете возобновить сканирование в любое время.
- Когда было превышено время ожидания ответа сервера → сканирование будет приостановлено, если время ожидания ответа сервера было превышено. По умолчанию это 30 секунд, но это значение можно изменить на вкладке «Основные» в настройках сканирования. В случае остановки, возобновить сканирование можно вручную.
4. Дополнительные настройки
Дополнительно можно включить такие функции:
- Разрешить cookies → отмечайте, если доступ к сайту закрыт для всех обращений без файлов cookie. Также полезно, чтобы все запросы учитывались в рамках одной сессии, так как при выключенной настройке каждый новый запрос будет создавать новую сессию. Это разрешение активировано по умолчанию.
- Сканировать содержимое страницы с 4xx ошибкой → отмечайте, чтобы получать все выбранные параметры для страниц, которые возвращают 4xx код ответа сервера.
- Сканировать относительные канонические URL → отмечайте, чтобы включить сканирование относительных канонических URL в теге <link rel=”canonical”/> блока <head> или HTTP-заголовке «Link:rel=”canonical”». В этом случае все найденные URL будут добавлены в основную таблицу с результатами.
Если вам необходимо сбросить настройки:
а) воспользуйтесь кнопкой «Восстановить настройки по умолчанию», чтобы восстановить их на текущей вкладке,
б) установите шаблон «По умолчанию», чтобы сбросить все пользовательские настройки на всех вкладках.