Начать беседу

Настройки правил сканирования

Настройки правил сканирования 

  1. Общие функции для всех правил.
  2. Создание правил сканирования.
  3. Комбинирование условий и настроек.

Правила сканирования определяют, какие типы URL сайта включить или исключить из просмотра краулером.

1. Общие функции для всех правил

Общие функции для правил

  • Чтобы настроить использование правил, активируйте поле «Использовать правила сканирования»

Отключите этот пункт, если вам необходимо просканировать сайт без учёта созданных ранее правил, не удаляя их. 

  • «Переходить по ссылкам с отфильтрованных URL»  → эта настройка является аналогом тега <meta name=”robots” content=”noindex,follow” />. Отметьте её, чтобы переходить по всем ссылкам со страниц, которые соответствуют установленным правилам. 
  • Обратите внимание: отфильтрованные URL попадут в таблицу пропущенных результатов и не будут отображаться на вкладке «Все результаты».
  • Добавить правило → добавляет новые правила в окно настроек. Также вы можете создать новое условие с помощью горячей клавиши Ctrl+N. Количество возможных правил не ограничено.
  • Логика фильтра → для определения того, как именно будут работать правила, необходимо выбрать логику фильтра:
    • И → объединяет несколько правил: значение «true» возвращается только в том случае, если все условия одновременно возвращают значение «true»;
    • ИЛИ → значение «true» возвращается, если хотя бы одно из правил отдаёт значение «true».
  • Сбросить правила → удаляет все введённые правила.

Если вам нужно удалить одно конкретное правило, нажмите на иконку крестика в правом верхнем углу его строки.

2. Создание правил сканирования

Создание правил сканирования

Строка правил содержит два выпадающих меню: для выбора действия и для выбора его условия.

Возможные действия правил: 

  • Включить → краулер будет добавлять в таблицу URL, которые соответствуют заданным условиям; 
  • Исключить → URL, которые соответствуют заданным условиям, краулер будет заносить в таблицу «Пропущенные URL».


Возможные условия правил:

  • Содержит → для ограничения сканирования по содержанию в URL текстового значения, прописанного вами, например, по категории.
  • С точным соответствием → для поиска или исключения определённого URL, из отчёта.
  • Соответствует регулярному выражению → позволяет включить / исключить URL, используя регулярные выражения. Например, чтобы получить URL определённого уровня вложенности.
  • Начинается с → включает / исключает URL, которые начинаются со значения, заданного в строке.
  • Заканчивается на → включает / исключает URL, которые заканчиваются на заданное значение.
  • Длина → для ограничения сканирования по количеству символов в URL. Здесь также задаются знак математического равенства (=) и знаки сравнения (<, >, ≤, ≥, NULL).

3. Комбинирование условий и настроек 

Вы можете комбинировать предложенные выше условия между собой и с другими настройками необходимым для вас образом. Например, чтобы просканировать страницы поддомена support.netpeaksoftware.com, URL которых содержит слово «spider», и расположены не дальше двух кликов от начального URL:

  1. На вкладке настроек «Ограничения» выберите максимальную глубину сканирования: 2.

    Ограничения
  2. Перейдите на вкладку «Правила» и настройте следующие условия:

    • Включить URL, начинающиеся с «https://support.netpeaksoftware.com/»;

    • Включить URL, которые содержат «spider».

  3. Установите логику правил «И».

Логика правил

Выберите файлы или перетащите файлы
Была ли эта статья Вам полезна?
Да
Нет

Всё ещё думаете?

Тысячи специалистов по всему миру используют Netpeak Spider и Checker. Регистрируйтесь, чтобы начать бесплатный 14-дневный триал!