URL: добавление, сканирование, сохранение

Изменено Mon, 09 Oct 2023 на 07:42 PM

1. Как добавить URL для сканирования.

2. Обработка загружаемых URL.

3. Особенности хода сканирования.

4. Изменение начального URL в рамках одного проекта.

5. Как пересканировать страницы.

5.1. Повторное сканирование определенных URL.

5.2. Повторное сканирование текущей таблицы.

5.3. Повторное сканирование битых страниц.

6. Удаление и очистка URL.

7. Сохранение списка URL в файл.

1. Как добавить URL для сканирования

В Netpeak Spider реализована возможность добавлять URL двумя способами:

1.1. Ввести адрес в поле «Начальный URL» → сканирование начнётся с указанного URL и будет продолжаться, пока не будут просканированы все страницы сайта (если область сканирования не ограничена в настройках программы).

Чтобы быстрее добавить начальный URL, используйте подсказки. Они появляются под строкой, когда вы вводите в ней текст. Подсказки создаются на основе ваших прошлых проектов и того, что вы вводили ранее.

Введите начальный URL

1.2. Добавить URL списком → для этого воспользуйтесь пунктом меню «Список URL», горячими клавишами либо панелью управления:

Добавить URL списком

1.3. Ввести вручную (Ctrl+D) → открывает дополнительное окно для ввода списка страниц, где каждый URL должен быть с новой строки. После введения всех URL нажмите «Добавить». 

Ввести вручную

1.4. Загрузить из файла (Alt+O) → импортирует URL из файла, который может иметь следующие расширения:

  • .txt (Text file)
  • .xlsx (Microsoft Excel)
  • .csv (Comma-separated values)
  • .xml (XML file)
  • .nspj (проект Netpeak Spider) 
  • .ncpj (проект Netpeak Checker). 


Загрузить список URL из файла также можно, нажав «Добавить URL» на панели управления.

Загрузка из файла

1.5. Загрузить из Sitemap → открывает инструмент «Валидатор XML Sitemap» (Alt+X), с помощью которого можно извлечь список URL из карты сайта для сканирования. Для этого необходимо:

  1. Ввести URL карты сайта в соответствующее поле;
  2. Выбрать режим просмотра «URL (Содержимое Sitemap)»;
  3. Нажать «Старт»;
  4. Перенести список URL в основную таблицу;
  5. В главном окне программы, запустить сканирование нажатием на «Старт».  

Загрузка из sitemap

1.6. Drag and Drop → перетащите cписок URL или файл с вышеуказанными расширениями напрямую в основную таблицу: Netpeak Spider проанализирует файлы и загрузит необходимые данные.

1.7. Вставить из буфера обмена → комбинацией клавиш Ctrl+V или с помощью пункта «Список URL» в главном меню. 

2. Обработка загружаемых URL

  • Netpeak Spider сканирует страницы только на протоколе http / https.
  • Если в ссылке не указан протокол, программа автоматически добавит безопасный https-протокол в начало URL-адреса.
  • Основная панель программы может содержать только уникальные URL.
  • URL будут декодированы (приведены к понятному для пользователя виду, например, с использованием пробелов и кириллицы).
  • Якоря в хеш-ссылках будут удалены: вместо https://example.com/test/#анкор Netpeak Spider добавит https://example.com/test для сканирования.


Следовательно, при добавлении списка URL Netpeak Spider приводит ссылки в декодированный вид, убирает якоря и удаляет дубликаты, из-за чего изначальный порядок URL может измениться. 

3. Особенности хода сканирования

Хотим отметить, что в зависимости от способа добавления URL, ход сканирования будет отличаться:

  • При введённом начальном URL и пустой таблице запустится сканирование всего сайта, начиная с введённой страницы. Краулер будет переходить по ссылкам, найденным на этих страницах, пока будет находить новые и уникальные URL. 
  • При наличии URL и в поле «Начальный URL», и в таблице результатов, Netpeak Spider начнёт сканирование с заданной страницы и будет добавлять новые URL к предыдущим результатам в таблице.
  • При отсутствии начального URL и наличии страниц в основной таблице будут просканированы только введённые URL.

4. Изменение начального URL в рамках одного проекта

В Netpeak Spider реализована возможность изменять начальный URL, а также добавлять список URL в течение сканирования одного проекта. Это удобно при необходимости:

4.1. Просканировать несколько сайтов в рамках одного проекта, например, для проверки дублирующегося контента или их перелинковки между собой. Для этого:

4.1.1. По окончании сканирования замените адрес страницы в поле «Начальный URL» либо добавьте интересующий вас список URL в таблицу результатов.

4.1.2. Нажмите «Старт».

4.2. Просканировать определённые разделы сайта в одном проекте, ограничивая каждый из них в настройках программы. Для этого:

4.2.1. Перед началом установите сканирование только внутри раздела на вкладке настроек «Основные».

4.2.2. Введите начальный URL и нажмите «Старт».

4.2.3. По окончанию замените начальный URL и возобновите сканирование. 

5. Как пересканировать страницы

В Netpeak Spider вы можете пересканировать часть результатов, например, после внесения изменений на сайте.

5.1. Повторное сканирование определенных URL

Чтобы пересканировать одну или несколько необходимых страниц, выберите их в таблице результатов и в контекстном меню нажмите «Пересканировать URL» → Netpeak Spider обновит данные о параметрах и ссылочных связях по всем выбранным страницам.
Повторное сканирование

5.2. Повторное сканирование текущей таблицы

Также вы можете пересканировать текущую таблицу, к примеру, после применения фильтра. Для этого:

  1. Сохраните проект для экономии оперативной памяти и возможности вернуться к нему в будущем.
  2. На боковой панели «Ошибки» выберите ошибку, по которой хотите отфильтровать результаты (к примеру, «Отсутствующий или пустой Title»).
  3. Кликните правой кнопкой мыши на любую ячейку в таблице «Отфильтрованные результаты» и выберите «Текущая таблица» → «Пересканировать таблицу». Также вы можете воспользоваться горячими клавишами Ctrl+Shift+R.

Сканирование текущей таблицы

5.3.  Повторное сканирование всех результатов

Можно пересканировать и все полученные URL (например, после переезда сайта на HTTPS-протокол): очистите поле «Начальный URL» и нажмите на кнопку «Рестарт» → Netpeak Spider перепроверит только те страницы, которые уже были добавлены в таблицу результатов.

Сканирование всех результатов

5.4. Повторное сканирование битых страниц

Если вы убрали ссылки на битые страницы на вашем сайте, то, чтобы программа полностью отобразила изменения, необходимо пересканировать сайт целиком.

В случае, когда вы не удаляли ссылок, а сделали страницы доступными по тем же URL, то чтобы увидеть изменения, вам достаточно пересканировать таблицу «Битые страницы» описанным в пункте 4.2 способом.

6. Удаление и очистка URL

Удалить URL из таблицы результатов так же легко, как и вставить:

  1. Выделите нужные URL.
  2. Нажмите Shift+Delete, либо выберите «Удалить URL» в контекстном меню.
  3. После этого произойдёт автоматическое обновление в таблице результатов.

Учитывайте, что после удаления URL из основной таблицы он останется в отчётах «Исходящие ссылки» по страницам, ссылающимся на него.

Также вы можете очистить полученные данные по выбранным URL, не удаляя страницы из таблицы результатов, например, чтобы пересканировать уже полученные страницы после изменений в настройках программы или на сайте. Для этого:

  1. Выделите необходимые URL.
  2. Нажмите Delete или выберите «Очистить» в контекстном меню.

7. Сохранение списка URL в файл

Вы можете сохранять список отсканированных URL, а также URL в очереди без данных по ним в текстовом формате на своём устройстве. 

7.1. Для того, чтобы сохранить список отсканированных URL:

7.1.1. Откройте нужную таблицу.

7.1.2. Кликните на «Список URL» → «Сохранить список URL в файл» или воспользуйтесь комбинацией Alt+S, находясь в главном окне программы.

Сохранение в файл

7.1.3. Выберите папку для сохранения и определите имя файла (или оставьте автоматически сгенерированное).

7.2. Для того, чтобы сохранить список URL в очереди:

7.2.1. Поставьте сканирование на паузу.

7.2.2. Кликните на «Экспорт» → «Ссылки в очереди».

7.2.3. Выберите папку для сохранения файла и задайте ему имя (или оставьте автоматически сгенерированное).  

экспорт ссылок

Обратите внимание: в текстовом документе будет содержаться лишь список всех URL, а не отчёты по ним. 

Статья помогла?

Отлично!

Спасибо за ваш отзыв

Извините, что не удалось помочь!

Спасибо за ваш отзыв

Расскажите, как мы можем улучшить эту статью!

Выберите хотя бы одну причину
Требуется проверка CAPTCHA.

Комментарий отправлен

Мы ценим вашу помощь и постараемся исправить статью