Начать беседу

Валидатор XML Sitemap

  1. Как открыть инструмент и приступить к работе с ним.
  2. Функции инструмента.
  3. Ошибки, определяемые инструментом «Валидатор XML Sitemap».

Валидатор XML Sitemap — встроенный в программу инструмент, который помогает решить следующие задачи:

  • Находить ошибки в карте сайта.
  • Парсить ссылки с XML Sitemap с возможностью передачи их в основную таблицу для дальнейшего сканирования и работы с ними.
  • Отправить ping в поисковые системы, чтобы обратить их внимание на изменения в файлах XML Sitemap.

Проверка карты сайта может осуществляться вне сканирования самого сайта.

1. Как открыть инструмент и приступить к работе с ним

Открывается инструмент тремя способами: 

  • Через панель управления в меню «Инструменты/Запустить» → «Валидатор XML Sitemap»;

Запустить валидатор XML

  • Воспользоваться горячими клавишами Alt+X;
  • В главном меню выбрать «Список URL» → «Загрузить из Sitemap».

Загрузить sitemap

Чтобы приступить к поиску ошибок:

1. Введите URL карты сайта в поле с соответствующим названием и нажмите кнопку «Старт». По завершению сканирования в основной таблице отобразится список страниц, которые содержатся в карте сайта. В инструменте встроено два режима просмотра:

  • URL (Содержимое Sitemap) → отображает все страницы, которые содержатся в карте сайта;
  • Карты сайта → отображает файлы с расширением .xml.


2. В колонках таблицы просмотрите данные о наличии и отсутствии атрибутов отдельно для каждого URL. Атрибуты и их значения:

  • Loc → URL-адрес страницы; 
  • Lastmod → дата последнего изменения файла;
  • Changefreq → вероятная частота изменения этой страницы; 
  • Priority → приоритетность URL относительно других URL на сайте.


3. Ознакомиться с найденными ошибками в карте сайта вы можете на соответствующей вкладке правой части окна инструмента. Ошибки, представленные в этом отчёте, определяются на основе официальной документации Standart Sitemap Protocol, которая поддерживается поисковыми системами Google, Яндекс и Bing.

4. Кликните по названию ошибки, чтобы отфильтровать результаты и ознакомиться со списком страниц, на которых она была найдена. Также при клике в нижнем блоке «Информация» отображается объяснение каждой ошибки и её целевой параметр.

поиск ошибок sitemap

5. Чтобы задать индивидуальные (кастомные) настройки фильтров, сбросьте применённый фильтр и кликните на кнопку «Настроить фильтр». Перед вами откроется окно, где вы можете задать условия фильтрации. 

2. Функции инструмента

По аналогии с работой в боковой вкладке программы, в инструменте «Валидатор XML Sitemap» доступны функции:

  • Применить → применяет текущий фильтр и обновляет данные в таблице.
  • Расширенное копирование → копирует данные из любой выбранной категории в буфер обмена, после чего их можно вставить во внешнюю таблицу.

При необходимости вы можете отправить карту сайта в ping поисковых систем Google и Bing, т.е. оповестить их о добавлении нового материала на сайте.

Экспорт sitemap

Выгрузка результатов осуществляется с помощью:

  • Функции «Экспорт» → выгружает текущую таблицу со всеми результатами; 
  • Кнопки «Сохранить URL в файл» → сохраняет список просканированных URL карты сайта в текстовый документ;


С помощью кнопок «В таблицу» и «Перенести URL и закрыть» вы можете добавить результаты, полученные в ходе анализа Sitemap, в основную таблицу. 

Перенести URL из sitemap и закрыть

После окончания работы удалите результаты удобным для вас способом:

  • Нажатием кнопку «Новая карта сайта».
  • Функцией «Очистить» в главном меню окна инструмента.


новая карта сайта


Если исправление ошибок займёт слишком много времени, вы можете создать новую карту сайта. Мануал по созданию карты сайта вы найдёте в статье «Генерация карты сайта».

3. Ошибки, определяемые инструментом «Валидатор XML Sitemap» 

Ошибка

Описание

Высокая критичность

Битый Sitemap

Показывает недоступные карты сайта или возвращающие код ответа сервера 4xx и выше: по ним не удаётся получить результаты.


Целевой параметр: Код ответа сервера

Невалидный корневой тег Sitemap

Показывает карты сайта с неправильным корневым тегом: по требованиям он должен быть <sitemapindex> или <urlset>.


Целевой параметр: URL

Ошибка парсинга XML-документа

Показывает XML-документы, которые не удалось распарсить.


Целевой параметр: URL

Невалидный Content-Type

Показывает карты сайта в файле индекса Sitemap, у которых в заголовках HTTP-ответа сервера поле Content-Type не содержит «text/xml», «application/xml» или «text/plain». В случае сжатия файлов Sitemap с помощью gzip поле Content-Type должно содержать «application/gzip».


Целевой параметр: Content-Type

Ошибка сжатия

Показывает карты сайта, которые были повреждены при архивации или заархивированы не с помощью gzip.


Целевой параметр: Код ответа сервера

Кодировка не UTF-8

Показывает карты сайта, кодировка которых отличается от UTF-8.


Целевой параметр: Кодировка

Sitemap, заблокированный в robots.txt 

Показывает карты сайта, запрещённые к индексации с помощью инструкции disallow в файле robots.txt.


Целевой параметр: Закрыт от индексации

Макс. размер файла Sitemap

Показывает карты сайта, размер которых превышает 49,9 Мбайт.


Целевой параметр: Размер файла

Макс. количество ссылок в файле индекса Sitemap

Показывает файлы индекса Sitemap, которые содержат более 49 999 ссылок на карты сайта.


Целевой параметр: Количество URL

Макс. количество URL в Sitemap

Показывает карты сайта, которые содержат более 49 999 URL.


Целевой параметр: Количество URL

Не найдены ссылки в Sitemap

Показывает карты сайта, в которых не было найдено ни одной ссылки. Это может произойти, если файл Sitemap пустой, или его содержимое было исключено на вкладке «Правила» в настройках сканирования.


Целевой параметр: Количество URL

Неправильный формат Sitemap URL

Показывает URL внутри файла индекса Sitemap, которые не соответствуют стандартному маскированию схема:[//[логин:пароль@]хост[:порт]][/]путь[?параметры][#якорь].


Целевой параметр: Loc

Неправильный формат URL

Показывает адреса страниц, которые не соответствуют стандартной структуре URL: схема:[//логин:пароль@]хост:[порт]][/]путь[?параметры][#якорь]


Целевой параметр: Loc

Макс. длина Sitemap URL

Показывает карты сайта, у которых длина URL более 2000 символов (по умолчанию). Обратите внимание, что вы можете поменять значение по умолчанию на вкладке «Ограничения» в настройках сканирования.


Целевой параметр: URL

Макс. длина URL

Показывает страницы, у которых длина URL более 2000 символов (по умолчанию). Обратите внимание, что вы можете поменять значение по умолчанию на вкладке «Ограничения» в настройках сканирования.


Целевой параметр: URL

Кодированные Sitemap URL

Показывает карты сайта, которые содержат кодированные (не ASCII) символы в URL. Например, URL вида example.com/пример кодируется как example.com/%D1%85%D0%BE%D0%B9


Целевой параметр: URL

Некодированные URL внутри Sitemap

Показывает URL, которые содержат некодированные (не ASCII) символы в URL. Например, URL вида example.com/пример, который должен кодироваться, как example.com/%D1%85%D0%BE%D0%B9.


Целевой параметр: Loc

 Спецсимволы в URL

Показывает список URL, которые содержат символы «*», «{», «}»


Целевой параметр: URL

Дубликаты Sitemap

Показывает дублирующиеся карты сайта, если они были обнаружены в одном или нескольких файлах индекса Sitemap.


Целевой параметр: URL

Ссылка на файл индекса Sitemap 

Показывает карты сайта, которые содержат ссылку на файл индекса Sitemap.


Целевой параметр: Источник ссылки

Средняя критичность

Перенаправленный Sitemap

Показывает карты сайта, которые были перенаправлены с помощью 3xx кода ответа сервера. Обратите внимание: в отличие от основной таблицы, здесь показываются конечные URL.


Целевой параметр: Код ответа сервера

Неверное местоположение Sitemap

Показывает карты сайта, которые нарушают требования по местоположению из документации Standard Sitemap Protocol. Карта должна размещаться на том же хосте и с тем же протоколом, что и её содержимое.


Целевой параметр: URL

Неверное местоположение URL

Показывает список URL, которые нарушают требования по местоположению из документации Standard Sitemap Protocol. URL внутри карты сайта должны размещаться на том же хосте и с тем же протоколом, что и сама карта сайта.


Целевой параметр: URL

Невалидный URL Priority

Показывает список URL с неправильным форматом тега <priority>.


Целевой параметр: Priority

Priority вне диапазона 

Показывает список URL с тегом <priority> вне допустимого диапазона (от 0.0 до 1.0).


Целевой параметр: Priority

Невалидный URL Changefreq

Показывает список URL с неправильным форматом тега <changefreq>.


Целевой параметр: Changefreq

Невалидный URL Lastmod

Показывает список URL с неправильным форматом даты <lastmod>.


Целевой параметр: Lastmod

Невалидный Sitemap Lastmod

Показывает карты сайта с неправильным форматом даты <lastmod>.


Целевой параметр: Lastmod

Большое время ответа сервера

Показывает страницы, у которых время получения первого байта от сервера превышает 500 мс (по умолчанию). Обратите внимание, что вы можете поменять значение по умолчанию на вкладке «Ограничения» в настройках сканирования.


Целевой параметр: Время ответа сервера

Sitemap Index отсутствует в robots.txt


Показывает файлы индекса Sitemap, ссылки на которые не были найдены в соответствующих файлах robots.txt.


Целевой параметр: Указан в robots.txt

Дубликаты URL

Показывает дубликаты URL, найденные на всех Sitemap. В этом отчёте все данные сгруппированы по параметру «URL».


Целевой параметр: URL

Содержит Byte-Order Mark

Показывает карты сайта, которые содержат Byte-Order Mark (BOM, метка последовательности байтов) — Юникод-символ, используемый для индикации порядка байтов текстового файла. Он вызывает проблемы со сканированием Sitemap, потому настоятельно рекомендуется его избегать.


Целевой параметр: Кодировка

Низкая критичность

Кодированные URL

Показывает страницы, которые содержат кодированные (не ASCII) символы в URL. Например, URL вида example.com/пример кодируется как example.com/%D1%85%D0%BE%D0%B9.


Целевой параметр: URL

Sitemap отсутствует в robots.txt

Показывает файлы Sitemap, ссылки на которые не были найдены в соответствующих файлах robots.txt.


Целевой параметр: Указан в robots.txt

Выберите файлы или перетащите файлы
Была ли эта статья Вам полезна?
Да
Нет

Всё ещё думаете?

Тысячи специалистов по всему миру используют Netpeak Spider и Checker. Регистрируйтесь, чтобы начать бесплатный 14-дневный триал!