Список причин, через які певні сайти можуть не скануватися:
-
Сайт закритий від індексації одним або кількома можливими способами — robots.txt, Meta Robots, X-Robots-Tag.
Рішення: -
На сайті не коректно прописаний canonical. Це часто трапляється при переїзді на новий протокол.
Рішення: -
На сайті заборонено доступ для певних User Agent (наприклад Googlebot).
Рішення: змінити поточний User Agent у налаштуваннях Netpeak Spider.
-
З якихось причин ваша IP-адреса була заблокована на сканованому сайті.
Рішення: використовувати проксі.
-
На сканованому сайті потрібна авторизація.
Рішення: прописати дані для входу (логін та пароль) у налаштуваннях сканування у розділі «Автентифікація». Цей спосіб працює тільки для базової аутентифікації, яка включається до HTTP-запиту і найчастіше використовується на етапі розробки сайту.
-
Помилка ‘SendFailure’ може виявитися на сайтах з HTTPS-протоколом, якщо ви використовуєте Netpeak Spider на Windows версії нижче 7 SP2, оскільки такі версії операційних систем не підтримують шифрування TLS 1.2.
Solutions:- запустити Netpeak Spider на пристрої з Windows 7 SP2 та пізніших версій;
-
якщо ви власник сайту, налаштувати підтримку ранніх версій шифрування (TLS 1.0).
-
Помилка ‘ConnectFailure’ означає, що з'єднання з сервером неможливо встановити. Найчастіше вона з'являється під час сканування сайтів із HTTP-протоколом. Якщо в полі «Початковий URL» ви ввели лише ім'я домену, спрацьовує автоматичне встановлення префікса захищеного протоколу HTTPS, що не дає встановити з'єднання.
Вирішення: достатньо в початковому URL змінити префікс на http://.
- Сканований сайт написаний на JavaScript. За замовчуванням Netpeak Spider сканує лише статичний HTML-код без рендерингу JavaScript-коду.
Рішення: позначити галочкою пункт "Рендерити JavaScript" на вкладці основних налаштувань. За потреби змініть Ajax Timeout (за замовчуванням встановлено затримку 2 секунди).
-
Сторінки сканованого сайту від початку або з певного моменту віддають 5хх код відповіді сервера. Ця проблема може бути пов'язана з тим, що сервер, на якому розташований даний сайт, некоректно працює при отриманні великої кількості запитів, або на ньому встановлено захист від великої кількості одночасних запитів.
Рішення:-
пересканувати лише сторінки з 5хх кодом відповіді сервера: зменшити кількість потоків у налаштуваннях на вкладці «Основні», відфільтрувати сторінки з 5хх кодом відповіді та в контекстному меню вибрати пункт «Поточна таблиця» → «Пересканувати таблицю»;
-
пересканувати весь проект: аналогічно зменшити кількість потоків та повторити сканування, натиснувши кнопку «Рестарт».
Ми рекомендуємо встановити значення у 2 потоки. Якщо проблема повториться знову, слід виставити значення в один потік, а також встановити додаткову затримку між запитами в 2000 мс. Сканування займе більше часу, але такі налаштування дозволять уникнути надмірного навантаження на сервер.
-
Зверніть увагу, що навантаження в 5-10 потоків не є надто великим: ми радимо забезпечити коректну роботу сервера при такому навантаженні, щоб відвідувачі сайту могли швидко та комфортно пересуватися по ньому без тривалого очікування відповіді. Якщо ви часто зустрічаєтеся з такими проблемами, рекомендуємо провести оптимізацію швидкості відповіді сервера та/або вибрати потрібний хостинг.