У деяких випадках ви можете виявити, що дані Netpeak Spider відрізняються від тих, що ви бачите на сайті. Ось низка причин, через які можлива подібна ситуація:
-
Неправильна відповідь сервера при зверненні до сторінки. Ця проблема може бути пов'язана з тим, що сервер, на якому розташований даний сайт, некоректно працює при отриманні великої кількості запитів, або на ньому встановлено захист від великої кількості одночасних запитів.
Показниками такої ситуації можуть бути:- значне збільшення часу відповіді сервера (TTFB);
-
велика кількість сторінок, що скануються, які повертають 5хх код відповіді;
Іноді сервер повертає код відповіді «200 ОК», однак вміст сторінки є неповним та/або некоректним, що видно за відсутніми значеннями у багатьох параметрах. Найпростіший спосіб перевірити, який саме вихідний код був відданий краулеру під час сканування, - задайте налаштування парсингу “XPath” за значенням “/”, оберіть опцію “Внутрішній HTML-код” і запустіть сканування.
-
Для різних пристроїв, користувачів та пошукових роботів відображається різний контент. Таким чином, у браузері та Netpeak Spider ви бачите дві різні версії сайту, оскільки вони були сформовані для двох різних User Agent (за умовчанням у Netpeak Spider використовується Google Chrome).
Щоб перевірити вплив цього параметра на отримані дані, потрібно змінити User Agent у відповідному розділі налаштувань. Наприклад: Пошукові системи → Google → Googlebot.
-
Деякі сайти можуть віддавати різний вміст (наприклад, мовну версію, ціни тощо) залежно від розташування пристрою, з якого здійснюється запит. Щоб переглянути інші версії сайту, скористайтеся функцією доступу за допомогою проксі.
-
Сайт містить інформацію, що відображається користувачем за допомогою JavaScript (JS). За замовчуванням Netpeak Spider сканує лише статичний HTML-код без рендерингу JS-коду.
Щоб розпочати сканування сторінок з використанням JS, вам необхідно відзначити галочкою пункт "Рендерити JavaScript" на вкладці основних налаштувань. За потреби змініть Ajax Timeout (за замовчуванням встановлено 2 секунди затримки).