Как найти орфографические ошибки на всём сайте

Изменено Mon, 09 Oct 2023 на 07:37 PM

В Netpeak Spider 3.9 мы внедрили проверку правописания, которая включает в себя:

  • новый параметр «Орфографические ошибки» (в группе «Контент»),
  • ошибку средней критичности «Орфографические ошибки»,
  • таблицу «Орфографические ошибки» во внутренней базе данных,
  • специальный отчёт по ошибкам «Сводка по ошибкам орфографии» в меню «Экспорт»,
  • массивный отчёт «Орфографические ошибки (XL)» в меню «Экспорт».

1. Зачем нужна функция и чем полезна:

Функция поможет найти ошибки орфографии на всех страницах сайта. В программе можно выбирать, какие текстовые блоки будут проверяться на ошибки.

Тексты проверяются с помощью Windows Spell Checking API, который используется во многих программах (Microsoft Edge, Google Chrome, Telegram и т.д.). Проверка доступна на 70+ языках, и одновременно можно использовать несколько словарей.

Чтобы исключить из проверки слова, которых нет в словаре Windows и которые не нужно считать ошибкой, добавьте их в игнор-лист.

Можно добавлять слова в пользовательский словарь Windows прямо из программы.

Обратите внимание, функция проверки правописания работает только для версий ОС Windows 8 и выше.

2. Как настроить проверку правописания

2.1. Активируйте функцию

Чтобы активировать функцию, откройте вкладку «Проверка орфографии» настроек сканирования и отметьте пункт «Включить проверку орфографии».

Как активировать проверку орфографии в Netpeak Spider

2.2. Добавьте языки

Далее необходимо добавить языки, на которых программа будем проверять тексты страниц. Для этого поочерёдно выберите нужные языки в выпадающем списке и нажмите кнопку «Добавить язык». После добавления они будут отображаться в поле «Добавленные языки».

Проверка происходит одновременно по всем выбранным языкам. Это удобно, ведь на одной странице часто могут быть тексты на разных языках. Например, на русскоязычной странице могут быть названия товаров с англоязычными словами и комментарии на украинском языке.

Текст комментариев на разных языках

В выпадающем списке в настройках Netpeak Spider доступны языки и диалекты, для которых установлены языковые пакеты в настройках языка Windows.

Если там нет нужного вам языка, установите соответствующий языковой пакет. После установки язык будет доступен в программе.

Настройка и добавление языковых пакетов Windows

Полный список языков и диалектов можно увидеть в таблице. Список может меняться в зависимости от версии операционной системы (это особенность Windows).

2.3. Добавьте слова в игнор-лист

Добавьте слова, которые нужно пропускать во время проверки.

Обычно нужно игнорировать сленговые слова и специальные термины, которые нужно пропустить в конкретном проекте, но считать ошибкой в других проектах. Например, на блоге Netpeak Software допускается использование сленговых слов «админка», «фаундер», «расшарить» и т.д., но на других сайтах может быть нежелательным использование сленга, потому там лучше не пропускать эти слова.

Рекомендуем регулярно пополнять игнор-лист, чтобы слова не мешали вам при дальнейших проверках. А новый специальный отчёт по ошибкам «Сводка по ошибкам орфографии» поможет быстрее отобрать слова для игнор-листа.

Игнор-список применяется только со следующего сканирования.

2.4. Отметьте параметры на боковой панели

Для проверки орфографии нужно обязательно отметить параметр «Орфографические ошибки». Если его не отметить, проверка не будет проводиться. Далее нужно в параметрах отметить те места, где вы хотите проверять ошибки:

  • Title — будет проверяться текст из тега .
  • Description — будет проверяться текст из тега .
  • Заголовки H1 — будет проверяться текст из тегов

    .
  • Заголовки H2 — будет проверяться текст из тегов

    .
  • Заголовки H3 — будет проверяться текст из тегов

    .
  • Заголовки H4 — будет проверяться текст из тегов

    .
  • Заголовки H5 — будет проверяться текст из тегов
    .
  • Заголовки H6 — будет проверяться текст из тегов
    .
  • Изображения — будет проверяться текст из атрибутов alt изображений.
  • Количество слов — будет проверяться весь текст из блока .


Параметры для проверки правописания в Netpeak Spider

Выбор конкретных параметров даёт гибкость в проверке: можно проверять орфографию только в нужных текстовых блоках. Например, на страницах с UGC-контентом нет возможности исправлять опечатки пользователей, потому там есть смысл проверять ошибки только в title, description и заголовках.

Параметр «Орфографические ошибки» появляется в боковой панели только если в настройках включена проверка орфографии.

Чем больше выбрано параметров для проверки орфографии, тем медленнее происходит сканирование.

Текст в блоке включает в себя текст из заголовков и атрибутов alt изображений.

3. Ошибки

Если во время проверки найдены ошибки орфографии, то программа определит их как новую ошибку:

• Орфографические ошибки

Показывает URL, которые содержат слова с орфографическими ошибками в одном или нескольких текстовых блоках (title, description, заголовки, атрибуты alt изображений, весь текст в блоке ).

4. Таблица во внутренней базе данных

В столбце «Орфографические ошибки» в основной таблице указано количество найденных ошибок на конкретной странице со ссылкой на новую таблицу во внутренней базе данных «Орфографические ошибки».

В новой таблице показаны найденные слова с ошибками, варианты исправления для них, а также текстовые блоки, где ошибки были найдены.

Рекомендуем в таблице делать группировку по параметру «Слово» для удобства работы с ошибками: для этого нужно перетащить заголовок параметра чуть выше заголовка таблицы.

Почему некоторые правильные слова программа считает ошибкой?

Программа может считать ошибочными некоторые правильные слова. Так происходит, потому что этих слов нет в словарях языков Windows. Это нормальная ситуация для любого инструмента проверки правописания, потому что языки меняются, и невозможно создать максимально полные словари.

К счастью, есть возможность пополнять пользовательские словари Windows. Слово, добавленное в словарь, больше не будет считаться ошибочным во всех программах на компьютере, которые используют Windows Spell Checking API. Потому туда стоит добавлять слова, которые вы точно не хотите считать ошибкой во всех программах.

Таблица Орфографические ошибки во внутренней базе данных

Пользовательские словари Windows хранятся в папке → «C:\Users\{username}\AppData\Roaming\Microsoft\Spelling». Вы можете в любой момент проверить список всех слов, которые вы туда отправили открыв файл с названием «default.dic».

Общая рекомендация:

В пользовательский словарь добавлять слова, которые вы точно не хотите считать ошибкой во всех программах на компьютере.

В игнор-лист добавлять слова, которые не нужно считать ошибкой только в конкретном проекте.

3. Отчёты

Вы можете выгрузить два новых отчёта по правописанию с помощью меню «Экспорт» над боковой панелью.

• «Экспорт» → «Специальные отчёты по ошибкам» → «Сводка по ошибкам орфографии»

В этой сводке указан список слов с ошибками и примеры URL, где они были найдены. Он полезен для быстрого анализа ошибок и отбора слов для игнор-листа.

• «Экспорт» → «Массивные отчёты из базы данных (XL)» → «Орфографические ошибки (XL)»

Это экспорт таблицы «Орфографические ошибки» из внутренней базы данных.

Статья помогла?

Отлично!

Спасибо за ваш отзыв

Извините, что не удалось помочь!

Спасибо за ваш отзыв

Расскажите, как мы можем улучшить эту статью!

Выберите хотя бы одну причину
Требуется проверка CAPTCHA.

Комментарий отправлен

Мы ценим вашу помощь и постараемся исправить статью