Руководство пользователя Lemmatizator

Инструмент lemmatizator.ru - специальный инструмент текстового анализа, который можно использовать для определения количества вхождений лемм и биграмм, проверки на переспам, получения минус-слов по списку фраз из сервисов по подбору ключевых слов, любой задачи, где нужен учет вхождений ключевых слов.

Начало работы с инструментом

При открытии инструмента видим поле для ввода анализируемого текста. В данное поле возможно добавить:

  • текст;
  • исходный код страницы;
  • URL страницы (вставлять только с протоколом).

При добавлении текстом обращайте внимание на то, что копируется в поле “текст”. Возможна склейка нескольких слов в одно.

Замечание! При выделении текста с картинками и дальнейшем копировании, в буфер обмена копируется и атрибут alt, если он прописан.

При добавлении исходного кода страницы не учитываются вхождения слов, находящихся в атрибутах любых html-тегов.

ВНИМАНИЕ!!! При копировании текста страницы или исходного кода, отжимаем установленную по умолчанию галочку “Содержит ссылки”.

При добавлении URL-адреса страницы производится анализ исходного кода данной страницы. При добавлении нескольких URL’ов списком - каждый новый адрес записывается с новой строчки. Также проверяем наличие галочки “Содержит ссылки”.

Результат работы

Результатом работы инструмента является две таблички: “Леммы” и “Биграммы”

Разберем по отдельности.

Леммы

В данной таблице приведены все леммы текста (исходного кода), который был добавлен для анализа. Разберем таблицу по всем столбцам:

  • “Lemm” - непосредственно сама лемма;
  • “Title” - количество вхождений леммы в title;
  • “H1” - количество вхождений леммы в h1;
  • “H26” - кол-во вхождений леммы в подзаголовки h2-h6;
  • “B” - кол-во вхождений леммы в теги <strong>,<b>.
  • “I” - кол-во вхождений леммы в теги <em>,<i>;
  • “А” - кол-во вхождений леммы в анкор ссылки;
  • “Other” - кол-во вхождений леммы в другие блоки;
  • “Total” - всего вхождений данной леммы

Замечание! Если добавлять для анализа текст, то все вхождения будут записываться в столбец “Other”.

Поиск работает в стандартном режиме, ищет все леммы по указанному фрагменту.

Биграммы

Приведены биграммы в анализируемом тексте (исходном коде). Разберем значения столбцов:

  1. “Lemm1” - содержит лемму №1;
  2. “Lemm2” - содержит лемму №2;
  3. “1”-”5” - кол-во вхождений биграммы в анализируемом тексте. Число в названии столбца характеризует расстояние между парой лемм. Так:
    1. “1” - прямой порядок;
    2. “2” - леммы употреблены через слово;
    3. “3” - через 2 слова;
    4. и т.д.

Замечание! Перестановка двух лемм в биграмме - новая биграмма.

  1. “Total” - кол-во всех вхождений биграммы во всем тексте.

Поиск! Для нахождения биграммы нужно записать две леммы через пробел. При записи лишь одной леммы, будут выводиться все биграммы, содержащие данную лемму. При записи части леммы, будут выводиться все биграммы, содержащие фрагмент этой леммы.