Программа - хороший помощник в текстовом анализе. Используется для:
Результатом работы программы является две таблички: "Леммы" и "Биграммы" со статистикой частотности и веса каждого слова и биграммы в искомом тексте. При помощи фильтров и поиска можно проводить анализ каждого слова и биграммы.
Лемма - начальная форма слова.
Биграмма - последовательность двух лемм в любой словоформе в одном пассаже.
Пассаж - последовательность слов на странице сайта между знаками препинания или html-тэгами, которые отделяют один пассаж от другого.
Пример знаков препинания: ".", "!", "?", "...". Запятая и тире пассаж не разбивает!
Пример html-тегов: <p>, <div>, <h1>...<h6>, <table> и его элементы, <li> и пр.