Статистика слов

Статистика слов в заданном тексте может пригодится тем, кто решил изучать иностранные языки. Изучать новые слова лучше начать с выяснения, какие именно слова вы используете в своей речи чаще всего. Именно эти слова на чужом языке имеет смысл учить в первую очередь. Чтобы создать исходный текст, в котором будет проходить подсчёт слов, можно использовать историю своих сообщений социальных сетях или мессенджерах.

Wordstat

Статистика слов Wordstat
Рейтинг:
Размер:
200 кБ (портативная версия)
Интерфейс:Русский
Платформа:
Windows 98/ME/2000/XP/Vista/7 32-bit
Обновлено:2008-04-30
Разработчик:
Платный аналог:  
LearnWords Windоws (480 руб.)


Похожая программа: Анализ текста Vaal-mini





Wordstat

Программа Wordstat для статистического анализа текстов позволяет подсчитать, сколько раз то или иное слово встречается в выбранном тексте.

Кто-то может сказать, что посчитать слова в тексте можно и с помощью Microsoft Word, и это тоже будет правдой. Но не всей правдой, поскольку ворд считает лишь общее количество слов в тексте, в то время как Wordstat выдаёт количество вхождений каждого слова в отдельности. Давайте посмотрим его возможности на реальном примере.

Установка Wordstat

Для начала, скачаем архив с программой и достанем из него запускаемый файл Wordstat.exe. Поскольку программа портативная, то она не требует установки на компьютер и в принципе, её можно запускать даже из архива. После запуска мы увидим вот такое окно:

Главное окно программы Wordstat

Это и есть главное и единственное окно программы.

Работа с программой

Для начала не лишним будет ознакомиться с инструкцией от разработчика. Она открывается в отдельном окне по кнопке "Помощь":

Окно Помощь программы Wordstat

Из инструкции мы узнаём, что текст для подсчёта можно взять либо из простого текстового файла (обычно с расширением .txt), либо из файла гипертекста (обычно с расширением .htm или .html). Допустимые кодировки файлов: win1251, КОИ-8r, cp866 (dos). Эти кодировки программа распознает автоматически.


Давайте проанализируем какой-нибудь файл для примера с настройками по умолчанию, а потом разберёмся с остальными настройками программы.

Wordstat у нас уже запущен и остаётся лишь нажать кнопку "Выбрать нужный файл для обработки". Программа запустит стандартный проводник Windows, чтобы мы могли указать файл (я для примера выбрал файл с анекдотами):

Окно выбора исходного файла для обработки программой Wordstat

Далее, нажимаем кнопку "Открыть" и видим окошко подтверждения с краткой статистической сводкой:

Краткая статистика результатов обработки

Нажимаем единственную кнопку "Ок" и наконец-то нам открывается файл wordstat.txt, в котором и сохраняется полная статистика по выбранному нами файлу (в данном случае, по анекдотам):

Текстовый файл с результатом обработки исходного текста

Файл wordstat.txt будет создан в той же папке, где лежит анализируемый файл. Если у нас в настройках программы не установлена галочка "Накапливать сумму результатов" и мы будем снова анализировать этот же файл или другие файлы в этой папке, то следующие отчёты будут сохраняться уже не в wordstat.txt (поскольку это имя будет уже занято), а в новых файлах с именами вроде 2BD46A1D.txt.

Рассмотрим настройки более подробно.

Настройки программы

Как видите, по умолчанию слова рассортированы по частоте появления в тексте, слово и частота его появления показаны в одну строку, однобуквенные слова вроде "и", "в", "а" тоже учтены.

Если же Вам захочется убрать назойливое окошко краткой сводки, рассортировать слова по алфавиту, получить результат в столбик (цифры под словом), объединить похожие слова или убрать однобуквенные, то всё это легко делается с помощью элементарных настроек в главном окне программы:

Главное окно программы Wordstat с альтернативными настройками

Вот что получается при всех вышеуказанных изменениях:

Текстовый файл с результатом обработки исходного текста

Что интересно у нас в результате сортировки по алфавиту, в самом верху оказались слова "hад", "hаконец", "hаш", "hевский", "hет", "hикогда", "hьютонах", "pyсских", "pаботе", "pаввин" и т.д. Я сам не сразу понял, откуда они взялись. Но, найдя эти слова в исходном файле с анекдотами понял, что просто кто-то вместо русских "Н" (эн) и "р" (рэ) начинал эти слова с аналогичных латинских "H" (аш) и "p" (пи). :)

Вот такая полезная и бесплатная программка для подсчёта слов теперь есть в Вашем арсенале. Давайте подведём итоги по ней:

Достоинства и недостатки Wordstat

Плюсы программы WordstatПлюсы:

  • элементарный интерфейс;
  • достаточно гибкие настройки;
  • портативность;
  • сохранение результатов в файл.

Недостатки программы WordstatМинусы:

  • узкая специализация;
  • ограниченное число поддерживаемых форматов и кодировок;
  • программа давно не развивается и новых функций не предвидится.

Выводы

Таким образом, программа вполне удобна и самодостаточна (и даже вполне себе уникальна) для своих специфических задач, но каких-то чудес от неё ждать не приходится.

P.S. Разрешается свободно копировать и цитировать данную статью при условии указания открытой активной ссылки на источник и сохранения авторства Руслана Богданова.

P.P.S. Существует ещё одна программа для анализа текстов, но, она заточена уже не на статистический анализ, а на эмоциональный. То есть, она показывает, какую эмоциональную окраску несёт тот или иной текст:
Анализ текста с помощью Vaal-mini https://www.bestfree.ru/soft/obraz/textappraiser.php



Похожие программы:

Анализ текста: Vaal-mini
Программа для комплексного анализа эмоционального и фоносемантического воздействия на человека текстов и отдельных слов. Для оценки воздействия используются специальные шкалы.
Толкование имени: igName
Программа-справочник, содержащая значительную базу значений мужских и женских имён, их значение, число имени и его психоэмоциональное восприятие другими людьми.
Изучение языков: Anki
Программа-тренажёр отсроченного повторения иностранных слов.
Электронный словарь: StarDict
Программная оболочка для всевозможных электронных словарей, которые Вы хотели бы иметь под рукой.
Переводчик онлайн: Dicter
Очень удобный, компактный и совершенно бесплатный онлайн переводчик, работающий через сервис гугл (Google). Для перевода достаточно выделить нужный текст в любой программе и нажать комбинацию клавиш "Ctrl"+"Alt".
Гугл переводчик: QTranslate
Переводчик, использующий сервис от Гугл и еще шесть других онлайн-переводчиков.
Английский алфавит: EnABC
Программа для изучения английского алфавита детьми дошкольного и младшего школьного возраста.





** Задавать вопросы лучше на нашем форуме. Просто зарегистрируйтесь и создайте новую тему.

Полезный совет:



Система проверки ошибок от Mistakes.ru