Статистика слов
B
Статистика слов в заданном тексте может пригодится тем, кто решил изучать иностранные языки. Изучать новые слова лучше начать с выяснения, какие именно слова вы используете в своей речи чаще всего. Именно эти слова на чужом языке имеет смысл учить в первую очередь. Чтобы создать исходный текст, в котором будет проходить подсчёт слов, можно использовать историю своих сообщений социальных сетях или мессенджерах.
Wordstat
Рейтинг: | |
Размер: | |
Интерфейс: | Русский |
Платформа: | |
Обновлено: | 2008-04-30 |
Разработчик: | |
Платный аналог: |
Программа Wordstat для статистического анализа текстов позволяет подсчитать, сколько раз то или иное слово встречается в выбранном тексте.
Кто-то может сказать, что посчитать слова в тексте можно и с помощью Microsoft Word, и это тоже будет правдой. Но не всей правдой, поскольку ворд считает лишь общее количество слов в тексте, в то время как Wordstat выдаёт количество вхождений каждого слова в отдельности. Давайте посмотрим его возможности на реальном примере.
Установка Wordstat
Для начала, скачаем архив с программой и достанем из него запускаемый файл Wordstat.exe. Поскольку программа портативная, то она не требует установки на компьютер и в принципе, её можно запускать даже из архива. После запуска мы увидим вот такое окно:
Это и есть главное и единственное окно программы.
Работа с программой
Для начала не лишним будет ознакомиться с инструкцией от разработчика. Она открывается в отдельном окне по кнопке "Помощь":
Из инструкции мы узнаём, что текст для подсчёта можно взять либо из простого текстового файла (обычно с расширением .txt), либо из файла гипертекста (обычно с расширением .htm или .html). Допустимые кодировки файлов: win1251, КОИ-8r, cp866 (dos). Эти кодировки программа распознает автоматически.
Давайте проанализируем какой-нибудь файл для примера с настройками по умолчанию, а потом разберёмся с остальными настройками программы.
Wordstat у нас уже запущен и остаётся лишь нажать кнопку "Выбрать нужный файл для обработки". Программа запустит стандартный проводник Windows, чтобы мы могли указать файл (я для примера выбрал файл с анекдотами):
Далее, нажимаем кнопку "Открыть" и видим окошко подтверждения с краткой статистической сводкой:
Нажимаем единственную кнопку "Ок" и наконец-то нам открывается файл wordstat.txt, в котором и сохраняется полная статистика по выбранному нами файлу (в данном случае, по анекдотам):
Файл wordstat.txt будет создан в той же папке, где лежит анализируемый файл. Если у нас в настройках программы не установлена галочка "Накапливать сумму результатов" и мы будем снова анализировать этот же файл или другие файлы в этой папке, то следующие отчёты будут сохраняться уже не в wordstat.txt (поскольку это имя будет уже занято), а в новых файлах с именами вроде 2BD46A1D.txt.
Рассмотрим настройки более подробно.
Настройки программы
Как видите, по умолчанию слова рассортированы по частоте появления в тексте, слово и частота его появления показаны в одну строку, однобуквенные слова вроде "и", "в", "а" тоже учтены.
Если же Вам захочется убрать назойливое окошко краткой сводки, рассортировать слова по алфавиту, получить результат в столбик (цифры под словом), объединить похожие слова или убрать однобуквенные, то всё это легко делается с помощью элементарных настроек в главном окне программы:
Вот что получается при всех вышеуказанных изменениях:
Что интересно у нас в результате сортировки по алфавиту, в самом верху оказались слова "hад", "hаконец", "hаш", "hевский", "hет", "hикогда", "hьютонах", "pyсских", "pаботе", "pаввин" и т.д. Я сам не сразу понял, откуда они взялись. Но, найдя эти слова в исходном файле с анекдотами понял, что просто кто-то вместо русских "Н" (эн) и "р" (рэ) начинал эти слова с аналогичных латинских "H" (аш) и "p" (пи). :)
Вот такая полезная и бесплатная программка для подсчёта слов теперь есть в Вашем арсенале. Давайте подведём итоги по ней:
Достоинства и недостатки Wordstat
Плюсы:
- элементарный интерфейс;
- достаточно гибкие настройки;
- портативность;
- сохранение результатов в файл.
Минусы:
- узкая специализация;
- ограниченное число поддерживаемых форматов и кодировок;
- программа давно не развивается и новых функций не предвидится.
Выводы
Таким образом, программа вполне удобна и самодостаточна (и даже вполне себе уникальна) для своих специфических задач, но каких-то чудес от неё ждать не приходится.
P.S. Разрешается свободно копировать и цитировать данную статью при условии указания открытой активной ссылки на источник и сохранения авторства Руслана Богданова.
P.P.S. Существует ещё одна программа для анализа текстов, но, она заточена уже не на статистический анализ, а на эмоциональный. То есть, она показывает, какую эмоциональную окраску несёт тот или иной текст:
Анализ текста с помощью Vaal-mini https://www.bestfree.ru/soft/obraz/textappraiser.php
Похожие программы:
** Задавать вопросы лучше на нашем форуме. Просто зарегистрируйтесь и создайте новую тему.