МФЖ-101. Современные технологии поиска и обработки информации. Практическое задание №1. Автоматизированный контент-анализ
Для данного задания потребуются любые два текста на общую тематику (укажите, что за тексты вы рассматривали) достаточного объема, сохраненные отдельно в формате .txt в две разные папки.
Предустановленное ПО: Orange Biolab Si с плагинами: Orange3-text, Orange3-textable, Orange3-timeseries и Orange3-ImageAnalytics (контент-анализ).
Контент-анализ.
1) Запустите программу Orange Biolab Si. Взять ее можно здесь: https://orangedatamining.com/ Также установите в программу плагины text, textable и timeseries (options - add ons в меню);
2) Вам нужно построить цепочку анализа (форк) из виджетов. Они открываются правой клавишей мыши, затем выбираются из списка. Открытие виджета - два клика на нем. Соединение со следующим компонентом - движение курсора вправо с зажатой левой клавишей мыши;
3) Создайте форк со связями: import documents - preprocess text - word cloud
import documents - preprocess text - bag of words - topic modelling:
4) В import documents укажите путь к папке с первым текстом. В preprocess text в tokenization выставьте regexp, в stopwords - russian. В bag of words нужны параметры: count, none, L2. В topic modelling - latent semantic indexing;
5) В виджете word cloud вы увидите все слова в ваших текстах по их частотности, а в topic modelling основные темы, которым посвящены тексты. Сделайте скриншоты из этих виджетов для каждого из текстов.
6) Прокомментируйте - насколько на ваш взгляд модель текста точно отражает содержание текстов? А word cloud? По какой методике легче определять тематику текстов?
Ссылки на выполненное в вашем блоге blogger.com задание принимаются в комментарии к данному посту до 17:00 четверга, 5 марта.
Ссылку на страницу можно получить, выбрав опцию просмотра (иконка "глаз") в настройках публикации.

https://gormost.blogspot.com/2026/03/101.html
ОтветитьУдалитьОценка "отлично"
Удалитьhttps://alfarius2004.blogspot.com/2026/03/blog-post.html
ОтветитьУдалить