Методика медиаисследований. ЖМК-301. Практическое задание №3. Автоматизированный контент-анализ с моделью текста
Вам нужно провести контент-анализ не менее пяти текстов, имеющих общие основания (похожая тема, общий автор, общий жанр и так далее), но не тех, которые вы анализировали в прошлом задании. Для этого вы:
1) Выбираете эти тексты и сохраняете их в виде отдельных текстовых файлов в блокноте. Сложите их в общую папку. При выполнении задания укажите путь к этой папке;
2) Запускаете программу Orange Biolab Si. Взять ее можно здесь: https://orangedatamining.com/ Также установите в программу плагины text, textable и timeseries (options - add ons в меню);
3) Вам нужно построить цепочку анализа (форк) из виджетов. Они открываются правой клавишей мыши, затем выбираются из списка. Открытие виджета - два клика на нем. Соединение со следующим компонентом - движение курсора вправо с зажатой левой клавишей мыши;
4) Создайте форк со связями: import documents - preprocess text - word cloud
import documents - preprocess text - bag of words - topic modelling:
5) В import documents укажите путь к папке с файлом. В preprocess text в tokenization выставьте regexp, в stopwords - russian. В bag of words нужны параметры: count, none, L2. В topic modelling - latent semantic indexing;
6) В виджете word cloud вы увидите все слова в ваших текстах по их частотности, а в topic modelling основные темы, которым посвящены тексты. Сделайте скриншоты из этих виджетов.
7) Прокомментируйте - насколько на ваш взгляд модель текста точно отражает содержание текстов? А word cloud? По какой методике легче определять тематику текстов?
Ссылки на выполненное в вашем блоге задание принимаются в комментариях к данному посту до 15:00 среды, 20 марта.
https://haliullinakarina.blogspot.com/2024/03/2024.html
ОтветитьУдалитьОценка "отлично"
Удалитьhttps://biktimirovaoksana.blogspot.com/2024/03/3.html
ОтветитьУдалитьОценка "отлично"
Удалитьhttps://nadezhdaamedia.blogspot.com/2024/03/123_19.html
ОтветитьУдалитьОценка "хорошо", нет вывода какой из инструментов дает лучший результат.
Удалитьhttps://gingerpataki.blogspot.com/2024/03/blog-post.html Фирсова Анастасия
ОтветитьУдалитьОценка "отлично"
Удалить