ЖМК-301. Методы медиаисследований. Практическое задание №2. Простой кластерный анализ
Подготовка:
1. Установите программу Orange: https://orange.biolab.si/download/#windows
Можно использовать легкую версию (нужно только извлечь из архива и запустить, кликнув на ярлык): https://download.biolab.si/download/files/Orange3-3.27.0.zip
После запуска программы закройте окно приветствия:
Установите указанные компоненты и перезапустите программу:
2. Подготовка к анализу текстов: выберите 6 текстов на одну тему из СМИ и сохраните их в общей папке как отдельные файлы блокнота в формате .txt.
Кластерный анализ:
Описание схемы: верхний уровень - проверка данных, нижний - кластерный анализ.
Используйте правую клавишу мыши чтобы открыть меню. Наберите название элемента для поиска. Левая клавиша мыши для выбора. Соединение компонентов: зажатая левая клавиша мыши и ведете курсор от края компонента. Добавляете через контекстное меню второй компонент и т.д.
Анализ:
3. Открываете Import Documents и указываете место хранения выбранных для анализа текстов.
4. Подключаете виджет corpus viewer чтобы увидеть источники.
5. Подключаете виджет Preprocess Text и выбираете параметр Regexp.
7. Устанавливаете Distance и выбираете Cosine metric.
8. В конце форка подключаете Hierarchical Clustering.
9. Открываете кластер и сопоставляете linkage к ward и annotation к name, затем регулируете уровни кластеров, перемещая вертикальную пунктирную линию.
10. Сохраняете полученный результат как изображение. В своем блоге публикуете пост, в котором, опираясь на данные кластерного анализа, кратко объясняете почему тексты разделились на указанные группы - в чем общность этих групп.
Ссылки на выполненное задание принимаются в комментариях к данному посту до 15:00 15 марта.
https://kaleidoscope000.blogspot.com/2021/03/blog-post.html
ОтветитьУдалитьОценка "отлично"
Удалитьhttps://montpensierredycat.blogspot.com/2021/03/blog-post.html
ОтветитьУдалитьОценка "отлично"
Удалитьhttps://sandyfilmyhere.blogspot.com/2021/03/blog-post.html?m=1
ОтветитьУдалитьОценка "отлично"
Удалить