ЖМК-301. Методы медиаисследований. Практическое задание №5. Простой кластерный анализ

 Подготовка:

1. Установите программу Orange: https://orange.biolab.si/download/#windows

Лучше использовать легкую версию (нужно только извлечь из архива и запустить, кликнув на ярлык): https://download.biolab.si/download/files/Orange3-3.27.0.zip

После запуска программы закройте окно приветствия:



Установите указанные компоненты и перезапустите программу:




2. Подготовка к анализу текстов: выберите 5 текстов на одну тему из СМИ и сохраните их в общей папке как отдельные файлы блокнота в формате .txt.

Кластерный анализ:



Описание схемы: верхний уровень - проверка данных, нижний - кластерный анализ.

Используйте правую клавишу мыши чтобы открыть меню. Наберите название элемента для поиска. Левая клавиша мыши для выбора. Соединение компонентов: зажатая левая клавиша мыши и ведете курсор от края компонента. Добавляете через контекстное меню второй компонент и т.д. 




Анализ:

3. Открываете Import Documents и указываете место хранения выбранных для анализа текстов.

4. Подключаете виджет corpus viewer чтобы увидеть источники.

5. Подключаете виджет Preprocess Text и выбираете параметр Regexp.




6. Соединяете Preprocess Text с Bag of Words. Опция Regularization должна быть установлена на значение Euclidean.

7. Устанавливаете Distance и выбираете Cosine metric.

8. В конце форка подключаете Hierarchical Clustering.

9. Открываете кластер и сопоставляете linkage к ward и annotation к name, затем регулируете уровни кластеров, перемещая вертикальную пунктирную линию.

10. Сохраняете полученный результат как изображение. В своем блоге публикуете пост, в котором, опираясь на данные кластерного анализа, кратко объясняете почему тексты разделились на указанные группы - в чем общность этих групп.

Ссылки на выполненное задание принимаются в комментариях к данному посту до 15:00 22 апреля.


Комментарии

  1. https://cucumber1245.blogspot.com/2022/04/dlc-cyberpunk-2077-2023.html

    ОтветитьУдалить
  2. https://gizinger7437.blogspot.com/2022/04/blog-post.html

    ОтветитьУдалить

Популярные сообщения