МФЖ-101. Технологии поиска и обработки информации. Задание 3. Кластерный анализ

1. Установите Orange Data Mining: https://orange.biolab.si/download/#windows

Или более простую в использовании версию portable (не требует установки): https://download.biolab.si/download/files/Orange3-3.27.0.zip

2. Подготовьте данные для анализа, выбрав 6 текстов из СМИ на одну тему и сохраните их в виде .txt файлов в общей папке.

Простой кластерный анализ:



Описание анализа: верхний уровень - проверка, нижний - процедура анализа.

Управление в Orange: правая клавиша мыши открывает меню. Начните набирать текст для поиска. Левая клавиша мыши для выбора виджетов.

Анализ:

3.  Откройте Import Documents и укажите путь к папке.

4. Подключите виджет к corpus viewer чтобы увидеть источники.

5. Соедините виджет с Preprocess Text и выберите параметр Regexp.

6. Соедините Preprocess Text с Bag of Words. Regularization установите со значением Euclidean.

7. Выберите Distances и затем Cosine metric.

8. Присоедините виджет Hierarchical Clustering в конце цепи.

9. Откройте кластер и выберите следующие группы парамеров: linkage - ward, annotation - name, после чего передвиньте вертикальный разделитель так, чтобы тексты разбились по группам кластеров.

10. Сохраните результат как скриншот и объясните почему на ваш взгляд тексты разделились именно так.

Ссылка на выполненное в вашем блоге задание принимается в комментариях к данному посту до 15:00 вторника, 2 ноября.

Комментарии

Популярные сообщения