МФЖ-101. Технологии поиска и обработки информации. Задание 3. Кластерный анализ
Или более простую в использовании версию portable (не требует установки): https://download.biolab.si/download/files/Orange3-3.27.0.zip
2. Подготовьте данные для анализа, выбрав 6 текстов из СМИ на одну тему и сохраните их в виде .txt файлов в общей папке.
Простой кластерный анализ:
Описание анализа: верхний уровень - проверка, нижний - процедура анализа.
Управление в Orange: правая клавиша мыши открывает меню. Начните набирать текст для поиска. Левая клавиша мыши для выбора виджетов.
Анализ:
3. Откройте Import Documents и укажите путь к папке.
4. Подключите виджет к corpus viewer чтобы увидеть источники.
5. Соедините виджет с Preprocess Text и выберите параметр Regexp.
6. Соедините Preprocess Text с Bag of Words. Regularization установите со значением Euclidean.
7. Выберите Distances и затем Cosine metric.
8. Присоедините виджет Hierarchical Clustering в конце цепи.
9. Откройте кластер и выберите следующие группы парамеров: linkage - ward, annotation - name, после чего передвиньте вертикальный разделитель так, чтобы тексты разбились по группам кластеров.
10. Сохраните результат как скриншот и объясните почему на ваш взгляд тексты разделились именно так.
Ссылка на выполненное в вашем блоге задание принимается в комментариях к данному посту до 15:00 вторника, 2 ноября.
https://zhuravlanna9.blogspot.com/2021/10/3.html
ОтветитьУдалитьОценка "отлично"
Удалитьhttps://vkar15.blogspot.com/2021/11/blog-post.html
ОтветитьУдалитьОценка "отлично"
Удалитьhttps://timursaitgalinmedia.blogspot.com/2021/11/101-3.html
ОтветитьУдалитьОценка "отлично"
Удалить