Современные технологии поиска и обработки информации. МЖФ-101. Практическое задание №3. Простой кластерный анализ
1. Установите Orange Data Mining: https://orange.biolab.si/download/#windows
2. Подготовьте данные для анализа, выбрав 10 текстов из СМИ на одну тему и сохраните их в виде .txt файлов в общей папке.
Простой кластерный анализ:
Описание анализа: верхний уровень - проверка отображения данных, нижний - непосредственная процедура анализа.
Управление в Orange: правая клавиша мыши открывает меню. Начните набирать текст для поиска инструмента. Левая клавиша мыши используется для выбора виджетов.
Анализ:
3. Откройте Import Documents и укажите путь к папке, в которой лежат все ваши тексты.
4. Подключите виджет к corpus viewer чтобы увидеть источники.
5. Соедините виджет с Preprocess Text и выберите параметр Regexp.
6. Соедините Preprocess Text с Bag of Words. Regularization установите со значением Euclidean.
7. Выберите Distances и затем Cosine metric.
8. Присоедините виджет Hierarchical Clustering в конце цепи.
9. Откройте кластер и выберите следующие группы параметров: linkage - ward, annotation - name, после чего передвиньте вертикальный разделитель так, чтобы тексты разбились по группам кластеров.
10. Сохраните результат как скриншот и опубликуйте у себя в блоге с пояснением на какие группы разделились выбранные вами тексты и предположите почему именно так.
11. Оцените - будет ли меняться число групп по общности текстов при изменении уровня кластеризации (меняется через перемещение разделителя масштаба анализа)? В какую сторону (меньшего числа групп текстов или большего числа?) происходят эти изменения?
Ссылка на выполненное в вашем блоге задание принимается в комментариях к данному посту до 15:00 четверга, 13 октября.
https://yanasolais.blogspot.com/2022/10/101-3.html
ОтветитьУдалитьОценка "отлично"
УдалитьГридасова
ОтветитьУдалитьhttps://ertarrin.blogspot.com/2022/10/4.html
Оценка "отлично"
УдалитьСтарцева https://jstartseva.blogspot.com/2022/10/3.html
ОтветитьУдалитьОценка "отлично"
УдалитьХасанова https://victoriakram.blogspot.com/2022/10/3.html
УдалитьМаркова
ОтветитьУдалитьhttps://daryamarcova.blogspot.com/2022/10/blog-post.html
Оценка "отлично"
Удалитьhttps://sabina-musina.blogspot.com/2022/11/101-3.html
ОтветитьУдалитьhttps://shilenbergalexander.blogspot.com/2022/12/3.html
ОтветитьУдалитьhttps://mariasmirnova19.blogspot.com/2022/12/1.html
ОтветитьУдалить