Современные технологии поиска и обработки информации. МЖФ-101. Практическое задание №3. Простой кластерный анализ

1. Установите Orange Data Mining: https://orange.biolab.si/download/#windows

2. Подготовьте данные для анализа, выбрав 10 текстов из СМИ на одну тему и сохраните их в виде .txt файлов в общей папке.

Простой кластерный анализ:

Описание анализа: верхний уровень - проверка отображения данных, нижний - непосредственная процедура анализа.

Управление в Orange: правая клавиша мыши открывает меню. Начните набирать текст для поиска инструмента. Левая клавиша мыши используется для выбора виджетов.

Анализ:

3.  Откройте Import Documents и укажите путь к папке, в которой лежат все ваши тексты.

4. Подключите виджет к corpus viewer чтобы увидеть источники.

5. Соедините виджет с Preprocess Text и выберите параметр Regexp.

6. Соедините Preprocess Text с Bag of Words. Regularization установите со значением Euclidean.

7. Выберите Distances и затем Cosine metric.

8. Присоедините виджет Hierarchical Clustering в конце цепи.

9. Откройте кластер и выберите следующие группы параметров: linkage - ward, annotation - name, после чего передвиньте вертикальный разделитель так, чтобы тексты разбились по группам кластеров.

10. Сохраните результат как скриншот и опубликуйте у себя в блоге с пояснением на какие группы разделились выбранные вами тексты и предположите почему именно так. 

11. Оцените - будет ли меняться число групп по общности текстов при изменении уровня кластеризации (меняется через перемещение разделителя масштаба анализа)? В какую сторону (меньшего числа групп текстов или большего числа?) происходят эти изменения?

Ссылка на выполненное в вашем блоге задание принимается в комментариях к данному посту до 15:00 четверга, 13 октября.

Комментарии

  1. https://yanasolais.blogspot.com/2022/10/101-3.html

    ОтветитьУдалить
  2. Гридасова
    https://ertarrin.blogspot.com/2022/10/4.html

    ОтветитьУдалить
  3. Старцева https://jstartseva.blogspot.com/2022/10/3.html

    ОтветитьУдалить
  4. Маркова
    https://daryamarcova.blogspot.com/2022/10/blog-post.html

    ОтветитьУдалить

Отправить комментарий

Популярные сообщения