МФЖ-101. Современные технологии поиска и обработки информации. Практическое задание №3. Кластерный анализ информации

 1. Откройте Orange Data Mining. Закройте информационное окно.

2. Подготовьте данные для анализа, выбрав от 6 до 10 текстов из СМИ на одну тему и сохраните их в виде .txt файлов (типа блокнот) в общей папке.

Простой кластерный анализ:

Описание анализа: верхний уровень - проверка отображения данных, нижний - непосредственная процедура анализа.

Управление в Orange: правая клавиша мыши открывает меню. Начните набирать текст для поиска инструмента. Левая клавиша мыши используется для выбора виджетов. Для соединения виджетов в единый форк (цепь)зажмите левую клавишу мыши и ведите линию вправо к следующему виджету.

Все виджеты открываются кликом по их иконке.

Анализ:

3.  Откройте Import Documents и укажите путь к папке, в которой лежат все ваши тексты.

4. Подключите виджет к corpus viewer чтобы увидеть источники.

5. Соедините виджет с Preprocess Text и выберите параметр Regexp.

6. Соедините Preprocess Text с Bag of Words. Regularization установите со значением Euclidean.

7. Выберите Distances и затем Cosine metric.

8. Присоедините виджет Hierarchical Clustering в конце цепи.

9. Откройте кластер и выберите следующие группы параметров: linkage - ward, annotation - name, после чего передвиньте вертикальный разделитель (пунктир) так, чтобы тексты разбились по группам кластеров, согласно их логике.

10. Сохраните результат как скриншот и опубликуйте у себя в блоге с пояснением:

I.  Укажите тексты какой тематики и из каких источников вы использовали?

II. Поясните на какие группы разделились выбранные вами тексты и дайте обоснование почему именно такие группы были выделены. 

III. Оцените будет ли меняться число групп по общности текстов при изменении уровня кластеризации (меняется через перемещение разделителя масштаба анализа)? В какую сторону (меньшего числа групп текстов или большего числа?) происходят эти изменения?

Ссылка на выполненное в вашем блоге задание принимается в комментариях к данному посту до 20:00 среды 2 октября.

Комментарии

Отправить комментарий

Популярные сообщения