МФЖ-101. Современные технологии поиска и обработки информации. Практическое задание №4. Качественно-количественный контент-анализ информации

Для анализа вам потребуются два текста достаточного объема и программа Orange Biolab Si.

Общий форк анализа выглядит следующим образом:





Пояснения к анализу:

1) Виджет import documents - выберите либо сразу оба текста, либо каждый текст анализируйте отдельно.

2) Виджет Preprocessed text - выбираете параметры lowercase, regexp.

3) Виджет Bag of Words  установите в Term frequency - count, в Document frequency - IDF, в Regularization - L2.

4) В Topic Modeling укажите первую модель. Используйте скриншот при анализе содержания текстов.


5) В WordCloud сделайте скриншот наиболее часто используемых слов:


6) В Extract Keyword сделайте скриншот основных ключевых слов.

7) Сравните содержание рассмотренных текстов, опираясь на полученные в предыдущих пунктах данные.

Ссылки на выполненное задание принимаются в комментариях к данному посту до 20:00 10 октября.

Комментарии

Популярные сообщения