МФЖ-101. Современные технологии поиска и обработки информации. Практическое задание №4. Sentiment-анализ

Вам нужно проанализировать на эмоциональную составляющую любые два текста достаточного объема с использованием моделей MDS и Feature Statistics.

Для этого подготовьте каждый из текстов отдельно. Откройте Microsoft Excel и расставьте весь текст поабзацно в строки первой колонки, затем сохраните его в формате CSV. Можно также использовать Google таблицы: https://docs.google.com/spreadsheets/u/0/. Для сохранения файла используйте путь: файл - скачать - формат csv.

1) Формируете форк по схеме:



2) В компоненте Corpus указываете путь к вашему первому текстовому csv файлу;

3) В компоненте Sentiment Analysis выбираете мультиязычный компонент и устанавливаете русский язык;

4) Подключаете компонент Topic Modelling. В нем выбираете модель Latent Semantic Indexing;

5) Подключаете Sentiment Analysis к компоненту MDS. В нем устанавливаете PCA и жмете start. В цвете выбираете любой из тематических блоков текста, в размере - stress, в лейбле - заголовок текста. Включаете подсветку общих полей. Перед вами MDS-модель эмоциональной нагрузки текста, разбитого на слова:



6) Подключите инструмент Topic Modeling к Feature Statistics. В цвете задаете любой из доступных параметров. Перед вами распределение эмоций по абзацам текста. Чем больше отклонение дисперсии от среднего значения, тем более выражены эмоции в тексте.



Описание результата: сделайте скриншоты из пунктов 5 и 6 для первого и второго текста, на их основе сделайте вывод о доминирующем эмоциональном посыле текстов, укажите какой из них наиболее эмоционален, а также - какая модель на ваш взгляд дает наиболее точную оценку.

Ссылки на выполненное в вашем блоге задание принимаются в комментарии к данному посту до 17:00 четверга, 16 апреля.

Ссылку на страницу можно получить, выбрав опцию просмотра (иконка "глаз") в настройках публикации.


Комментарии

Популярные сообщения