МФЖ-101. Современные технологии поиска и обработки информации. Практическое задание №7. Структурный sentiment анализ информации с моделями MDS, ACM и оценкой дисперсии

Вам нужно проанализировать на эмоциональную составляющую любые два текста достаточного объема с использованием моделей MDS, ACP и оценкой дисперсии.

Для этого подготовьте текст. Откройте google таблицы: https://docs.google.com/spreadsheets/u/0/и расставьте весь текст поабзацно в строки первой колонки, после чего сохраните в нужном формате (файл - скачать - формат csv).

1) Формируете форк по схеме:

2) В компоненте Corpus указываете путь к вашему первому текстовому csv файлу;

3) В компоненте Sentiment Analysis выбираете мультиязычный компонент и устанавливаете русский язык;

4) Подключаете компонент Corpus Viewer. В нем должны отобразиться все абзацы публикации;

5) Подключаете Sentiment Analysis к компоненту Extract Keywords. В нем выбираете методику term frequency inverse document frequency (важность упоминаемых слов) и модель Yet Another Keyword Extractor. Переключаетесь на русский язык, внизу выбираете опцию учитывать все слова;

6) Соединяете с компонентом MDS.  В нем устанавливаете PCA и жмете start. В цвете выбираете модель term frequency inverse document frequency, в размере - stress, в лейбле - words. Включаете подсветку общих полей. Перед вами MDS-модель эмоциональной нагрузки текста, разбитого на слова;


7) Подключаете к компоненту Sentiment Analysis инструмент Topic Modeling. В нем указываете опцию HDP - она отобразит вам все тематические пласты текста. Затем добавляете компонент Aggregate Columns. Выбираете оператор sum и имя переменной agg;

8) Подключаете к Aggregate Columns Модели MDS и ACM. В первой Также запускаете PCA, в цвете задаете sentiment, в размере - стресс, в лейбле - отображение текста. Подсвечиваете эмоциональную окраску текстов. Вы увидите доминирующую тональность и контрастные ей типы тональности:


9) В модели ACM вам нужно графически развести разные эмоциональные пласты текста. Для этого на осях вы выбираете разные абзацы (ориентируйтесь на модель MDS) и переключаетесь в модель Гаусса. В цвете и размере выставляете эмоциональный посыл, в лейбле - отображение текста. Перед вами карта эмоциональных полей:


10) Подключите инструмент Topic Modeling к Feature Statistics. В цвете задаете sentiment. перед вами распределение эмоций по абзацам текста. Чем больше отклонение дисперсии от среднего значения, тем более выражены эмоции в тексте:


11) Ваша задача используя все указанные модели сделать вывод о доминирующем эмоциональном посыле текстов, указать какой из них наиболее эмоционален, а также указать какая модель на ваш взгляд дает наиболее точную оценку. В качестве иллюстраций используйте скриншоты каждого инструмента, формирующего итоговые данные.

Ссылки на выполненные задания принимаются в комментариях к данному посту до 20:00 30 октября.

Комментарии

Отправить комментарий

Популярные сообщения