Современные технологии поиска и обработки информации. МЖСО-1. Практическое задание №5. Sentiment-анализ информации

апреля 26, 2024

Современные технологии поиска и обработки информации. МЖСО-1. Практическое задание №5. Sentiment-анализ информации

Вам нужно проанализировать на наличие позитивной или негативной тональности любой текст достаточного объема. Можно взять как русскоязычный так и англоязычный текст. Порядок действий будет несколько отличаться.

Для англоязычного текста:

1. Оформите его в CSV-файл. Для этого откройте google таблицы: https://docs.google.com/spreadsheets/u/0/ и расставьте весь текст поабзацно в строки первой колонки, после чего сохраните в нужном формате (файл - скачать - формат csv);

2. Запустите в Orange инструмент Corpus и загрузите в него ваш файл;

3. Соедините Corpus с Sentiment Analysis. Выберите в последнем режим Vader;

4. Соедините Sentiment Analysis с Heat Map. В разделе кластеризации выберите - clustering, в аннотации - интересующую вас тональность.

5. Подключите Sentiment Analysis к Extract Keywords. Выберите методы TF-IDF и YAKE! и внизу окна укажите все слова.

6. Подключите к Extract Keywords инструмент Scater Plot. Выставите TF-IDF и YAKE! на осях Х и У. В атрибуте лейбла укажите "words". У вас сгенерируется проекция текста с общими полями слов.

7. На основе данных из пунктов 4 и 6 кратко проанализируйте какая тональность доминирует в тексте и какие слова объединяются в общие группы.

Для русскоязычного текста:

Также создайте CSV-файл. Для этого откройте google таблицы: https://docs.google.com/spreadsheets/u/0/ и расставьте весь текст поабзацно в строки первой колонки, после чего сохраните в нужном формате (файл - скачать - формат csv);

1) В компоненте Corpus указываете путь к вашему первому текстовому csv файлу;
2) В компоненте Sentiment Analysis выбираете мультиязычный компонент и устанавливаете русский язык;
3) Подключаете компонент Corpus Viewer. В нем должны отобразиться все абзацы публикации;
4) Подключаете Sentiment Analysis к компоненту Extract Keywords. В нем выбираете методику term frequency inverse document frequency (важность упоминаемых слов) и модель Yet Another Keyword Extractor. Переключаетесь на русский язык, внизу выбираете опцию учитывать все слова;

5) Соединяете с компонентом Scater Plot. В нем устанавливаете методы по осям х и у, в цвете и размере term frequency inverse document frequency, в лейбле - слова. Включаете подсветку общих полей. Перед вами смысловая эмоциональная модель текста, разбитого на слова;

6) Подключаете к компоненту Sentiment Analysis инструмент Topic Modeling. В нем указываете опцию HDP - она отобразит вам все тематические пласты текста. Затем добавляете компонент Heat Map. В нем включаете кластерный режим и ставите в аннотацию текстовый блок. Перед вами эмоциональная тепловая карта текста: от негативных эмоций (-), до положительных (+).

7) На основе полученных данных проанализируйте какая тональность доминирует в тексте и какие слова объединяются в общие группы. Ссылки на выполненное задание принимаются в комментариях к данному посту до 15:00 понедельника, 29 апреля.

Ekaterina_Dikova28 апреля 2024 г. в 21:33
https://gospodinanet.blogspot.com/2024/04/sentiment-101.html
ОтветитьУдалить
Ответы
Владислав Яковлев29 апреля 2024 г. в 09:42
https://vladislav-yakovlev.blogspot.com/2024/04/sentiment.html
ОтветитьУдалить
Ответы
Кобякова Анна29 апреля 2024 г. в 13:59
https://kobyakova533.blogspot.com/2024/04/sentiment.html
ОтветитьУдалить
Ответы
Линьков Сергей30 апреля 2024 г. в 00:02
https://bloglinkovzadanie.blogspot.com/2024/04/5.html
ОтветитьУдалить
Ответы

Добавить комментарий

Добавлять новые комментарии запрещено.

Поиск по этому блогу

mediaeconomics

Современные технологии поиска и обработки информации. МЖСО-1. Практическое задание №5. Sentiment-анализ информации

Комментарии

Популярные сообщения

Интернет-журналистика. Итоги семестра

ЖСО-101/2. Основы медиакоммуникаций. Практическое задание №1. Фактчекинг