ЖМК-301. Методы медиаисследований. Практическое задание №5. Парсинг текстовых данных

Подготовка:

Для работы вам потребуется установленная программа ParseHub и зарегистрированный в ней аккаунт (1), а также сайт с новостями, с которого вы будете парсить данные (2).

ParseHub можно взять здесь: https://www.parsehub.com/quickstart

Процедура парсинга:

1. Выберите новый проект (New Project) и добавьте адрес сайта, с которого будут собираться данные.

2. После загрузки сайта в окне просмотра и создания команды select в сайдбаре, кликните на знак "+" и выберите заголовок. Он подсветится синим, и покажет все последующие аналогичные элементы желтым. Кликните на второй элемент, затем на третий, чтобы указать программе, что это однотипные компоненты.



3. Переименуйте текущую команду в headline.

4. Установите связь заголовка с лидер-абзацем, для этого кликните в команде заголовка на + и добавьте связанный элемент, выбрав его. Повторите процедуру для 2-3 следующих компонентов.

5. Переименуйте команду в description.

6. Извлеките третий параметр - если доступно, то можно взять дату публикации. Используйте аналогичный механизм связи с заголовком.



7. Нажмите кнопку Get Data. Запустите тестовый парсинг, если он успешен, выполните команду Run.



8. После завершения сбора данных скачайте JSON- файл. При сбое сохранения, скопируйте текст из блока предпросмотра и сохраните в формате JSON с помощью Notepad ++.



9. Откройте Tableau Public и визуализируйте ваш JSON файл в виде таблицы. Опубликуйте результат отдельным постом в блоге. Финальный виджет будет выглядеть примерно так:


Ссылки на выполненное задание принимаются в комментарии к данному посту до 15:00 воскресенья 11 апреля.



Комментарии

Отправить комментарий

Популярные сообщения