ЖМК-301. Методы медиаисследований. Практическое задание №5. Парсинг текстовых данных
Подготовка:
Для работы вам потребуется установленная программа ParseHub и зарегистрированный в ней аккаунт (1), а также сайт с новостями, с которого вы будете парсить данные (2).
ParseHub можно взять здесь: https://www.parsehub.com/quickstart
Процедура парсинга:
1. Выберите новый проект (New Project) и добавьте адрес сайта, с которого будут собираться данные.
2. После загрузки сайта в окне просмотра и создания команды select в сайдбаре, кликните на знак "+" и выберите заголовок. Он подсветится синим, и покажет все последующие аналогичные элементы желтым. Кликните на второй элемент, затем на третий, чтобы указать программе, что это однотипные компоненты.
3. Переименуйте текущую команду в headline.
4. Установите связь заголовка с лидер-абзацем, для этого кликните в команде заголовка на + и добавьте связанный элемент, выбрав его. Повторите процедуру для 2-3 следующих компонентов.
5. Переименуйте команду в description.
6. Извлеките третий параметр - если доступно, то можно взять дату публикации. Используйте аналогичный механизм связи с заголовком.
7. Нажмите кнопку Get Data. Запустите тестовый парсинг, если он успешен, выполните команду Run.
8. После завершения сбора данных скачайте JSON- файл. При сбое сохранения, скопируйте текст из блока предпросмотра и сохраните в формате JSON с помощью Notepad ++.
9. Откройте Tableau Public и визуализируйте ваш JSON файл в виде таблицы. Опубликуйте результат отдельным постом в блоге. Финальный виджет будет выглядеть примерно так:
Ссылки на выполненное задание принимаются в комментарии к данному посту до 15:00 воскресенья 11 апреля.
https://kaleidoscope000.blogspot.com/2021/04/blog-post.html
ОтветитьУдалитьОценка "отлично"
Удалить