Парсинг что это такое

Последнее время заметили небольшой тренд рассуждений о неком «парсинге» и решили поэкспериментировать.

Что такое «Парсинг (Parsing)»?
Автоматизированный сбор контента или данных с какого-либо сайта или сервиса. Как правило, парсинг производится с применением одного из скриптовых, серверных языков программирования: PHP, Perl и других. Результат парсинга чаще всего складывается в базу данных, в файл, либо выдается в формате XML. Скрипт или программа, занимающаяся, непосредственно, сбором, анализом и преобразованием требуемой информации называется парсером.
На фриланс-биржах и специализированных форумах, парсинг чего-либо — крайне популярный вид услуг, пользующийся большим спросом. Как правило, под этими услугами подразумевается создание парсера, способного собрать нужную информацию или контент. Но нередки случаи, когда заказчика интересует исключительно сам контент, который он и просит предоставить ему в удобном для него виде.
Заметим, что парсинг — это, по сути, преобразование данных из неудобоваримого формата в формат удобоваримый.
Любой парсер состоит из трех частей, которые отвечают за три отдельных процесса парсинга:
1. Получение контента в исходном виде. Под получением контента, чаще всего подразумевается скачивание кода веб-страницы, из которой необходимо извлечь данные или контент. Одним из самых развитых решений для получения кода требуемой страницы является библиотека c URL для языка PHP;
2. Извлечение и преобразование данных. В этой фазе происходит извлечение требуемых данных из полученного, на первом этапе, кода страницы. Чаще всего для извлечения используют регулярные выражения. Также на этом этапе происходит преобразование извлеченных данных к нужному формату, если это требуется;
3. Генерация результата. Завершающий этап парсинга. На нем происходит вывод или запись полученных, на втором этапе, данных, в требуемый формат. Чаще всего, запись ведется напрямую в базу данных.

Да, это серьезный инструмент и найденных ему применений очень много. Мы же будем говорить о наименее сложных технически, но более полезных и прикладных в плане интернет-маркетинга. Рассмотрим все это со стороны контента и рекламы.
В этом плане нас заинтересовал парсинг социальных сетей и каталогов компаний. Несложный поиск привел нас на сайт на ресурс If this than that . Вообще функционал у сайта и приложения очень большой, но разберем именно то что нас интересует.

Шаг 2. Выбираем интересующий нас Инстаграм. Из списка так называемых триггеров выбираем интересующий нас «New photo by anyone in area», что означает «Новые фото кем-либо в заданной области»

В результате проведенных действий мы получаем постоянно работающий, четко отстроенный канал появления контента. Использованный ресурс IFTTT имеет очень много различных надстроек и функций и мы рассмотрели только один вариант — парсинг контента из Instagram прикрепленного гео-метками, а не хэштегами.

PS на скрине гугл диск с уже собранным контентом, по рецепту запущенному пару дней назад с такими же параметрами как выше.
На все вопросы с радостью отвечу в комментариях, возможны какие-либо ошибки и недочеты. Буду рад развиваться вместе с вами. С уважением, руководитель сообщества Digital Омск

Источник: http://vk.com/page-58162909_47522877

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *