Десктопные/облачные, платные/бесплатные, для SEO, для совместных покупок, для наполнения сайтов, для сбора цен… В обилии парсеров можно утонуть.

 

Мы разложили все по полочкам и собрали самые толковые инструменты парсинга — чтобы вы могли быстро и просто собрать открытую информацию с любого сайта.

Зачем нужны парсеры

 

Парсер — это программа, сервис или скрипт, который собирает данные с указанных веб-ресурсов, анализирует их и выдает в нужном формате.

 

С помощью парсеров можно делать много полезных задач:

 

Цены. Актуальная задача для интернет-магазинов. Например, с помощью парсинга вы можете регулярно отслеживать цены конкурентов по тем товарам, которые продаются у вас. Или актуализировать цены на своем сайте в соответствии с ценами поставщика (если у него есть свой сайт).

Товарные позиции: названия, артикулы, описания, характеристики и фото. Например, если у вашего поставщика есть сайт с каталогом, но нет выгрузки для вашего магазина, вы можете спарсить все нужные позиции, а не добавлять их вручную. Это экономит время.

Метаданные: SEO-специалисты могут парсить содержимое тегов title, description и другие метаданные.

Анализ сайта. Так можно быстро находить страницы с ошибкой 404, редиректы, неработающие ссылки и т. д.

 

Для справки. Есть еще серый парсинг. Сюда относится скачивание контента конкурентов или сайтов целиком. Или сбор контактных данных с агрегаторов и сервисов по типу Яндекс.Карт или 2Гис (для спам-рассылок и звонков). Но мы будем говорить только о белом парсинге, из-за которого у вас не будет проблем.

Где взять парсер под свои задачи

 

Есть несколько вариантов:

 

Оптимальный — если в штате есть программист (а еще лучше — несколько программистов). Поставьте задачу, опишите требования и получите готовый инструмент, заточенный конкретно под ваши задачи. Инструмент можно будет донастраивать и улучшать при необходимости.

Воспользоваться готовыми облачными парсерами (есть как бесплатные, так и платные сервисы).

Десктопные парсеры — как правило, программы с мощным функционалом и возможностью гибкой настройки. Но почти все — платные.

Заказать разработку парсера «под себя» у компаний, специализирующихся на разработке (этот вариант явно не для желающих сэкономить).

 

Первый вариант подойдет далеко не всем, а последний вариант может оказаться слишком дорогим.

 

Что касается готовых решений, их достаточно много, и если вы раньше не сталкивались с парсингом, может быть сложно выбрать. Чтобы упростить выбор, мы сделали подборку самых популярных и удобных парсеров.

Законно ли парсить данные?

 

В законодательстве УК нет запрета на сбор открытой информации в интернете. Право свободно искать и распространять информацию любым законным способом закреплено в  Конституции.

 

Допустим, вам нужно спарсить цены с сайта конкурента. Эта информация есть в открытом доступе, вы можете сами зайти на сайт, посмотреть и вручную записать цену каждого товара. А с помощью парсинга вы делаете фактически то же самое, только автоматизированно.

 

Но если вы хотите собрать персональные данные пользователей и использовать их для email-рассылок или таргетированной рекламы, это уже будет незаконно (эти данные защищены законом о персональных данных).

Десктопные и облачные парсеры

Облачные парсеры

 

Основное преимущество облачных парсеров — не нужно ничего скачивать и устанавливать на компьютер. Вся работа производится «в облаке», а вы только скачиваете результаты работы алгоритмов. У таких парсеров может быть веб-интерфейс и/или API (полезно, если вы хотите автоматизировать парсинг данных и делать его регулярно).

 

Например, вот англоязычные облачные парсеры:

 

Import.io,

Mozenda (доступна также десктопная версия парсера),

Octoparce,

ParseHub.

 

Из русскоязычных облачных парсеров можно привести такие:

 

Xmldatafeed,

Диггернаут,

Catalogloader.

 

Любой из сервисов, приведенных выше, можно протестировать в бесплатной версии. Правда, этого достаточно только для того, чтобы оценить базовые возможности и познакомиться с функционалом. В бесплатной версии есть ограничения: либо по объему парсинга данных, либо по времени пользования сервисом.

Десктопные парсеры

 

Большинство десктопных парсеров разработаны под Windows — на macOS их необходимо запускать с виртуальных машин. Также некоторые парсеры имеют портативные версии — можно запускать с флешки или внешнего накопителя.

 

Популярные десктопные парсеры:

 

ParserOK,

Datacol,

Screaming Frog, ComparseR, Netpeak Spider — об этих инструментах чуть позже поговорим подробнее.

Виды парсеров по технологии

Браузерные расширения

 

Для парсинга данных есть много браузерных расширений, которые собирают нужные данные из исходного кода страниц и позволяют сохранять в удобном формате (например, в XML или XLSX).

 

Парсеры-расширения — хороший вариант, если вам нужно собирать небольшие объемы данных (с одной или парочки страниц). Вот популярные парсеры для Google Chrome:

 

Parsers;

Scraper;

Data Scraper;

Kimono.

Надстройки для Excel

 

Программное обеспечение в виде надстройки для Microsoft Excel. Например, ParserOK. В подобных парсерах используются макросы — результаты парсинга сразу выгружаются в XLS или CSV.

Google Таблицы

 

С помощью двух несложных формул и Google Таблицы можно собирать любые данные с сайтов бесплатно.

 

Эти формулы: IMPORTXML и IMPORTHTML.

 

IMPORTXML

 

Функция использует язык запросов XPath и позволяет парсить данные с XML-фидов, HTML-страниц и других источников.

 

Вот так выглядит функция:

 

IMPORTXML("https://site.com/catalog"; "//a/@href")

 

Функция принимает два значения:

 

ссылку на страницу или фид, из которого нужно получить данные;

второе значение — XPath-запрос (специальный запрос, который указывает, какой именно элемент с данными нужно спарсить).

 

Хорошая новость в том, что вам не обязательно изучать синтаксис XPath-запросов. Чтобы получить XPath-запрос для элемента с данными, нужно открыть инструменты разработчика в браузере, кликнуть правой кнопкой мыши по нужному элементу и выбрать: Копировать → Копировать XPath.

 

30+ парсеров для сбора данных с любого сайта

 

С помощью IMPORTXML можно собирать практически любые данные с html-страниц: заголовки, описания, мета-теги, цены и т.д.

 

IMPORTHTML

 

У этой функции меньше возможностей — с ее помощью можно собрать данные из таблиц или списков на странице. Вот пример функции IMPORTHTML:

 

IMPORTHTML("https://https://site.com/catalog/sweets"; "table"; 4)

 

Она принимает три значения:

 

Ссылку на страницу, с которой необходимо собрать данные.

Параметр элемента, который содержит нужные данные. Если хотите собрать информацию из таблицы, укажите «table». Для парсинга списков — параметр «list».

Число — порядковый номер элемента в коде страницы.

 

Об использовании 16 функций Google Таблиц для целей SEO читайте в нашей статье. Здесь все очень подробно расписано, с примерами по каждой функции.

Виды парсеров по сферам применения

Для организаторов СП (совместных покупок)

 

Есть специализированные парсеры для организаторов совместных покупок (СП). Их устанавливают на свои сайты производители товаров (например, одежды). И любой желающий может прямо на сайте воспользоваться парсером и выгрузить весь ассортимент.

 

Чем удобны эти парсеры:

 

интуитивно понятный интерфейс;

возможность выгружать отдельные товары, разделы или весь каталог;

можно выгружать данные в удобном формате. Например, в Облачном парсере доступно большое количество форматов выгрузки, кроме стандартных XLSX и CSV: адаптированный прайс для Tiu.ru, выгрузка для Яндекс.Маркета и т. д.

 

Популярные парсеры для СП:

 

SPparser.ru,

Облачный парсер,

Турбо.Парсер,

PARSER.PLUS,

Q-Parser.

Парсеры цен конкурентов

 

Инструменты для интернет-магазинов, которые хотят регулярно отслеживать цены конкурентов на аналогичные товары. С помощью таких парсеров вы можете указать ссылки на ресурсы конкурентов, сопоставлять их цены с вашими и корректировать при необходимости.

 

Вот три таких инструмента:

 

Marketparser,

Xmldatafeed,

ALL RIVAL.

Парсеры для быстрого наполнения сайтов

 

Такие сервисы собирают названия товаров, описания, цены, изображения и другие данные с сайтов-доноров. Затем выгружают их в файл или сразу загружают на ваш сайт. Это существенно ускоряет работу по наполнению сайта и экономят массу времени, которое вы потратили бы на ручное наполнение.

 

В подобных парсерах можно автоматически добавлять свою наценку (например, если вы парсите данные с сайта поставщика с оптовыми ценами). Также можно настраивать автоматический сбор или обновление данных по расписания.

 

Примеры таких парсеров:

 

Catalogloader,

Xmldatafeed,

Диггернаут.

Парсеры для SEO-специалистов

 

Отдельная категория парсеров — узко- или многофункциональные программы, созданные специально под решение задач SEO-специалистов. Такие парсеры предназначены для упрощения комплексного анализа оптимизации сайта. С их помощью можно:

 

анализировать содержимое robots.txt и sitemap.xml;

проверять наличие title и description на страницах сайта, анализировать их длину, собирать заголовки всех уровней (h1-h6);

проверять коды ответа страниц;

собирать и визуализировать структуру сайта;

проверять наличие описаний изображений (атрибут alt);

анализировать внутреннюю перелинковку и внешние ссылки;

находить неработающие ссылки;

и многое другое.

 

Пройдемся по нескольким популярным парсерам и рассмотрим их основные возможности и функционал.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *