Обзор дополнен полезной информацией о платных тарифах, локализациях, доступных в РФ способах оплаты и ссылками на обучающие материалы. Для того, чтобы быстро ориентироваться, в конце каждого блока есть сводная таблица. Надеюсь, эта подборка окажется полезной и поможет вам подобрать решение для парсинга.

Он-лайн сервисы для парсинга

Он-лайн сервисы для парсинга — удобное решение, они предлагают аренду удаленной инфраструктуры для сбора данных и работают по модели SaaS. Это значит, что вам не потребуется приобретать сервер, софт, привлекать специалистов для настройки и поддержки системы.

Выбирая сервис нужно определиться с необходимым набором опций. Для примера, это могут быть: планировщик – для запуска скриптов по расписанию, шаблоны – для быстрого парсинга по заранее написанным скриптам, api – для получения данных в свои базы, прокси – для парсинга сайтов с защитой, сопоставление данных из разных источников, для кого-то может оказаться важной возможность оплаты от лица компании. Так же, нужно понимать какой сценарий взаимодействия подойдет в вашем случае, сценарий зависит от того, cправится ли сервис с парсингом нужного вам источника на выбранном тарифе, есть ли у вас сотрудник для работы с сервисом, для поддержки работоспособности скриптов (да, скрипты работают до тех пор пока сайт не обновится, что с коммерческими сайтами случается нередко).

Для относительно простых задач подойдет сервис, с настройкой парсинга в визуальном интерфейсе, другими словами, не потребуется разбираться в программировании, чтобы «объяснить» сервису, какие данные вы хотите собирать — достаточно открыть сайт и указать курсором на нужные поля.

Для более сложных задач следует выбрать сервис, который дает возможность самостоятельно написать скрипт. Так вы сможете учесть все нюансы задачи, для этого потребуется привлечь специалиста разбирающегося в программировании парсеров.

Третий вариант работы с облачным сервисом – настраиваемое решение или услуга «под ключ». В этом случае с вашей стороны потребуется минимум действий — описать задачу и получить готовый результат. Разработку скрипта, его поддержку и настройку нужных опций сервис берет на себя. Как правило подобные сервисы способны решать сложные задачи, собирать большие объемы данных.

Порядок сервисов ничем не продиктован, автор так види).

1. Octoparse

Octoparse — один из самых известных сервисов для парсинга данных. Сервис предлагает возможность визуального программирования парсинга, шаблоны для сбора данных на популярных сервисах таких как — Instagram, Facebook, Amazon, eBay и другие, всего 52 шаблона.

Преимущество сервиса для пользователя без опыта работы с облачными сервисами парсинга — множество статей, объясняющих как им пользоваться, комьюнити и наличие видео уроков. Сервис предоставляет хорошие лимиты в бесплатной версии, ресурсов хватит для сбора небольшого сайта или раздела на сайте агрегаторе, количество страниц для сбора не ограниченно. Сервис англоязычный, оплатить сервис возможно через системы Masterсard, Visa, PayPal.

Возможности сервиса:

  1. Шаблоны популярных сайтов;
  2. Парсинг динамического контента;
  3. Ротация ip;
  4. Планировщик;
  5. Возврат денег в течении 5 дней;
  6. Работа с API.

Платные тарифы: $75 — $399 за различный набор опций. Сервис предоставляет настраиваемый тариф, в рамках которого компания реализует нужные вам настройки.

Возможности бесплатной версии:

  1. Количество страниц не ограничено;
  2. Экспорт 10 000 строк;
  3. До 10 сохраненных настроек;
  4. Поддержка;
  5. Отсутствие шаблонов, планировщика и API.

Для обучения работы с сервисом есть YouTube канал.

2. Mozenda

Mozenda — один из старейших облачных сервисов. В конце 2020 года компания заявила о слиянии с Dexi и дальнейшей работой под брендом последней. Сервис предлагает как визуальную настройку парсинга, так и возможность самостоятельно программировать парсеры на мощностях Mozenda или приобрести лицензию на программное обеспечение и разместить его на своем сервере. Сервис англоязычный, оплатить сервис возможно через системы Masterсard, Visa, но эта информация скрыта, перед стартом вам придется связаться с представителями компании.

Возможности сервиса:

  1. Шаблоны популярных сайтов;
  2. Парсинг динамического контента;
  3. Ротация ip;
  4. Планировщик;
  5. Уведомления;
  6. Возврат денег в течении 30 дней;
  7. Работа с API.

Платные тарифы: компания не указывает стоимость услуг, для уточнения деталей нужно связаться с представителем компании и рассказать задачу.

Возможности бесплатной версии: 30 дней.

В качестве обучающих материалов предоставляется документация.

3. Apify

Apify — сервис, предлагающий множество настроенных шаблонов для парсинга самых разных ресурсов. Apify позволяет использовать заранее подготовленные шаблоны для таких сайтов как: Amazon, Instagram, Booking, YouTube, Aliexpress и т.д. Сервис дает доступ к API, через подключение к которому и происходит сбор данных, все представленные шаблоны хорошо описаны, так же вы можете изменить настроенный шаблон, для этого потребуется отредактировать код (да, вам нужно в нем разбираться). Наличие готовых решений — прекрасный инструмент позволяющий быстро стартовать сбор данных, но кроме готовых решений сервис также предлагает и настраиваемое под вашу задачу решение. Сервис доступен на английском языке, для оплаты можно использовать Masterсard, Visa, Maestro и PayPal.

Возможности сервиса:

  1. Работа с JavaScript;
  2. Ротация прокси;
  3. Мультипоточность;
  4. Шаблоны;
  5. Расписание;
  6. API.

Платные тарифы: $49 — $999 в месяц, в зависимости от набора необходимых опций. Настраиваемое решение оценивается после описания задачи. Монетизация сервиса работает через расчет кредитами, 1 кредит = $1 = 1 Actor (вычислительная единица). Actor — работа сервиса на 1 ГБ памяти в течении 1 часа.

Возможности бесплатной версии:

  1. Кредиты на $5 для использования сервиса;
  2. Хранение данных за последние 7 дней;
  3. 30 прокси серверов.

Сервис предлагает обучающие материалы на YouTube.

4. Diffbot

Diffbot — сервис использующий машинное обучение и компьютерное зрение для парсинга данных. Diffbot самостоятельно определяет на какой странице он находится (карточка товара, новости, медиа и т.д.) и исходя из этого понимает, какие данные нужно собирать и возвращает вам их через API в чистом виде. Сервис подойдет в ситуациях, когда нужно минимизировать затраты на настройку парсинга и по максимуму автоматизировать процессы, насколько хорошо сервис справится с парсингом сложных сайтов с динамически загружаемыми данными нужно проверять на ваших кейсах. Сервис доступен на английском языке. Оплатить можно с помощью карты Masterсard или Visa.

Возможности сервиса:

  1. Автоматизация процесса с помощью ML;
  2. Ротация ip;
  3. Интеграции с таблицами Google и MS;
  4. Выгрузка данных в Tableau;
  5. Работа с API.

Платные тарифы: $299 — $899 в месяц в зависимости от требуемого объема данных. По каждому из тарифов выдается фиксированное количество кредитов, которые вы можете потратить на выполнение нужных задач, например парсинг одного значения — 1 кредит, скачивание файла — 25 кредитов, и т.д. Есть настраиваемый тариф, оплата согласовывается после анализа задачи. На любом тарифе перед стартом придется привязать к сервису свою карту.

Возможности бесплатной версии:

  1. 14 дней;
  2. 1 запрос в секунду;
  3. интеграции.

У сервиса есть обучающие материалы на YouTube.

5. Parsehub

Parsehub — сервис позволяющий собирать данные с сайтов без написания кода. Так же, как и предыдущий сервис использует машинное обучение для распознавания данных, заявляется уверенная работа с JavaScript и AJAX. Сервис самостоятельно понимает структуру данных на основе первых заданных параметров для сбора, это позволит существенно сократить время на программирование сбора данных. Сервис доступен на английском языке. Оплатить можно с помощью карты Masterсard или Visa.

Возможности сервиса:

  1. Автоматизация процесса с помощью ML;
  2. Ротация ip;
  3. Планировщик;
  4. Очистка данных от HTML кода;
  5. Интеграция с Dropbox;
  6. Работа по API.

Платные тарифы: $149 — $499 в месяц в зависимости от требуемого объема данных. Предлагается настраиваемый тариф, оплата согласовывается после анализа задачи.

Возможности бесплатной версии:

  1. 14 дней хранения данных;
  2. 200 страниц за запуск;
  3. до 5 сайтов для парсинга.

У сервиса есть обучающие материалы на YouTube.

6. Web Scraper

Web Scraper — сервис для парсинга, главная фича которого — упрощенное визуальное программирование. Парсер настраивается в визуальном редакторе, через расширения к браузерам (Firefox и Chrome) нужно просто указать какие элементы хотите захватить и название полей. Web Scraper позволяет создавать карты сайта из различных типов селекторов. Эта система позволяет в последующем адаптировать извлечение данных к разным структурам сайта. Сервис локализован на английском, оплатить можно пластиковой картой.

Возможности сервиса:

  1. Парсинг JavaScript;
  2. Ротация прокси;
  3. Планировщик;
  4. Мультипоточность;
  5. Интеграция с Dropbox;
  6. Работа через API.

Платные тарифы: $50 — $300 в месяц в зависимости от требуемого объема данных и набора опций. Монетизация происходит через кредиты, 1 кредит = парсингу 1 страницы. Настраиваемого тарифа нет.

Возможности бесплатной версии:

  1. Только локальное использование;
  2. Парсинг динамически загружаемого контента;
  3. Рендеринг JavaScript;
  4. Экспорт только в CSV.

У сервиса есть обучающие материалы на YouTube.

7. Scraper api

Scraper api — сервис требующий знания программирования, вы можете работать с одним из следующих языков — PHP, NodeJS, Python или Ruby. Сильная сторона Scraper API — смена ip адреса для каждого запроса (заявляется, что сервис постоянно тестирует прокси и оставляет только быстрые), сервис выбирает прокси из миллиона доступных и автоматически повторяет неудачные запросы, до тех пор, пока не соберет нужные данные. Сервис умеет работать с капчей. Таким образом сервис подойдет для работы со сложными сайтами защищающимися от парсинга. Сервис англоязычный, для оплаты можно использовать Masterсard, Visa, Maestro и PayPal.

Возможности сервиса:

  1. 40 млн ip;
  2. 12 геолокаций;
  3. Неограниченная пропускная способность;
  4. Работа с Javascript.

Платные тарифы: $29 — $249 в месяц в зависимости от требуемого объема данных и набора опций. По запросу специалисты сервиса напишут код под ваши задачи, стоимость кастомного решения обсуждается индивидуально.

Возможности бесплатной версии:

  1. 1000 вызовов;

8. Zyte

Zyte — ранее Scrapinghub, облачная платформа для автоматического извлечения данных из веб сайтов, работающая через передачу API запросов. Для работы не нужно знание программирования, вам нужно передать URL-адреса страниц, которые нужно парсить, и какой тип контента вы ожидаете там найти: статья, список статей, комментарии, сообщения на форуме, объявления о вакансиях, продукт, список товаров, обзоры товаров, недвижимость или автомобили. Далее сервис извлекает контент и применяет ряд методов, чтобы извлечь как можно больше информации и передать ее в очищенном виде. Сервис работает на английском, для оплаты можно использовать карты Masterсard, Visa и PayPal.

Возможности сервиса:

  1. Автоматическое определение нужного контента;
  2. Ротация прокси;
  3. Мультипоточность;
  4. Планировщик;
  5. Работа через API.

Платные тарифы: $60 в месяц за 100 000 запросов в месяц. От $450 стартует разработка под ключ.

Возможности бесплатной версии:

  1. 14 дней;
  2. 10 000 запросов;

Сервис имеет раздел документации с примерами запросов.

9. ScrapingBee

ScrapingBee — сервис для парсинга данных требующий программирования, сбор данных осуществляется через безголовый браузер при помощи обращения через API на одном из языков программирования – CURL, Python, Node, JS, Java, Ruby, Php, Go. Сервис использует прокси сервера, автоматически их ротирует для снижения вероятности блокировки, так же это позволит запустить парсинг в несколько потоков, что увеличит скорость сбора данных. ScrapingBee предлагает ряд готовых решений, которые можно получить через магазин API. Сервис локализован на английском языке, для оплаты можно использовать карты Masterсard, Visa и PayPal.

Возможности сервиса:

  1. Работа с JavaScript;
  2. Автоматическая ротация ip;
  3. Мультипоточность;
  4. API.

Платные тарифы: $30 — $250 в месяц в зависимости от требуемого объема данных и набора опций. Каждый план дает определенное количество кредитов API в месяц. В зависимости от параметров, которые вы используете для вызовов API, действие стоит от одного до нескольких кредитов. По запросу специалисты сервиса напишут код под ваши задачи, стоимость кастомного решения обсуждается индивидуально.

Возможности бесплатной версии:

  1. 1000 запросов;

Сервис имеет раздел документации с примерами запросов на каждом из поддерживаемых языков программирования.

10. Grabzit

Grabzit — оригинальный сервис позволяющий собирать данные без программирования. Настройка парсинга выглядит как пошаговая инструкция, на каждом этапе которой нужно выбирать определенные опции и отмечать данные для парсинга. Такой подход необычен и подойдет новичкам, проведя по шагам от добавления адреса до получения результата. Работает сервис на основе браузера, который позволяет обрабатывать страницы с динамическим содержанием JavaScript или AJAX. Сервис имеет возможность работать через API запросы. Еще одна интересная особенность сервиса — локализация сервиса и инструкций через машинный перевод Google Translate, перевод получается кривым, но если вы не владеете языком общий смысл понять можно. Оплатить сервис можно картами Masterсard, Visa или PayPal.

Возможности сервиса:

  1. Прокси сервера;
  2. Отправка результата на email;
  3. Приложение ассистент для браузера;
  4. API.

Платные тарифы: $7 — $95 в месяц в зависимости от требуемого объема данных и набора опций. Сервис пересчитывает стоимость в разные валюты, в том числе в рубли, нюанс в том, что стоимость привязана к доллару США, поэтому в зависимости от текущего курса она будет пересчитана.

Возможности бесплатной версии:

  1. доступ на 7 дней;
  2. все премиальные функции.

Для быстрого старта есть обучающие материалы на YouTube.

11. eScraper

eScraper — сервис ориентирующийся на парсинг сайтов электронной коммерции. У сервиса есть настроенные шаблоны для популярных магазинов – AliExpress, Amazon, eBay, Magento, PrestaShop, WooCommerce, Shopify и другие. eScraper может парсить динамически загружаемый контент и такие элементы как, раскрывающиеся списки, разделы «показать еще» и «следующая страница» и чекбоксы. Сервис доступен только на английском языке. Оплатить можно только через PayPal.

Возможности сервиса:

  1. Визуальное программирование;
  2. Планировщик;
  3. Большое количество интеграций с eCommerce CMS.

Платные тарифы: $59 — $450 в месяц в зависимости от требуемого объема данных и набора опций.

Возможности бесплатной версии:

  1. 100 строк в файле выгрузки.

Для быстрого старта сервис предлагает обучающие материалы в виде статей.

12. 80legs

80legs — сервис для парсинга сайтов, главная фича которого — заранее созданные шаблоны. Шаблоны для парсинга от 80legs используют технологии Javascript, которые вы можете править если ваши задачи отличаются от стандартных. В шаблонах можно настроить, какие данные будут собираться и по каким ссылкам нужно переходить. Сервис доступен только на английском языке, перед началом работы вам нужно привязать пластиковую карту.

Возможности сервиса:

  1. Рендеринг JavaScript;
  2. Ротация ip;
  3. Автоопределение нужной скорости парсинга;
  4. API.

Платные тарифы: $29 — $299 в месяц в зависимости от требуемого объема данных и набора опций. 80legs предлагает настраиваемый тариф, стоимость нужно уточнять.

Возможности бесплатной версии:

  1. Один поток;
  2. 10 000 страниц.

Сервис имеет раздел с документацией с примерами запросов.

13. Phantom Buster

Phantom Buster — еще один облачный сервис, работающий на основе готовых шаблонов. Сервис, непривычный парсер данных, скорее это инструмент для автоматизации действий в социальных сетях, таких как – LinkedIn, Facebook, Twitter, Instagram и другие. В нашу подборку он попал потому, что способен так же собирать данные и в отдельных, специализированных ситуациях справится лучше других, не заточенных под социальные сети сервисов. Работа с Phantom Buster не требует знания программирования, вы сможете легко автоматизировать привычные для социальных сетей действия, такие как отслеживание активности профилей, авто-лайки постов, отправка сообщений и прием заявок. Сервис доступен только на английском. Оплатить сервис можно картами Masterсard и Visa.

Возможности сервиса:

  1. Готовые шаблоны;
  2. Автоматизация действий;
  3. Уведомления по электронной почте и Slack;
  4. Файловое хранилище;
  5. Планировщик.

Платные тарифы: $30 — $900 в месяц в зависимости от требуемого объема часов работа сервиса в день и набора опций. 80legs предлагает настраиваемый тариф, стоимость нужно уточнять.

Возможности бесплатной версии:

  1. Один шаблон;
  2. 1GB хранилища;
  3. 10 минут работы в день.

Сервис подойдет для автоматизации активностей в социальных сетях. На YouTube есть канал с примерами работы и уроки для быстрого старта.

14. Webhose

Webhose — сервис специализируется на парсинге новостей, блогов, форумах и даркнете. Webhose работает через API, который предоставляет доступ к данным в режиме реального времени. Сервис предлагает большую базу исторических данных. Локализация только на английском, оплата возможна пластиковыми картами.

Возможности сервиса:

  1. Работа через отправку API запросов;
  2. Новостные источники;
  3. Данные в реальном времени;
  4. Исторические данные.

Платные тарифы: Данные о стоимости работы с сервисом нужно узнавать по запросу.

Возможности бесплатной версии:

  1. 10 дней;
  2. до 1000 запросов.

Сервис подойдет, если вам нужно достать информацию из новостных источников или даркнета. Также, если есть необходимость в исторических данных.

У Webhose на сайте есть подробный раздел с документацией.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *