Недавно мой арсенал seo программ пополнился ещё одним замечательным софтом.

Datacol – это универсальное средство, с помощью которого можно собирать данные с любых сайтов в сети Интернет.

Сразу после того, как программа скачана и установлена Вы получаете доступ к множеству готовых парсеров, которые умеют:

  • — парсить выдачу Google и Яндекс;
  • — парсить интернет магазины (ebay.comfocalprice.comЯндекс.Маркет и др.);
  • — собирать контактные данные (2ГИСЯндекс.Карты);
  • — парсить доски объявлений (avito.ruirr.ru и др.);
  • — парсить контент с популярных сайтов (kinopoisk.rurutracker.orgyoutube.com);
  • — собирать и снабжать в реальном времени работающую кампанию-парсер прокси серверами;
  • — парсить ВКонтакте;
  • — парсить форумы;
  • — и многое другое.

 

А универсальным данный софт называют за то, что по помимо готовых парсеров контента Вы за считанные минуты можете сделать свой индивидуальный парсер, который будет собирать данные с нужного Вам вебресурса.

Для примера я решил сделать небольшой парсер, который будет собирать отзывы о товарах на сайте fotomag.com.ua

Что было сделано:
Создал новую компанию — Fotomag.par, заморачиваться с парсингом всего сайта пока не стал, а просто указал список url с которых нужно собрать отзывы (Вкладка Навигация -> Стартовые URL).

Datacol: Стартовые URL

Во вкладке Сбор данных -> Поля данных создал 3и поля данных в которые будет записываться нужная информация (url страницы с отзывами о товаре, название товара и сами отзывы).
Первое поле: title_product;
Тип данных: обычное поле;
Строки вырезания:

С помощью данного регулярного выражения получаем данные стоящие между тегами h1, а именно — название товара.

В остальных вкладках ничего не менял.

Datacol: Поля данных_название товара

 

Второе поле: products_reviews;
Тип данных: статическое поле;
Строки вырезания:

С помощью данного регулярного выражения получаем данные стоящие между тегом div с классом text и тегом a с классом reply, а именно — отзыв о товаре.

Во вкладке Дополнительно установил галочку в Поле обязательное, чтоб в случае, если на странице не будет найдено отзывов, группа данных текущего диапазона не сохранялась.

Во вкладке Статические, по умолчанию оставил выбор всех значений, а в качестве строки объединения задал точку с запятой. Собственно особенность статического поля в том, что можно получить не только первое найденное значение (первый отзыв), а собрать все либо указать нужный диапазон данных.

Datacol: Поля данных_отзывы

Третье поле: url;
Тип данных: спец поле.
Во вкладке Спец значения, по умолчанию оставил выбранным URL.

Datacol: Поля данных_url

Во вкладке Экспорт -> Базовые выбрал произвольный формат экспорта и экспортировать в потоковом режиме.
Во вкладке Экспорт -> Форматы экспорта указал путь для сохранения собранных данных, записывать решил в текстовый файлик, а в качестве формата выбрал следующий:

 

Datacol: Форматы экспорта

 

После запуска, в области показа новостей и результатов можно увидеть группы данных собранные в процессе работы парсера.

Datacol: Результат парсенга

Работать с программой очень просто, главное на начальном этапе уделить несколько часов и ознакомиться с имеющейся справкой, в которой подробно расписан весь имеющийся функционал. Кроме того, на YouTube полно обучающих роликов по созданию парсеров на базе Datacol. Думаю со временем, когда сам больше поднатаскаюсь в создании парсеров тоже запишу какое-нибудь обучающее видео.

С помощью Datacol можно не только парсить любые данные, в программе есть функция экспорта данных в WordPress c помощью которой можно легко наполнять армию Ваших блогов. Базовый функционал Datacol также позволяет наполнять интернет магазины на Webasyst, Opencart и Virtuemart.

 

Отдельно можно приобрести плагины для экспорта данных в другие популярные движки: DLEJoomlaBlogspotLivejournal и др. С полным перечнем доступных платных и бесплатных плагинов можно ознакомиться на странице — Плагины Datacol.

Довольно важным моментом является и то, что разработчики Datacol занимаются поддержкой своего проекта и регулярно выпускают обновления, в которых устраняют найденные баги и добавляют новый функционал.

На текущий момент цена одной лицензии составляет 59$ (вместо 89$), на офф. сайте программы написано, что стоимость была снижена на период новогодних праздников, так что не исключено, что со временем снова подорожает. Если за время прочтения данного поста у Вас тоже появились мысли о том, как можно использовать данный софт в своей работе, ещё есть возможность сделать себе новогодний подарок и приобрести Datacol по сниженной цене.

 

seogrot.com

Программа представляет собой простой бесплатный универсальный парсер, который можно использовать для решения широкого круга задач.

В левом окне программы «Url grab» вводим url для парсинга, по одной в строчку или загружаем из файла. В поле «От» вводим данные, с которых будем начинать парсинг, в поле «До» вводим данные, которыми парсинг заканчиваем. Т.е. сохраняться будет только то, что находиться между «От» и «До». В правом окне программы можно наблюдать результаты парсинга.

 


универсальный парсер
Давайте рассмотрим два примера использования универсально парсера.

 

 

 

 

Парсинг e-mail адресов.
 

 

Перейдем, например на эту страницу http://otvet.mail.ru/question/77740375/. Посмотрим исходный код страницы. Находим первый e-mail адрес, видим, что он расположен между «id=»user:» и «»». В поле «От» вводим «id=»user:» в поле «До» вводим «»». Нажимаем «Grab» и видим результаты парсинга в правом окне программы. Результаты парсинга автоматически сохраняются в файле Rez_Parse.txt. Будьте осторожны, при следующем парсинге старые результаты будут заменены новыми.

 

парсинг e-mail
 

Парсинг прокси.

Переходим по ссылке http://cool-proxy.ru/france-proxy-list-15-09-12.html. Проделываем действия аналогичные при парсинге e-mail адресов. Получаем значение «От» — «<br /», «До» — «<br /». Получаем результат:

 

парсинг прокси
 

Скачать универсальный парсер.

Download

 

freelancers-tools.com

Как работает Бесплатный парсер сайтов Catalogloader

 

Бесплатный парсер сайтов Catalogloader работает в облаке, не требуется установка никакого дополнительно программного обеспечения на компьютер, работает на любой операционной системе. Достаточно иметь только браузер. Вам предоставляется доступ в личный кабинет, где происходит управление парсером. Вы сможете:

  • указывать категории сайта-донора, которые нужно выгружать;
  • изменять названия категорий, вложенность, объединять категории для загрузки на свой сайт или в файл;
  • делать наценки;
  • выбирать формат экспорта в файл;
  • запускать процесс руками или настроить расписание запусков;
  • смотреть запуски, скачивать результат (если настроена выгрузка в файл);
  • забирать данные по API в свое программное обеспечение для дальнейшей обработки информации.;
  • выгружать (объединять) данные из нескольких сайтов-доноров (парсеров) в один файл или на один сайт;

Бесплатный парсер сайтов Catalogloader выгружает следующие данные

  • артикул;
  • название товара;
  • описания (полное, краткое);
  • все фото (названия фото, ссылки на фото, сами фото);
  • производитель;
  • характеристки;
  • комбинации (варианты товара: разные цветы, размеры и т.п.);

 

Окончательный список параметров, которые будут выгружаться, обсуждается индивидуально для Вашей задачи в техническом задании.

Экспорт из парсера выполняется в файлы

  • Excel;
  • CSV;
  • XML. Документация на XML здесь;
  • JSON.

Выгрузка в интернет-магазин

Кроме экспорта в стандартные файлы можно выгрузить в шаблоны файлов для импорта в следующие cms:

Стоимость

кол-во товаров выгрузка в файл Excel, csv, xml или на сайт
до 10 тыс ежедневно* 5400 руб/мес
до 30 тыс ежедневно* 7650 руб/мес
до 50 тыс ежедневно* 12000 руб/мес
до 100 тыс ежедневно* 22500 руб/мес

* — если скорость выгрузки позволяет делать это ежедневно.

Заказать парсер

Укажите исходные данные в форме ниже и обсудим Вашу задачу. Спасибо!

catalogloader.com

1. Google Spreadsheet

 

С помощью таблиц Google можно вытянуть из сайта простые элементы для сравнения и компонирования малых объемов. Это title, description, h1, keywords, заголовки, артикулы, цены, тексты, таблицы данных. Этот бесплатный инструмент подходит для точечных, малообъемных задач. Например, создать файл с отслеживанием текста и заголовков страницы.

Существуют две простые функции:

1. =importhtml — для импорта данных из таблиц или списков.
2. =importxml — для импорта данных из документов в форматах XML, HTML, CSV, TSV, RSS, ATOM XML.

 

Для работы с функцией =importxml потребуется знание XPath. Но если не хотите тратить время на изучение документации, используйте отладчик браузера.

 

Чтобы запустить отладчик, кликните на нужном элементе страницы правой кнопкой мышки и выберите «Посмотреть код», или нажмите F12.

В отладчике пройдите по пути: Copy — Copy XPath. Скопированный XPath вставляйте в функцию =importxml.

Чтобы запустить отладчик, кликните на нужном элементе страницы правой кнопкой мышки и выберите «Посмотреть код», или нажмите F12

Минусы

С каждым месяцем все хуже и хуже обрабатывается функция =importxml. Раньше можно было без проблем парсить данные сразу же для ~500 URL-адресов, сейчас с трудом обрабатываются 50 URL.

Плюсы

  • автоматическое обновление при входе;
  • можно настроить автоматическое обновление по времени (минута, час, день);
  • при парсинге данных прямо в таблицу можно осуществлять преобразование данных и сразу же делать готовые отчеты, примеры, визуализации.

 

Какие задачи решает?

С помощью функции =importxml можно собирать в режиме реального времени данные о мета тегах и, например, о количестве комментариев к интересующим статьям.

 

В колонке A — ячейки с ссылкой на страницу. Тег title для ячейки A2 подтягивается с помощью запроса =IMPORTXML(A2;»//title»).

Метатег description: =IMPORTXML(A2;»//meta[@name=’description’]/attribute::content»).

Тег H1 — с помощью запроса: =IMPORTXML(A2;»//h1″).

Автор поста: =IMPORTXML(A2;»//a[@class=’author-name’]»).

Дата публикации: =IMPORTXML(A2;»//div[@class=’footer’]/span»).

Количество комментариев к посту: =IMPORTXML(A2;»//span[@class=’regular’]»).

С помощью функции =importhtml также можно подтянуть много интересных данных, например, основную информацию из Википедии об интересующих объектах.

2. Netpeak Spider

 

Десктопная программа для сканирования сайта, которая направлена на поиск SEO-ошибок, и включает возможности парсинга данных из HTML-страниц.

Netpeak Spider

SEO-специалисту при обычном сканировании сайта иногда не хватает данных для анализа. С помощью Netpeak Spider можно, например, найти на сайте страницы с 404 ошибкой, страницы без тега Title и дополнительно спарсить цены на страницах товаров.

Таким образом можно обнаружить товары без цены и далее уже принять адекватное решение — оставить, убрать, закрыть их для сканирования/индексации.

 

Также можно вытянуть все тексты, которые размещены на страницах, задав определенный CSS-селектор или класс, в рамках которого они размещаются.

Стоимость программы — $14 в месяц или $117 в год (со скидкой 30%).

Минусы

  • нет привязки по API;
  • нет возможности обновлять данные по сценарию.

Плюсы

  • существует возможность как добавить готовый список URL для парсинга данных, так и удобно просканировать весь сайт;
  • одновременно можно запускать до 15 парсеров с уникальными настройками;
  • можно отфильтровать страницы, на которых не были найдены искомые данные;
  • показываются все уникальные вхождения, их количество и длина;
  • кроме парсера данных, получаем также инструмент для комплексного SEO-анализа сайта.

Какие задачи решает?

Парсинг цен

Задача: необходимо узнать стоимость ноутбуков.

 

Список URL:

http://rozetka.com.ua/asus_x555lj_xx1465d/p11201236/
http://rozetka.com.ua/asus_x555sj_xo001d/p6596109/
http://rozetka.com.ua/asus_n551jb_xo127d/p10727833/
http://rozetka.com.ua/asus_e502sa_xo014d/p9155171/
http://rozetka.com.ua/asus_e502sa_xo001d/p10677881/

Решение. Для начала необходимо определить, какой элемент нужно вытянуть — в данном случае будем вытаскивать метатег «itemprop» со значением «price»:

Для начала необходимо определить, какой элемент нужно вытянуть

 

Далее переходим в настройки сканирования Netpeak Spider на вкладку «Поиск» и включаем галочку «Использовать пользовательский поиск»:

Далее переходим в настройки сканирования Netpeak Spider на вкладку «Поиск» и включаем галочку «Использовать пользовательский поиск»

Теперь необходимо задать настройки поиска — в качестве примера будем использовать XPath: //meta[@itemprop=»price»]

 

А в дополнительных настройках поиска выберем «Извлечение данных» — «Значение атрибута» — «content»:

А в дополнительных настройках поиска выберем «Извлечение данных» — «Значение атрибута» — «content»

 

Что в результате?

Что в результате?

 

1. На четырёх страницах Spider нашел цены — отчёт открывается при выборе нужного поиска и нажатии на кнопку «Результаты извлечения»:

На четырёх страницах Spider нашел цены — отчёт открывается при выборе нужного поиска

 

2. На одной странице не была найдена цена — на этой странице (http://rozetka.com.ua/asus_e502sa_xo001d/p10677881/) мы видим сообщение, что товар снят с производства:

На одной странице не была найдена цена

Проверка внедрения GTM

Задача: проверить интеграцию кода GTM на страницах и ответить на два вопроса.

  1. Установлен ли код в принципе?
  2. Код установлен с правильным идентификатором?

Список URL:

http://netpeak.net/ru/blog/category/seo/
http://netpeak.net/ru/blog/category/ppc/
http://netpeak.net/ru/blog/category/web-analytics/
http://netpeak.net/ru/blog/category/marketing/

Решение. Аналогично, сначала нужно определить, какой элемент отвечает за код GTM, — в данном случае будем вытягивать GTM ID с помощью регулярного выражения.

будем вытягивать GTM ID с помощью регулярного выражения

 

В Netpeak Spider переходим в «Аналогичные настройки сканирования» и задаём поиск по регулярному выражению: [‘»](GTM-w+)[‘»]

В Netpeak Spider переходим в «Аналогичные настройки сканирования» и задаём поиск по регулярному выражению

Что в результате?

Видим, что код установлен и идентификатор правильный

 

Видим, что код установлен и идентификатор правильный.

 

Чтобы узнать больше примеров использования Netpeak Spider, читайте подробный обзор этой функции в блоге Netpeak Software.

 

3. Web Scraper

Web Scraper — бесплатное браузерное расширение для Chrome. Вы можете настроить план обхода сайтов, то есть задать логику для перемещения краулера и указать данные, которые будут извлечены. Web Scraper будет проходить через сайт в соответствии с настройкой и извлекать соответствующие данные. Это позволяет экспортировать извлеченные данные в CSV.

Минусы

  • нет возможности интеграции по API, то есть для обновления данных Web Scraper нужно запускать самостоятельно и ждать, пока завершится сканирование. Благо, проекты сохраняются в браузере, существует возможность сохранить проект в формате Json.
  • также есть ограничение в один поток. 2 000 страниц парсятся больше часа.
  • работает только в Chrome.

Плюсы

  • удобный, простой и интуитивно понятный инструмент.
  • может извлекать данные из динамических страниц, которые используют Javascript и Ajax.

Какие задачи решает?

Спарсить информацию о карточке товара

 

План обхода сайта показывает логику парсинга:

План обхода показывает логику парсинга

Элементы для парсинга:

Элементы для парсинга сайтов

 

После завершения парсинга информация будет отображена в таком виде:

 

Обучающие материалы:

  • видео;
  • документация.

4. Google Spreadsheet + Google Apps Script

Google Apps Script — язык программирования, основанный на JavaScript. Позволяет создавать новые функции и приложения для работы с Google Docs, Google Sheets и Google Forms. Настроить связку можно бесплатно.

Минусы

Нужно знание языка программирования JavaScript.

Плюсы

Потратив определенное время на настройку отчетов, можно оперативно реагировать на изменения данных.

Какие задачи решает?

С помощью связки Google Spreadsheet и Google Apps Script можно получать и обновлять данные в  режиме реального времени, а это полезно, чтобы следить за конкурентами и настраивать оповещение при изменениях, например, тегов title. Также можно настроить мониторинг цен и получать уведомления при изменении показателей.

 

Пример скрипта для отслеживания цен.

Выводы

 

Для гибкого и эффективного использования бесплатных инструментов парсинга сайтов необходимо как минимум знать, что такое XPath, а оптимально — еще и владеть основами JavaScript. Да и платные решения, вроде Netpeak Spider, предлагают все более интересные возможности, вроде одновременной настройки 15 потоков парсинга.

 

Многие вопросы, связанные с автоматизацией, раньше решал Kimono, но с момента закрытия облачного сервиса он перестал быть таким уж привлекательным для SEO-специалиста.

 

Пишите в комментариях, какие инструменты вы используете для парсинга, и какие задачи решаете с их помощью.

 

netpeak.net

парсер информацииПарсер – это программа для автоматизации процесса парсинга, то есть обработки информации по определенному алгоритму. В этой статье я приведу несколько примеров программ-парсеров и в двух словах опишу их назначение и основные функции.

Как мы уже определились, парсинг – это процесс синтаксического и лексического анализа, разбора и преобразования какого-либо документа или выбора из этого документа, интересующих нас данных. Это могут быть и трансляторы языков программирования, переводчики с одного языка на другой. Я думаю, что интерпретаторы скриптов тоже используют алгоритмы парсинга.

Но поскольку парсеры нас интересуют применительно к интернету и его приложениям, то мы вернемся к описанию использования парсеров для этой тематики. Выделю два наиболее популярных вида парсинга в интернете:

— парсинг контента
— парсинг результатов выдачи поисковых систем

Некоторые программы совмещают эти функции, плюс обрастают дополнительными функциями и возможностями.
Итак приступим

Универсальный парсер Datacol

Парсер Datacol представляет собой универсальный инструмент для сбора информации в интернете. Текущая версия программы — Datacol5.

На настоящий момент этот парсер является несомненным лидеров в Рунете по своим возможностям и функционалу.

Этот инструмент позволяет собирать в интернете данные следующего типа:

  • Результаты поисковой выдачи
  • Сбор контента с заданных сайтов
  • Сбор внутренних и внешних ссылок для интернет сайта
  • Сбор графической информации, аудио контента, видео материалов
  • Парсинг СЕО показателей сайтов с различных сервисов
  • И много много самой различной информации с различных интернет ресурсов

Вся полученная информация сохраняется в удобном для пользователя виде для дальнейшего анализа и использования.

Более подробное описание парсера Datacol5 находится на этой странице — web-data-extractor.net.

Программа Content Downloader

Представляет собой универсальную программу. Обладает очень широким функционалом и представляет собой целый набор парсинг-функций, вот перечень основных из них:

  • Парсер товаров
  • Парсер интернет-магазинов
  • Парсер картинок
  • Парсер видио
  • RSS парсер
  • Парсер ссылок
  • Парсер новостей

И это еще неполный перечень всех функций. Программа платная, продается несколько вариантов, в зависимости от функционала колеблется и стоимость. Подробнее ознакомиться можно здесь.

Парсер контента X-Parser

Основные функции программы также состоят их нескольких программных блоков.

  • Парсер вылачи любых поисковых систем по ключевым запросам
  • Парсер контента с любого сайта
  • Парсер контента по ключевым запросам из выдачи любой поисковой системы
  • Парсер контента по списку URLов
  • Парсер внутренних ссылок
  • Парсер внешних ссылок

Довольно многофункциональная программа, более подродно узнать всю информацию, вплоть до цены можно перейдя по ссылке.

Программа WebParser

Парсер WebParser представляет собой универсальную программу. основная функция которой — парсинг поисковых систем. Работает с ПС Google, Яндексом, Рамблером, Yahoo и некоторыми другими. анализирует движки (CMS) сайтов. Совместима со всеми версиями Windows, начиная с W2000. Болле полную информацию можно получить здесь.

Плагин WP Uniparser

Не забудем и плагин для WordPress WP Uniparser. О нем можно больше узнать, пройдя по этой ссылке.

Парсер «Магадан»

Парсер ключевых слов c романтическим названием «Магадан» создан именно для целевой обработки ключевых слов Яндекс.Директа. Полезен при составлении семантического ядра, подготовке рекламных компаний и для сбора и анализа информации.

В завершение стоит упомянуть о языке программирования для создания сайтов Parser, созданного на студии Артемия Лебедева и служащего для разработки сайтов. Этот язык будет несколько посложнее, чем обыкновенный HTML, но не требующий такой основательной подготовки, как, например, язык PHP.

 

inetmkt.ru

content downloader1 Star2 Stars3 Stars4 Stars5 Stars (оценок: 243, средний балл: 4.55Программы для парсингаLoading…

Программы для парсинга скачать/обновить программу Ver 11.1.0000727 (03.04.2019)
Программы для парсинга просмотреть весь лог изменений
Программы для парсинга экспресс-курс
Программы для парсинга Лицензионное соглашение (рекомендуем ознакомиться!)
Программы для парсинга скачать демо-версию

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *