Такая информация в огромных объемах может быть весьма ценной для компаний, которые хотят понимать тренды, или для организаций, которым нужны определенные интересующие их сведения. Это и делает парсинг сайтов таким востребованным навыком, приобрести который помогут представленные далее книги. В этом списке порядок не имеет значения.

1. Python Automation Cookbook («Приемы автоматизации на Python»)

Пара слов о Джейме Буэльта — авторе данной книги, может сыграть ключевую роль при описании данного учебного материала. Джейме работает на полной ставке Python-разработчиком с 2010 года и постоянно выступает на конференции PyCon Ireland. Он является профессиональным разработчиком на протяжении уже более двух десятилетий и получил за свою карьеру богатый опыт работы с различными технологиями. Также у него много других успешных начинаний, включая работу над этой книгой. Так о чем вообще эта книга?

Коротко говоря, это издание позволяет получить ясное понимание основных понятий и принципов, необходимых для автоматизации бизнес-процессов в реальных задачах, таких как: разработка своего первого приложения для парсинга сайтов, анализ информации для генерации отчетов в виде электронных таблиц с графиками, а также переписка с помощью автоматически составленных электронных писем.

После того как вы поймете основы, сможете получить практические знания для: создания потрясающих графиков и диаграмм с помощью Matplotlib, формирования детализированных диаграмм с необходимой информацией, автоматизации маркетинговых кампаний, работы над связанными с машинным обучением проектами, а также для выполнения приемов отладки.

О чем вы сможете узнать

  • О предварительной обработке данных с помощью Python и Pandas для ваших проектов на тему интеллектуальной обработки данных и искусственного интеллекта.
  • Об автоматизации задач, таких как классификация текста, фильтрация электронных адресов и парсинг сайтов с помощью Python.
  • Об использовании Matplotlib для создания разнообразных потрясающих графиков, диаграмм и карт.
  • Об автоматизации отчетности, начиная от отправки SMS-сообщений и проведения маркетинговых кампаний по электронной почте и заканчивая созданием шаблонов, добавлением изображений в Word и даже шифрованием PDF-файлов.
  • О парсинге и сканировании сайтов в популярных форматах и о сохранении данных в различных директориях с помощью инструментов вроде Beautiful Soup.
  • О разработке потрясающих проектов, как например бота в Telegram для проведения вашей маркетинговой кампании, инструмента для чтения новостей из новостной RSS-ленты и модели машинного обучения для группировки и направления электронных писем в соответствующий отдел в зависимости от их содержимого.
  • О создании автоматических задач. Научитесь устанавливать задания для cron, вести логи и создавать регулярные выражения с помощью скриптов на Python.

Если вы разработчик, любитель исследовать данные или хотите автоматизировать монотонные ручные задачи, связанные с такими бизнес-процессами, как например финансы, продажи и кадры, то вам стоит купить эту книгу. Чтобы без проблем осилить эту книгу, читателю хорошо бы владеть Python’ом.

2. Practical Web Scraping for Data Science («Практическое применение парсинга сайтов для интеллектуальной обработки данных»)

Авторы этой книги — профессора в области работы с данными Seppe vanden Broucke и Bart Baesens. Эта книга может дать полное и современное представление о парсинге сайтов с использованием языка программирования Python, не утаивая важные подробности или лучшие приемы. Написанная для аудитории, интересующейся наукой о данных, эта книга посвящена как парсингу, так и более обширной области, в которой парсинг осуществляется — веб-технологиям, чтобы у читателей сформировалось полное понимание.

Кратко о том, чему вы сможете научиться

  • Использованию устоявшихся оптимальных подходов и популярных пакетов Python.
  • Обращению с современным Вебом, включая JavaScript, куки и повсеместно используемые приемы защиты от парсинга сайтов.
  • Также сможете понимать организационные и юридические проблемы в отношении парсинга сайтов.

Этот образовательный ресурс поможет любому, кто интересуется парсингом сайтов. Хотя книга ориентирована больше на людей, заинтересованных наукой о данных и, скорее всего, уже знакомых с Python, другим языком программирования или набором инструментов анализа, незнакомый с Python человек оценит по достоинству базовый курс в первой главе книги, позволяющий усвоить основы этого языка. Кроме того, даны ссылки на другие руководства для новичков в Python’е. Можно отметить, что эта книга — доступный образовательный ресурс, благодаря которому вы сможете приобрести много навыков и из которого многое узнаете от двоих опытных в этой теме профессоров.

3. Web Scraping with Python («Скрапинг веб-сайтов с помощью Python»)

Райан Митчелл — автор этой книги и разработчик программного обеспечения (ПО) в LinkeDrive в Бостоне, где она разрабатывает интерфейсы прикладного программирования и инструменты анализа данных. Она закончила Инженерный колледж Олина и учится по одной из магистерских программ Гарвардской школы повышения квалификации.

Расширенное издание этой книги с упором на практическое применение не только знакомит вас с парсингом сайтов, но также служит исчерпывающим руководством по парсингу данных почти любого типа, которые встречаются в современной Всемирной паутине.

Первый раздел книги посвящен технической стороне парсинга: использованию Python для запрашивания данных у веб-сервера, базовой обработке ответа сервера и автоматическому взаимодействию с сайтами.

Второй раздел посвящен разнообразным специализированным инструментам и приложениям, которые подходят к любому возможному сценарию парсинга сайтов, с которым вы столкнетесь.

Что вы можете освоить благодаря этой книге

  • Парсинг сложных HTML-страниц.
  • Разработку автоматических сборщиков веб-данных.
  • Методы хранения собираемых данных.
  • Чтение и извлечение данных из документов.
  • Очистку и нормализацию плохо отформатированных данных.
  • Чтение и написание текста на естественных языках.
  • Сбор данных с использованием форм и авторизации.
  • Сбор данных, выводимых на веб-страницах с помощью JavaScript, а также сбор данных посредством интерфейсов прикладного программирования.
  • Использование и разработку ПО, выполняющего преобразование изображений в текст.
  • Как избегать парсинговых ловушек и средств защиты от ботов.
  • Использование парсеров для тестирования своего сайта.

По словам Митчелл, если вы совсем не знаете Python, эта книга, возможно, будет немного трудной для восприятия. Пожалуйста, не используйте ее в качестве учебного материала по Python для начинающих. Любые базовые знания Python — хороший фундамент для размещения «образовательных кирпичиков», которые содержатся в этой книге.

4. Python for Data Analysis («Python и анализ данных»)

Автор книги — создатель Python-проекта «pandas» Уэс Маккинни. Эта книга выступает в качестве практически направленного и современного введения в инструменты, написанные на Python и используемые для интеллектуальной обработки данных. Цель Уэс — предоставить руководство по тем частям Python’а и его экосистемы библиотек и инструментов для работы с данными, которые позволят вам стать эффективным аналитиком данных. Книга идеально подойдет для аналитиков, только начинающих изучать Python, а также для программистов на Python, которые находятся на начальном этапе изучения науки о данных и научных расчетов. Файлы с данными и соответствующие материалы, которые вы найдете в книге, доступны на GitHub.

В этой книге вы сможете

  • Научиться пользоваться оболочкой IPython и Jupiter notebook для проведения исследовательских расчетов.
  • Изучить основы и продвинутые возможности NumPy (Numerical Python).
  • Познакомиться с инструментами анализа данных, доступными в библиотеке pandas.
  • Научиться пользоваться гибкими инструментами для загрузки, очистки, преобразования, объединения и реструктуризации данных.
  • Научиться создавать информативные представления данных с помощью matplotlib.
  • Научиться применять возможность группировки (метод groupby), доступную в pandas, чтобы разделять на части и обобщать наборы данных.
  • Научиться анализировать равномерные и неравномерные временные ряды, а также управлять ими.
  • На полных и подробных примерах узнать, как решать реальные задачи анализа данных.

Это руководство включает в себя разборы практических примеров, которые показывают, как можно успешно решить широкий спектр задач анализа данных. Вы изучите последние версии pandas, NumPy, IPython и Jupiter на пути своего становления лучшим специалистом по моделированию и формированию данных. Воспользуйтесь этим отличным образовательным ресурсом, чтобы наиболее удачно начать карьеру в области работы с данными.

5. Python Web Scraping Cookbook («Поваренная книга» парсинга на Python»)

Автор этого образовательного ресурса — независимый консультант Майкл Хейдт. Он специализируется на социальных, мобильных, аналитических и облачных технологиях.

В этой книге Майкл фокусируется на решении практических задач. Книга обучит вас методам и приемам разработки высокопроизводительных парсеров. Также в ней рассматриваются автоматические сканеры веб-данных, карты сайтов, автоматизация работы с формами, сайты на основе AJAX и кэширование. Вы сможете изучить несколько способов решения практических задач, которые полностью охватывают каждый этап жизненного цикла разработки/продукта. Вы не только сможете развить навыки проектирования и разработки надежных потоков данных, но и научитесь развертывать свою базу исходного кода на AWS.

Начиная непосредственно с извлечения данных из сайтов и заканчивая написанием продвинутых сборщиков данных, отдельные «рецепты» станут находкой в работе с данными. Эта книга охватывает библиотеки на Python, запросы и BeautifulSoup. Вы узнаете о сканировании сайтов, обходе сайтов, работе с сайтами на основе AJAX, и о работе с элементами постраничных списков.

Что вы сможете освоить

  • Использование всевозможных инструментов для парсинга любого сайта и данных, включая BeautifulSoup, Scrapy, Selenium и многие другие.
  • Языки выражений, такие как XPath, CSS и регулярные выражения для извлечения данных из сайтов.
  • Работу с ловушками для парсеров, такими как скрытые поля формы, понижение скорости получения данных, постраничная навигация и различные коды состояния.
  • Создание безотказных процессов парсинга с помощью SQS и RabbitMQ.
  • Парсинг материалов, например изображений. Также вы сможете узнать, что делать, когда парсер не работает.
  • ETL-приемы создания настраиваемых сканеров и парсеров, а также преобразование структурированных и неструктурированных данных, собранных на сайтах.
  • Развертывание и запуск своего парсера в качестве сервиса на AWS Elastic Container Service.

Если вы — Python-программист, администратор сайтов, специалист по безопасности или хотите проводить аналитику сайтов, то эта книга вам пригодится. Стоит отметить, что знание Python и базовое понимание парсинга сайтов помогут извлечь максимум из этой книги.

6. Getting Structured Data from the Internet («Сбор структурированных данных в Интернете»)

Автор книги — разработчик ПО Джей М. Патель. У него более 10 лет опыта в добыче данных, веб-сканировании/парсинге, машинном обучении и в проектах на тему обработки естественного языка (NLP).

В этой книге Джей научит вас использованию скриптов на Python для крупномасштабного сканирования сайтов и сбора данных из HTML-страниц и веб-страниц, основанных на использовании JavaScript’а. Кроме того, в книге рассматривается, как преобразовать эти страницы в структурированные форматы данных, такие как CSV, Excel, JSON, и как загрузить их в выбранную вами базу данных SQL-типа.

Джей не ограничивается основами парсинга сайтов — он затрагивает продвинутые темы, такие как обработка естественного языка (NLP) и анализ текста с целью широкомасштабного извлечения имен людей, расположений, адресов электронной почты, подробных контактных данных и прочего с использованием технических приемов на основе облачной инфраструктуры Amazon Web Services (AWS). В книге рассматривается устойчивая к ошибкам обработка данных и организация приема данных на основе массива Common Crawl, который содержит петабайты общедоступного набора веб-данных, доступного в реестре открытых данных AWS.

В процессе чтения этой книги вы сможете

  • Понять суть парсинга сайтов, его применимость и то, как не прибегать к парсингу, а вместо этого использовать общедоступные конечные точки обработки запросов к API, чтобы получать данные напрямую.
  • Разработать парсер и сканер сайтов с нуля, используя библиотеки lxml и BeautifulSoup, а также узнать о парсинге данных при помощи Selenium из веб-страниц, на которых активно используется JavaScript.
  • Научиться использовать облачные вычисления на основе AWS с EC2, S3, Athena, SQS и SNS, чтобы анализировать, извлекать и хранить полезные инсайты, полученные из просканированных веб-страниц.
  • Научиться пользоваться языком SQL применительно к базе данных под управлением системы PostgreSQL, работающей на Amazon Relational Database Service (RDS), а также применительно к SQLite и SQLalchemy.
  • Изучить Scikit-learn, Gensim и spaCy для применения NLP-операций на просканированных веб-страницах. К таким операциям относятся: распознавание именованных сущностей, создание тематических кластеров (метод k-средних, агломеративная кластеризация), классификация тем (naive Bayes, Gradient Boosting Classifier) и вычисление близости текстов (ближайшие соседи по косинусному расстоянию).
  • Научиться работать с форматами файлов веб-архивов и изучить открытые данные Common Crawl на AWS.
  • Узнать о практическом применении собранных веб-данных, разрабатывая инструмент для создания похожих сайтов и средство наподобие builtwith.com для анализа того, какие технологии используют сайты.
  • Научиться писать скрипты для: создания базы данных для хранения обратных ссылок в масштабе Всемирной паутины наподобие Ahrefs.com, Moz.com, Majestic.com и других; оптимизации в поисковых системах (SEO); исследования конкурентов; определения авторитета и рейтинга домена.
  • Научиться использовать данные парсера для создания системы анализа эмоциональной окраски новостей или альтернативного финансового анализа, охватывающего торговые сигналы на рынке акций.
  • Написать на Python готовый к применению сборщик данных, используя фреймворк Scrapy, и рассмотреть практические приемы обхода капч, ротации IP-адресов и обхода других средств защиты от парсинга.

Для любого, кто интересуется парсингом сайтов, этот материал — отличный ресурс, который можно изучить и осмыслить.

7. Automate the Boring Stuff with Python («Автоматизация рутинных задач с помощью Python»)

Автор книги — Эл Свейгарт, разработчик ПО и автор других книг технической направленности, проживающий в Сан-Франциско. Во втором издании этого бестселлера вы узнаете, как использовать Python для разработки программ, которые за считанные минуты выполняют ту работу, на которую вручную у вас ушли бы часы. При этом от читателя не требуется заранее уже обладать опытом программирования. Вы узнаете основы Python и изучите его богатую библиотеку модулей, которые можно использовать для решения определенных задач, таких как парсинг данных из сайтов, чтение PDF-файлов и Word’ских документов, а также автоматизация щелчков мыши и набора текста.

Второе издание этой полюбившейся читателями книги включает в себя полностью новую главу на тему валидации вводимых данных, а также обучающие материалы про автоматизацию Gmail и Google Таблиц. Кроме того, в этой главе представлены советы на тему автоматического обновления файлов в формате CSV. Вы научитесь создавать программы, которые без труда и с пользой автоматизируют:

  • Поиск текста в одном или нескольких файлах.
  • Создание, обновление, перемещение и переименование файлов и папок.
  • Поиск во Всемирной паутине и скачивание онлайн-контента.
  • Обновление и форматирование данных в электронных таблицах Excel любого размера.
  • Разделение, объединение, шифрование PDF-файлов, а также добавление в них водяных знаков.
  • Отправку ответов по электронной почте и текстовых уведомлений.
  • Заполнение онлайн-форм.

Эл объясняет всё это очень доступно. Даже если вы еще не написали ни одной строчки кода, то всё равно сможете заставить свой компьютер делать рутинную работу. Из данной книги вы сможете узнать, как это делается. Пополните свою коллекцию этой книгой и читайте ее в удобное время.

8. Go Web Scraping Quick Start Guide («Краткое руководство по парсингу сайтов с помощью Go»)

Немного об авторе: Винсент Смит работает разработчиком ПО уже 10 лет в различных областях — от здравоохранения и информационных технологий до машинного обучения и создания масштабных парсеров сайтов. Он успел поработать как с крупными компаниями из списка Fortune 500, так и со стартапами, взяв лучшее из этих двух «миров» для совершенствования своих знаний и навыков.

Эта книга Винсента быстро вам объяснит, как собирать данные на различных сайтах, используя библиотеки Go, такие как Colly и Goquery. Она начинается с примеров реализации парсера, а также с основных возможностей языка программирования Go и настройки окружения. Далее она переходит к HTTP-запросам, HTTP-ответам и тому, как Go работает с ними. Кроме того, вы узнаете несколько основных этических правил при парсинге сайтов.

Из этой книги вы узнаете, как перемещаться по сайту, используя поиск в ширину и поиск в глубину, а также как находить ссылки и переходить по ним. Познакомитесь со способами отслеживания истории с целью предотвращения зацикливания и со способами защиты своего парсера сайтов с помощью прокси-серверов.

Наконец, книга затронет модель параллелизма Go и параллельную работу парсеров вместе с широкомасштабным распределенным парсингом сайтов.

О чем вы сможете узнать

  • Как реализовать контроль кэша, чтобы избавиться от лишних сетевых вызовов.
  • Как организовать работу многопоточных парсеров.
  • Как разрабатывать большие системы парсинга, обладающие нужными вам возможностями.
  • Как с помощью Colly собирать данные из несложных HTML-страниц и с помощью chromedp из веб-страниц, на которых активно используется JavaScript.
  • Как выполнять поиск, используя пакеты «strings» и «regexp».
  • Как настраивать среду Go-разработчика.
  • Как извлекать информацию из HTML-документа.
  • Как при помощи прокси-серверов защитить свой парсер сайтов от блокировки.
  • Как управлять браузерами с целью парсинга сайтов, на которых активно используется JavaScript.

Эта книга хорошо подойдет специалистам по обработке и анализу данных, а также веб-разработчикам с базовым знанием Golang, которые хотят собирать данные в Сети и анализировать их, чтобы эффективно создавать отчеты и визуальные представления данных.

Заключение

Нет ничего важнее, чем настрой на постоянное обучение и саморазвитие. В конце концов, инвестирование в себя окупается в долгосрочной перспективе. Обратитесь к некоторым из представленных выше ресурсов, прочтите их и станьте более квалифицированным разработчиком благодаря тем навыкам и знаниям, которые опытные в данной сфере люди вложили в эти книги. Отточите свои навыки парсинга сайтов, чтобы наиболее эффективно решать задачи.

Надеемся, что эти книги помогут вам учиться и развиваться.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *