用Python写网络爬虫（第2版）

ebook ∣ Chinese Edition

By Posts & Telecom Press

Format

ebook

Author

Posts & Telecom Press

Publisher

Packt Publishing

Release

28 February 2024

Subjects

Computer Technology Nonfiction

Search for a digital library with this title

Learn more about precise location detection

Title found at these libraries:

Library Name	Distance
Loading...

史上首本Python网络爬虫图书全新升级版上一版年度销量近40000册针对Python 3.x编写提供示例完整源码和实例网站搭建源码

Key Features

本书是使用Python 3.x的最新特性来爬取网络数据的权威指南。

提供示例完整源码和实例网站搭建源码

Book Description史上首本Python网络爬虫图书全新升级版，上一版年度销量近40000册。针对Python 3.x版本编写。提供示例完整源码和实例网站搭建源码，确保用户能在本地成功复现爬取网站环境，并保障网站的稳定性与可靠性以及代码运行结果的可再现性。 Internet上包含了许多有用的数据，其中大部分是可以免费公开访问的。但是，这些数据不容易使用，它们内嵌在网站的架构和样式中，在提取时也需要多加小心。网络爬取技术作为一种收集和理解网络上海量信息的方式，正变得越来越有用。本书是使用Python 3.x的最新特性来爬取网络数据的权威指南。本书讲解了从静态网站提取数据的方法，以及如何使用数据库和文件缓存技术来节省时间并管理服务器负载，然后介绍了如何使用浏览器、爬虫和并发爬虫开发一个更为复杂的爬虫。借助于PyQt和Selenium，你可以决定何时以及如何从依赖JavaScript的网站上爬取数据，以及更好地理解在受CAPTCHA保护的复杂网站上提交表单的方法。本书还讲解了使用Python包（比如mechanize）进行自动化处理的方法、使用Scrapy库创建基于类的爬虫的方法，以及如何在真实的网站上实施所学的爬虫技巧。本书最后还涵盖了使用爬虫对网站进行测试、远程爬取技术、图像处理以及其他相关的主题。本书主要内容如下：使用简单的Python程序从页面中提取数据；构建并发爬虫，对页面进行并行处理；通过跟踪链接来爬取一个网站；从HTML中提取特性；缓存下载的HTML，以供复用；比较并发模型，确定最快的爬虫；解析依赖于JavaScript的网站；与表单和会话进行交互。What you will learn

使用简单的Python程序从页面中提取数据；

构建并发爬虫，对页面进行并行处理；

通过跟踪链接来爬取一个网站；

从HTML中提取特性；

缓存下载的HTML，以供复用；

比较并发模型，确定最快的爬虫；

解析依赖于JavaScript的网站；

与表单和会话进行交互。

Who this book is for

Python开发人员、搜索引擎开发人员

]]>