品易云推流 关闭
文章详情页
文章 > Python爬虫 > Python爬虫架构的组成

Python爬虫架构的组成

头像

小妮浅浅

2021-09-01 11:13:23770浏览 · 0收藏 · 0评论

Python爬虫架构主要由调度器、URL管理器、网页下载器、网页解析器和应用程序五部分组成。

1、调度器。

相当于电脑的CPU,主要负责调度URL管理器、下载器和解析器之间的协调。

2、URL管理器,包括待爬取的URL地址和已爬取的URL地址。

防止重复抓取URL和循环抓取URL。实现URL管理器主要有三种方式,即内存、数据库和缓存数据库。

3、网页下载器。

通过传输URL地址下载网页,将网页转换成字符串。网页下载器包括urlib2(Python官方基础模块),包括登录、代理、cookie、requests(第三方包)

4、网页解析器。

解析一个网页字符串。

可以根据我们的要求提取有用的信息,也可以根据DOM树的解析方法进行。网页解析器有正则表达式(直观,将网页转换成字符串,通过模糊匹配提取有价值的信息,当文档复杂时,这种方法提取数据会非常困难)、html.parser(Python自带)、beautifulsoup(第三方插件,可以用Python自带的html.parser解析,也可以用lxml解析,比其他类型强)、lxml(第三方插件,可以解析xml和HTML)、html.parser、beautifulsoup和lxml都是DOM树解析的。

5、应用程序。

是由从网页中提取的有用数据组成的应用。

以上就是Python爬虫架构的组成,希望对大家有所帮助。更多Python学习指路:python爬虫

关注

关注公众号,随时随地在线学习

本教程部分素材来源于网络,版权问题联系站长!

底部广告图