文章 > 其他 > python爬虫有哪些

python爬虫有哪些

Python爬虫

头像

小妮浅浅

2021-03-30 11:29:42981浏览 · 0收藏 · 0评论

我们在使用爬虫之前,需要对自己想要用的爬虫类型进行明确,同时掌握一些常见库的用法。当然如果能够有好的IP代理辅助,爬虫的工作就会进行的更加迅速了,下面我们看看具体的介绍吧。

1、爬虫类型

(1)增量式网络爬虫是指对已下载网页采取增量式更新和只爬行新产生的或者已经发生变化网页的爬虫,它能够在一定程度上保证所爬行的页面是尽可能新的页面。

(2)通用网络爬虫的爬行范围和数量巨大,对于爬行速度和存储空间要求较高,对于爬行页面的顺序要求相对较低,同时由于待刷新的页面太多,通常采用并行工作方式,但需要较长时间才能刷新一次页面。

(3)聚焦网络爬虫是指选择性地爬行那些与预先定义好的主题相关页面的网络爬虫。 和通用网络爬虫相比,聚焦爬虫只需要爬行与主题相关的页面,极大地节省了硬件和网络资源,保存的页面也由于数量少而更新快,还可以很好地满足一些特定人群对特定领域信息的需求。

(4)Deep Web 爬虫,即深层网页爬虫,深层网页中可访问信息容量是表层网页的几百倍,是互联网上最大、发展最快的新型信息资源。

2、爬虫常用库

(1)requests 这个库是爬虫最常用的一个库

(2)Selenium是一个自动化测试工具,利用它我们可以驱动浏览器执行特定的动作,如点击、下拉等操作 对于一些用JS做谊染的页面来说,这种抓取方式是非常有效的。

(3)ChomeDrive 安装了这个库,才能驱动Chrome浏览器完成相应的操作

(4)GeckoDriver 使用W3C WebDriver兼容客户端与基于Gecko的浏览器进行交互的代理。

(5)PhantomJS是一个无界面 、可脚本编程的 WebKit 浏览器引擎,它原生支持多种Web标准:Dom操作,css选择器,json,Canvas以及SVG。

以上就是python爬虫的类型介绍,同时还有一些频繁会使用到的库。先对基本的python爬虫环境进行设置,然后再选择适合自己的运行方法。爬虫在采集大量数据的时候,使用HTTP代理IP配合会比较便捷。希望对大家有所帮助。更多常见问题解决:爬虫

(推荐操作系统:windows7系统、Python 3.9.1,DELL G3电脑。)

关注公众号

关注公众号,随时随地在线学习

本教程部分素材来源于网络,版权问题联系站长!

底部广告图 底部广告图按钮