品易云推流 关闭
文章 > 其他 > 爬虫分哪些

爬虫分哪些

爬虫

头像

小妮浅浅

2021-04-23 10:21:44999浏览 · 0收藏 · 0评论

(推荐操作系统:windows7系统、Python 3.9.1、DELL G3电脑。)

1、通用网络爬虫

通用网络爬虫又称全网爬虫,从一些种子URL扩展到整个网络,主要为门户搜索引擎和大型网络服务提供商收集数据。

2、聚焦网络爬虫

以网络爬虫为焦点,也称为主题网络爬虫,页面的网络爬虫类。与通用网络爬虫相比,聚焦爬虫只需要爬取与主题相关的页面,大大节约了硬件和网络资源,保存的页面也因为数量少而更新快,能够很好地满足特定人群对特定领域信息的需求。

3、增量式网络爬虫

增量网络虫是指对已下载的网页进行增量更新,只爬行新产生的或变化的网页,在一定程度上可以保证爬行的网页是尽可能新的网页。增量爬行动物只能在需要时爬行新产生或更新的页面,不能重新下载没有变化的页面,可以有效地减少数据下载量

4、Deep Web爬虫

网页按存在方式分为表层网页和深层网页,也称为Invisible网页或Hidden网页。表层页面是指传统式搜索引擎能够索引的页面,以超链接能够到达的静态页面为主构成的网页页面。Deep web是大部分内容都无法通过静态链接获取、搜索表格后隐藏的,只有用户提交关键词才能获取的网页。

我们都知道,获取数据之一的方法,就是使用爬虫帮助我们进行搜集的工作。不过爬虫有很多的类型,我们需要根据不同的情况做灵活的挑选。

以上就是爬虫的4种类型,每种爬虫都有着独特的使用方法。我们在使用爬虫时可以结合代理ip的使用。如果大家想测试使用下,可以尝试品易云http代理ip,免费测试包含各种类ip资源,无限调用IP量!更多常见问题解决:ip

关注公众号

关注公众号,随时随地在线学习

本教程部分素材来源于网络,版权问题联系站长!

底部广告图 底部广告图按钮