品易云推流 关闭
文章详情页
文章 > http代理 > 爬虫常见的抓取方式

爬虫常见的抓取方式

爬虫

头像

2021-09-15 17:35:581186浏览 · 0收藏 · 0评论

image.png

网路爬虫也叫网络蜘蛛,是一种计算机程序,它根据一定的逻辑和算法从因特网上抓取并下载因特网网页,是搜索引擎的重要组成部分。普通爬虫从一部分种子url开始,按照一定的策略爬取,爬取到的新url会被放入爬取队列中,然后重新进行一轮爬取,直到抓取完毕。

待抓取URL队列是爬虫系统中一个重要组成部分。要解决的URL在URL队列中的顺序是什么,这包括首先抓取页面,然后再抓取哪一页,这也是一个重要问题。确定这些URL的排序方式,被称为获取策略。互联网爬虫的抓取策略很多,但无论方法如何,它的基本目标都是一致的:对重要网页进行优先搜索。

1、宽度优先性遍历策略(BreathFirst)。

在待爬取URL队列结尾处直接添加新下载网页中包含的链接,这是宽度优先性遍历的核心。这就是说,这个方法并不清楚地提出和使用网页重要性的度量方法,只是机械地提取新下载的网页的链接,然后附加到待爬取URL队列,作为对URL进行下载。

2、OCIP策略(OnlinePageImporteComputation,在线页面重要性计算)。

它可被视为一种改进的PageRank算法。开始执行该算法之前,每个网页都提供相同的“现金”(cash),无论何时下载一个网页P,P将自己所拥有的“现金”平均分配给页面中包含的链接页面,清空自己的现金。对待爬取URL队列中的网页,根据手头持有的现金数额排序,优先下载那些现金最充裕的网页。

OCIP和PageRank从大框架上基本上是一致的,不同之处是:PageRank每次都需要迭代计算,OCIP策略不需要迭代过程,因此计算速度比PageRank快得多,适合实时计算使用。计算时,PageRank存在向无链接关系网页的远距离跳转过程,OCIP并不具备这个因素。试验表明,OCIP是一种良好的重要性度量策略,其效果略优于宽度优先遍历策略。

3、大站优先性策略(LargerSitesFirst)。

大站优先性策略的思想非常直接:以站点为单位衡量网页的重要性,对于要爬取URL队列中的网页,根据所属网站分类,如果哪个网站需要下载最多页面,则优先下载这些链接。它的基本思路是倾向于下载大型网站,因为大型网站通常包含更多的网页。考虑到大网站往往是知名企业的内容,其网页质量普遍较高,所以这种思路虽然简单,但有一定的依据。

大家想尝试使用代理ip,可以进入品易http官网了解更多内容,提供高匿稳定代理ip,支持HTTP/HTTPS/SOCKS5代理协议,提供动态IP、静态IP等服务。百兆带宽,千万ip资源,保证爬虫数据传输安全性。快捷获取网站数据,现在还有免费测试,赠送ip的活动!

了解更多详情见:http://http.py.cn/?utm-source=qie&utm-keyword=?0015。

关注

关注公众号,随时随地在线学习

本教程部分素材来源于网络,版权问题联系站长!

底部广告图