品易云推流 关闭
文章 > 其他 > 有哪些主流爬虫

有哪些主流爬虫

爬虫

头像

小妮浅浅

2021-05-06 09:56:36384浏览 · 0收藏 · 0评论

(推荐操作系统:windows7系统、Python 3.9.1、DELL G3电脑。)

1、通用网络爬虫

爬行对象从一些种子 URL 扩充到整个 Web,主要为门户站点搜索引擎和大型 Web 服务提供商采集数据。

2、聚焦网络爬虫

是指选择性地爬行那些与预先定义好的主题相关页面的网络爬虫。

import urllib.request
    # 爬虫专用的包urllib,不同版本的Python需要下载不同的爬虫专用包
import re
    # 正则用来规律爬取
keyname=""
    # 想要爬取的内容
key=urllib.request.quote(keyname)
    # 需要将你输入的keyname解码,从而让计算机读懂
for i in range(0,5):   # (0,5)数字可以自己设置,是淘宝某产品的页数
    url="https://s.taobao.com/search?q="+key+"&imgfile=&js=1&stats_click=search_radio_all%3A1&initiative_id=staobaoz_20180815&ie=utf8&bcoffset=0&ntoffset=6&p4ppushleft=1%2C48&s="+str(i*44)
# url后面加上你想爬取的网站名,然后你需要多开几个类似的网站以找到其规则
# data是你爬取到的网站所有的内容要解码要读取内容
    pat='"pic_url":"//(.*?)"'
# pat使用正则表达式从网页爬取图片
# 将你爬取到的内容放在一个列表里面
    print(picturelist)
    # 可以不打印,也可以打印下来看看
    for j in range(0,len(picturelist)):
        picture=picturelist[j]
        pictureurl="http://"+picture
        # 将列表里的内容遍历出来,并加上http://转到高清图片
        file="E:/pycharm/vscode文件/图片/"+str(i)+str(j)+".jpg"
        # 再把图片逐张编号,不然重复的名字将会被覆盖掉
        urllib.request.urlretrieve(pictureurl,filename=file)
        # 最后保存到文件夹

3、增量式网络爬虫

指对已下载网页采取增量式更新和只爬行新产生的或者已经发生变化网页的爬虫,它能够在一定程度上保证所爬行的页面是尽可能新的页面。

4、深层网络爬虫

Deep Web 是那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的,只有用户提交一些关键词才能获得的 Web 页面。Deep Web爬虫爬行过程中最重要部分就是表单填写。

以上就是主流爬虫的介绍,我们在使用爬虫之前,可以简单了解一些不同的爬虫类型,再根据自己需要获取的数据类型,选择合适的爬虫。爬虫使用时经常会用到代理ip,如果大家想测试使用下,可以尝试品易云http代理ip,免费测试包含各种类ip资源,无限调用IP量!更多常见问题解决:ip

关注公众号

关注公众号,随时随地在线学习

本教程部分素材来源于网络,版权问题联系站长!

底部广告图 底部广告图按钮