Python3如何爬取网络图片?
阿卡巴卡
2021-03-19 18:43:1054浏览 · 0收藏 · 0评论
处于大数据时代的我们,如何更快的获得数据显得尤为重要。Python爬虫作为简洁高效的数据获取工具,已经成为我们生活、工作必不可少的一部分。今天,就为大家简单介绍一下如何用python3爬取网络图片,这也是一种常见的爬取图片的方法。
代码:
# -*- coding:utf-8 -*- import urllib import urllib.request import re def getHtml(url): request = urllib.request.Request(url) response = urllib.request.urlopen(request) html = response.read() return html def getImg(html): reg = 'src="(.+?\.jpg)"' #正则表达式 imgre = re.compile(reg) imglist = re.findall(imgre, html.decode('utf-8')) x = 1 for imgurl in imglist : urllib.request.urlretrieve(imgurl,'%s.jpg' % x) # 设置了要下载的图片资源路径和要命名的名字 print('正在下载第%s张图片' % x) x+=1 if x>6: #设置爬取图片的张数 break return None html = getHtml("https://tieba.baidu.com/p/5955671551")#获取该网址网页详细信息,html就是网页的源代码 getImg(html)
以上就是常见的爬取图片的方法了,我们需要注意的是,有的网站会对每个IP所能抓取的数据做了限制,在爬取的过程中,容易返回拒绝访问的错误信息。这样我们就无法获取想要的内容了,或许还会被封IP。这时我们使用代理IP,不停地切换IP,就可以突破限制,从而提高工作效率。
关注公众号,随时随地在线学习