文章 > 其他 > Python3如何爬取网络图片?

Python3如何爬取网络图片?

Python

头像

阿卡巴卡

2021-03-19 18:43:1054浏览 · 0收藏 · 0评论

  5eba309a9d730664.jpg

处于大数据时代的我们,如何更快的获得数据显得尤为重要。Python爬虫作为简洁高效的数据获取工具,已经成为我们生活、工作必不可少的一部分。今天,就为大家简单介绍一下如何用python3爬取网络图片,这也是一种常见的爬取图片的方法。

  代码:

 # -*- coding:utf-8 -*-
  import urllib
  import urllib.request
  import re
  def getHtml(url):
  request = urllib.request.Request(url)
  response = urllib.request.urlopen(request)
  html = response.read()
  return html
  def getImg(html):
  reg = 'src="(.+?\.jpg)"' #正则表达式
  imgre = re.compile(reg)
  imglist = re.findall(imgre, html.decode('utf-8'))
  x = 1
  for imgurl in imglist :
  urllib.request.urlretrieve(imgurl,'%s.jpg' % x) # 设置了要下载的图片资源路径和要命名的名字
  print('正在下载第%s张图片' % x)
  x+=1
  if x>6: #设置爬取图片的张数
  break
  return None
  html = getHtml("https://tieba.baidu.com/p/5955671551")#获取该网址网页详细信息,html就是网页的源代码
  getImg(html)

  以上就是常见的爬取图片的方法了,我们需要注意的是,有的网站会对每个IP所能抓取的数据做了限制,在爬取的过程中,容易返回拒绝访问的错误信息。这样我们就无法获取想要的内容了,或许还会被封IP。这时我们使用代理IP,不停地切换IP,就可以突破限制,从而提高工作效率。

关注公众号

关注公众号,随时随地在线学习

本教程部分素材来源于网络,版权问题联系站长!

底部广告图 底部广告图按钮