技术文章 > Python技术 > Python基础 > 正文

python3中编码如何获取网页?

学了python后,之前一些我们常用的方法,也可以换一种思路用python中的知识来解决。相信操作出来后,能收获一大批小粉丝们。就像我们没学习编程之前,看到那种大神都是可望而不可即。今天我们就之前简单获取网页的这种操作用python中的编码来解决,大家可以自行体会一下两者的不同。


1. encoding和apparent_encoding

import scrapy
url="https://www.ygdy8.net/html/gndy/dyzz/index.html"
re=requests.get(url)
#获取响应头Content-Type的charset值,有的网站没有charset字段,就可能使用默认的 ISO-8859-1
print(re.encoding)
#apparent_encoding就是获取网站真实的编码
print(re.apparent_encoding)


2. 处理方案

直接用r.encoding = ‘xxx’

re.encoding='utf-8'


3. requeststext() content() 有什么区别

re.text返回的是处理过的Unicode型的数据,

而使用re.content返回的是bytes型的原始数据。

 

4. 爬虫拿到的HTML和浏览器中的源码不相同时

通过下载源码对比

import requests
url = 'https://www.ygdy8.net/html/gndy/dyzz/index.html'
r  = requests.get(url)
r.encoding = r.apparent_encoding
html = r.text
with open('test.html','w',encoding='utf8') as f:
f.write(html)

 

 

以上就是python3编码获取网页的一些操作方法,小伙伴们学会没?当然获取网页的方法比较多,这里就不一一介绍,有机会的话小编会在后续的文章中更新一下。学习了python之后,编程应用于生活会越来越多,帮助我们简化生活的繁琐事情。

免费视频教程
本文原创发布python学习网,转载请注明出处,感谢您的尊重!
相关文章
 Python3编码如何实现相互转化?
 Python3编码如何实现文件操作?
 Python3编码类型有哪些?怎么转换?
相关视频章节
 网络爬虫
 云端部署Web应用程序视频
 Web应用框架Flask和文件模板
 Web应用程序开发概述
 继承和多态
作者信息

php中文网

认证0级讲师

最近文章
python3如何改变默认的ascii编码?835
推荐视频
视频教程分类