Python3编码如何实现相互转化？-Python学习网

Python3编码如何实现相互转化？

2020-11-13 16:46:183797浏览 · 0收藏 · 0评论

我们出去国外旅游时，需要把钱转换成当地的货币才能消费，如果只带了自己的货币可能什么事情也做不成。在python中，不同的编码是不能直接互通的，需要转化后才能使用，这就是我们所说的转化的过程。不知道最近小伙伴们有没有遇到这方面的问题，小编未雨绸缪为大家找好了解决的方法，有需要的小伙伴赶紧看看吧。

可以通过 Unicode 编码来进行不同编码之间的相互转化

了解 ASCII、Unicode、UTF-8、GBK 这四种编码的相关概念
不同的编码之间不能互相识别，不能相互转化，会报错或出现乱码
国际通用标准：文字通过网络传输、或硬盘存储等不能使用 Unicode 编码方式，因为 Unicode 使用的是升级版 32 位的，太费流量和空间
在 Python3 版本中，唯独 string 在内存中的编码方式是 Unicode，所以字符串不能直接进行网络传输及进行文件的存储
bytes：也是一种数据类型，不是字节，与 string 类型就像是孪生兄弟

为啥要有 bytes ？—— bytes 内部编码不是 Unicode 方式，因此可以进行网络传输和文件的存储

前面提到，string 类型却是 Unicode 方式，为啥平时我们用的是 string 而不是 bytes？——因为 bytes 的中文是 16 进制方式存在

因此，一般当需要网络传输数据或者文件存储时要考虑用 bytes 类型。

s1 = "abc"
s2 = b"abc"
 
print(type(s1))     # <class 'str'>
print(type(s2))     # <class 'bytes'>

string 转化成 bytes 的方法

######## 方法一 ########
# Unicode编码方式的 string --> GBK编码方式的 string --> GBK编码方式的 bytes
# encode    编码
# decode    解码
 
# Python3 版本中，字符串的编码方式就是 Unicode, 所以这里等同于 s = u"中国"
s1 = "中国"
b = s1.encode("gbk")
s2 = b.decode("gbk")
 
print(s1)           # 中国
print(b)            # b'\xd6\xd0\xb9\xfa'
print(s2)           # 中国
print(type(s1))     # <class 'str'>
print(type(b))      # <class 'bytes'>
print(type(s2))     # <class 'str'>
 
# 原因解析：首先 s1 是以 Unicode 编码方式的 string
# 然后 b 是将 Unicode 编码方式的 string 转化成 GBK 编码方式的 bytes
# 最后 s2 是将 GBK 编码方式的 bytes 转化成 Unicode 编码方式的 string
 
 
######## 方法二 ########
# Unicode编码方式的 string --> UTF-8 编码方式的 string --> GBK编码方式的 bytes
 
s1 = "中国"
b = s1.encode("utf-8")
s2 = b.decode("utf-8")
 
print(s1)           # 中国
print(b)            # b'\xe4\xb8\xad\xe5\x9b\xbd'
print(s2)           # 中国
print(type(s1))     # <class 'str'>
print(type(b))      # <class 'bytes'>
print(type(s2))     # <class 'str'>

强调一点：不同编码之间只能通过 Unicode 编码方式来相互转化