品易云推流 关闭
文章详情页
文章 > Python基础教程 > python3如何提取汉字

python3如何提取汉字

Python 提取 汉字

头像

爱喝马黛茶的安东尼

2019-09-21 17:46:216238浏览 · 0收藏 · 0评论

采用正则表达式的方法对字符串进行处理。

str1 = "{我%$是,《速$@.度\发》中 /国、人"

相关推荐:《Python教程

(1)提取汉字

汉字的范围为”\u4e00-\u9fa5“,这个是用Unicode表示的。

import re
res1 = ''.join(re.findall('[\u4e00-\u9fa5]',str1))
print(res1)

输出为:

‘我是速度发中国人’

(2)去除所有符号。采用清理数据,仅保留字母、数字、中文的方法。

import re
res1 = re.sub("[^a-zA-Z0-9\u4e00-\u9fa5]", '', str1) 
print(res1)

输出为:

‘我是速度发中国人’
关注

关注公众号,随时随地在线学习

本教程部分素材来源于网络,版权问题联系站长!

底部广告图