文章 > 爬虫入门 > Python爬虫如何实现自动化爬取b站实时弹幕

Python爬虫如何实现自动化爬取b站实时弹幕

Python爬虫

头像

宋雪维

2021-03-18 16:56:05636浏览 · 0收藏 · 0评论

banner57(4).png

1、导入需要的库

import jieba  # 分词
from wordcloud import WordCloud  # 词云
from PIL import Image  # 图片处理
import numpy as np  # 图片处理
import matplotlib.pyplot as plt  # 画图

2、 jieba分词

所谓的分词就是将一句话分成一个或几个词语的形式,

分词代码

# 读取停用词库,注意编码应为‘utf8’
f = open('小夜斗的停用词表.txt', encoding='utf8')
stopwords = f.read().split('\n')
print(stopwords)  # 打印停用词
f.close()  # 关闭停用词文件

3、打印出的为一个停用词列表

with open("冰冰vlog2.txt", "r", encoding='utf8') as fp:
	text = fp.read()

4、读取冰冰弹幕数据文件的操作,将其保存到text变量中

segs = jieba.cut(text)  # 进行jieba分词
mytext_list = []  # 构建一个容纳过滤掉停用词的冰冰弹幕数据文件
# 文本清洗
for seg in segs:  # 循环遍历每一个分词文本
	# 如果该词不属于停用词表 并且非空 长度不为1
	if seg not in stopwords and seg != "" and len(seg) != 1:
		# 将该词语添加到mytext_list列表中
		mytext_list.append(seg.replace(" ", ""))
print(mytext_list)  # 打印过滤后的冰冰弹幕数据

5、获取过滤停用词后的冰冰弹幕数据

cloud_text = ",".join(mytext_list)  # 连接列表里面的词语
print(cloud_text)

以上就是Python爬虫实现自动化爬取b站实时弹幕的过程,希望能对你有所帮助哦~更多python爬虫学习推荐:python爬虫

(推荐操作系统:windows7系统、Python 3.9.1,DELL G3电脑。)

关注公众号

关注公众号,随时随地在线学习

本教程部分素材来源于网络,版权问题联系站长!

底部广告图 底部广告图按钮