12赞

Python爬虫自动化爬取b站实时弹幕实例方法

作者：手机用户2402851335 | 2022-01-05 15:44

在本篇文章里小编给大家整理的是一篇关于Python爬虫自动化爬取b站实时弹幕实例方法，有兴趣的朋友们可以学习下。

最近央视新闻记者王冰冰以清除可爱和专业的新闻业务水平深受众多网友喜爱，b站也有很多up主剪辑了关于王冰冰的视频。我们都是知道b站是一个弹幕网站，那你知道如何爬取b站实时弹幕吗？本文以王冰冰视频弹幕为例，向大家介绍Python爬虫实现自动化爬取b站实时弹幕的过程。

1、导入需要的库

import jieba # 分词
from wordcloud import WordCloud # 词云
from PIL import Image # 图片处理
import numpy as np # 图片处理
import matplotlib.pyplot as plt # 画图

2、 jieba分词

所谓的分词就是将一句话分成一个或几个词语的形式，

分词代码

# 读取停用词库,注意编码应为‘utf8'
f = open('小夜斗的停用词表.txt', encoding='utf8')
stopwords = f.read().split('\n')
print(stopwords) # 打印停用词
f.close() # 关闭停用词文件

3、打印出的为一个停用词列表

with open("冰冰vlog2.txt", "r", encoding='utf8') as fp:
text = fp.read()

4、读取冰冰弹幕数据文件的操作，将其保存到text变量中

segs = jieba.cut(text) # 进行jieba分词
mytext_list = [] # 构建一个容纳过滤掉停用词的冰冰弹幕数据文件
# 文本清洗
for seg in segs: # 循环遍历每一个分词文本
  # 如果该词不属于停用词表 并且非空 长度不为1
  if seg not in stopwords and seg != "" and len(seg) != 1:
    # 将该词语添加到mytext_list列表中
    mytext_list.append(seg.replace(" ", ""))
print(mytext_list) # 打印过滤后的冰冰弹幕数据

5、获取过滤停用词后的冰冰弹幕数据

cloud_text = ",".join(mytext_list) # 连接列表里面的词语
print(cloud_text)

到此这篇关于Python爬虫自动化爬取b站实时弹幕实例方法的文章就介绍到这了,更多相关Python爬虫如何实现自动化爬取b站实时弹幕内容请搜索以前的文章或继续浏览下面的相关文章希望大家以后多多支持！

推荐阅读

程序员
DYLD_LIBRARY_PATH和DYLD_INSERT_LIBRARIES无法正常工作

如何解决《DYLD_LIBRARY_PATH和DYLD_INSERT_LIBRARIES无法正常工作》经验，为你挑选了1个好方法。 ... [详细]
程序员
AngularJS与Angular

如何解决《AngularJS与Angular》经验，为你挑选了5个好方法。 ... [详细]
程序员
我一次只能压缩2次提交吗？

如何解决《我一次只能压缩2次提交吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Django和Node - 它是如何工作的？

如何解决《Django和Node-它是如何工作的？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用SHL指令reg,mem

如何解决《如何使用SHL指令reg,mem》经验，为你挑选了1个好方法。 ... [详细]
程序员
Java:捕获lambda异常

如何解决《Java:捕获lambda异常》经验，为你挑选了1个好方法。 ... [详细]
程序员
将React.element转换为JSX字符串

如何解决《将React.element转换为JSX字符串》经验，为你挑选了1个好方法。 ... [详细]
程序员
Git stash只有在成功隐藏之前才会弹出

如何解决《Gitstash只有在成功隐藏之前才会弹出》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用opencv warpaffine时如何保持白色背景

如何解决《使用opencvwarpaffine时如何保持白色背景》经验，为你挑选了1个好方法。 ... [详细]
程序员
Xcode 7新手; 简单的标签不会在模拟器中居中

如何解决《Xcode7新手;简单的标签不会在模拟器中居中》经验，为你挑选了1个好方法。 ... [详细]
程序员
选择从Windows将文件拖放到GLFW应用程序中

如何解决《选择从Windows将文件拖放到GLFW应用程序中》经验，为你挑选了1个好方法。 ... [详细]
程序员
覆盖Node.js Express响应方法

如何解决《覆盖Node.jsExpress响应方法》经验，为你挑选了1个好方法。 ... [详细]
程序员
JSX上的babelify转换以使React元素失败

如何解决《JSX上的babelify转换以使React元素失败》经验，为你挑选了1个好方法。 ... [详细]
程序员
TypeError:swal不是使用ngSweetAlert在angularjs中的SweetAlert.js中的函数

如何解决《TypeError:swal不是使用ngSweetAlert在angularjs中的SweetAlert.js中的函数》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何更改表中的现有主键？

如何解决《如何更改表中的现有主键？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Malloc是一组函数指针

如何解决《Malloc是一组函数指针》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何检测Windows Mobile转换为连续模式？

如何解决《如何检测WindowsMobile转换为连续模式？》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何模式匹配scala列表的head和tail类型？

如何解决《如何模式匹配scala列表的head和tail类型？》经验，为你挑选了1个好方法。 ... [详细]
程序员
闪亮的应用程序checkboxInput和conditionalPanel

如何解决《闪亮的应用程序checkboxInput和conditionalPanel》经验，为你挑选了1个好方法。 ... [详细]
程序员
在python3.5 osx上安装pygame

如何解决《在python3.5osx上安装pygame》经验，为你挑选了1个好方法。 ... [详细]

手机用户2402851335

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章