《左手上篮》之弹幕含‘’坤‘’量分析?!
对不起
别骂了别骂了我有错,但是我不认。哈哈哈
本来就是想爬一下最近比较火的国产动漫《左手上篮》,我是一个篮球爱好者 ,也是一个篮球迷,有这种篮球的国漫怎么会放过呢,所以我也想搞点事情分析分析弹幕,其实我有想过一个比较好的题目《左手上篮》--我们的灌篮高手,其实没开始爬之前我一直是这么想的,但是当我真正去爬的时候发现一个这样的弹幕‘‘123,背带裤’’事情就开始变得不一样了,我想正常的一板一眼的做弹幕数据分析是不是太无聊了,所以我决定做弹幕的含坤量分析,这就是我标题的来源。
爬取弹幕
上面这个就是我的爬虫代码了,其实非常简单,就是一个请求头,一个request函数,然后在爬的视频网站找到你要的json包,给他请求解析下来,然后写到我们的CSV文件中。下面就是我爬到的数据大概有两万条弹幕
数据处理
接着就是对爬到的数据进行中文分词,把弹幕用jieba分好词,大概有80万条小数据,我做的第一个处理是把他做一个词云图,通过对停用词的不同限定,做了几个版本的词云图,为什么做了几个版本呢,其实是被迫的,本来我早就开始这个项目了,就是在这里被卡了很久,不然早就做完了,主要就是stylecloud这个库不太熟悉,所以一直画不出来,第一个词云图其实是我用fineBI做的,直到今天有空了,所以好好研究了下,终于不报错了谢天谢地。其实画的还是很粗糙,大家将就看吧。
含坤量分析
接着有趣的来了,我们来看一下我们鸡哥在这些弹幕里的含量,首先我们在弹幕中把含坤的弹幕统计出来,words = ["坤", "背带裤", "小黑子", "ikun", "蔡徐坤", "只因", "鸡", "鸡你太美"],这些都是我们的含坤的弹幕类型,我们对弹幕进行筛选,有这些词的我们就把他放到一起去。
大概有多少呢?如图所示一共236条。接着我们对他进行数据的可视化,我分别做了柱状图和一个饼状图。
OK,最后一步含坤量的计算最后的结果是:
0.02906%
怎么算的呢?其实很简单就是用我们筛选出来的词比上我们全部的词。
结尾
以上内容,如有雷同纯属巧合,如有冒犯就是你对。
来源:juejin.cn/post/7221521544496873528