B站某视频弹幕抓取

网络爬虫

浏览数:260

2019-8-25

爬虫这东西很实用,意义不下于你学会做PPT和Excel。真正掌握方法论很难,需要时间和不断的实践。但掌握一门小工具,投入和产出比在我看来是比较惊人的。

爬虫其实没有这么难。最近在三节课上上了一堂陈大欣老师的课,随手做做课程笔记+作业。

抓取链接:忘了,B站随便点开的一个视频;

主要思路:

1. 这个是做到现在我觉得挺好玩的一个抓取,不是做的爬虫,就直接在chrome查找到xml文件,点击打开位New Table;

2. 打开Excel-数据选项卡-自网站,粘贴到这个tab的链接,然后就能做了;

3. 关于时间,需要换算一下,公式在表里面;

4. 另外,这张表里有两个时间,一个是发布时间,即2016年6月28日(在下面不知道怎么公式没显示出来,但是下载后的excel发布时间这一栏显示的就是正常年月日+时间);另一个是时长,即弹幕在这个视频中是什么时候发的。

5. 这两个都涉及到excel数字格式的使用,例如时长是 1313s,如何转换成X分X秒呢?可以用到两个公式。

=INT(H16/60)&”分”&MOD(H16,60)&”秒”,Int函数取整,Mod函数求余,&连接;

=TEXT(H16/(60*60*24),”m’s”)

6. 数据透视表,汇总,计数,可以看到多少分多少秒,有多少弹幕;这个东西是最好玩的,如果没有耐心看完整个视频,只需要在挑个弹幕数量最多的时间点High一下就行了。



作者:许默默