

最近几天抖音有点火,火到新榜大号上周(3.20-3.25)7天发布了5篇关于抖音的报道,今天还专门建了个“微微一抖”的群。
普通情况下,我们使用爬虫采集网络信息的时候是基于其网站的前端代码,也就是你在任意位置鼠标右键—查看网页源代码看到的那些。
抖音的视频都在APP上,我们没法查看他的源代码。好在抖音可以分享到微信然后使用浏览器打开查看。
有趣的是,本来其他人不可见的视频播放数据,前端代码中也做了展示。截图中play_count:138、aweme_id:2116、comment_count:1和share_count:1分别代表了该视频的播放数、视频ID、评论数和分享数。
查看该分享视频的url构造可以发现非常的简单,仅由、share、video和2116四个部分组成,其中前三部分是固定的,唯一变化的是最后一部分视频ID。按照正常的爬虫逻辑,我们只需要使用脚本不断递增该ID,即可实现遍历所有的视频。
实操发现,简单递增视频ID构造的URL视频并不存在。看来抖音对视频的ID是做了加密处理的。尝试分享了几个视频发现,ID有一定的规律,但数据量较小,无法做到解密。时间有限,我们下次再研究视频ID的递增逻辑。
除了通过网页的源代码采集网络数据外,对于APP信息的采集多通过抓包实现。所谓“抓包”,就是截获手机与服务器之间通信的数据,进行解析获取通信间传递的数据。
开始的几个视频请求地址是相同的,多划几次后发现增加了一个的请求地址。这就好玩了,我们都知道feed是流的意思,百度的信息流新闻地址也是,可以初步判定,从这个地址请求的数据应该是“流”式的,也就是说至少包含多个视频信息!
大量数据背后,理论上我们可以分析抖音的推荐逻辑,毕竟每6个视频一组打包下载,肯定存在某种规律;
最开始网页源代码采集的时候我们知道,视频的实际阅读量也是可以采集的,那么视频曝光量也就知道了,曝光量=广告价值;
现在的小姑娘真的出息了。本事没有㊖却够挑剔,真能耐了。不管她们,招人,人力资源部门的重要性。
坚持许久的读书会,终究被各种培训和作业所挤压,看到上次菲爸的生物课讲解,简单记录一下。 准备工作,显微镜,血片,笔...
临近春节,关于“家”的一切,每个人都无法回避。 有两个字,一个是“家”,一个是“冢”。人呱呱坠地,心...
癌这个词真的很可怕,你可能根本就不知道自己身体会有一个隐藏的癌变。当意外真的来临时你会怎么办,你可能会崩溃...