设为首页加入收藏
初探抖音的数据采集竟然简单到无脑! (来源:利来国标)
作者:利来国标    发布于:2020-07-05 08:21    文字:【】【】【


     

  最近几天抖音有点火,火到新榜大号上周(3.20-3.25)7天发布了5篇关于抖音的报道,今天还专门建了个“微微一抖”的群。

  普通情况下,我们使用爬虫采集网络信息的时候是基于其网站的前端代码,也就是你在任意位置鼠标右键—查看网页源代码看到的那些。

  抖音的视频都在APP上,我们没法查看他的源代码。好在抖音可以分享到微信然后使用浏览器打开查看。

  有趣的是,本来其他人不可见的视频播放数据,前端代码中也做了展示。截图中play_count:138、aweme_id:2116、comment_count:1和share_count:1分别代表了该视频的播放数、视频ID、评论数和分享数。

  查看该分享视频的url构造可以发现非常的简单,仅由、share、video和2116四个部分组成,其中前三部分是固定的,唯一变化的是最后一部分视频ID。按照正常的爬虫逻辑,我们只需要使用脚本不断递增该ID,即可实现遍历所有的视频。

  实操发现,简单递增视频ID构造的URL视频并不存在。看来抖音对视频的ID是做了加密处理的。尝试分享了几个视频发现,ID有一定的规律,但数据量较小,无法做到解密。时间有限,我们下次再研究视频ID的递增逻辑。

  除了通过网页的源代码采集网络数据外,对于APP信息的采集多通过抓包实现。所谓“抓包”,就是截获手机与服务器之间通信的数据,进行解析获取通信间传递的数据。

  开始的几个视频请求地址是相同的,多划几次后发现增加了一个的请求地址。这就好玩了,我们都知道feed是流的意思,百度的信息流新闻地址也是,可以初步判定,从这个地址请求的数据应该是“流”式的,也就是说至少包含多个视频信息!

  大量数据背后,理论上我们可以分析抖音的推荐逻辑,毕竟每6个视频一组打包下载,肯定存在某种规律;

  最开始网页源代码采集的时候我们知道,视频的实际阅读量也是可以采集的,那么视频曝光量也就知道了,曝光量=广告价值;

  现在的小姑娘真的出息了。本事没有㊖却够挑剔,真能耐了。不管她们,招人,人力资源部门的重要性。

  坚持许久的读书会,终究被各种培训和作业所挤压,看到上次菲爸的生物课讲解,简单记录一下。 准备工作,显微镜,血片,笔...

  临近春节,关于“家”的一切,每个人都无法回避。 有两个字,一个是“家”,一个是“冢”。人呱呱坠地,心...

  癌这个词真的很可怕,你可能根本就不知道自己身体会有一个隐藏的癌变。当意外真的来临时你会怎么办,你可能会崩溃...


脚注信息
版权所有 Copyright(C)2009-2015 利来国标(上海)实业有限责任公司