反反爬虫之js加密参数获取

网络爬虫

浏览数:59

2019-8-26

反爬虫与反反爬虫从爬虫诞生开始就已经存在,反爬策略层出不穷,反反爬也都应对有招。

就我目前碰到的反爬,从简单的user-agent,ajax,封ip,到限制账号访问频率,验证码,加密参数等。这些都是非常常见的反爬,相信大家基本上都碰到过,除此之外,也有一些调皮的网站会有一些有特色的反爬,比如某个招聘网站,网页元素审查看到的标签排版及一些属性与网页源码有点出入,通过js对网页标签进行了改动(这里并不是指的ajax加载新内容),对于一些接触爬虫不久的朋友,可能会死磕在这里,用bs/xpath怎么死都取不出对应的内容呢,因为他们一直在f12元素审查,那并不是源码的真实面目。以上这个例子,来自我的一个爬虫初学者朋友。还有很多有趣的反爬,比如以下这个。。。。

这是我今天在一个群里面看到的哈哈。

对反爬虫与反反爬虫的恩怨情仇感到有兴趣的,推荐看这篇文章,或许你已经看过了:干货 | 那些你不知道的爬虫反爬虫套路

在tg上一个python爬虫群里面,有个群友让我帮忙解密一个网站的加密参数,当时记着了,现在考完有时间就看了看。

这个网站是一个快手火山抖音小视频合集网站,网站链接在这:

https://kuaiyinshi.com/

这个网站有一个接口,可以获取随机一个(我也不知道是什么规则,姑且称为随机)小视频的内容包括评论等等:

https://kuaiyinshi.com/api/dou-yin/recommend/

可以从这个接口中获得一个视频的url,比如:

//aweme.snssdk.com/aweme/v1/play/?video_id=:117:150:176:161:188:157:125:184:137:98:176:123:117:102:131:159:122:99:128:161:141:203:128:137:190:147:130:166:163:152:134:203&line=0&ratio=720p&media_type=4&vr_type=0&test_cdn=None&improve_bitrate=0

但事实上,直接用这个链接是获取不到视频的,通过抓包发现,真正的视频链接是以下这个:

//aweme.snssdk.com/aweme/v1/play/?video_id=4fc7b70d02b7436593373e35ec4bbe9a&line=0&ratio=720p&media_type=4&vr_type=0&test_cdn=None&improve_bitrate=0

通过对比可以看出,video_id参数的值i发生了改变,由:117:150:176:161:188:157:125:184:137:98:176:123:117:102:131:159:122:99:128:161:141:203:128:137:190:147:130:166:163:152:134:203变为了4fc7b70d02b7436593373e35ec4bbe9a

需要找到这个加密方法。

以下讲讲步骤

首先,肯定是打开网页开发者工具,刷新网页,抓包,分析抓到的http包内容。

然后,肯定是,ctrl+shit+F,全局搜索,搜索关键字:video_id。

可以看到,由两个js文件中出现了video_id。

分别为:

https://kys.tqdn.cn/js/main.js?t=1530178376    

https://kys.tqdn.cn/js/public.js?t=1529140999    

其中main.js如下:

太乱了,js代码就和毛线球一样,愿意的话,可以把它扯乱成一团,然后让你去把它理清。很显然,为了反爬,这个网站就是这样做的。

但不管怎么说,还得继续。

把它们全部复制出来,然后找个在线格式化js代码的网页小工具。得到如下格式化代码:

另外一个js文件也是这样。

然后再定位video_id在这两个js文件中的位置,观察一下发现,public.js中的video_id和加密方法无关系

在一个judgeSource的函数里面,大概可以看出是判断视频为抖音还是快手抑或是火山的一个函数。

所以只需观察main.js文件,大概长这个样子:

是不是很崩溃。。。

先定位下video_id在这个文件中的位置:

看到这第一个变量 __Ox1169c就大概明白了,原来这个文件把一些关键字词全部让这个__Ox1169c数组元素代替了,所以这个js文件才看起来那么让人发慌。

到这里其实考验的就是耐心了,一缕缕的把代码过一遍就行。

我们先看这些函数名字,发现都很有规律的,比如说,我们看到一个creatplay函数,猜也能猜出它的作用吧。在控制台试一下就知道了:

发现一回车,视频便换了一个,ok这个函数肯定和加密video_id有关,我们以这个函数为入口开始看。

看第一个 var _ =  __Ox1169c[94];

我们可以在控制台输入 __Ox1169c[94] 回车,很方便的查看 __Ox1169c[94]的值

按照这个方法,一个个把它还原成成直观的js代码,大致理解。

最后定位到这里:

发现 ab3d7fc 这个函数就是加密方法,ok到此为止,继续看 ab3d7fc 这个函数。

这个函数的两个参数,一个是video_id,一个是ky,ky在控制台输入也可获得。

将 ab3d7fc 这个函数,还原成本来的js代码:

这个时候,可以选择用execjs来执行这段js,或者把它换成python方法。

到此,成功获取了这个网站js加密参数的加密方法。

想爬抖音视频,却不知道抖音的app内加密参数,又不会逆向,除了分享链接接口的方法,这个网站上的抖音视频也很好爬。

作者:icetong_k