关于抖音、快手采集/爬虫的一些思路,采视频、采评论、采用户喜欢等通用办法.

一、算法

算法确实是很好用,但是破解难度大家应该都是知道的,随着版本的更新,算法经常也会变,一变你的软件也要随着更新,这无形中就增大了开发的成本,你要说采集效率吧! 我个人感觉也没快多少,毕竟访问频率也是有限制,你不可能访问一次就变换一次代理吧成本得有多大/p>

二、浏览器

不知道你们有没有发现,使用浏览器打开用户主页,但是用户作品根本没有显示出来,我相信很多人的算法都是通过网页版得来的,所以这就造成了一个现象,网页版的算法,经常要请求好多次才能返回一组数据.当然这里我不排除有大神是通过APP逆向得来的,这里我不探讨这种情况,因为逆向我也是半桶水.

三、抓包(Fiddler)

Fiddler可以说是除了TCP之外非常通用的一个抓包工具了,证书安装好之后要啥有啥,缺点没有API可以调用,除非你对它进行二次开发.不过也不用灰心,因为Fiddler有提供一个给第三方调用的dll库,我们在自己的程序中调用dll,把自己当成一个代理服务器,所有经过的请求都会先经过我这边,这样我就可以对数据进行处理了.

四、注意事项

雷电模拟器要用3.96.0版本的,apk用7.1版本的

我的思路:

1.利用Fiddler自制一个代理服务器,具体代码和dll库可以自行百度.

关于抖音、快手采集/爬虫的一些思路,采视频、采评论、采用户喜欢等通用办法.

2.使用模拟器进行操作,安装好证书,挂上代理,你刷你的视频,我的服务器会自动过滤数据,把有用的留下了

(1)配置模拟器,模拟器要选择手机版本,分辨率随意

关于抖音、快手采集/爬虫的一些思路,采视频、采评论、采用户喜欢等通用办法.

(2)用模拟器中的浏览器打开软件上面的链接(地址:端口), 例(192.168.0.109:8888)进行安装证书 

关于抖音、快手采集/爬虫的一些思路,采视频、采评论、采用户喜欢等通用办法.

(3)配置模拟器网络代理

关于抖音、快手采集/爬虫的一些思路,采视频、采评论、采用户喜欢等通用办法.

 


就是这么简单,不知道你Get到点了没种方法,不管放到什么app上面,都是可行的,只要你要抓的数据是通过http或者https进行传输的,那么这种方法都是可用的,只不过模拟器段你可能要写个脚本来操作请求的触发,相对于破解算法,一个自动化操作的脚本,那还不是小菜一碟.

关于抖音无法在模拟器中正常显示数据,这个大家可以去下7.1版本的apk,7.1版本的没有屏蔽模拟器.

这里放一个我自己写批量去水印下载的示例,感兴趣的可以自行下载试用,有什么问题或者需要更多的功能可以私信我交流,下载后右键属性解除锁定,否则可能无法正常使用.

https://wwa.lanzous.com/dyplxz623 

对了,win7系统可能不行,因为很多win7的Fiddler证书无法正常安装,所以就导致软件无法抓取https,这个你们可以自行测试.

 

 

来源:PLA12147111

声明:本站部分文章及图片转载于互联网,内容版权归原作者所有,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2020年7月8日
下一篇 2020年7月8日

相关推荐