爬虫写得好,牢饭吃到饱?

先说一条新闻,一家专注大数据的数据服务提供商公司巧达科技,因为大量使用爬虫访问其他公司接口获取数据,整个公司被抓,最后不光管理者,干活的程序员也被抓了。

c0aa0f478f17b2ed555879c31e46a98d.png

一、爬虫是什么

首先,我们要明白爬虫到底是什么东西。抛开复杂的定义,爬虫就是一种自动获取互联网内容的程序。简单来说,爬虫通过模拟一个人类浏览网页的行为,到各个网站溜达溜达,看看有没有需要的数据,有的话就记录保存下来。

这么看起来,爬虫就是把人能干的事情给自动化了,高效地获取互联网上的内容。

25beef65aebfe04b0b48caf70a757a4b.gif

除了个人写的爬虫,像百度、谷歌这些搜索公司,依据的基本技术也是爬虫,搜索公司每天放出百万级别的网络爬虫,爬取各个页面的资源,写进自己的数据库,为搜索结果提供数据,还可以定期的保存网页快照供用户快速查看。

9f754950d05e7bf16268b3e6ed94cef4.png

求职者的简历,所有的修改记录,全部被保存下来。

只要你曾经修改过简历,每一次的修改都会被记录,比如你曾经公开现在不愿意公开的信息,HR都能看到。

类比一下,你想想你十年前在QQ空间发的“45度角仰望天空,泪流满面,忘了爱”,十年后还能被大家看到。或者是你跟前男友前女友发的合照,随时都能被翻出来,你恶不恶心/p>

第二个,爱伙伴。

多么有爱的名字,听起来就感觉很温暖,那么它能干什么呢/p>

通过爬虫收集各个招聘网站的数据,包括用户投递简历、修改简历、简历被查看,来决定是否通知用户的公司HR。

简单来说,就是员工离职预警。

e8655c1e27fc5068f849939ea1d594ba.png

实际上原理也就是使用爬虫,模拟人点击抢票的方式。

为了对付这些抢票爬虫,12306的验证方式不断升级,包括丧心病狂的认人脸方式。

比如,请找出图片里的白百何。

2055c66421dc822fec2ed4b553fbb61c.png

四、我们该如何分清违法和不违法的界限

讲到这里,其实大家对爬虫是否违法可能有了一个模糊的概念。爬虫本身并不违法,但你用爬虫做的事情就可能违法了。

那我们该如何分清违法和不违法的界限呢实作为普通人,并不需要太担心自己写的爬虫把自己送进监狱,这里给大家介绍几个注意事项,按照这个规范来,你就可以放心大胆、自由自在的爬取数据了。

第一,不要爬取公民隐私信息。有些网站可能自身安全建设不足,不小心在某个隐秘的链接暴露了自己的用户数据,正常情况下你可能看不到这些数据,但爬虫本来就喜欢逛这些犄角旮旯。

如果你获取了公民的身份证、手机号等隐私信息,就有可能触犯侵犯隐私罪、非法获取公民个人信息罪。

第二,不要爬取网站不公开的数据,比如某些政府网站的数据,某些互联网公司的后台日志,一旦获取就可能犯罪。

第三,不要对被爬取的网站造成实际影响。大部分网站是欢迎百度、谷歌来爬的,作为一个需要流量的网站,恨不得拿着喇叭大声吆喝:百度,给老子爬!

不然你在百度上没数据,别人搜不到,你的流量就无法保证。

但是,你不能造成影响,你说我爬取了网站数据保存下来,好,可以。但是你每秒请求的三十万次,直接给人家服务器搞崩溃了,那大概率是可以追你一个破坏计算机信息系统罪的。

第四,尽量遵守robots.txt协议

robots.txt协议是爬虫届的一个潜规则协议,网站声明自己欢迎哪些爬虫来爬,自己的哪些链接能够被爬。

d1d13a8e8fe82f98c4ea0d313511e063.png

360为了拓展自己的搜索业务,去爬取百度的数据,这事儿就有意思,百度爬了别人的数据,我360再去爬你的数据。那百度肯定不能干啊,就在自己的robotx.txt协议里写明了“其他爬虫可以来,你360的爬开”。

哎,robots协议不是强制协议,也没法限制别人真的来爬取,于是360就接着爬,爬完之后就存到自己的快照给用户搜索。

百度就告360不正当竞争,最终结果360违反《反不正当竞争法》判赔百度70万。

但这件事没完,360马上告百度滥用协议,搞排斥竞争者的恶意竞争。

结果360也胜诉了,百度被判赔20万。

所以说,很多时候爬虫做的事情都是在违法与不违法的边缘反复横跳,但只要你完全遵守上面几条规则,那作为个人开发者就还是安全的。

文章知识点与官方知识档案匹配,可进一步学习相关知识Java技能树首页概览92454 人正在系统学习中

来源:走神的阿圆

声明:本站部分文章及图片转载于互联网,内容版权归原作者所有,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2022年3月6日
下一篇 2022年3月6日

相关推荐