爬虫写得好，牢饭吃到饱？

先说一条新闻，一家专注大数据的数据服务提供商公司巧达科技，因为大量使用爬虫访问其他公司接口获取数据，整个公司被抓，最后不光管理者，干活的程序员也被抓了。

一、爬虫是什么

首先，我们要明白爬虫到底是什么东西。抛开复杂的定义，爬虫就是一种自动获取互联网内容的程序。简单来说，爬虫通过模拟一个人类浏览网页的行为，到各个网站溜达溜达，看看有没有需要的数据，有的话就记录保存下来。

这么看起来，爬虫就是把人能干的事情给自动化了，高效地获取互联网上的内容。

除了个人写的爬虫，像百度、谷歌这些搜索公司，依据的基本技术也是爬虫，搜索公司每天放出百万级别的网络爬虫，爬取各个页面的资源，写进自己的数据库，为搜索结果提供数据，还可以定期的保存网页快照供用户快速查看。

求职者的简历，所有的修改记录，全部被保存下来。

只要你曾经修改过简历，每一次的修改都会被记录，比如你曾经公开现在不愿意公开的信息，HR都能看到。

类比一下，你想想你十年前在QQ空间发的“45度角仰望天空，泪流满面，忘了爱”，十年后还能被大家看到。或者是你跟前男友前女友发的合照，随时都能被翻出来，你恶不恶心/p>

第二个，爱伙伴。

多么有爱的名字，听起来就感觉很温暖，那么它能干什么呢/p>

通过爬虫收集各个招聘网站的数据，包括用户投递简历、修改简历、简历被查看，来决定是否通知用户的公司HR。

简单来说，就是员工离职预警。

实际上原理也就是使用爬虫，模拟人点击抢票的方式。

为了对付这些抢票爬虫，12306的验证方式不断升级，包括丧心病狂的认人脸方式。

比如，请找出图片里的白百何。

四、我们该如何分清违法和不违法的界限

讲到这里，其实大家对爬虫是否违法可能有了一个模糊的概念。爬虫本身并不违法，但你用爬虫做的事情就可能违法了。

那我们该如何分清违法和不违法的界限呢实作为普通人，并不需要太担心自己写的爬虫把自己送进监狱，这里给大家介绍几个注意事项，按照这个规范来，你就可以放心大胆、自由自在的爬取数据了。

第一，不要爬取公民隐私信息。有些网站可能自身安全建设不足，不小心在某个隐秘的链接暴露了自己的用户数据，正常情况下你可能看不到这些数据，但爬虫本来就喜欢逛这些犄角旮旯。

如果你获取了公民的身份证、手机号等隐私信息，就有可能触犯侵犯隐私罪、非法获取公民个人信息罪。

第二，不要爬取网站不公开的数据，比如某些政府网站的数据，某些互联网公司的后台日志，一旦获取就可能犯罪。

第三，不要对被爬取的网站造成实际影响。大部分网站是欢迎百度、谷歌来爬的，作为一个需要流量的网站，恨不得拿着喇叭大声吆喝：百度，给老子爬！

不然你在百度上没数据，别人搜不到，你的流量就无法保证。

但是，你不能造成影响，你说我爬取了网站数据保存下来，好，可以。但是你每秒请求的三十万次，直接给人家服务器搞崩溃了，那大概率是可以追你一个破坏计算机信息系统罪的。

第四，尽量遵守robots.txt协议

robots.txt协议是爬虫届的一个潜规则协议，网站声明自己欢迎哪些爬虫来爬，自己的哪些链接能够被爬。

360为了拓展自己的搜索业务，去爬取百度的数据，这事儿就有意思，百度爬了别人的数据，我360再去爬你的数据。那百度肯定不能干啊，就在自己的robotx.txt协议里写明了“其他爬虫可以来，你360的爬开”。

哎，robots协议不是强制协议，也没法限制别人真的来爬取，于是360就接着爬，爬完之后就存到自己的快照给用户搜索。

百度就告360不正当竞争，最终结果360违反《反不正当竞争法》判赔百度70万。

但这件事没完，360马上告百度滥用协议，搞排斥竞争者的恶意竞争。

结果360也胜诉了，百度被判赔20万。

所以说，很多时候爬虫做的事情都是在违法与不违法的边缘反复横跳，但只要你完全遵守上面几条规则，那作为个人开发者就还是安全的。

文章知识点与官方知识档案匹配，可进一步学习相关知识Java技能树首页概览92454 人正在系统学习中

来源：走神的阿圆

声明：本站部分文章及图片转载于互联网，内容版权归原作者所有，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！