python爬虫接单-资料总结

一、开发工具

1、python 3.6(我个人推荐3.6版本的,因为之前我使用3.7版本的发现有些函数没有,然后又换了3.6的)
2、pycharm (这个最新版的都可以)

二、基础

爬虫大部分是用python写的,所以学爬虫之前要有一些python语言基础。

Python 做爬虫的优势

  • PHP : 对多线程、异步不太好
  • Java : 代码量代码笨重
  • C/C++ : 代码量难以编写
  • Python : 模块多、代码简介、开发效率(scrapy框架)

爬虫的基本流程:

  • 1、发起请求
    使用http库向目标站点发起请求,即发送一个Request
    Request包含:请求头、请求体等

  • 2、获取响应内容
    如果服务器能正常响应,则会得到一个Response
    Response包含:html,json,图片,视频等

  • 3、解析内容
    解析html数据:正则表达式,第三方解析库如Beautifulsoup,pyquery等
    解析json数据:json模块
    解析二进制数据:以b的方式写入文件

  • 4、保存数据
    数据库

这边有篇文章是关于爬虫心得的,同时也举了个爬虫的案例,可以看一下。点击这里

三、接单小结

现在爬虫接单的范围比较广,外包平台有很多,接单的网站有猪八戒网,a5外包,码市,一品威客网,淘宝网等都可以接单。或者加一些QQ、微信爬虫接单群,群里会有人发布爬虫任务单。像一些国外的freelancer,在这里赚的是美金(虽然我没接过这种)。

还有就是没必要学完全部的爬虫课程,才开始爬虫。当你学到scrapy框架之后(以我的资料为例),就可以接一些简单的爬虫单了。而且在接单的过程中,又复习了爬虫的知识。当然在边学边接单的时候,要注意时间,不能按时完工的单还是不要接。量力而行。

爬虫接单注意事项:

  • 文明爬虫,不做违法的爬虫
  • 先谈好价格,然后在开始做任务
  • 对于大项目,可以请求客户先付一部分押金
  • 接单时谨慎,避免被骗

四、爬虫资料

对于爬虫这么技术,感觉时刻是在更新的,或许前几个月能爬的网站代码,过不了多久就又爬不了了。不过也不用担心,大部分网站都还是可以的。

这边我整理了爬虫资料(有视频教程,文档,写好的代码文件,以及一些爬虫所需要的软件安装包),有需要的可以在我的主页—资源 里面下载。

python爬虫接单-资料总结
值得一提的是,这份资料里面有讲到移动端爬虫。有介绍了不少Android开发的基础知识(关于activity控件,一个简单登录app的搭建),当时我学的时候,感觉很有兴趣,然后我又自学了关于Android开发的相关知识。就是当你做出一个自己的软件的时候就特别有成就感。

后续说不定我会更新一些关于Android开发的博客。

来源:Author_天马行空

声明:本站部分文章及图片转载于互联网,内容版权归原作者所有,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2021年6月3日
下一篇 2021年6月3日

相关推荐