有哪些网站用爬虫爬取能得到很有价值的数据?

目录

第一部分:介绍爬虫项目

1、微信好友的爬虫

2、拉勾网的数据那么多的招聘信息有用吗/p>

3、豆瓣的图书、电影信息有用吗/p>

4、美团和大众点评的数据有用吗/p>

5、伯乐在线的文章数据有用吗/p>

6、腾讯NBA的用户评论数据有用吗/p>

7、链家网的数据有用吗/p>

8、知乎的数据如何用呢/p>

第二部分:对知乎的数据分析

1.0 简介

1.1 数据

1.2 玩的不是同一个知乎:均值、中位数与标准差

1.3 当雪球滚到最后:长尾和幂律分布

1.4 论如何滚成人生赢家:赞同与关注

2.0 社交网络是什么/p>

2.1 分析对象和分析方法

2.2 抱团的大V们:网络总体特征

2.3 给大V排个位:网络连接分析

2.4 不均衡中的均衡:Closeness和Betweenness中心度

2.5 大V都在关注什么:热门话题分析

第三部分: 抓取各类项目数据汇总

0、IT桔子和36Kr

1、知乎

2、汽车之家

3、天猫、京东、淘宝等电商网站

4、58同城的房产、安居客、Q房网、搜房等房产网站

5、大众点评、美团网等餐饮及消费类网站

6、58同城等分类信息网站

7、拉勾网、中华英才网等招聘网站

9、应用宝等App市场

10、携程、去哪儿及12306等交通出行类网站

11、雪球等财经类网站

12、58同城二手车、易车等汽车类网站

13、神州租车、一嗨租车等租车类网站

14、各类信托网站

15 简单来分析一下知乎的数据

附加

第四部分:提供几个API网站

一、生活服务

二、金融数据

1.股票

2.大宗商品

3.美股等综合类

4.财经数据

5.网贷数据

6.公司年报

6.创投数据

7.社交平台

8.就业招聘

餐饮食品

9.交通旅游

10.电商平台

11.影音数据

12.房屋信息

13.购车租车

14.新媒体数据

15.分类信息

16.网络指数(可能需用图像识别)

 

第五部分:详细数据分析

1.享一实验-获取QQ好友或QQ群里爆了照再撤回全部图片

1.统计一下图片文件所携带的信息

2. 拉勾网上的技术类的招聘信息

3.对拉勾网上面的职位信息进行爬取

爬虫系统

分析报告

4.职位印象

1.这是抓取的所有详情页数据

2.这是分析结果

5.留学论坛的数据分析:

1.利用D3.js做了一个拓扑图草图

2. 之后增加了筛选,按照投资次数多少来筛选投资机构

3. 增加了点击气泡查看被投资公司列表,

4. 增加line chart和bar chart查看全部投资机构或者各投资机构的投资趋势变化及在各轮次的投资次数变化。

第六部分:专爬知乎下的精华回答,作统计分析

一.代码

二.算法简述

1.爬虫算法

2.收集数量

3.分析内容

三.统计结果

1.匿名答主

2.答主性别

3.答主受教育情况

4.雇主

5.精华回答的赞同数

6.回答字数

后记

第七部分:从某处爬到的某美国著名高校170000+份研究生申请文件。

第八部分:爬过有趣的有用的有意义的网站

1.教务网站(涉及模拟登录)

2.小游戏网站

3.亚文化与小清新网站

4.微信公众号

5.股票数据

6.音乐网站

7.自己写的可配置爬虫

什么是可配置爬虫/p>

可配置爬虫Python

 

一、爬虫抓到的数据的分析方式设想

二.分析的主题:《基于新浪微博的京东白条发展建议》

第九部分:哪些数据比较有价值/p>

微信公众号数据

哪些数据比较有价值/p>

一、我们先拿企业和事业单位来分析

二、我们再来拿个人分析。

数据如何转换成回报–盈利模式探讨/p>

第十部分:爬取张佳玮138w+知乎关注者:数据可视化

一、前言

二、数据可视化

1、关注人数

/p>

2、性别情况

3、10w+大V

4、居住地分布

5、Top20 系列

6、认证信息

7、优秀回答者

三、小结

第十一部分:拉勾招聘网站爬取了532条数据分析师岗位的招聘数据

一、数据分析师需求现状

(1)城市分布

(2)行业分布

(3)学历要求

(4)经验要求

(5)公司规模分布

(6)公司融资阶段

二、数据分析师工作简述

(1)岗位职责

(2)岗位要求

三、数据分析师薪资影响因素

(1)城市因素

(2)领域因素

(3)学历因素

(4)经验因素

(5)公司规模因素

(6)公司发展阶段因素

(7)技能因素

五、结论

(1)可选择北京和上海入职,并且选择移动互联网和金融行业。

(2)可选择公司规模较大、发展较为成熟的公司

(3)至少需要积累1年的相关工作经验,至少要掌握2个以上的数据分析工具

第十二部分:爬虫采集知乎的粉丝情况

分为两步,获取数据和分析数据

粉丝数排行

回答与发文量

简单总结,个人感觉、取决下面几点

第十四部分:用八爪鱼去采集

玩法

玩法一:收集最新热门新闻事件

玩法二:三分钟爬取QQ号码

玩法三:寻觅团购优惠和美食

玩法四:协助豆瓣打造个性化交友圈

玩法五:在百度地图上快速定位

玩法六:收集电商平台产品信息

玩法七:采集赶集网房源信息

玩法八:实时分析股票行情

玩法九:采集招聘网站职位信息

玩法十:高效收罗法律判决文书

实战

一、数据来源

二、分析部分

1、什么样的公司爱招数据产品经理(数据PM需求现状)

2、什么样的求职者更符合企业期望 (企业对数据PM要求)

3、 什么样的企业最壕(数据PM待遇)

3.2学历

3.3城市

三、总结


回顾之前,我用爬虫做了很多事情。

第一部分:介绍爬虫项目

 

1、微信好友的爬虫

了解一下你的好友全国分布,男女比例,听起来似乎是一个不错的想法,当然你还可以识别一下你的好友有多少人是用自己照片作为头像的,详细的内容可以点击这里:Python对微信好友进行简单统计分析

有哪些网站用爬虫爬取能得到很有价值的数据?

2、拉勾网的数据那么多的招聘信息有用吗/strong>

当然有用,你想了解一下你所在城市的各种主流语言(Java、PHP、JavaScript、Python、C++)的薪资水平吗或许对你的学习决策是一个很大的帮助:

  • Java/Python/PHP/C#/C++各大城市招聘状况分析
  • web前端开发各大城市招聘状况分析

有哪些网站用爬虫爬取能得到很有价值的数据?

3、豆瓣的图书、电影信息有用吗/strong>

当然有,你想了解一下哪位小说作家的作品质量最高吗否想了解豆瓣上最热门的书记都有哪些,有没有你错过的好书籍呢瓣的电影评论有水军吗/p>

  • 爬取6.6w+豆瓣电影之后的分析故事
  • 豆瓣5.6分的《西游伏妖篇》评论有水军吗/li>

有哪些网站用爬虫爬取能得到很有价值的数据?

 

 

4、美团和大众点评的数据有用吗/strong>

有呀,你真的了解周黑鸭和绝味吗知道在哪些城市周黑鸭比绝味火,哪些城市绝味比周黑鸭火呢果你都不知道,你就不算是鸭脖控!你所不知道的周黑鸭和绝味鸭脖

有哪些网站用爬虫爬取能得到很有价值的数据?

 

5、伯乐在线的文章数据有用吗/strong>

有啊,作为技术人员如何写一篇受欢迎的技术文章,作为一名Python初学者如何快速找到Python全面的学习资料,一个爬虫就够了:抓取1400篇Python文章后的故事(内附高质量Python文章推荐)

有哪些网站用爬虫爬取能得到很有价值的数据?

 

 

6、腾讯NBA的用户评论数据有用吗/strong>

你用会员看一场NBA,我用爬虫也能看完一场精彩的NBA:用弹幕看一场NBA(公牛 – 老鹰),甚至我还能看到很多你看不到的东西,不信你点进链接看一看。

有哪些网站用爬虫爬取能得到很有价值的数据?

7、链家网的数据有用吗/strong>

当然有啦,我能快速地找到我想租的房子,当然我还有一项特殊的技能,我还能用这些数据画出城市的地铁交通路线,是否很想知道如何做:如何拿链家网的租房数据做些有意思的事情/p>

有哪些网站用爬虫爬取能得到很有价值的数据?

 

8、知乎的数据如何用呢/strong>

如何判断一场知乎live的质量,如何发现知乎中有趣的东西,知乎中最厉害的粉丝最多的都有哪些人想知道吗/p>

  • 不交智商税,如何判断一场知乎live的质量/li>

有哪些网站用爬虫爬取能得到很有价值的数据?

 

接下来详细介绍下对知乎的数据分析

第二部分:对知乎的数据分析

       当初就是因为看到他在专栏上发的两篇知乎数据分析的文章,觉得知乎非常有分析的价值,于是在一个Course Project里提出了这个题目。正如文中已提到的,这个小项目其实远远没达到令人满意的程度,挖得太浅,实际处理的数据量也很小,我其实是还想继续做下去的。如有任何问题敬请指正,如有朋友想要在此基础上继续做点啥的也请让我知道。

 

1.0 简介

本文主要语言为Python。项目的原始材料为英文撰写,内容包括了从爬取知乎数据一直到结果分析的整个过程。在本文中我打算略去数据爬取和数据库I/O的部分,重点在分享一些有趣的结论。分析过程若有不周之处,还望指正。

 

为保证可读性,本文将分为上下两篇,一篇只涉及数据介绍及基本的统计分析,另一篇是基于用户关注网络和关注话题进行的分析

如果对这个小项目的全貌感兴趣,甚至想要自己fork过来玩玩,这里是项目的Github传送门。数据的压缩包可以在这里下载(使用请注明来源为本答案页面)。
 

1.1 数据

虽说不讲数据爬取,但要说清楚我们所使用的数据到底是啥,还是得简单提一下的。2015年10月,我们使用了本人的知乎账号作为种子,先获得了所有我关注的用户的数据,再获得了这些用户所关注的用户的数据,所以算上种子的话一共是3层的广度遍历(注意其实这个数据可能是存在严重bias的,毕竟seed是一个逗逼,逗逼关注的人呢…咦怎么感觉脖子一凉)。这里的用户数据包括:用户的回答数,用户获得的赞同数、感谢数,用户关注的人和关注用户的人,用户回答过的问题以及每个问题的话题标签。这里给出数据的简要统计信息:

 

  • 数据库文件: 688 MB(SQLite)
  • 数据包含:2.6万名用户, 461万条关注连接, 72万个问题

 

这里是一张数据全貌的图示:

 

有哪些网站用爬虫爬取能得到很有价值的数据?

下面将着重介绍我们所做的分析。

1.2 玩的不是同一个知乎:均值、中位数与标准差

要告诉别人我们在知乎上混得怎样,最基础的几个指标是什么呢定是关注、回答、赞同、感谢。所以我们首先对用户的关注数(followee)关注者数(follower,粉丝数)回答数(answer)收到赞同数(agree)收到感谢数(thanks)的平均数、中位数以及标准差进行了计算,结果如下表:

 

有哪些网站用爬虫爬取能得到很有价值的数据?

里其实就有许多有趣的结论了。

 

首先我们看平均值,哇,平均每个人有三千多粉丝,三千多赞同,再看看可怜的我,306个粉和837个赞,而且他们回答的问题也并不多啊,却有那么多赞和粉丝,还让不让人玩知乎了看看中位数,顿时心里好受一些了,原来我混得挺不错嘛,五个指标都是我比较大,真开心(你是不是傻)。

 

究竟是什么原因造成平均值和中位数差异这么大呢,也许我们能从标准差看出来一些端倪——太大了,粉丝数和赞同数的标准差甚至超过了两万。

 

这意味着什么呢们知道,标准差其实衡量了数据个体之间的离散程度,也可以解释为大部分的数值和其平均值之间的差异。因此这么大的标准差可以说明知乎用户之间的差距可能略大于整个银河系(雾),同时也说明绝大部分用户的数值和平均值有很大的差距,要么大得离谱(比如),要么小得可怜(比如我)。

 

有人可能会不服气,说标准差严重依赖于数据本身的scale,不能充分说明问题。那么这里使用标准离差率(标准差除以平均值)来算算赞同数,21951.4/3858.4 = 568.9%。我~就~问~你~服~不~服~

 

以上现象还可以导出一个猜测,那就是知乎用户的这五个指标的值分布,都不大可能是正态分布及其近似。让我们回想正态分布的样子:

 

有哪些网站用爬虫爬取能得到很有价值的数据?

(图片来源:https://zh.wikipedia.org/zh-cn/%E6%AD%A3%E6%80%81%E5%88%86%E5%B8%83)
 

如果是正态分布,中位数(最中间的值)、众数(最多的值)以及平均值三者至少应该是非常接近的,然而我们这里却是地月距离(怎么一下缩水那么多)。

1.3 当雪球滚到最后:长尾和幂律分布

为了进一步验证1.2的猜测,我们绘制了五个指标的分布图(Distribution Graph)。

有哪些网站用爬虫爬取能得到很有价值的数据?

有哪些网站用爬虫爬取能得到很有价值的数据?

有哪些网站用爬虫爬取能得到很有价值的数据?

有哪些网站用爬虫爬取能得到很有价值的数据?

有哪些网站用爬虫爬取能得到很有价值的数据?

这里说明一下这五张分布图的含义,横轴表示指标的具体数值,纵轴表示有多少用户具有该指标值。需要注意的是横轴值和纵轴值都取了以10为底的log,这是研究中一种常见的处理办法,能够使图所表达的信息更清晰。以感谢数分布图为例,那个最左上方的点表示在这两万多知乎用户里面,有大于10的三次方也就是1000的人没有获得一个感谢(摸摸大);而最下面那一排点则是说,感谢数是x1,x2,…, xn (反正都不小)的用户,都只有一个人——注意仅这一排点并不能形成什么有效的结论,因为可能感谢数100的只有一个人,101的就有好多人了,这一定程度上大概是因为数据量小,采样不足。但是如果把下面几排点放到一起考虑,也许会更有启发一些。

 

顺便提一句,其实关注数和粉丝数的分布图分别还有另外一个名字,它们其实是知乎用户关注网络的出度(out-degree)分布图和入度(in-degree)分布图,这点在下篇中还会有所提到。

 

如果是对这种分布图比较熟悉的童鞋,应该一眼就能看出,这绝壁不是正态分布,而极有可能是幂律(power law)分布(不过因为懒我们并没有做拟合去验证),这种分布在许多有人参与其中的网络中都会出现。此外,仔细比较这五条曲线的整体形状,有没有觉得有两条与另外三条略有不同条是关注数,一条是答案数,这两条曲线向外的弯曲程度似乎更明显,也就是说随着横轴值的增大,纵轴值减小的趋势相对较慢,而恰好五个指标里只有这两个是某个用户自己可以控制的,而其他三个指标则是由其他用户形成的群体所控制,这是很奇妙的一点,我觉得其实还有深挖的可能性。

 

现在让我们以感谢数为例,再画另外一种分布图。横轴表示每个用户的index也就是0,1, 2, 3…,顺序由感谢数大小决定,纵轴则是该用户收到感谢数的具体数值:

有哪些网站用爬虫爬取能得到很有价值的数据?

看到那个突破天际的点了吗,二十七八万的感谢(其实这个点在前面那张感谢数分布图中也出现了,你还认得仅在几个自然段以外的它吗)!再看看下面那条长长的尾巴,人艰莫拆。再来看一个更夸张的,赞同数:

有哪些网站用爬虫爬取能得到很有价值的数据?

其他三个指标的图的形状也基本如此。

 

苏莉安曾使用远大于我们的数据量做了类似的分析,结论是一致的。总结一下就是:大多数人小得可怜,却有极少数人大得可怕,一点也不正(可)态(爱)。前几年不是有本书很火吗,叫做《长尾理论》谓来源:BC_COM

声明:本站部分文章及图片转载于互联网,内容版权归原作者所有,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2019年4月3日
下一篇 2019年4月3日

相关推荐