有哪些网站用爬虫爬取能得到很有价值的数据?

论坛 期权论坛 study     
gaga salamer   2018-10-22 19:36   48621   8
题主是个web程序员,最近想转去做数据分析,先练习的爬虫(python),各种爬取技巧以及多网站爬取等已经掌握,但发现转方向最无奈的是方向(要抓什么数据来干什么)比较迷茫,希望有前辈给予指导,哪些网站的数据抓取下来能获得有分析价值的数据,或者前辈的经验。
分享到 :
0 人收藏

8 个回复

正序浏览
8#
苏徐  4级常客 | 2018-5-31 14:23:26 发帖IP地址来自
以前写的一篇
苏徐:大数据告诉你如何求职数据PM原文如下
爬了拉勾的数据做了个分析,分析过程若有不周之处,还望指正
[h1]一、数据来源[/h1]拉勾网20170519根据“数据产品经理”关键字可以搜索到的职位。由于拉勾只展示符合搜索条件的前450个职位,为了获得更多的数据,设定不同的筛选条件分别爬取汇总,然后清洗了下,最后只剩下456个职位,296家公司。
[h1]二、分析部分[/h1]分析要点:
什么样的公司爱招数据产品经理(数据PM需求现状)
什么样的求职者更符合企业期望 (企业对数据PM要求)
什么样的企业最壕(数据PM待遇)
[h1]1、什么样的公司爱招数据产品经理(数据PM需求现状)[/h1]1.1行业
从行业上来看,移动互联网包揽了半壁江山,其次是数据服务,电子商务,金融和O2O。
但是,除了数据服务外,其余几个皆是近几年很火行业,这些行业公司数量本身偏多,不排除有这方面因素的影响。



此外,行业并没有明显表现出对不同经验人才需求的差异性,最喜欢3至五年,其实是1-3年和5-10年,1年以下和10年以上的凤毛菱角。(多个行业标签的公司重复计算)
1.2发展阶段
未融资和天使轮需求量远远小于其他类型,上市公司需求量远远高于其他类型。公司上市了,有一定的规模和资金实力,数据方面开始投入和重视起来。而成立不久的小公司,很多公司这个阶段产品方向还没确定下来,业务和产品先走通更为重要,而且数据系统的建设还是很花钱的。



听起来好像很有道理,不过以上分析没有考虑到不同阶段的公司数量,请大家酌情参考,像未融资的公司不一定是不爱招数据PM,而是很可能这种类型的公司本来就不多,从而造成整体职位偏少。
但是奇怪的是, A、B、C、D轮并没有很多差异。考虑到各阶段公司数量不同的影响,还是不往下分析了,因为很可能是错的。
从人才层次看,上市公司、不需要融资、未融资和天使轮公司对5至10年经验人才的需求占比明显高于其他。未融资和天使轮的样本量很小,暂且不看。上市公司和不需要融资的公司的确是很喜欢大咖级人才。
1.3城市
剔除职位数量在5以下的城市,只剩下图上几个城市。



不管是公司还是职位,北京遥遥领先。职位数量是232,占了职位总数的一半,职位数量这么多,除了北京互联网企业多的原因外,我们我看看到北京的平均招聘人数也是远远领先其他城市的,看来相对于其他城市,北京的公司更爱招数据PM。
上海几乎和深圳持平,杭州领超广州,远远甩开其他二线,紧追上海深圳,本来想探寻上海职位偏少的原因,按照我的理解,上海虽然少于北京,但是还是该超深圳些,我去看了下上海公司的行业和发展阶段分布,奈于爬取数据量偏小,没找到原因。我大胆猜测下,很可能是因为上海的初创型公司偏多,而这类公司对数据pm需求偏小些。
下图是每个城市对不同经验数据PM的需求占比,差异性不大。不管是哪个城市,工作年限要求并没有太大的不同。都是3至5年经验的人才需求量最大,其次是1至3年和5至10年。



不过,经验不限的这块,杭州明显高于其他城市,特别是深圳和广州,从这个角度,不知道可以解读为杭州对于人才的包容性更高些?
[h1]2、什么样的求职者更符合企业期望 (企业对数据PM要求)[/h1]2.1学历
本科占比90%左右,专科不到6%。这张图告诉我们:本科学历算是个门槛,相对于其他类型的PM,数据PM对逻辑能力要求更高些,专科学历在数据PM这块很艰难。不过还好,硕士要求占比不高,作为一个本科生,我舒了一口气。



此外,不同行业不同发展阶段的公司对学历的要求并没有表现出差异性,图表就不放出来了。
2.2工作经验
正如上文提到:3至5年经验的人才需求量最大,其次是1至3年和5至10年。然后不管工作经验多少,学历上要求还是一样的:本科大多数,专科很艰难。

2.3技能要求

对职位的详情说明做了词云,本来还是分了3年以下和3年以上,不过出来的东西并没有太大差别,3年以上的“管理”,“总监”出现的更高频些,这里也不放出来了。词云反应了各家公司对于数据PM的职责和能力要求:



总结招聘数据PM的主要要求:数据分析、逻辑思维、数学、统计学、BI、报表、画像、指标、数据模型、算法、数据仓库、SQL、spark、python、spass、excel、机器学习、数据挖掘、推荐、商业化。

[h1]3、 什么样的企业最壕(数据PM待遇)[/h1]3.1整体概况
薪资取最高值和最低值的平均数,1年以下及10年以上由于样本太少,暂不分析。随着工作经验的增加,薪资也是上升趋势,其中1至3年经验,多数公司愿意给10k至20k。25k以上的职位虽然少但是还是存在的,如果实力真的强,公司还是愿意花钱的。一旦超过3年,绝大多数都是15k+,一半在20k以上。而5年以后,25k+占到一半。

3.2学历
后面的分析对工作经验做了区分,分为经验小于3年和经验大于3年,经验不限职位不计入分析。硕士职位过少,暂且不看。对于工作经验不足3年的职位,如下图所示,本科以上学历出现20至25k的待遇,甚至25k+,而大专学历20k以上为0,即使存在专科样本偏少的原因,但也足以说明本科学历有一定优势。



再来看看经验超过3年的职位,如下图所示,这时候,学历好像就没有那么重要,高薪占比差不了多少。



3.3城市
3年以下经验,不管是一线还是二线,北京待遇远超其他城市,杭州在二线城市中也很不错,如下图所示。

3年以上经验,北京上海持平,广州成都差些,而杭州比深圳还要好一些。想想北上深的房价,杭州的表现非常不错。

3.4发展阶段
天使轮数量太少暂不分析。
不管是经验多少,D轮以上和上市公司待遇领先。而D轮以上待遇甚至好于上市公司,猜测一下:D轮以上的公司多数已经发展的比较生熟,离上市还差最后一步,这时候,公司是不是对于人才更舍得花钱?




3.5行业
如图,整体来看,O2O待遇稍好一些。3年经验以上,行业待遇差别不大,3年经验以下,电商待遇偏低,但不排除样本偏少造成的误差。


三、总结
1、上市公司、北京、移动互联网行业最爱招数据PM。
2、百分之九十都要求本科学历,数据分析必须精通。
3、北京待遇最好,杭州性价比高,D轮以上公司最舍得。
本来还想分析下各家hr的活跃时间,处理用时,处理率等问题,样本太少,想想还是算了。
欢迎交流指正,如果感觉还不错,点个赞呗!
7#
Chrisc  3级会员 | 2018-5-8 15:42:00 发帖IP地址来自

APP下载数据:
从国内各大应用市场爬取你需要了解的应用或者行业的数据,可以让你快速方便的了解一个应用的流行程度,以及该应用是否有刷量,同时也可以帮你第一时间知道行业有哪些新兴的应用。
如果是自己公司内部调查自己应用的下载情况的话,还可以连评论一起下载,了解下自己公司的应用在用户心目中的口碑如何,也可帮助公司调增在应用市场广告的投放策略
商业信息:
比如说各种信息类网站,如信息发布,出行,淘宝,等等,从中能得到很多真实的信息,而这些信息从其他渠道是肯定拿不到的,比如说淘宝,能够了解一个产品的真实调价,购买等等信息,帮助自己购物决策


6#
肥宝的实验室  2级吧友 | 2017-6-25 09:49:45 发帖IP地址来自
看了楼上这么多答主的回复,我也跑去学习了一下Python。
做了一些爬虫。
1.各个城市的租房信息统计。
看看北京哪个区域租房均价要多少。

看看北京的出租屋都分布在哪里?

看看租房的价格占多少比例:


看看房屋来源,都被哪些中介垄断了。


大数据统计租房市场现状(北京篇)
2.除了看租房,还可以看各个地区的医疗状况。
看看广州的医院等级:


看看医院的分布:


看看医院的评分如何



http://weixin.qq.com/r/HkSKkojE49Wcrczx9xEM (二维码自动识别)
5#
旷视科技face  2级吧友 | 2017-2-13 16:02:27 发帖IP地址来自
最短路径的长度一般被认为是两点之间的距离
4#
余进  4级常客 | 2016-11-16 10:00:23 发帖IP地址来自
作为一名从未接触过类似软件的文科生,想问问题主,想使用此类爬虫并掌握各种爬取技巧以及多网站爬取的努力方向是啥,应该先学什么~~~麻烦题主啦
3#
萌咔  2级吧友 | 2016-5-17 14:40:03 发帖IP地址来自
想到个不是爬虫,却是个很有意思的事情。

在百度搜索的首页里,查看源码有一条就是,你看到这个代码,就能看到百度招聘邮箱什么的。很有意思的一个小设计。
2#
破军  2级吧友 | 2016-2-17 18:36:45 发帖IP地址来自
占坑。搞个爬图片的来吧~
1#
阿Ken  3级会员 | 2015-10-3 15:21:39 发帖IP地址来自
个人也觉得是豆瓣  当然不是因为妹子的原因!
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:
帖子:
精华:
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP