Python 爬取知乎 9674 个问答,揭秘最受欢迎的 98 本书!

论坛 期权论坛 期权     
Python爱好者社区   2019-6-16 04:38   3112   0


作者:Yura  
公众号:Yura不说数据说




高尔基这话有没有道理我不知道,
咱也不敢问,
主要是现在也问不了。
那对我来说,读书有什么意义呢?
应该也是阶梯。


但是这影响是消极还是积极,
投入的时间和得到的回报到底成不成正比?
每本都不一样,
这很大情况与书的质量有关。
那么问题就来了,
我们到底该读什么书呢?
换言之,
若想阶梯又稳又长,
需要什么样的砖呢?
我知道豆瓣有评分TOP100的书籍榜单,
但是看着这一长串的列表,
我觉得不够有人情味。
我平时书荒的时候喜欢逛知乎,
那些带有“小红书”式夸张描述,
“必读,不可错过”“跪了”“强推“,
往往让我有一种马上买它!
啊,不是,
下载它的冲动!
上个月我买了个电子书下载的会员,
每天可以将书直接推送Kindle,
非常方便!
但是,会员是要钱的,
而且,是有时间限制的……
一眨眼,还有3天就到期了。
想想自己上个月顶多下载了3本书
现在还有3天就过期了
相当于白白浪费了
20本*(30-3天)-3本=537本书的下载机会。
还剩下3天,我一定要利用起来!
每天下载60本(哪年哪月能看完我们暂时不讨论了)。
但是知乎一条一条翻答案未免太麻烦了8!
而且好几条都是推荐差不多内容的,
不如爬取相关问题的所有答案,
做个汇总好啦!



数据获取

虽说知乎有个“阅读”的话题,但是我看了一下里面的问题不全是推荐书的,若是都爬取下来可能80%的数据都是与书籍推荐无关的。
所以我直接知乎搜索“书”,选取了回答热度较高的6个问题:


还是利用Python进行爬虫,
进入页面,展开答案:


点击“检查”网页,不断往下拉,
我们可以在XHR找到明显带有“answer”字样的链接:


多看几个链接就能找到规律啦,
(offset:0,5,15,20……)
挑自己感兴趣的字段就能“咻咻咻”爬下来了,
其他5个问题如法炮制,得到以下:


总共获取9674个回答,基本字段如下:





数据清洗

以前总觉得爬数据最难,
只要爬下来了,一切好说!
想怎么处理怎么处理,想怎么分析怎么分析。
但是这次,
爬虫的主要目的是列出一个高频出现的书籍清单,
大家的答案有言简意赅的
(我暂且不批评这些同学会的不带书名号):


也有这样,推荐语(废话)一大堆的:


你瞧瞧,回答字数最多的可有3万多字呢!
研究爬虫大概花了我一个小时,
但是怎么分析这些答案让我头痛了三个晚上!
先看一下主要的问题:
  • 很多答案没有带书名号,因此不能简单地用正则表达式;
  • 知友们回答的时候会出现书名打错(“一句话顶一万句”),还有书名简写或表达方式不同的情况(比如,关于哈利波特系列书籍的说法就有11种……);
  • 最重要的是,我还不具有“看到一个词或一句话就分辨出哪些是书名哪些不是”的能力。我自己都不知道,我怎么让Python判断提取呢……
我也曾想过干脆只用《》来正则匹配内容
结果发现:


44.96%的用户回答问题的时候非常不规范,
他们在回答中没有有使用书名号!
直接这样分析的话就相当于丢失了将近一半的数据!
除非……除非我有一个图书库,
里面有所有书的书名,
这样我只要遍历每个答案,
如果Ta提到了这本书,
就把这个书名提取出来,
最后再统计分析就好啦!
然而,那句话怎么说来着,
想象很丰满,现实很骨感。
我并没有这样的图书库。
利用现有的数据,
我只能勉强以另外55.04%个答案中出现的书名,
进行简单处理,
得到一个简陋的书名列表……


然后再对每个答案进行遍历……
个中辛酸就不提了,提了也没用。
因为并不是完美的解决之道,
只能勉强满足我本次爬虫的目的罢了,
不过就我走过的一些坑,我还是列一下。
虽然前方有很多坑
但是大家能少进一个就少进一个吧:













数据分析

在得到最终TOP书单之前,
我们按照惯例看看这些答案的基本情况。


知乎后台性别显示的是0、1和-1,
通过研究具体两三个用户的资料,
我发现0表示女生,1表示男生,-1表示未知。
看样子这6个答案下面男生的比例略高于女生。


男生和女生回答问题的长度很接近,
说明大家都蛮勤奋的,
从互动角度来看,
男生答案人均点赞数略高于女生,
人均评论数却高出女生55%,
可能他们的答案比较具有争议性。
不过读书这种事嘛,
本来就是男女老少皆宜的,
因此在这种话题下区别性应该不大。


和正常(现代)人的作息很接近,
大部分答案是在白天的时候提交的,
其中有11%的用户在凌晨0到4点之间回答,
我觉得这部分人睡前肯定没有看书。


从回答时间和点赞数的散点图来看,
一些高赞答案都是出现在早上8点到晚上8点之间
这段时间大家精神充沛,
比较容易写出高质量答案,
养生Girl再次呼吁,大家一定要早睡呀!
有人问睡不着怎么办?
我上一段不是说了嘛(自行体会)。


前面也提到过,
答案字数最少的回答,
只有一个字:飘。
长度最长的有32210个字
是我毕业论文长度的1.5倍。
整体统计了一下,
84%的答案长度在1000字以内,
很符合大家碎片化阅读的习惯。
然而,
另外的16%用户却获得了这些答案下
93%的点赞数和72%的评论数。
瞧,瞧瞧(敲黑板),
多么形象的二八法则实例,
快做笔记同学们!


后来看看,
我得到的这三天需要下载的书单
(按照知友提到的频次排序):




98本里面我看过30本,
那么我可以从剩下的68中去掉8本
我绝对不想看的。
然后每天下载20本。
有人问为什么是TOP98,不是100?
因为我觉得这样看起来比较少,
会更有动力“yes”所有书。
作者:Yura,计算机科学与技术专业大四在读,因在澳洲交换学习接触了大数据,甚感兴趣。遂开公众号“Yura不说数据说”督促自己学习数据分析!欢迎大家关注我的个人公众号,一起(监督我)学习。
感谢阅读
推荐阅读:
1:互联网薅羊毛指南
2:互联网人与前公司的爱恨情仇
3:任正非:5G 背后有个不谈恋爱的小伙子
4:2018年Python爱好者社区历史文章合集(作者篇)
5:2018年终精心整理|Python爱好者社区历史文章合集(类型篇)




分享到 :
0 人收藏
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:155
帖子:32
精华:0
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP