在数据分析、挖掘方面,有哪些好书值得推荐?

论坛 期权论坛 期权     
孔懒洋洋   2018-9-24 01:04   1732348   9
分享到 :
0 人收藏

9 个回复

倒序浏览
2#
肖智博  1级新秀 | 2018-9-24 01:04:06 发帖IP地址来自

机器学习 (豆瓣)

把这本书放在下面所有的推荐之上。




入门读物:

  1. 深入浅出数据分析 (豆瓣) 这书挺简单的,基本的内容都涉及了,说得也比较清楚,最后谈到了R是大加分。难易程度:非常易。
  2. 啤酒与尿布 (豆瓣) 通过案例来说事情,而且是最经典的例子。难易程度:非常易。
  3. 数据之美 (豆瓣) 一本介绍性的书籍,每章都解决一个具体的问题,甚至还有代码,对理解数据分析的应用领域和做法非常有帮助。难易程度:易。
  4. 数学之美 (豆瓣) 这本书非常棒啦,入门读起来很不错!

数据分析:

  1. SciPy and NumPy (豆瓣) 这本书可以归类为数据分析书吧,因为numpy和scipy真的是非常强大啊。
  2. Python for Data Analysis (豆瓣) 作者是Pandas这个包的作者,看过他在Scipy会议上的演讲,实例非常强!
  3. Bad Data Handbook (豆瓣) 很好玩的书,作者的角度很不同。

适合入门的教程:

  1. 集体智慧编程 (豆瓣) 学习数据分析、数据挖掘、机器学习人员应该仔细阅读的第一本书。作者通过实际例子介绍了机器学习和数据挖掘中的算法,浅显易懂,还有可执行的Python代码。难易程度:中。
  2. Machine Learning in Action (豆瓣) 用人话把复杂难懂的机器学习算法解释清楚了,其中有零星的数学公式,但是是以解释清楚为目的的。而且有Python代码,大赞!目前中科院的王斌老师已经翻译这本书了 机器学习实战 (豆瓣)。这本书本身质量就很高,王老师的翻译质量也很高。难易程度:中。我带的研究生入门必看数目之一!
  3. Building Machine Learning Systems with Python (豆瓣) 虽然是英文的,但是由于写得很简单,比较理解,又有 Python 代码跟着,辅助理解。
  4. 数据挖掘导论 (豆瓣) 最近几年数据挖掘教材中比较好的一本书,被美国诸多大学的数据挖掘课作为教材,没有推荐Jiawei Han老师的那本书,因为个人觉得那本书对于初学者来说不太容易读懂。难易程度:中上。
  5. Machine Learning for Hackers (豆瓣) 也是通过实例讲解机器学习算法,用R实现的,可以一边学习机器学习一边学习R。


稍微专业些的:

  1. Introduction to Semi-Supervised Learning (豆瓣) 半监督学习必读必看的书。
  2. Learning to Rank for Information Retrieval (豆瓣) 微软亚院刘铁岩老师关于LTR的著作,啥都不说了,推荐!
  3. Learning to Rank for Information Retrieval and Natural Language Processing (豆瓣) 李航老师关于LTR的书,也是当时他在微软亚院时候的书,可见微软亚院对LTR的研究之深,贡献之大。
  4. 推荐系统实践 (豆瓣) 这本书不用说了,研究推荐系统必须要读的书,而且是第一本要读的书。
  5. Graphical Models, Exponential Families, and Variational Inference (豆瓣) 这个是Jordan老爷子和他的得意门徒 Martin J Wainwright 在 Foundation of Machine Learning Research上的创刊号,可以免费下载,比较难懂,但是一旦读通了,graphical model的相关内容就可以踏平了。
  6. Natural Language Processing with Python (豆瓣) NLP 经典,其实主要是讲 NLTK 这个包,但是啊,NLTK 这个包几乎涵盖了 NLP 的很多内容了啊!


机器学习教材:

  1. The Elements of Statistical Learning (豆瓣) 这本书有对应的中文版:统计学习基础 (豆瓣)。书中配有R包,非常赞!可以参照着代码学习算法。
  2. 统计学习方法 (豆瓣) 李航老师的扛鼎之作,强烈推荐。难易程度:难。
  3. Machine Learning (豆瓣) 去年出版的新书,作者Kevin Murrphy教授是机器学习领域中年少有为的代表。这书是他的集大成之作,写完之后,就去Google了,产学研结合,没有比这个更好的了。
  4. Machine Learning (豆瓣) 这书和上面的书不是一本!这书叫:Machine Learning: An Algorithmic Perspective 之前做过我带的研究生教材,由于配有代码,所以理解起来比较容易。
  5. Pattern Recognition And Machine Learning (豆瓣) 经典中的经典。
  6. Bayesian Reasoning and Machine Learning (豆瓣) 看名字就知道了,彻彻底底的Bayesian学派的书,里面的内容非常多,有一张图将机器学习中设计算法的关系总结了一下,很棒。
  7. Probabilistic Graphical Models (豆瓣) 鸿篇巨制,这书谁要是读完了告诉我一声。
  8. Convex Optimization (豆瓣) 凸优化中最好的教材,没有之一了。课程也非常棒,Stephen老师拿着纸一步一步推到,图一点一点画,太棒了。
3#
桑文锋  2级吧友 | 2018-9-24 01:04:08 发帖IP地址来自
数据分析方面,我推荐《精益数据分析》,这本书里讲解了创业公司该如何确定指标体系,如何用数据指导产品和运营。本书还针对电商、媒体、SaaS、双边市场、Ugc等,列举了要关注的指标,并有丰富的案例。不足是整个书的内容比较散,系统性不强,但依旧是讲互联网产品数据分析方面我觉得最好的一本了。

数据挖掘方面,我推荐韩家炜的《数据挖掘概念与技术》,我自己就是在工作之后,通过阅读这本书,对数据挖掘有了系统性的认识,后来我研究用户行为序列模式挖掘的时候,发现看的许多论文都出自他的实验室。在两三年前,他还去百度做过一次报告,有幸去听了。

当然,光靠看看书是远远不够的,想深入数据分析,就在自己的工作中尝试用数据指导决策,不管是项目效果的评估,运营活动的评估,都尝试用数据来验证。对于数据挖掘,还是找个应用场景,直接写程序去尝试一下个性化推荐,分类之类的算法,这样就不会觉得云里雾里了。

大数据分析方面,也可以看看我的知乎专栏:zhuanlan.zhihu.com/sang,我里面写了一些之前在百度从零到一构建大数据平台的经历,以及如何实现数据驱动,希望能有帮助。
4#
张溪梦 Simon  4级常客 | 2018-9-24 01:04:09 发帖IP地址来自
本文主要讲数据分析方面的书籍:从入门到精通:互联网数据分析的书籍清单。

任何一个技能的学习,都有从浅到深的过程,数据分析也不例外。因此我把推荐书籍划分成几个段位,更便于大家挑选。


Part 1 | 入门版


适合对数据分析的入门者,对数据分析没有整体概念的人,常见于应届毕业生,经验尚浅的转行者。

深入浅出数据分析 (豆瓣):HeadFirst 类的书籍,一向浅显易懂形象生动,可以对分析概念有个全面的认知。

谁说菜鸟不会数据分析 (豆瓣):不仅讲解了一些常见的分析技巧,并附带 Excel 的一些知识以及数据分析在公司中所处的位置,对职场了解亦有一定帮助。

赤裸裸的统计学 (豆瓣):作者年轻时是个追求学习意义的学霸,后来自己从统计学中发掘了很多可以应用到生活的地方。这也是本书的主旨,结合生活讲解统计知识,生动有趣。可以避免统计学一上来就大讲贝叶斯概率和随机分析的枯燥。

同样类似的书籍还有「统计数字会撒谎 (豆瓣)」,这本书知名度要高点,不过我还没看…


Part 2 | 进阶版

具有一定的行业针对性,要求具备一定的分析常识,适合网站分析师,商业分析师以及数据产品经理。

精通 Web Analytics 2.0 (豆瓣):此书虽老,但其中很多思想和流量分析的案例仍然很有借鉴意义,现在纸质书只能上淘宝买旧书了。

与此类似的有「网站分析实战 (豆瓣)」,是国内一本讲网站分析的书,没有上面经典,但胜在新出,很多案例和理念都有及时的更新。

深入浅出统计学 (豆瓣):Headfirst 类书籍,可以帮助你快速了解统计方面的知识。

数据化管理:洞悉零售及电子商务运营 (豆瓣):黄成明著,讲解在企业中应用数据的例子,读完受益匪浅,里面举的很多例子都很接地气。虽说偏向于零售业管理,但大道归一,可适用于很多行业,当时依据里面的理念规划了美团外卖面向 BD 的数据产品。

MySQL 必知必会 (豆瓣):这本也是我当年学习 SQL 的入门书,薄册子一本,看起来很快。SQL 是个性价比很高的技能,简单而强大。任何想进一步提高自己数据分析技能的产品/运营/分析师 同学,都建议点亮 这个技能点。

互联网增长的第一本数据分析手册:我司 GrowingIO 出的一本数据分析的增长手册(封面和目录见下图),为大家提供常见的分析手段讲解,如漏斗分析,同期群分析等等。可点击书籍名字在 GrowingIO 技术论坛中免费下载。


Part 3 | 高阶版

更高阶的数据相对来说专业性较强了,如涉及到企业内部数据治理,数据结合的业务分析,数据可视化等。当然,还有数据挖掘算法之类的更深入的东西,这块没有研究就不瞎推荐了。

决战大数据 (豆瓣):阿里巴巴前数据副总裁车品觉老师所著,讲解了阿里巴巴在企业内部治理数据过程中的心得,所讲“存-通-用”数据管理三板斧和“从数据化运营到运营数据”,字字珠玑,可堪借鉴。

精益数据分析 (豆瓣):此书优势在于将企业分成了几个大的行业类别,并分门别类的讲解了每个行业的商业模式特点及分析技巧,对使用者的分析能力要求较高,且必须具备相应的业务知识。

The Wall Street Journal Guide to Information Graphics (豆瓣),华尔街日报负责商业分析的人做的可视化指南,精华且实用,我之前在公众号上写过读书笔记「华尔街日报是这样做数据可视化的(1)」,可供大家参考。

《数据仓库经典教程》:网上有人整理出来的资料,优点是简单明了,不像正常的数据仓库教材厚厚一本。


本文作者陈新涛,GrowingIO - 硅谷新一代数据分析产品 产品经理。
5#
孤云独去闲  3级会员 | 2018-9-24 01:04:10 发帖IP地址来自
知乎大神太多,我已经不知道自己是不是能答这个题了。但我真的是大公司data science部门的主力呀。。。汗。。。我只是不想写个xxx公司xxx在我的自我介绍上。。。


我看你们点赞挺多的,我又写了个更全面的入门文章,链接如下:
zhuanlan.zhihu.com/p/26

我弱弱的觉得在我的成长过程中,有两个东西对我的帮助很大,一个是网易公开课上Andrew Ng给斯坦福学生上的机器学习课程(不是现在coursera上的那个相对简单的公开课)。当年我看着屏幕,假装自己在课堂上,认真的抄写他在黑板上的每一个推导,课后也认真的思考并阅读Ng教授的note,也还好好做作业。

在deep learning都要被看不起,aaai是烂会,只有nips和icml才会被人看得起的知乎,我这么说可能实在是有点不上档次。^_^。不过我还是强烈安利网易公开课上的二十个视频。

还有一个就更启蒙了,大二的时候参加高教社杯数学建模比赛,侥幸获得国二。美赛icm和mcm也都参加了,两个m奖。现在看起来当时所谓的“模型”就跟小孩子过家家一样,但过不过这个家家,对我的思维方式影响挺大。

还有三个对我影响力很大的课程。

大二的时候,我有一个很好的概率论老师,我相信这么多年没见,他可能还会记得我。

研一的时候,我幸运的碰到了两个很好的老师教我统计和统计信号处理。

类似Ng教授的课,我自学了mit的 Gilbert Strang的linear algebra 视频公开课。讲得很好。应该有中文字幕了吧。

总结一下,楼主你看书不如看视频。那些“轻松入门”的书,可能并不能给你带来真正的收获。

###

作为网易跟贴局副局长,我还是想安利一下我家大网易。网易公开课还挺不错的,还有个英国老师在耶鲁讲博弈论,挺有意思的。如果去金融行业做数据,必考博弈论吧。

三个课程链接见评论区
6#
匿名用户   | 2018-9-24 01:04:11 发帖IP地址来自
提示: 作者被禁止或删除 内容自动屏蔽
7#
Lincoln  2级吧友 | 2018-9-24 01:04:12 发帖IP地址来自
一、引言
肖智博已经说得很全面了,再补充一些:)
之前回答过这类问题,有兴趣的话建议先看一看:

二、因为问题已经更新到了马年,所以推荐几本2014年刚出的数据科学好书。(网上已经有PDF版可以下载,此处不再给出)
作者之一Rachel Schutt本科在密歇根大学学习数学,同时拥有纽约大学数学硕士学位,以及斯坦福大学工程经济系统和运筹学双硕士学位,美国哥伦比亚大学统计学博士学位,而后在谷歌研究所担任统计学专家。Johnson研究实验室的高级科学家兼创始人之一,目前在哥伦比亚大学讲授“数据科学导论”(Introduction to Data Science)课程。她提出了数据科学家的概念即“计算机科学家、软件工程师和统计学家的混合体。”另一位作者Cathy O’Neil是哈佛大学数学博士,麻省理工学院数学系博士后,目前在华尔街的德劭基金(D.E.Shaw)做quant。(总之是两个大牛XD)
本书前面几个章节大致介绍了数据分析法、一些机器学习算法、线性回归和逻辑回归、朴素贝叶斯等等。其中有一些内容需要一些数学基础才能吃透。 第六到十章节是本书的精华,详细介绍了如何利用金融及社交网络中的数据进行数据建模分析,值得反复回味。

本书适合刚入行的数据爱好者以及有两三年工作经验数据科学家,作者立志打造一个full-stack解决方案(包括开发框架、运行环境等,有了它无需再下载别的软件)来减少前期在数据准备上必须花费的大量时间。此外书中的一些例子放在了GitHub上,建议一边看书一边DIY。

目前市面上关于Spark的书籍不多,这本120多页的薄书可以当做预热。Spark同Hadoop一样是基于Mapreduce算法实现的分布式计算,不同的是任务的中间输出结果可以保存在内存中无需读写HDFS,所以更加适合需要进行反复迭代的机器学习算法实验。作者Holden Karau曾在亚马逊数据挖掘项目组,目前是一名在谷歌工作的软件研发工程师。




以上,有时间再来更新。祝挖掘快乐:)
8#
浩彬老撕  4级常客 | 2018-9-24 01:04:13 发帖IP地址来自

我也来分享一个自己的书单:

#关于这份学习清单#

我会按照基础到入门给出详细推荐,并且附上个人点评。同时尽量做到各个资料在内容上并不重复(即使内容上有重复,也会在难度上做出区分),希望可以以最直接的方式告诉大家应该怎么选择。

Ps:这是第一版学习指南,由于最近时间比较紧张,预计在第二版中会加入业务材料的推荐和更多的学习索引,欢迎关注。



1先验知识

由于统计学概率论甚至到机器学习会对数学基础有一定要求,所以这里给出一些先验知识的内容推荐,主要是矩阵方面。

1.1 课程

可汗学院公开课:线性代数课程

可汗学院公开课:线性代数

因为网易公开课有翻译,这里是中文字幕课程链接,这里真要给网易100个赞,字幕做得很好。

“可汗学院(Khan Academy),是由孟加拉裔美国人萨尔曼·可汗创立的一家教育性非营利组织,主旨在于利用网络影片进行免费授课,现有关于数学、历史、金融、物理、化学、生物、天文学等科目的内容,教学影片超过2000段,机构的使命是加快各年龄学生的学习速度。”

1.2 参考书籍

(1)线性代数 豆瓣评分7.3

清华居余马老师的线性代数教材,比较经典的教材了,里面的知识足够支撑我们后续统计分析和机器学习需要。

(2)高等代数 豆瓣评分8.1


相比于线性代数,高等代数更加深入,一般线性代数为非数学专业所用,数学类专业一般学习高等代数。不过一般情况下,线性代数也足够使用了。

当然,在后续学习中有些算法也会用到微积分的知识,但是都比较基础,因此遇到不懂的时候直接查资料即可,就没有特定推荐材料了。




2统计分析学习资料

2.1 统计学/概率课程

同样推荐可汗学院的统计学和概率课程,而且刚好这两门课程也被网易公开课进行了翻译:

(1) 可汗学院公开课:统计学

可汗学院公开课:统计学

(2) 可汗学院公开课:概率

可汗学院公开课:概率


这两本课程总体不算太难,适合入门。个人觉得讲授还是蛮有特点的,粗暴直接,另外举的例子也是蛮有趣的。


2.2统计学/概率参考书

(1)统计学 豆瓣评分8.8
作者William Mendenhall / Terry Sincich

“《统计学(原书第5版)》内容丰富,很少涉及统计学理论的严格数学证明,绝大部分是与实际应用紧密联系的例子和练习,适合作为理工科各专业本科生、研究生的统计学教材,也可作为相关领域研究人员的参考读物。”

非常注重实用的统计学课程,偏应用,少数学证明,可读性比较强

(2)统计学 豆瓣评分7.3
作者:贾俊平,何晓群,金勇进

统计比较通用的入门教材了,不知不觉竟然到了第六版,个人认为也算是兼顾数学证明和应用,可读性没有上面强,但是也非常的通俗易懂,有很多统计学专业的起始教材也会选择这本。

(3)统计推断 豆瓣评分8.8,/英本原本9.2
作者:William Mendenhall / Terry Sincich
非常经典经典的统计学教材,借用介绍“从概率论的基础开始,通过例子与习题的旁征博引,引进了大量近代统计处理的新技术和一些国内同类教材中不常见而又广为使用的分布。其内容既包括工科概率入门、经典统计和现代统计的基础,又加进了不少近代统计中数据处理的实用方法和思想”
可以作为研究生所用教材,有深度,但是作者循序渐进,解释得非常漂亮



3机器学习资料

3.1机器学习课程

强烈推荐Andrew NG吴恩达的斯坦福机器学习课程,英文授课,但是已有完善的中文字幕,内容非常丰富且充实(20节),并且讲解得非常的好,如果你想学习机器学习,一定不能错过!

Coursera地址:

Coursera - Free Online Courses From Top Universities

网易公开课地址:

斯坦福大学公开课 :机器学习课程


同时该课程配有课件讲义,同样建议大家在学习视频课程之余多看讲义和习题,虽然是英文,但是阅读上基本没有什么问题,就讲义本身也是非常的棒。

如果大家学习完Andrew NG的机器学习,还想通过其他课程触类旁通,相互借鉴的话,可以上Coursera上门搜索还有其他选择,例如台大的机器学习基础等等,但毫无疑问首推Andrew NG的课程;

另外现在国内也有越来越多的培训网站推出相关课程,大家有兴趣的可以自己搜搜,这里就不做推荐了;


3.2机器学习教材

(1)数据挖掘导论 豆瓣评分8.4,/英本原本8.8

作者: Pang-Ning Tan、Michael Steinbach、Vipin Kumar

介绍得非常全面的一本书,但可能因为需要涵盖的内容太多,所以难免有些算法只能简单介绍。尽管这样,个人认为也是非常难得一见的入门教材,有一定难度。这本书从简单的数据开始,到各种分类算法,聚类算法,关联规则都有相对完整的指引,我认为对于我们构建自身的统计挖掘体系是有很大的帮助。中文版本翻译还是挺好的,但是英文原版那是极好的。


(2)统计学习方法 豆瓣评分:8.9

作者:李航

个人认为中文教材里面少见的精品,虽然精简,但逻辑非常的清晰,非常详细地为我们剖析了算法原理,可能不太适合入门者,但是还是非常值得推荐阅读学习,建议将《数据挖掘导论》以及《统计学习方法》相互借鉴学习


(3)The Elements of Statistical Learning(统计学习基础)

豆瓣英本原版评分9.4 中文评分7.4

作者:Trevor Hastie

这本书被广大人民喜称为ESL,虽然书名是统计学习基础,但是此书一点都不基础,一点都不~另外此书还有一本专门的入门版本ISL(后面会介绍)

这本书涵盖了非常多的内容,讲解深入,有人评价说,“有了这本书就不需要其他机器学习教材”,虽然有点夸张,但是此书实际是机器学习的经典巨作,如果你真的希望好好研究机器学习,此书非常值得仔细研读,另外此书要求不低的统计理论和数学基础。

此外,这本书还有一个牛逼的地方在于,作者把书放在网上免费下载:

Elements of Statistical Learning: data mining, inference, and prediction.2nd Edition.





前面都是一些理论知识,但是数据科学里面实践应用又是另外一个重中之重,接下来谈一下借助工具进行实践应用的问题,由于Python还在整理当中,本次主要介绍SPSS与R语言



4SPSS学习资料

考虑到SPSS分为统计模块Statistics以及数据挖掘模块Modeler , 因此也分为两大块介绍


4.1SPSS统计分析资料

SPSS Statistics 市面上的书籍比较多,从我个人的角度,认为张文彤老师的系列足以让大家加深对统计体系的理解,同时也能很好掌握在实际的应用当中如何使用统计分析帮助我们完成任务,我认为掌握统计分析原理实战和SPSS操作,以下两本书足矣。

(1) SPSS统计分析基础教程 豆瓣评分8.4

提供了包括医疗、经济、市场研究等方面的案例贯穿了全书,能够很好从实际应用角度把统计分析原理和SPSS操作结合起来,也提供了很好的结果解读,不失为一本极好的工具指南


(2)高等学校教材(SPSS统计分析高级教程)豆瓣评分7.7

相比于基础教材,高级教程介绍了更多的统计算法模型,同时也提供了一些统计新方法和新观点的讲解。整体来说直观易懂,能够很好提升实战能力

另外张文彤老师也有对应视频课程 《张文彤SPSS初中级教程》以及《张文彤SPSS高级教程》



4.2 SPSS机器学习教程

(1)Modeler官方的帮助文档和Sample文件

Modeler提供完备Sample数据和数据建模文件,并且配套中文说明,可以帮助入门者一步一步搭建数据建模流并理解实际应用场景。Modeler提供的帮助文档包括有算法说明,节点说明,Crisp-dm方法论,应用文档等,其中比较重要一本如:《IBM SPSS Modler 应用程序指南》


(2) IBM SPSS数据分析与挖掘实战案例精粹 豆瓣评分9.3

作者:张文彤,钟云飞

非常详尽工具手册,提供了医疗、金融、保险、汽车、快速消费品、市场研究、互联网等多个行业的数据分析/挖掘案例,基于实战需求,详细讲解整个案例的完整分析过程,并将模型和软件的介绍融于案例讲解之中,尤其是书本最后几章实践案例,从商业问题界定到商业应用,给出了非常详尽的建模指南,个人认为目前市面上Modeler最好的工具手册;另外即使不是使用SPSS,而是用其他工具,该书后面的例子也值得大家研读。



5R语言学习资料

(1)R语言实战 豆瓣评分8.8

作者:Robert I.Kabacoff

首先这本书绝对可以担当日常工具手册,从基本操作,数据处理,数据建模,图形展示都给出了非常详尽的介绍;其次虽然是工具手册,但是能够结合基本统计知识于简单案例,具有很强实践性,强烈建议各位把书中的代码都实现,相信能够大大提升R的功力。最后说一句,此书翻译得不错。


(2)AnIntroduction to Statistical Learning(统计学习导论) 英本版豆瓣评分9.5,中文版7.6

作者:Trevor Hastie,Robert Tibshirani ,Jerome Friedman


此书被广大人民群众称为ISL,没错,就是上面ESL的入门版本。无论作为统计教材推荐还是R语言教材推荐都称得上5星的读物。ISL虽然是入门版本,但是绝对不是因为内容简单。深入浅出,内容详细,常常读完有种恍然大悟的感觉,同时能够结合R语言介绍,大大的加分。




最后厚颜无耻地介绍我个人的公众号,wetalkdata,定期更新数据分析,数据挖掘方法,Statistics以及Modeler操作指南(比帮助手册更详细),而且还有送书活动!

weixin.qq.com/r/KEhPVwX (二维码自动识别)

9#
rainful  3级会员 | 2018-9-24 01:04:14 发帖IP地址来自

入门篇:

1.《深入浅出数据分析》

内容简介:《深入浅出数据分析》以类似“章回小说”的活泼形式,生动地向读者展现优秀的数据分析人员应知应会的技术:数据分析基本步骤、实验方法、最优化方法、假设检验方法、贝叶斯统计方法、主观概率法、启发法、直方图法、回归法、误差处理、相关数据库、数据整理技巧;正文以后,意犹未尽地以三篇附录介绍数据分析十大要务、R工具及ToolPak工具,在充分展现目标知识以外,为读者搭建了走向深入研究的桥梁。

本书构思跌宕起伏,行文妙趣横生,无论是职场老手,还是业界新人,无论是字斟句酌,还是信手翻阅,相信都能跟着文字在职场中走上几回,去体味数据分析领域的乐趣与挑战。


2. 《谁说菜鸟不会数据分析》

内容简介:《谁说菜鸟不会数据分析》基于通用的Excel工具,形式活泼,内容丰富而且充实,让人有不断阅读下去的动力。在8个章节中,分别讲解数据分析必知必会的知识、数据处理技巧、数据展现的技术、通过专业化的视角来提升图表之美、数据分析报告的撰写技能以及持续的修炼。


3. 《大数据时代》

内容简介维克托迈尔舍恩伯格在书中前瞻性地指出,大数据带来的信息风暴正在变革我们的生活、工作和思维,并用三个部分讲述了大数据时代的思维变革、商业变革和管理变革。

本书的核心在于大数据预测,并在书中展示了谷歌、微软、亚马逊、IBM、苹果、facebook、twitter、VISA等大数据先锋们最具价值的应用案例。


4. 《深入浅出SQL

内容简介:《深入浅出SQL》带你进入SQL语言的心脏地带,从使用INSERT和SELECT这些基本的查询语法到使用子查询(subquery)、连接(join)和事务(transaction)这样的核心技术来操作数据库。到读完《深入浅出SQL(影印版)》之时,你将不仅能够理解高效数据库设计和创建,还能像一个专家那样查询、归一(normalizing)和联接数据。你将成为数据的真正主人。


5.《数据之美》

内容简介:本书通过世界上最好的数据工作者的示例,向读者展示处理数据的方法。本书使得读者可以站在优秀的数据设计师、管理者和处理者的肩上,去仔细审视涉及到数据的一些最有趣的项目。


进阶篇:

1.《精益数据分析》

内容简介:本书展示了如何验证自己的设想、找到真正的客户、打造能赚钱的产品,以及提升企业知名度。30多个案例分析,全球100多位知名企业家的真知灼见,为你呈现来之不易、经过实践检验的创业心得和宝贵经验,让你深入理解精益创业、数据分析基础,和数据驱动的思维模式。


2.《网站分析实战》

内容简介:本书以通俗易懂的方式来讲解网站分析所需掌握的知识,剖析日常工作中遇到的问题,并且配合大量的实战案例的讲解。

不管你是做网络营销、互联网产品设计、电子商务运营、个人站点运营维护,我们都希望从数据中寻找有价值的结论,并且指导公司管理层的决策,最终创造更大的网站价值。


3.《R语言实战》

内容简介:通读本书,你将全面掌握使用R语言进行数据分析、数据挖掘的技巧,并领略大量探索和展示数据的图形功能,从而更加高效地进行分析与沟通。想要成为倍受高科技企业追捧的、炙手可热的数据分析师吗?想要科学分析数据并正确决策吗?不妨从本书开始,挑战大数据,用R开始炫酷的数据统计与分析吧!


4.《利用Python进行数据分析》

内容简介:还在苦苦寻觅用Python控制、处理、整理、分析结构化数据的完整课程?本书含有大量的实践案例,你将学会如何利用各种Python库(包括NumPy、pandas、matplotlib以及IPython等)高效地解决各式各样的数据分析问题。

由于作者Wes McKinney是pandas库的主要作者,所以本书也可以作为利用Python实现数据密集型应用的科学计算实践指南。本书适合刚刚接触Python的分析人员以及刚刚接触科学计算的Python程序员。


5.《深入浅出统计学》

内容简介:本书涵盖的知识点包括:信息可视化、概率计算、几何分布、二项分布及泊松分布、正态分布、统计抽样、置信区间的构建、假设检验、卡方分布、相关与回归等等,。本书运用充满互动性的真实世界情节,教给你有关这门学科的所有基础,为这个枯燥的领域带来鲜活的乐趣,不仅让你充分掌握统计学的要义,更会告诉你如何将统计理论应用到日常生活中。



6.《用户体验度量》

内容简介:有效地测量任何产品的可用性都需要选择和使用正确的度量.并要有效地利用它所揭示出来的信息。《用户体验度量》首次介绍了相关实用资料.可以使可用性从业人员和产品开发人员完成这种测量。作者把几十个种度量整理成六类:绩效、基于问题的、自我报告式的、Web导航、综合性的/派生的, 以及生理/行为的。他们对每一种度量都进行了考察,并认真考虑了收集、分析和呈现这些数据的最佳方法。他们对使用任何技术来测量任何类型产品的可用性都提供了步进式指导。


7. 《The Wall StreetJournal Guide to Information Graphics》

内容简介:“华尔街日报”的新闻图形总监倾力之作,本书通过循序渐进的指南和清晰简洁的图形,为我们展示如何使用不同的技术来有效地传达消息。


高段位:

1.《数学之美》


内容简介:作者吴军博士几乎把所有文章都重写了一遍,为的是把高深的数学原理讲得更加通俗易懂,让非专业读者也能领略数学的魅力。读者通过具体的例子学到的是思考问题的方式——如何化繁为简,如何用数学去解决工程问题,如何跳出固有思维不断去思考创新。


2. 《数据挖掘与数据化运营实战》


内容简介:《数据挖掘与数据化运营实战:思路、方法、技巧与应用》是目前有关数据挖掘在数据化运营实践领域比较全面和系统的著作。作者结合自己数据化运营实践中大量的项目经验,用通俗易懂的“非技术”语言和大量活泼生动的案例,围绕数据分析挖掘中的思路、方法、技巧与应用,全方位整理、总结、分享,帮助读者深刻领会和掌握“以业务为核心,以思路为重点,以分析技术为辅佐”的数据挖掘实践应用宝典。


3.《集体智慧编程》

内容简介:本书以机器学习与计算统计为主题背景,专门讲述如何挖掘和分析Web上的数据和资源,如何分析用户体验、市场营销、个人品味等诸多信息,并得出有用的结论,通过复杂的算法来从Web网站获取、收集并分析用户的数据和反馈信息,以便创造新的用户价值和商业价值。全书内容翔实,包括协作过滤技术(实现关联产品推荐功能)、集群数据分析(在大规模数据集中发掘相似的数据子集)、搜索引擎核心技术(爬虫、索引、查询引擎、PageRank算法等)、搜索海量信息并进行分析统计得出结论的优化算法、贝叶斯过滤技术(垃圾邮件过滤、文本过滤)、用决策树技术实现预测和决策建模功能、社交网络的信息匹配技术、机器学习和人工智能应用等。

本书是Web开发者、架构师、应用工程师等的绝佳选择。


4. 《数据挖掘-市场营销、销售与客户关系管理领域应用》

内容简介:本书是数据挖掘领域的经典著作,数年来畅销不衰。全书从技术和应用两个方面,全面、系统地介绍了数据挖掘的商业环境、数据挖掘技术及其在商业环境中的应用。


5. 《数据可视化之美》

内容简介:在《数据可视化之美》中,20多位可视化专家包括艺术家、设计师、评论家、科学家、分析师、统计学家等,展示了他们如何在各自的学科领域内开展项目。他们共同展示了可视化所能实现的功能以及如何使用它来改变世界。


6.《流量的秘密》

内容简介:《流量的秘密:Google Analytics网站分析与优化技巧》将运用最新的网络计量学方法,教你获取真正有价值的信息。

哪种市场营销活动最有成效?如何量化这些效果?应该从哪些衡量指标进行追踪?《流量的秘密:Google Analytics网站分析与优化技巧》介绍的Google Analytics分析工具,将帮你完美解决这些问题,让你真正量化网站的成效。

《流量的秘密:Google Analytics网站分析与优化技巧》讲述了安装和配置Google Analytics最实用的技术,目标很明确:将最大化网站潜力所需要的知道奉献给读者。通过了解网站的访客,你可以如手术刀般精准地调整网页内容和营销预算,以期获得更佳的投资回报率。

《流量的秘密:Google Analytics网站分析与优化技巧》适合市场营销人员、网站管理员、网站决策人员,还有所有对网站营销有商业兴趣的人。


7. 《数据化决策》

内容简介:数据无孔不入,大数据时代,谁掌握了数据,谁就能把握成功。“一切皆可量化”,道格拉斯这个大胆的宣言是解决诸多生活和商业问题的关键所在。本书详细讲解了:专注于量化不确定性、风险和数据价值;提供了令人拍案惊奇的测算无形之物的简便方法,让你仅仅基于已知数据就能准确决策;展示了丰富而精彩的量化案例,让身边的数据唾手可得。

本书兼具实用性、可读性与趣味性,甚至让反感数据的人也能发现它的亲切。


8. 《机器学习》

内容简介:《机器学习》展示了机器学习中核心的算法和理论,并阐明了算法的运行过程。《机器学习》综合了许多的研究成果,例如统计学、人工智能、哲学、信息论、生物学、认知科学、计算复杂性和控制论等,并以此来理解问题的背景、算法和其中的隐含假定。


9.《数据挖掘与R语言》

内容简介:本书利用大量给出必要步骤、代码和数据的具体案例,详细描述了数据挖掘的主要过程和技术,广泛涵盖数据大小、数据类型、分析目标、分析工具等方面的各种具有挑战性的问题。


10.《数据挖掘与知识发现》

内容简介:本书详细地介绍了关联规则、聚类分析、决策树、贝叶斯网络、人工神经网络、支持向量机、粗糙集、模糊集等数据挖掘模型与算法。

10#
乔一鸭  2级吧友 | 2018-9-24 01:04:15 发帖IP地址来自

《精益数据分析》,我司入门必读书目。网易创始人 & CEO 丁磊重磅推荐:《精益数据分析》破除了创业教条”。Clarity CEO 评价《精益数据分析》弥补了精益创业的缺憾。目前已被翻译成8国语言销售,内忧100 多位创始人、投资人和创新者的成功创业经验。

读书笔记如下:

对于创业公司来说,不同发展阶段都有一个高于一切、需要你集中全部注意力的数字,即 OMTM(One metric That Matters),即第一关键指标。精益数据分析的核心思想之一是,确定商业模式和创业阶段后,即可跟踪并优化当前的创业第一关键指标。

按照精益数据分析理论,企业的发展经历移情阶段、黏性阶段、病毒阶段、营收阶段、规模化阶段,每次进阶都有需要破解的“关隘”,这些指标代表你可以进入下一阶段的关键指标。

你的企业处于哪一阶段?如何进入下一阶段?

图1 精益数据分析阶段及进入下一阶段的关隘

精益数据分析下的三大商业模式——电商、SaaS、媒体

企业指标的关注因商业模式而异,因企业发展阶段而异——企业具有多种商业模式,不同商业模式在企业发展的不同阶段所关注的指标不尽相同。下面列举电子商务、SaaS 企业、媒体三种常见的企业类型,其增长的关键是什么?不同发展阶段所关注的指标有哪些?

第一,电子商务企业。

电子商务企业,移情阶段真正重要的问题是:他们会从你这里买走等价商品吗?

电商企业增长的关键:他们会找到你的产品,并向他人推荐吗?

收入的主要来源:交易量。

图2 电子商务企业不同发展阶段应该关注的指标

第二,SaaS 企业。

移情阶段真正重要的问题是:用户会为解决问题付钱吗?

增长的关键:他们会注册、逗留,并告知他人吗?

收入的主要来源:活跃用户。

图 3 SaaS 企业不同发展阶段应该关注的指标

第三,媒体企业。

移情阶段真正重要的问题是:他们会反复参与产品内容吗?

增长的关键:你能将流量提升至可以盈利的状态吗?

收入的主要来源:广告营收。

图4 媒体企业不同发展阶段应该关注的指标

综上,模式+阶段决定了企业应该关注与跟踪的指标。这帮助企业克服许多公司或项目在早期都会面临的风险,让企业产品满足客户真实需求,在明确方案等坚定的基础上发展。

神策数据创始人&CEO 桑文锋所著《数据驱动:从方法到实践》京东预售正式开启。

购买地址:《数据驱动:从方法到实践》- 京东图书

本书由《精益数据分析》作者Alistair Croll、网站分析和互联网营销分析教父级专家宋星、互联网数据官创始人车品觉等亲笔作序。由红杉资本、线性资本、百度、今日头条、百联、纷享销客、饿了么、杏树林、造数科技十位高管力荐。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:
帖子:
精华:
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP