职业规划:Data Scientist(数据科学家) 和 Software Developer,如何选择?

论坛 期权论坛 期权     
Xin Zhao   2018-9-28 00:20   13680   5
小硕毕业,工作两年,有大牛或经验人士能不能帮忙提点一下,Data Scientist(数据科学家) 和 Software Developer哪个职位好一下,迷茫了。。。
分享到 :
0 人收藏

5 个回复

倒序浏览
2#
何史提  4级常客 | 2018-9-28 00:20:55 发帖IP地址来自
我不知道中国的情况是怎样,但我可以谈谈美国的情况。大家心目中的软件工作师和数据科学家的职责是有分别的,但那个分界可能不是很清楚。

软件工程师是一个存在多年的职业,工作也有规范,如编写代码,要用OOP,要写Unit Test,当然要除虫了,懂得version control,要deploy分工也细。

可是数据科学家是相对较新的行业,但具体来说,要处理大量数据,当中包括很多如格式、错误资料、语言等要处理,这往往花掉了一半的精力;然后要从数据中找出讯息或知识,当中涉及不少数学、统计模型,或者机器学习的方法,可见数学能力是一个重要要求。另外也要有商业触觉,要多看新闻。

由于数据科学家需要编程,所以他做的东西也有和软件工程师重迭。我的职衔是软件工程师,但做起来像研究员,其实是数据科学家的工作。

数据科学家的工作不太规范。Harlan Harris, Sean Murphy, Marck Vaisman在去年写的《Analyzing the Analyzers》提到一个图如下:




当中的Data Developer相当于Software Developer,和Data Researcher(即Data Scientist)有点不同。但注意的是,时代还在改变,这行业还没稳定,这种图形会继续改变。

另参:What is a data scientist? 14 definitions of a data scientist!   Big Data Made Simple
Data scientist is a person who has the knowledge and skills to conduct sophisticated and systematic analyses of data. A data scientist extracts insights from data sets for product development, and evaluates and identifies strategic opportunities.
Other popular definitions:
1. "There's a joke running around on Twitter that the definition of a data scientist is 'a data analyst who lives in California," -- Malcolm Chisholm
2. "A data scientist is that unique blend of skills that can both unlock the insights of data and tell a fantastic story via the data," -- DJ Patil
3. "Data scientists are involved with gathering data, massaging it into a tractable form, making it tell its story, and presenting that story to others," -- Mike Loukides
4. “A data scientist is a rare hybrid, a computer scientist with the programming abilities to build software to scrape, combine, and manage data from a variety of sources and a statistician who knows how to derive insights from the information within. S/he combines the skills to create new prototypes with the creativity and thoroughness to ask and answer the deepest questions about the data and what secrets it holds,” -- Jake Porway
5. Data scientists are “analytically-minded, statistically and mathematically sophisticated data engineers who can infer insights into business and other complex systems out of large quantities of data,” -- Steve Hillion
6. "A data scientist is someone who blends, math, algorithms, and an understanding of human behavior with the ability to hack systems together to get answers to interesting human questions from data," --Hilary Mason
7. Data scientist is a "change agent." "A data scientists is part digital trendspotter and part storyteller stitching various pieces of information together." -- Anjul Bhambhri
8. "The definition of “data scientist” could be broadened to cover almost everyone who works with data in an organization. At the most basic level, you are a data scientist if you have the analytical skills and the tools to ‘get’ data, manipulate it and make decisions with it." -- Pat Hanrahan
9. "By definition all scientists are data scientists. In my opinion, they are half hacker, half analyst, they use data to build products and find insights. It’s Columbus meet Columbo – starry eyed explorers and skeptical detectives." -- Monica Rogati.
10. "A data scientist is someone who can obtain, scrub, explore, model and interpret data, blending hacking, statistics and machine learning. Data scientists not only are adept at working with data, but appreciate data itself as a first-class product." -- Daniel Tunkelang
11. An ideal data scientist is “someone who has the both the engineering skills to acquire and manage large data sets, and also has the statistician’s skills to extract value from the large data sets and present that data to a large audience.” -- John Rauser
12. Data scientist is "someone who can bridge the raw data and the analysis - and make it accessible. It's a democratising role; by bringing the data to the people, you make the world just a little bit better," --Simon Rogers
13. "A data scientist is an engineer who employs the scientific method and applies data-discovery tools to find new insights in data. The scientific method—the formulation of a hypothesis, the testing, the careful design of experiments, the verification by others—is something they take from their knowledge of statistics and their training in scientific disciplines. The application (and tweaking) of tools comes from their engineering, or more specifically, computer science and programming background. The best data scientists are product and process innovators and sometimes, developers of new data-discovery tools," -- Gil Press
14. "A data scientist represents an evolution from the business or data analyst role. The formal training is similar, with a solid foundation typically in computer science and applications, modeling, statistics, analytics and math. What sets the data scientist apart is strong business acumen, coupled with the ability to communicate findings to both business and IT leaders in a way that can influence how an organization approaches a business challenge. Good data scientists will not just address business problems, they will pick the right problems that have the most value to the organization," -- IBM researchers
3#
王礼Leon  4级常客 | 2018-9-28 00:20:56 发帖IP地址来自
这两个职位根本不是并列的关系,不存在看看标题就可以知道怎样选择两个岗位,刚毕业根本没有资格担任数据科学家,如果企业设置数据科学家这个岗位来招聘毕业生或者工作就那么几年的人的话,其实只是企业的骗人的把戏,利用这个当前数据科学家这个噱头来吸引眼球。关于数据科学家方面的内容及一些核心技能素质要求,请大家参考下我以前的一篇文章,希望以后就不要把数据科学家和普通的数据工程师混为一谈,贻笑大方。
以下是文章内容,供大家参考:
        大数据科学家的核心技能有多个方面,在文章的末尾,我会梳理下需要核心技能框架供大家参考。下面,我重点谈谈要成为数据科学家的最核心的技能是要掌握好大数据应用技术,掌握好大数据基础平台的构建和大数据产品化、服务化的价值变现框架以及大数据商业化的总体思路。
当前大数据已经深入人心,各行各业都在谈论大数据,都想抓住大数据这个新兴产业的机会,传统企业也想利用大数据进行企业的转型升级。一个个的大数据项目像雨后春笋般被立项动工,怀着领导极大的期望热火朝天的干起来。可是,当领导们发现投入了大量的人力财力物力,但最终结果不理想、没有实际结果产出的时候,他们就开始心灰意冷,怀疑起大数据是不是真像人们说的这样有价值?领导们心里就会认为,大数据其实就是大家跟风炒作,只是一个泡沫而异?事实上,真的是这样的吗?我想一定不是的,大数据绝对不存在泡沫(关于这一点,大家可以参考我的“大数据人的职业生涯规划” 这个小讲,有详细充分的把这个问题论述清楚),大数据是真真正正的具有非常大的企业应用价值的。那这样说,老板的问题出在哪里呢?我认为,大数据项目之所以失败、之所以没能达到老板的预期,主要责任在于这个公司的大数据科学家,是他的能力水平不够,导致老板对大数据丧失信心。而社会上,正是存在千千万万不合格的但又处于企业核心关键位置的大数据科学家,才让一个个大数据项目发挥不出真正的价值来,导致当前大家对大数据所存在的社会困惑,更以至于大家都认为大数据存在泡沫。以下是我对大数据科学家培养的一些小小的建设性意见,给更多想成为未来大数据科学家的同学一个学习框架,如果大家能因此从中获益,未来成为一个真正的能为企业创造巨大价值的大数据科学家,我深感荣幸!





一个大数据科学家,要做好大数据工作,真正发挥大数据的价值。需要掌握三方面的应用能力,一是大数据基础平台的建设能力;二是大数据产品化、服务化的包装能力;三是大数据产品和服务转化为商业价值的商业化能力。三个方面,缺一不可。如果只懂得大数据平台建设能力,那么他只是一个大数据架构师;如果只懂得大数据产品化、服务化能力,那么他也只是一个数据产品经理;如果只懂得大数据商业化能力,那么他只是一个好的大数据销售经理。具备以上单一能力的人,社会上还是非常多的,具备双重能力的人,也还不少。一个具备大数据平台建设能力,又可实现大数据产品化的人,不能称之为数据科学家,这一类人能力不错,可把数据和产品玩得非常溜,企业有时候招到这类人认为已经招对人了,挺高兴的。如果这个人作为一个架构师或者高级产品经理或者是一个大数据部门经理,我觉得可以胜任的。但一旦把这个人摆在大数据总监或者更高层的位置上的话,会是不胜任的,因为从商业角度来说,这一类人只会搭积木,不了解数据商业化,更不懂得生意的本质,有时候会是灾难性的,会直接导致大数据项目的失败。下面,我们分别讲讲这三个方面,都有哪些具体的要求。
大数据平台构建:需要掌握大数据基础平台架构能力、企业大数据门户建设能力、大数据应用系统集成能力。由于每个企业业务繁多,企业数据日常只存放在各个业务数据库中,当运营、产品、分析等人员需要用到数据的时候,就需要访问多个数据库来获取,并且,这些数据是杂乱无章的,各种格式都存在,为了拿到需要的数据,也许需要分析人员花上好几个小时甚至几天的时间,使用起来非常的很不方便。另外,数据是企业日常运营过程中,经常使用的资产,获取数据的低效率直接影响到企业的经营效率,从而影响到企业在激烈的商场中的竞争力。在竞争激烈的商场中,每家企业都追求比别人快一秒,这就需要数据科学家们,帮助企业搭建好完善的大数据基础平台,让获取数据变得容易、简单、高效。当然,这一步也是大数据产品化、服务化的基础。说了这么多,我们该怎样构建企业大数据基础平台呢?由于我们这是一个大数据职业生涯系列的分享,涉及具体技术方法方面我们将会在大数据应用系列的“企业大数据战略及价值变现”这个小讲中详细的分享,欢迎大家参加。在这里,我只讲两点需要特别特别注意的地方:
1)把握实施的节奏和策略。通常在企业B轮之后,就要上大数据平台了。如果本身背景比较雄厚的,早期规模都比较大,有实力的话,越早做越好。但是,要非常注意实施策略,大数据是投入大,短期产出小的项目,如果不懂得实施策略,必然会失败。怎样的策略呢?先做好大数据平台架构,规划好主题模型和层次模型,进行模块化、框架式设计,然后根据最靠近业务、最靠近营收为准则,去判断优先实施哪个模块哪个应用,以期望马上带来经济效益。这一点非常之重要,直接决定了这家企业大数据项目后期还能不能继续玩下去的根本。这也是我在给企业做大数据解决方案时候,最核心关注点。
2)关注大数据3个平台间的联动协同效应。是哪三个平台呢?我们前面已经说到,不知大家有没有留意。大数据基础平台、大数据门户(也即大数据分析平台,含用户画像)、大数据业务应用系统(如风控系统、个性化推荐系统等)。虽然他们三者之间存在依赖关系,比如大数据分析平台的数据从大数据基础平台出,个性化推荐系统所用到的用户画像从大数据分析平台过来,但我们千万不要先做完成一个平台再去做另一个平台。我们一定要联动协同,要同时进行,要小步快跑,快节奏的出效果。那么,我们怎么联动呢?我还是举一个例子来说明。就说个性化推荐系统吧,我们可以先专心推荐系统最重要的模块-用户画像这个模块的研发,像产品知识库、推荐引擎等,可以以最简单的方式,甚至半人工方式来完成,集中精力完成用户画像这个模块。同时,兼顾大数据分析平台中用户画像的框架、大数据基础平台中用户主题模型框架来实施,当我们把推荐系统的用户画像模块研发出来的时候,我们也已经把大数据基础平台的用户主题模型和大数据分析平台的用户画像分析做出来了,一箭三雕,非常之高效。这就是联动协同效应。
大数据产品化: 需要掌握大数据产品化、数据应用化能力以及数据驱动业务增长技术能力。数据产品化,是企业大数据项目的重要且核心的内容。数据能不能提炼成产品或者服务,进行产品化、服务化转变,直接影响到数据变现能不能成功,从而影响到企业整体的变现、货币化能力。货币化能力又直接影响到企业的估值高低。关于这方面例子的企业,社会上非常之多,在这里也不好直接说出来,大家可以自己想想有哪些企业用户基数非常之大,但多年一直在亏损的,不管是国企还是民企,这一类企业数据变现是不成功的或者是根本没有进行数据变现的,导致货币化困难、盈利能力弱。这是什么原因呢?核心还是人才,缺乏一个真正的大数据科学家,缺乏能把数据变成产品或者服务的人。有很多企业数据非常多,但是就是不能充分利用起来,不能充分发挥数据的价值,原因就是缺乏这样一位大数据科学家。 既然数据产品化服务化是这么重要,我们日常有哪些常用数据产品化、服务化方法呢?方法非常之多,但总结起来就那么几类,要成为一个数据科学家,那是必须要掌握的。
1)精准营销和个性化推荐系统。非常之常见,几乎每家有一定规模的企业都会做的大数据产品项目。它们是通过推送用户喜欢的产品或者服务给用户来获得价值收益的。大家平时在淘宝上买东西,看到的“猜你喜欢”或者是“买了**可能你还想买**”等模块就是典型的个性化推荐系统的产品。个性化推荐系统,商业效果非常显著,产出也比较好衡量,只需要看应用了这个产品后,相同的业务营收比不使用该推荐系统提升多少就可以看出来了。关于个性化推荐系统是一个什么东西,有哪些构成,实现原理是怎样的,等等技术或具体产品问题,我们会在大数据应用系列分享的“如何利用大数据做个性化推荐”小讲中,详细的给大家分享,欢迎大家参加。
2)搜索平台、广告服务平台。显然,这两个主要是通过广告来创收的。大凡有一定用户量的线上平台,基本都会通过广告来获得收益,这是各家企业普遍的最重要的变现手段。广告商业模式多种多样,有购买搜索关键词的,也有搜索竞价排名的,有购买黄金展位的,也有闪屏直接推送的,等等。商业模式多种多样,但都脱不了其是将目标产品或者服务通过广告位推送给恰当的人群,要不是曝光、要不点击、要不购买等来获取收益的。例子大家都知道啦,百度的主营业务就是靠广告收入。
3)风控模型产品和服务。这块在金融或者电商等互联网企业应用得比较广泛。是企业业务发展的重要支柱。风控可以带来两个方面的收益。对内,通过风控,识别欺诈和骗贷,降低由于欺诈带来的放贷本金的损失,其实就是收益。对外,可以直接输出风控服务能力,直接的产生营收。这方面的例子太多了,社会上做风控服务的大数据公司,不低于一百家,都是靠输出风控数据服务来赚钱的。至于风控有哪些可以赚钱的产品和服务,以及风控的技术模型等一些问题,我们留到大数据应用系列分享的“如何利用大数据做好大数据风控”这一小讲中,再详细的给大家分享,欢迎大家参加。
4)大数据信息产品或解决方案服务。这一类企业也非常多,有提供会员服务的,有提供APP使用的,有提供SAAS云服务的,等等,大大小小的提供大数据工具或者信息产品服务的企业不低于一千家。举个例子,万德资讯就是通过大数据手段,收集各种有价值信息进行整理加工后,提供给用户的。关于这一类企业,在这里我就不详细讨论了。因为实在是太零散了,各家企业五花八门。
大数据商业化:需要掌握数据商业化能力,数据价值变现能力,需要培养有强烈的商业敏感度的习惯。作为一个数据科学家,搭建好大数据基础平台,做好数据的产品化、服务化,还是远远不够的。企业生存就是为了积累数据,未来企业融资是靠数据,企业的上市估值更是靠数据。所以,我们所做的一切都是为了数据。可是,有数据还是非常不够的,做出好的数据,也许一时能忽悠住投资人,忽悠住工作的同事,但是不能长期忽悠投资人,你有多少多少用户量、交易流水多少多少个亿,那都没用的。长期来看一定是靠盈利的,是要为投资人创造收益的。企业的商业化是否成功,在很大程度上特别是对于一些本身是做大数据的公司来说,都是要靠大数据去驱动做数据化变现的。常用的一些方法有:
1)卖流量。通过大数据精准营销或者设计一些数据产品比如个性化推荐来支持广告的精准投放和产品的销售以及交叉销售等。这一类非常常见,我想不讲大家应该也能明白。如果不明白的,可以看看淘宝网的一些广告位和商品的推荐位,就会清楚了。
2)卖服务。现在很多大数据公司,通过把自己的核心能力包装成一整套解决方案,提供给客户。比如,大数据风控公司,提供大数据风控云服务,把自己拥有的数据加上自身的建模能力优势包装成解决方案,提供给客户。
3)卖产品。通过把数据产品化,比如,淘宝上特别多的提供各种分析结果给淘宝店家的数据产品。
4)卖数据。贵阳的国家大数据交易平台,其实就是在做这个事情。在互联网金融领域,直接卖数据也是各大数据公司非常之常见的一种营收模式。
关于大数据商业化变现还有非常多的方法,这就需要数据科学家在日常工作管理中,做好归纳总结,创新思维,创造出各种各样的数据商业化模式来。
以上就是我关于成为大数据科学家需要掌握的大数据应用技术的详细论述,希望大家能灵活掌握好这个应用框架,不断创新思路,更企业带来实实在在的商业价值。但是要真正成为一个大数据科学家,仅仅掌握大数据应用技术还是远远不够的,以下是我梳理的大数据科学家的核心能力框架,共包含5点,其中第2点 “成为大数据科学家需要具备大数据应用技术”就是我们前文所论述的。另外4点内容,我会在“大数据人的数据科学家之路”小讲中进行详细的分享,欢迎大家来参加。
(1)成为大数据科学家需要掌握大数据基础科学技术
大数据技术:分布式大规模数据处理技术和工具,如hadoop、spark生态系统技术
数据挖掘技术:掌握常用的数据挖掘算法模型、机器学习算法、深度学习、人工智能技术
数据采集技术:掌握数据采集的常用技术框架和工具
数据可视化技术:掌握数据可视化方法和技术及工具
(2)成为大数据科学家需要具备大数据应用技术
大数据平台构建:大数据架构能力、离线和实时分布式计算环境的建设
大数据产品化: 数据产品化、数据应用能力,数据驱动业务增长等技术
大数据商业化:数据商业化能力,数据价值变现能力,有强烈的商业敏感度
(3)成为大数据科学家需要具备大数据实战能力
最好是大数据的各个工作岗位都曾经做过一遍,熟悉数据产品、数据分析、数据挖掘、
数据转换清洗处理、数据采集、数据可视化等技术,能够通盘的指挥大伙作战。
要成为大数据科学家那就必须具备10年以上的大数据行业实践经历,当然啦,
特别厉害的人, 这个时间可以缩短再缩短。
(4)成为大数据科学家需要具备大数据战略、产业化思维
大数据战略:大数据平台战略、人才战略、时机战略、选型战略、管理战略、决策战略等
大数据思维:增长思维、动态思维、历史思维、颠覆思维等
大数据行业视野:站在行业的视角,掌控各行各业的大数据动态情况
大数据产业的引领者: 具备大数据产业塑造能力,是产业的引领者
(5)成为大数据科学家需要具备一定的科研能力
需要具备专利论文能力,最好是能够著书立说。各大大数据公司,
都有专利论文的要求的,作为企业数据最高领导者,必然需要具备专利敏感性。


以上是我对如何成为大数据科学家的几点拙见,欢迎大家拍砖指正,欢迎大家关注我的知乎专栏“大数据实践与职业生涯”并留言,专栏会陆续的推出过往十多年的大数据工作经验总结和我的一些研究实践成果。如果你是大数据新人,或者想转行进入大数据领域,或者职业生涯上存在一些疑惑,都欢迎关注我的知乎live分享“大数据人的职业生涯规划” 、 “数据分析师-从零入门到精通”、“大数据人的数据科学家之路”。
4#
孤云独去闲  3级会员 | 2018-9-28 00:20:57 发帖IP地址来自
我的回答肯定很有局限性,仅供参考。

现在很多职位都叫data scientist,其中有一部分会搞很多sql,就是以前的statistician。这种职位我觉得好处是看的数据比较多,对business接触的比较多。也可以转client facing的岗位。喜欢跟人打交道的话,先做data analyst,再转business analyst也不错。如果就喜欢数据,那就一直分析数据呗,可能越做越偏统计。

有些工作建模的时间比较多,看论文,推公式都需要。这种工作可能硕士毕业有点不太够。我觉得硕士毕业比较难直接做一些非常建模尤其是customize 模型的事情。

举个例子啊。有十万个用户,已知每个用户在过去一年什么时间点看到了什么广告,广告分五十类,最终有三千人买了东西。另外有一个对照组,十万人,没有看过任何这五十种广告,但可能看过其他广告。有两千人买了东西。现在问每种广告的影响力可不可以量化。如果手里有一定的广告预算,应该怎么投入到这五十种广告里。

这个项目,需要有个产品经理,有个卖这套东西的人,有个建模的,还要有两个analyst,还要有个管理这个建模人员和analyst的后台boss。后台boss和产品经理最终负责给客户解释为什么咱们的结果make sense,为什么你的钱花得值。产品经理还要负责很多协调性的工作。

咨询业做数据分析的牛人,要不然就是特别有商业嗅觉,知道什么项目好卖,什么东西有人关心,什么能赚钱,要不然就是数学建模特别牛,项目定了,很快能做个大家都满意的模型。


综上,你还是看你自己的爱好。你要是喜欢我说的这种职业路线,那就去做呗。

刚开始挣得没有码工多,干几年其实跟码工挣得可能也差不多。
5#
匿名用户   | 2018-9-28 00:20:59 发帖IP地址来自
提示: 作者被禁止或删除 内容自动屏蔽
6#
alexsunmiu  4级常客 | 2018-9-28 00:21:00 发帖IP地址来自
数据科学家炒得很火,我觉得的本质的区别应该是价值的区别,开发主要在于创造出没有的事务,而数据本质上仍然是分析现有的数据。开发就像乐高,数据貌似没有如此大的吸引力。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:
帖子:
精华:
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP