本人背景应用数学,运筹,优化,目前主要做图像处理、机器学习以及传统物流方面的大数据的应用,和目前大热的Data Science渊源比较深(优化、统计、数值计算等“基础学科”乃大数据的底层算法),对技术咨询公司了解的比较多些,自己也在商业优化软件NO.1的IBM Cplex实习过,下面就技术咨询浅尝辄止,举的例子大多是用优化的模型解决大数据问题。
首先欢迎大家关注我的运筹学、人工智能专栏:
[运筹帷幄]大数据和人工智能时代下的运筹学 - 知乎专栏
1,什么是data sciense?主要应用?首先从一个运筹学者的角度谈谈什么是数据科学,以及数据科学可以用来做什么。在我看来,数据科学(data sciense)是基于大数据,根据不同的实际需求,建立数学模型,然后编程并计算,最后目的是从大数据里面得到或者抽取出想要的有用的信息(通常数据量减少很多),以帮助决策者决策。举个数据科学下的图像处理领域里面的很简单例子:高速路上或者红绿灯路灯下的摄像头,每次一有车超速或者闯红灯,都会拍一张照片,比如有1000*1000=100w像素,以往每张照片都需要储存下来,然后交管人员用人眼辨别,去知道是哪辆车违规了。但是有了data science的帮助,事情就变得简单很多。每张照片100w像素中间,真正对决策者(即交管人员)有用的,只是其中车牌号的那么几千个像素(假设5000个像素)。所以,图像处理领域的数据科学家,就能依据决策者的需求,建立数学模型,然后编程嵌入芯片,最后把芯片植入到这些摄像头里面。那么,最后的结果就是,每次拍完一张100w像素的照片,需要存储的,仅仅是包含车牌号码的那一小块照片,即5000个像素点。这么一来,就大大减少了储存量;然而人类偷懒的潜力是无限的,有没有一个技术,可以直接把图片上面的数字符号读取出来呢?答案当然是有的,所以更进一步,text mining的数据科学家们,用他们领域的算法,再对这5000个像素点建模设计算法(如机器学习算法),便可以直接得到牌照号码(比如:苏B A1234),这么一来,每次拍完一张照片,需要存储的数据量,一下从100w变成了7个字母。Impressive?当然后面还有更impressive的。
2,咨询公司的分类以及他们和Big Data、Data Science的渊源首先简单地对咨询这个行业做个分类。大家比较熟悉的麦肯锡应该属于商业管理咨询,然后投资银行做一些金融类的咨询,还有BCG等做一些整体行业的咨询,当然还有我前面提到的,留学咨询,如果你也把它纳入的话。那么问题又来了?什么是咨询公司?比较通俗的理解,就是别人掌握了你没有的信息,然后把这个信息按照一定价格卖给你,这里的信息,可以是一般的消息性的信息,也可以是技术性的技能信息,甚至是操盘手庄家明天的操盘策略(这个貌似违法)。任何信息,有市场就有价值,卖这些信息的机构,就成为了咨询公司。比如留学咨询,我恰好去了三个大洲五六个大学学习过,知道了平常人不知道的一些信息,我就可以成立一个私人留学咨询,把我的这些信息卖给需要的人。(详见欧洲、北美、全球留学及人工智能、数据科学深度私人咨询,从此DIY - 知乎专栏)我知道的这么些信息,就构成了所谓的“大数据”,这是传统意义上的大数据,却不能成为近几年很火的那个大数据。为何?因为我所知道的这些信息,都在我的脑海里,或者我通过敲了几篇文章,也只是把我脑海中很多信息的一小部分展示给大家了,而还有很多依旧在我脑海里很难展现给大家。而最近很火的大数据,是指可以完全展示出来的,量化的数据量很大的数据。同样的留学咨询例子,正规的留学机构,由于接待了几万个客户,拥有着每个客户的诸如GPA,托福雅思成绩,GRE成绩以及他们收到的offer等等可以量化的数据。Data Scientist这时候的作用,在这里,就可以用统计、机器学习、优化的模型,利用这些可以量化的数据,建立并训练数学模型,得到最优化的参数。最后可以得到怎样一个智能的东西呢?就是一个新的客户,当给出了他的GPA,托福雅思成绩,GRE成绩以后,输入到这个模型,它会给你推荐大学,以及每一个大学拿到offer的概率。这里的模型,和上面的数据抽取又不一样了,它可以做到从已有的数据为依据做出推断,Impressive?回归到本段落重点,咨询公司由于接触着成千上万的客户,因此在所从事领域,有着得天独厚的大数据(Big Data)的优势。比如麦肯锡做行业咨询,那么他就拥有着本行业最多的大树据;投资银行咨询部做金融咨询,就自然拥有金融方面的最全的大数据。但是拥有大数据并不意味着知道如何利用大数据,特别是如何自动化智能地利用大数据(即Data Science所做的)。上面的留学咨询的例子,你有见过哪个留学中介会专门聘个机器学习的Phd给他们做一套类似的软件的?这些技术性的东西,小公司一般会外包给技术类咨询公司,或者直接购买市场上有该功能的商业软件。因此,结论:传统咨询公司和Big Data渊源很深,却很少涉及Data Science。
3,Data Science用什么方法分析Big Data?当下最火的机器学习,神经网络,深度学习(AlphaGo战胜李世石还记得吗),都是处理大数据的方法和模型。传统的最优化理论,统计学,概率论模型,随机过程,以及科学计算等等,其实是前面那些的基石。前面那些,基本可以认为是新瓶装旧药,当然肯定有它的创新之处。
4,Data Science出生,可以在咨询行业做什么?我想,到这里,我已经基本回答了题主的问题--Data Scientist可以建立数学模型,设计算法从而然机器自动地、智能地利用大数据,挖掘其中重要的信息,甚至基于这些数据做出推断。当然这里要修正一下题主对于咨询公司的误区,Data Scientist工作的咨询公司,应该叫做技术咨询公司,而不是传统意义上的行业、留学咨询公司,正如我前面举的例子。当然这些传统的大咨询公司,比如麦肯锡,里面肯定也有PhD做我上面所说的理论这块,然而这个应该属于麦肯锡内设的技术咨询部或者类似。然而虽然已回答完了题主问题,本文还将就技术类的咨询,略微深入地探讨一下。
-------------------------------------------------------------------
(1),谁需要技术咨询?小公司,没有大到自己有技术咨询部门的公司。上面留学中介已是一例,再举一个优化的传统应用--物流(Logistics)。一个物流公司(顺丰)要新建一个仓库,就有所谓的选址问题(facility location problem)。仓库建在哪里,成本较低然后能覆盖的用户最多,是组合优化里面一个经典的问题(这里已知仓库建在各地地成本以及建在各地能覆盖多少用户等大数据)。有人可能觉得这个不是拍脑袋就能决定的么?对,如果只是建一个仓库,那么当然选成本最低以及能覆盖用户最多的那个地方。但是如果问题是同时给1000个仓库选地址呢(2000个可能地址)?那么乍一看,可能性就有2000*1999*...*1000多种(指数爆炸),要从这么多可能性里面选出最好的那一个,你确定还能拍脑袋做决定?小公司由于成本有限,没有自己的优化研究组,所以这个东西通常外包给技术咨询公司。有朋友在顺丰实习过,说顺丰研发下面已有专门的工业工程部门,做的就是类似问题的研究,还包括车辆路径规划问题,即已知一辆大卡车要配送给100个用户以及他们的地址,求一个最优的送货路径。或者问题更复杂一点,100辆卡车,每年卡车要配送给100个用户。我们组合优化研究的,就是怎么建立数学模型,设计算法,从而从指数级复杂度的选项里面选出最好的那个。由此得出,顺丰已是大公司。
(2),市面上有哪些技术咨询公司?优化领域有专门的咨询公司,比如荷兰的Ortec,是我们玛丽居里项目MINO的三个企业赞助商之一,我们居里er有个postdoc同事就在那边,一年博后做完直接留在了那里。他们应该是各个领域的技术咨询都做。再比如,菜鸟网络,应该是国内最大的,专注于物流领域的技术咨询公司。他的技术直接服务于国内各大快递公司和电商。作为Ortec这样专门咨询公司的一员,你的职责就是接类似选址问题的很多个project,多到你基本就是用公司现成的模型和算法,然后机械的编程、带入数据计算。基本是没有闲功夫看paper做research以紧跟科研潮流的。或许在模型算法过时到没客户的情况下,公司会要求更新模型和算法。初期可能会出差到客户那边了解需求,然后回到公司建立数学模型,然后编程,然后调用商业优化软件,输入大数据计算,得到结果,并且利用这个结果帮助客户决策。项目尾声一般再次出差到客户那边,做一个总结性报告。
(3),优化领域里的特例--商业优化软件兼职技术咨询还有例子就是商业的优化软件,比如上面的选址问题,你给一个PhD,比如我,我能给你数学建模,然后coding,接着就是调用现有的商业优化软件计算大数据了。有人问程序为什么我不自己写呢?当然也可以自己把所有的code写出来,然后带入大数据计算,但是往往运算速度非常慢,而且会漏洞百出。(人家商业软件几十号人写了十几个版本的code不是吃白食的)于是就有业界前三的商业软件,IBM Cplex, Gurobi, FICO Xpress. 这三个商业软件,能解决很大的数据量的模型。(线性规划可以几十万个变量和不等式)软件卖给客户用,是需要收取高额的年费的。 这三个公司同时也兼职做着咨询的服务,而且他们的优势是,客户用他们的软件,编好模型,可以就具体的问题咨询,为何算这么慢?有办法提高么?于是这三个公司能更有针对性的进行咨询。(我有幸请Gurobi的创始人之一Bixby在北京吃过饭聊过)因此,这些商业软件巨头们,也偶尔干干技术咨询的活。因此,作为商业优化软件的data scientist,你的首要职责是development,其次业余时间可能会给客户咨询一下specific的project,看看能不能帮他们调调参数或是优化模型,以帮助他们得到想要的结果。这里赞一下财大的葛冬冬教授以及他的博士老板叶荫宇教授,由他们牵头,中国开始研发华人自己的优化软件了,从他的文章里,大家也能大致了解要开发一个优化的软件是有多么不容易。葛冬冬:走出围墙的运筹学拓荒者
(4),科技巨头下基础研究组的兼职技术咨询很多传统的科技大佬,内部也有咨询部门。他们优先服务于自己的公司内部的业务,当然随着部门的扩大和技术的成熟,为何不赚点外快呢?于是他们也开始接其他公司的活,收取咨询费。IBM就是这样一个例子,首先他自己有子咨询公司叫IBM consulting,总部应该在爱尔兰,就是一个类似Ortec的公司。但是像IBM这种巨头,都有重视基础研究的传统,基础科研的设置类似大学院系的设置。(这里顺便赞一个华为,在俄罗斯和法国,都建了数学研究中心)因此本文对于科技巨头和一般大科技公司的区别,就在于有无设立基础科学研究中心。IBM在纽约旁边的TJ waterson科研中心有个应用数学系,系里面有优化部门。这里面的data scientist一小部分时间用来接IBM consulting的task,另一部分用来自己做科研,开学术会议,学术访问等等。(几乎每次开会都能碰到IBM优化组的头头和他俩个员工,还和他们在法国切磋过乒乓)
(5),大公司内部的技术咨询部门当然随着大数据、工业4.0、工业互联网、人工智能的流行,很多传统的非巨头大公司也逐渐加入到数据分析的行列。比如海德堡旁边座落着SAP总部,大家都知道他是搞企业软件的。SAP里面近几年也有个data scientist team,首先就是解决SAP内部的技术咨询,有闲暇时间了,接外部的活。我们IWR(海德堡交叉学科计算中心)有俩个校友在里面工作,他们说和传统咨询公司(这里指即麦肯锡之类的企业管理咨询或者行业咨询)不太一样,出差不多,每个月2天左右,起薪高,但是工资涨幅低。据说这个team基本是项目人手不够,所以只能有选择地接项目,team也在持续扩招,也是我明年的target之一。看来Big Data越来越火,越来越多的公司知道找咨询公司来帮忙决策之前算一算盈亏,以帮助决策,而不是拍脑袋决策。这也是国内的大势所趋。
(6),Data Science(技术咨询)在传统咨询公司关于投资银行和传统商业管理或者行业咨询公司的data analysis,我不是专家,但我认识挺多朋友在里面。本质一样,都是基于大数据,建立数学模型,然后计算或者预测,希望从大数据里面得到有用的信息,以帮助决策者决策。比如审计领域,有利用数学特别是机器学习甚至神经网络的模型,来检查是否有假账的存在。金融领域,有各种资产的投资组合,本质应该是随即优化的模型,更多的是概率和随机的模型,不是本行,就不给于更多的点评了。前面也已经提到,这些公司内部可能有技术人员来做这些复杂的数学模型,或者外包给专门的技术咨询公司。
总之大数据乃大势所趋,data scientist这几年越来越火,包括工业4.0(即大数据在工业界的应用)的概念等,随之而来的是大家对处理大数据的Machine Learning, 神经网络,Deep learning等等模型和方法也趋之若鹜。但是想提醒大家的是,这些近几年最热的专业,热的只是一个概念,整个理论体系其实早已存在很多年。因此希望大家不要盲目地扎堆到这些领域去,而应该重视它们的理论基础和底层算法,比如最优化理论,统计学,科学计算,当然,最最基础的,微积分,线性代数等等。对中国大数据的几点期许。首先,像google那样重视并收集大数据;其次,重视基础科研,增加研发,设计好的数学模型和算法;最后,希望决策者知道利用data science来帮助决策。
最后是通往大洋彼岸高薪博士职位,以及人工智能数据科学家的传送门:
欧洲、北美、全球留学及人工智能、数据科学深度私人咨询,从此DIY - 知乎专栏
以及工业界咨询:
运筹学、人工智能、数据科学寻学术合作,承接工业界咨询,欢迎访问海德堡大学组合优化实验室、图像处理中心 - 知乎专栏
|