大数据最核心的价值是什么？

有这样一段话：社交网络，让我们越来越多地从数据中观察到人类社会的复杂行为模式。社交网络，为大数据提供了信息汇集、分析的第一手资料。从庞杂的数据背后挖掘、分析用户的行为习惯和喜好，找出更符合用户“口味”的产品和服务，并结合用户需求有针对性地调整和优化自身，就是大数据的价值。诸位同僚觉得大数据的核心价值是什么？

Han Hsiao · 2018-10-13 14:54:24

2014年4月29日更新了两张图，修改一些拼写错误。
-
下面是一些长篇的讨论，这里我把大数据的核心价值理解为核心商业价值。

“很多人还没搞清楚什么是PC互联网，移动互联网来了，我们还没搞清楚移动互联的时候，大数据时代又来了。”——马云卸任演讲

本文尝试从三大产业的角度将大数据的核心商业价值分类讨论。
首先例举一些大数据的典型应用，然后解释大数据的定义，最后总结大数据的价值。

我们知道：

第一次工业革命以煤炭为基础，蒸汽机和印刷术为标志，
第二次工业革命以石油为基础，内燃机和电信技术为标志，
第三次工业革命以核能基础，互联网技术为标志，
第四次工业革命以可再生能源为基础，_________为标志。

空白处你会填上什么？欢迎大家讨论。但是目前可以预测的是，数据和内容作为互联网的核心，不论是传统行业还是新型行业，谁率先与互联网融合成功，能够从大数据的金矿中发现暗藏的规律，就能够抢占先机，成为技术改革的标志。

一、大数据的应用
大数据挖掘商业价值的方法主要分为四种：

客户群体细分，然后为每个群体量定制特别的服务。
模拟现实环境，发掘新的需求同时提高投资的回报率。
加强部门联系，提高整条管理链条和产业链条的效率。
降低服务成本，发现隐藏线索进行产品和服务的创新。

Mckinsey列出了各个行业利用大数据价值的难易度以及发展潜力。《Big data: The next frontier for innovation, competition, and productivity》

各种Data之间的关系图，注意Open Data是完全包含了Open government data（政府开放数据）

Mckinsey也列出了Open Data时代里七大行业潜在的经济价值，自上而下分别是教育，运输，消费品、电力、石油与天然气、医疗护理、消费金融。（感谢知友安阳提供的补充链接资料）

大数据的类型大致可分为三类：

传统企业数据（Traditional enterprise data）：包括 CRM systems的消费者数据，传统的ERP数据，库存数据以及账目数据等。
机器和传感器数据（Machine-generated /sensor data）：包括呼叫记录（Call Detail Records），智能仪表，工业设备传感器，设备日志（通常是Digital exhaust），交易数据等。
社交数据（Social data）：包括用户行为记录，反馈数据等。如Twitter，Facebook这样的社交媒体平台。

从理论上来看：所有产业都会从大数据的发展中受益。但由于数据缺乏以及从业人员本身的原因，第一、第二产业的发展速度相对于第三产业来说会迟缓一些。

1985年，我国国家统计局明确地把我国产业划分为三大产业：

农业（包括林业、牧业、渔业等）定为第一产业。
工业（包括采掘业、制造业、自来水、电力、蒸汽、煤气）和建筑业定为第二产业。
把第一、二产业以外的各行业定为第三产业。

第三产业即除第一、第二产业以外的向全社会提供各种各样劳务的服务性行业，主要是服务业。其中第三产业可具体分为两大部门：一是流通部门；二是服务部门。再细分又可分为四个层次：

第一层次，流通部门。包括交通运输行业、邮电通讯行业、物资供销和仓储行业。
第二层次，为生产和生活服务的部门。包括金融业、商业饮食业、保险业、地质普查业、房地产业、公用事业、技术服务业和生活服务修理业务；
第三层次，为提高科学文化水平和居民素质服务的部门。包括教育文化、广播电视事业、科学研究事业、卫生、体育和社会福利事业；
第四层次，为社会公共需要服务的部门。包括国家机关、党政机关、社会团体、以及军队和警察公安司法机关等。

我们可以看出，由于某些客观原因，相对于第一产业和第二产业来说，第三产业凭借自身的优势，大多汇聚了当前最海量的数据以及大批的科研中坚力量。接下来让我们看一些典型例子，当前新形势下与三大产业密切相关的大数据应用。

(1).第一产业

孟山都（Monsanto | A Sustainable Agriculture Company），农业

孟山都是一家美国的跨国农业生物技术公司，其生产的旗舰产品抗农达，即年年春（Roundup）是全球知名的嘉磷塞除草剂，长期占据市场第一个位置。该公司目前也是基因改造（GE）种子的领先生产商，占据了多种农作物种子70%–100%的市场份额，而在美国本土，更占有整个市场的90%。已经统治了生物工程种子业务超过十年。

孟山都首先发起“Green Data Revolution”运动，建立农业数据联盟(Open Ag Data Alliance)来统一数据标准，让农民不用懂“高科技”也能享受大数据的成果。典型的应用如农场设备制造商John Deere与DuPont Pioneer当前联合提供“决策服务(Decision Services)”，农民只需在驾驶室里拿出平板电脑，收集种子监视器传来的数据，然后将其上传给服务器，最终服务器返回化肥的配方到农场拖拉机上。

天气意外保险公司（The Climate Corporation），农业

The Climate Corporation为农民提供Total Weather Insurance (TWI)——涵盖全年各季节的天气保险项目。利用公司特有的数据采集与分析平台，每天从250万个采集点获取天气数据，并结合大量的天气模拟、海量的植物根部构造和土质分析等信息对意外天气风险做出综合判断，然后向农民提供农作物保险。前不久从Google Ventures、Founders Fund等多家公司获得超过5000万美元的风险投资。 2013年被孟山都收购。

土壤抽样分析服务商（Solum, Inc），农业

Solum目标是实现高效、精准的土壤抽样分析，以帮助种植者在正确的时间、正确的地点进行精确施肥。农户既可以通过公司开发的No Wait Nitrate系统在田间进行分析即时获取数据；也可以把土壤样本寄给该公司的实验室进行分析。2012年获得Andreessen Horowitz 领投的1700万美元投资后，已累计融资近2000万美元。

了解更多：
大数据对于农业的发展会带来什么影响？或具体到对农场经营会有什么启示或者带来什么样的变化?

(2).第二产业
2013年9月，工业和信息化部发布了《关于印发信息化和工业化深度融合专项行动计划（2013-2018年）》的通知。明确提出推动物联网在工业领域的集成创新和应用：

实施物联网发展专项，在重点行业组织开展试点示范，以传感器和传感器网络、RFID、工业大数据的应用为切入点，重点支持生产过程控制、生产环境检测、制造供应链跟踪、远程诊断管理等物联网应用，促进经济效益提升、安全生产和节能减排。

大数据的业务多是数据驱动型，具有数据量大、种类多、实时性高的特点。工业企业对数据的记录以往看来主要分为两种方法：传统的纸笔和Excel电子表格记录。这些操作起来看似简单的数据管理方式为企业生产及质量监控埋下了巨大的隐患，也让数据挖掘无从谈起。

随着信息化与工业化的融合发展，信息技术渗透到了工业企业产业链的各个环节。例如Sensor、RFID、Barcode、物联网等技术已经在企业中得到初步应用，工业大数据也开始逐渐得到积累。企业中生产线高速运转时机器所产生的数据量不亚于计算机数据，而且数据类型多是非结构化数据，对数据的实时性要求也更高。因此工业大数据所面临的问题和挑战很多，所以通用电气公司（General Electric）的副总裁兼全球技术总监William Ruh认为相对于工业大数据来说，工业互联网（Industrial Internet）才是当前急需的，因为大数据本身并没有让信息的提取更加智能，业务比数据本身更加重要。他举了一个核磁共振成像扫描的例子：

Here’s an example. An MRI scan is the best way to see inside the human body. While effective in helping to diagnose multiple sclerosis, brain tumors, torn ligaments and strokes, the data produced by an MRI machine is disconnected from the person that needs it the most.
At a very simplistic level, there are many individuals working as a team to make the scan happen. A nurse administers medications or contrast agents that may be needed for the exam; an MRI technologist operates the scanner; and a radiologist identifies the imaging sequences to be used and interprets the images. This information is then given to the nurse, who then passes it to the primary doctor to review and take action accordingly. This is Big Data, but it is not making information more intelligent.

又如在工业中，压力、温度等数据的特点是需要语境才能理解的。燃气轮机排气装置上的温度读数与一台机车的内部温度是完全不同的。燃气轮机改善热敷需要使用非常复杂的算法运行模型。在笔记本电脑上，一个典型的查询要获得答案一般需要三个星期。在基于大数据的分布式系统上发布同样的查询执行一种计算只需要不到一秒钟。

第三方认证机构（TV NORD GROUP），工业

德国汉德技术监督服务有限公司的前身是德国锅炉检验协会（简称TV）早在1869年，德国锅炉检验协会就承担了德国国内所有锅炉运行安全的检验工作，保证了锅炉生产的安全。渐渐的，德国锅炉检验协会取得了德国政府的授权，开展对其他产品的检验工作，从采矿，电力系统开始，到压力容器，机动车辆，医疗设备，环境保护，宇航工业，医疗产品等等，现在的德国汉德技术监督服务有限公司已经成为了许许多多产品的安全代号。主要体系认证包括企业质量管理体系，生产环境体系，生产碳排放方案等。TV当前从建筑绿色标准体系方面提出了对于大数据能源管理的探索，以微软新总部，蒂森克虏伯电梯总部为例，在整个项目实施中引入大数据能源管理，在建筑的设计规划阶段、施工阶段、运营阶段等多个阶段通过数据化的能源管理系统，实现建筑的低碳、绿色、智能。

工业自动化软件商（Wonderware ），工业

Wonderware作为系统软件涉及的专业企业，对于大数据的计算和运用是从比较“IT”的角度出发的。Wonderware 的实时数据管理软件能够提供一个工厂所需要的从建立到报废的所有实时数据。目前已经退出移动版本，工程总监在手机上就能够随时随地监控设备的运行状况。目前全球超过三分之一的工厂应用Wonderware公司的软件解决方案。

了解更多：
大数据在电力行业的应用前景有哪些？

(3).第三产业
这一个部分的内容比较多。这里只提出一些典型的应用例子，欢迎补充。

健康与医疗：Fitbit Official Site: Flex, One and Zip Wireless Activity and Sleep Trackers的健身腕带可以收集有关我们走路或者慢跑的数据，例如行走步数、卡路里消耗、睡眠时长等数据与健康记录来改善我们的健康状况；Early Detection of Patient Deterioration等公司正在开发床垫监测传感器，自动监测和记录心脏速率、呼吸速率、运动和睡眠活动。该传感器收集的数据以无线方式被发送到智能手机和平板电脑进行进一步分析；美国公共卫生协会（APHA: American Public Health Association）开发Flu Near You用来的症状，通过大数据分析生成报告显示用户所在地区的流感活动。

视频：互联网电视能够追踪你正在看的内容，看了多长时间，甚至能够识别多少人坐在电视机前，来确定这个频道的流行度。Netflix 美国国内规模最大的商业视频流供应商，收集的数据包括用户在看什么、喜欢在什么时段观看、在哪里观看以及使用哪些设备观看等。甚至记录用户在哪视频的哪个时间点后退、快进或者暂停，乃至看到哪里直接将视频关掉等信息。典型的应用是Netflix公司利用数据说服BBC重新翻拍了电视连结剧《纸牌屋》，而且成功的挖掘出演员Kevin Spacey和导演David Fincher的支持者与原剧集粉丝的关联性，确定新剧拍摄的最佳人选。

When the program, a remake of a BBC miniseries, was up for purchase in 2011 with David Fincher and Kevin Spacey attached, the folks at Netflix simply looked at their massive stash of data. Subscribers who watched the original series, they found, were also likely to watch movies directed by David Fincher and enjoy ones that starred Kevin Spacey. Considering the material and the players involved, the company was sure that an audience was out there.

交通：《车来了》通过分析公交车上GPS定位系统每天的位置和时间数据，结合时刻表预测出每一辆公交车的到站时间；WNYC开发的Transit Time NYC通过开源行程平台（Github：OpenTripPlanner和MTA ）获取的数据将纽约市划分成2930个六边形，模拟出从每一个六边形中点到边缘的时间（地铁和步行，时间是上午九点），最终建模出4290985条虚拟线路。用户只需点击地图或者输入地址就能知道地铁到达每个位置的时间；实时交通数据采集商INRIX-Traffic的口号是（永不迟到！^^），通过记录每位用户在行驶过程中的实时数据例如行驶车速，所在位置等信息并进行数据汇总分析，而后计算出最佳线路，让用户能够避开拥堵。

电子商务：Decide 是一家预测商品价格并为消费者提出购买时间建议的创业公司，通过抓取亚马逊、百思买、新蛋及全球各大网站上数以十亿计的数据进行分析，最终整合在一个页面中方便消费者对比查看，并且能够预测产品的价格趋势，帮助用户确定商品的最好购买时机。已经于2013年被 eBay收购。

政治：奥巴马在总统竞选中使用大数据分析来收集选民的数据，让他可以专注于对他最感兴趣的选民，谷歌执行董事长Eric Schmidt当时向奥巴马的大数据分析团队投资数百万美元并聚拢核心成员成立了Civis Analytics咨询公司，该公司将会将在奥巴马连任竞选中所获得的经验应用到商业和非营利行业中。（了解更多可以看看MIT technology的文章The Definitive Story of How President Obama Mined Voter Data to Win A Second Term）

金融：ZestFinance | Big Data Underwriting 是由是Google的前任 CIO，Douglas Merrill创立金融数据分析服务提供商，使用机器学习算法和大数据为放款者提供承保模式，旨在为那些个人信用不良或者不满足传统银行贷款资格的个人提供服务。公司使用分析模型对每位信贷申请人的上万条原始信息数据进行分析，只需几秒时间便可以得出超过十万个行为指标。目前违约率比行业平均水平低 60%左右。另外一个不得不提到的是风险管理先驱者FICO | Predictive Analytics, Big Data Analytics and FICO Credit Scores，通过大数据分析为银行和信用卡发卡机构、保险、医疗保健、政府和零售行业提供服务。FICO 信用分计算的基本思想是：把借款人过去的信用历史资料与数据库中的全体借款人的信用习惯相比较，检查借款人的发展趋势跟经常违约、随意透支、甚至申请破产等各种陷入财务困境的借款人的发展趋势是否相似。FICO 已经为三分之二的世界 100 强银行提供服务，提高了客户忠诚度和盈利率、减少欺诈损失、管理信贷风险、满足监管与竞争要求并快速获取市场份额。想了解更多的企业可以看看附录中《经济学人》的文章《Big data: Crunching the numbers》。

电信： 美国T-mobiles采用Informatica - The Data Integration Company平台开展大数据工作，通过集成数据综合分析客户流失的原因，根据分析结果优化网络布局为客户提供了更好的体验，在一个季度内将流失率减半；韩国 SK telecom新成立一家公司SK Planet，通过大数据分析用户的使用行为，在用户做出决定之前推出符合用户兴趣的业务防止用户流失。美国AT&T 公司将记录用户在Wifi网络中的地理位置、网络浏览历史记录以及使用的应用等数据销售给广告客户。比如当用户距离商家很近时，就有可能收到该商家提供的折扣很大的电子优惠券。英国BT - Broadband公司发布了新的安全数据分析服务Assure Analytics—BT news releases，帮助企业收集、管理和评估大数据集，将这些数据通过可视化的方式呈现给企业，帮助企业改进决策。

一般来说盈利性质的商业公司和企业都不会轻易泄露自己的数据、建模方法和分析过程，所以还有很多大家不知道的神秘应用潜伏在黑暗里，如同《三体》中的”黑暗森林法则“。

宇宙就是一座黑暗森林，每个文明都是带枪的猎人，像幽灵般潜行于林间，轻轻拨开挡路的树枝，竭力不让脚步发出一点儿声音，连呼吸都必须小心翼翼：他必须小心，因为林中到处都有与他一样潜行的猎人，如果他发现了别的生命，能做的只有一件事：开枪消灭之。在这片森林中，他人就是地狱，就是永恒的威胁，任何暴露自己存在的生命都将很快被消灭，这就是宇宙文明的图景，这就是对费米悖论的解释。

二、大数据的定义
大数据(Big Data)是指“无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合。”业界通常用4个V(即Volume、Variety、Value、Velocity)来概括大数据的特征。

数据体量巨大(Volume)。截至目前，人类生产的所有印刷材料的数据量是200PB，而历史上全人类说过的所有的话的数据量大约是5EB(1EB=210PB)。
数据类型繁多(Variety)。相对于以往便于存储的以文本为主的结构化数据，非结构化数据越来越多，包括网络日志、音频、视频、图片、地理位置信息等，这些多类型的数据对数据的处理能力提出了更高要求。
价值密度低(Value)。价值密度的高低与数据总量的大小成反比。如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。
处理速度快(Velocity)。大数据区分于传统数据挖掘的最显著特征。根据IDC的“数字宇宙”的报告，预计到2020年，全球数据使用量将达到35.2ZB。

看看专家们怎么说。

舍恩伯格，大数据时代 (豆瓣)

不是随机样本，而是全体数据；不是精确性，而是混杂性；不是因果关系，而是相关关系。

埃里克·西格尔，大数据预测 (豆瓣)

大数据时代下的核心，预测分析已在商业和社会中得到广泛应用。随着越来越多的数据被记录和整理，未来预测分析必定会成为所有领域的关键技术。

城田真琴，大数据的冲击 (豆瓣)

从数据的类别上看，“大数据”指的是无法使用传统流程或工具处理或分析的信息。它定义了那些超出正常处理范围和大小、迫使用户采用非传统处理方法的数据集。

三、大数据的价值
了解了大数据的典型应用，理解了大数据的定义。这时相信在每个人的心中，关于大数据的价值都有了自己的答案。

2010年《Science》上刊登了一篇文章指出，虽然人们的出行的模式有很大不同，但我们大多数人同样是可以预测的。这意味着我们能够根据个体之前的行为轨迹预测他或者她未来行踪的可能性，即93%的人类行为可预测。

Limits of Predictability in Human Mobility
A range of applications, from predicting the spread of human and electronic viruses to city planning and resource management in mobile communications, depend on our ability to foresee the whereabouts and mobility of individuals, raising a fundamental question: To what degree is human behavior predictable? Here we explore the limits of predictability in human dynamics by studying the mobility patterns of anonymized mobile phone users. By measuring the entropy of each individual’s trajectory, we find a 93% potential predictability in user mobility across the whole user base. Despite the significant differences in the travel patterns, we find a remarkable lack of variability in predictability, which is largely independent of the distance users cover on a regular basis.

而大数定理告诉我们，在试验不变的条件下，重复试验多次，随机事件的频率近似于它概率。“有规律的随机事件”在大量重复出现的条件下，往往呈现几乎必然的统计特性。

举个例子，我们向上抛一枚硬币，硬币落下后哪一面朝上本来是偶然的，但当我们上抛硬币的次数足够多后，达到上万次甚至几十万几百万次以后，我们就会发现，硬币每一面向上的次数约占总次数的二分之一。偶然中包含着某种必然。

随着计算机的处理能力的日益强大，你能获得的数据量越大，你能挖掘到的价值就越多。

实验的不断反复、大数据的日渐积累让人类发现规律，预测未来不再是科幻电影里的读心术。

如果银行能及时地了解风险，我们的经济将更加强大。
如果政府能够降低欺诈开支，我们的税收将更加合理。
如果医院能够更早发现疾病，我们的身体将更加健康。
如果电信公司能够降低成本，我们的话费将更加便宜。
如果交通动态天气能够掌握，我们的出行将更加方便。
如果商场能够动态调整库存，我们的商品将更加实惠。

最终，我们都将从大数据分析中获益。

四、结束语。

Here's the thing about the future.关于未来有一个重要的特征
Every time you look at it,每一次你看到了未来
it changes because you looked at it.它会跟着发生改变因为你看到了它
And that changes everything else.然后其它事也跟着一起改变了

数据本身不产生价值，如何分析和利用大数据对业务产生帮助才是关键。

祝每一个DMer都挖掘到金矿和快乐：）

参考文献：
[1].什么是大数据时代的思维？《大数据时代》作者维克托迈尔舍恩伯格的演讲
[2].New movie damns Monsanto's deadly sins
[3].American farmers confront 'big data' revolution
[4].The Industrial Internet: Even Bigger Than Big Data
[5].《信息化和工业化深度融合专项行动计划（2013-2018年）》印发
[6].Big data: The next frontier for innovation, competition, and productivity
[7].Big data: Crunching the numbers
[8].audit.gov.cn
[9].中国金融行业大数据应用市场研究白皮书
[10].The Secret Sauce Behind Netflix's Hit, "House Of Cards": Big Data
[11]. Open data: Unlocking innovation and performance with liquid information
-

-----------2017年1月更新-----

欢迎关注我存储知识的地方：预见未来——Han Hsiao的知乎专栏Foresee

-

刘飞 · 2018-10-13 14:54:25

从庞杂的数据背后挖掘、分析用户的行为习惯和喜好，找出更符合用户「口味」的产品和服务，并结合用户需求有针对性地调整和优化自身，就是大数据的价值。

对于大数据在商业上的用途，这句话说得很清楚。前半句是重点，了解用户的行为习惯和爱好，这就是大数据的核心价值。

1. 元数据（Metadata）的概念

简单说，元数据是对数据本身进行描述的数据，或者说，它不是对象本身，它只描述对象的属性。

比如，一幅画本身，是数据。而这幅画的作者、完成时间、尺寸、价格、类型等等，就是它的元数据。

再比如，你妈逼你结婚，找了个男的让你相亲。你并不认识他，但你妈告诉你他的年龄、身高、体重、体貌特征、家庭背景、收入、爱好特长，你心里也就对他有了印象。即便你还不认识他。

元数据的价值，第一是能够从侧面描述对象，第二点就是可以结构化、信息化。

什么意思呢？

比如，我们要判断一幅画的价值，除了专家直接通过画的艺术性来评价，还可以通过元数据来判断。

这幅画是名家的还是二流画家的？这幅画是作者在他创作鼎盛时期的作品，还是在年轻时的作品？这幅画是作者擅长的类型还是他不熟悉的？

用这些描述的信息，我们居然就能把这幅画的价值算得八九不离十。虽然肯定会存在误差，但同样是科学合理的方法。

那用元数据而非数据本身描述对象的意义何在？

这就是在大数据上产生的价值了：对于非结构化的、非量化的对象本身，结构化的元数据可以用以快速计算和判断。

比如，你妈拿了 100 个单身男的资料，你要是一个一个去仔细翻阅，那几天都翻不完。但你告诉你妈，高学历的可能意味着素质很高，高收入的可能意味着能力很强，所以先把低学历低收入的筛掉，剩下的再依据身高体重年龄这些信息排序，那效率就高得多了。

注意，这样的方法仍然会有失误的，说不定真爱就在被筛掉的人里。但这样的概率微乎其微。

相亲里似乎还不太明显，但大数据在真正产品应用中，产生的效果就天翻地覆了。

2. 大数据应用的第一阶段：辅助产品。

最初的应用比较简单，就是用以辅助产品人员和市场人员做判断。

过去的实体产品做一次调研很麻烦。比如饮料公司，调研人员要用各种方式观看他们喝饮料的场景和步骤。

问卷是最常见的，但不准。所以会组织各种各样专业的现场试验，要搭建环境（一般是有单面玻璃或摄像头的）、邀请志愿者，然后引导他们按照日常的习惯去完成一些操作。

比如这样的通过摄像头监视观察室。

（图片摘自： http://210.38.160.80/jkx/newsdetail.asp?id=1038）

显然这种办法非常笨重。

而现在的互联网产品则根本无须这么麻烦。用户所有的使用数据、行为，都是记录在案的，想知道什么，瞬间就能分析出来。

过去想知道用户有没有做一件事，比如有没有用过这个功能？太难了。

现在呢，就问点击这个行为，点击了几下、点击在哪里，什么时候点的，甚至这是在什么地方点的、点击之后又做了什么，一清二楚。

用户平时用不用这个功能、怎么用这个功能，也就一目了然。

对于产品设计者来说，这是至关重要的数据。而且，这是完整的数据！如果是互联网产品，那么我知道的是所有用户的数据，不是过去传统行业产品的样本数据。

腾讯知道所有微信用户有多少用朋友圈、知道这些用户每天都发几条朋友圈、知道这些用户每天都发了什么。每一个数据都是真实可用的。

（过去发行量再大的报纸也很难知道读者性别，然而现在再小的微信公众号也可以实时获取。）

在实体产品的行业，随着未来整个产品从生产到销售到使用的信息化，大数据也会渐渐起到更大的作用。过去我卖的一瓶水，可能到某个超市就断掉了，我不知道这瓶水被谁买走了。但现在我在天猫卖的一瓶水，我知道对方这个用户是每个月买十箱水的，他的地址是某个高档餐厅，那我就知道这瓶水的目标受众是谁了。

这是元数据的价值所在。

所以说，大数据的第一阶段是：辅助产品设计者做判断、让产品制造者更好地满足用户。

这时候的大数据主要是来为产品提供支持，产品再应用于用户。

3. 大数据应用的第二阶段：创造价值。

在数据的数量和质量达到一定程度后，事情开始变化了。元数据将不仅作为产品的辅助，而是变成了最有价值的产生本身。

很简单的，全中国最熟悉老百姓消费习惯的是工商局吗？是哪个协会吗？是哪个科研机构吗？都不是，是淘宝。

拥有最全面的个人信用信息的，是人事局吗？是银行吗？是咨询公司吗？都不是，是支付宝。

道理也简单得很，所有行为（消费、交易）发生在了这个平台上，而这个平台又有所有数据的记录，那这些数据就能产生巨大的价值。

你以为做医疗健康这方面的产品仅仅是关注你的健康吗？并不是，他们同时还能够记录你所有的体征，这是第一线的临床数据。

此时，大数据本身已经成为了产品，可以输出有价值的内容。

消费行为数据，卖给广告商，广告商就可以定向给你投送广告；信用数据，卖给银行，银行就可以判断出你的信用程度；健康数据，卖给保险公司...你懂的。

近几年，互联网公司已经能够对全国各领域的市场，给出最有说服力的统计报告了，这些之前可都是政府做的：

淘宝网发布中国互联网消费趋势报告
携程旅行网发布《2014年旅游者调查报告》
滴滴携两大机构发布首份智能出行年度报告

不仅仅是将数据出售，数据提供的内容完全可以创造出新的产品。尤其像 O2O 这样的产品/服务，上游是服务提供者和资源，下游是用户，都能够有价值可以发掘。

以前做美甲的时候，我们设想的商业模式，有一项就是从上游，了解美甲师用品的情况，跟生产厂家合作，把控渠道；另外就是从下游，知道用户的情况，从而也能够跟其他美业产品合作（定向帮你把产品带到家里，河狸家其实已经在做），来让用户数据产生价值。

我之前听说饿了么在尝试一项新服务，就是为餐馆提供食材。乍一听有点怪，但后来想想的确是再合理不过。除了饿了么还有谁更能清楚某块区域的餐品售卖数据呢？这地方萝卜白菜卖得多、有多少量，饿了么清楚得很，跟农场谈合作，可以很好地把控上游渠道。

这阶段的大数据，已经可以成为产品，为用户直接服务。

从另一个角度看，不知道你发现没，通过我们行为数据这些元数据，我们已经在慢慢被量化的信息给描述出来了。看到这些数字（一年花了多少钱、在哪方面花的钱等等）已经对这个人可以有相对粗糙的认识了。

而大数据最终的形态开始初现。

4. 大数据应用的第三阶段：塑造我们。

我之前也总是对行为数据表示不屑。你知道我在淘宝买了点东西、跟谁微信聊了几句话、去百度随便查了点东西，就能知道我是什么人了？

还真的可以。只要数据保质保量。

我知道你一个月没买避孕套这两天突然买了三盒，那可能是你要跟异地恋的女朋友见面了；我发现你微信跟异地的某个妹子聊得特别多、经常还视频，那这大概就是你异地的女朋友；我了解你在百度一直搜东南亚的机票和旅行攻略，那我知道你可能要去那里玩。

就是这么简单的三条元数据，我就能推测出来，你很大概率上，最近要跟女朋友一起去东南亚旅行。

说实话，做这么基础的逻辑推断，比下围棋容易多了。

这是说明元数据能够推理信息的逻辑性。而对于可获取的元数据，也越来越多了。

你打电话时，可以知道你给谁打（妇科医生？要生孩子了。律师？最近有官司。）
你买东西时，可以知道你的消费能力、家庭状况、喜好甚至性格（高端笔记本？爱玩游戏。蜡笔和简笔画册？家里有小孩。）
你出门消费时，可以知道你的生活习惯和个人情况（健身房？应该很健康。经常大保健？可能身体比较虚。）
你加别人微信时，可以知道你的社交圈子（认识李开复？应该不是一般人。通讯录里都是快递员？那可能也是快递员。）

作为这些产品的数据的拥有者，我完全不需要派个私家侦探来跟踪你。只需要等你自己乖乖把这些数据送上来。

春节的时候，支付宝为什么要和微信争抢小额支付和社交场景的支付？不是为了那点手续费，就是为了它缺失的社交支付这一块。这块数据的价值，远超想象。

未来我们每个人的衣食住行、生活起居，都将有大量的数据记录。我们的行为会变成一串串数字成为可量化的数据，成为描述我们的信息。我们工作用云笔记、吃饭用饿了么、打车用滴滴、搜东西用百度、社交用微信，每一步都事无巨细被记了下来。

不信你可以翻出你历史所有在百度或者 Google 的搜索记录来，对你生活的描述绝对比你自己的日记都要真实。

这些数据将被转换成有价值的商业数据，来描述你各方面的信息。你喜欢黑色的衣服、你喜欢胸大的妹子、你比较文艺、你有高度近视、你最近刚失恋...... 关于你，可能这些数据比你爹妈都要清楚。

最终，我们本身就是可以被量化的大数据对象，不存在多层的逻辑了。

这样的未来自然有利有弊。利是我们无处不在享受着大数据带来的便利，我们看到的每一条广告都会是我们自己喜欢的，我们查的每一条搜索记录都是根据我们特点来推荐的，我们在加好友时系统甚至都可以说他是不是会跟我们合得来。

弊在于，我们的隐私就暴露无疑。只要数据的拥有者想做点坏事，那真的是什么都有可能。

大数据绝不会止步在为决策仅仅提供帮助，它的终极形态就是可以用海量的数据描述我们一个个具体的个体。当达到这一步时，现在所谓的市场调研、用户分析就都是小儿科了。

因为，大数据已经完全能够塑造出我们了。

王喆 · 2018-10-13 14:54:26

正好刚做过相关的报告，就把报告内容跟大家分享讨论一下。
先说结论：大数据的终极核心价值在于“资源优化配置”。

我觉得排名第一的 @Han Hsiao 的答案非常棒，也非常全面，但无论是大数据在农业的应用也好，工业的应用也好，抑或是在金融行业的应用也好，最终都是通过大数据技术来获知事情发展的真相，最终利用这个“真相”来更加合理的配置资源。

具体来说，要实现大数据的核心价值，还需要前两个重要的步骤，第一步是通过“众包”的形式收集海量数据，第二步是通过大数据的技术途径进行“全量数据挖掘”，最后利用分析结果进行“资源优化配置”。

只说概念大家肯定没法直观的理解上面的观点，那就将几个咱们都接触过的例子讲一讲大数据是怎么通过这三步发挥核心价值的？

第一步、通过“众包”产生和收集数据

高德地图、百度地图都有实时路况的功能，但大家有没有想过实时路况的数据是怎么收集的？实际上经过了三个阶段，开始是跟交通口的一些公司合作，获取交通流量监测设备的数据，这个方法缺陷很明显，一个是受制于人，一个是想扩大监测范围就要部署大量设备，费时费力，而且还受法律制约。于是一些专门做路况的公司开始用出租车当浮动车收集数据。但这种办法还是无法覆盖大量的大小路段，随着移动互联网的普及，高德地图的APP能够实时上传大量机动车的速度和位置信息，经过去噪和综合分析，就形成了覆盖率极高的实时路况信息。这就是一个典型的“众包”过程。

严谨一点来说，众包指的是一个公司或机构把过去由员工执行的工作任务，以自由自愿的形式外包给非特定的（而且通常是大型的）大众网络的做法。

大数据的“海量数据”就是由“众包”产生的。广义上，用户的行为数据，各种传感器的数据，也都是“众包”的形式，只要是由过去集中式的产生模式扩散到分布式的模式，都是众包的形式。

第二步、通过“全量数据挖掘”获知“真相”

阿里巴巴-数据可视化 http://www.tudou.com/programs/view/Rxg-S-_98K0/
讲第二个特点之前希望大家能看一下上面的视频，通过分析阿里巴巴全年的数据得到的阿里巴巴的世界贸易与全国贸易的趋势。视频中体现的不仅是阿里巴巴集团的运营情况，其实也部分反映了整个中国的经济运行情况。而且这些数据不是通过采样得来的，就是真真切切的“全量数据”。我们再也不用通过“管中窥豹”的形式来推测全局，而是直接通过“上帝视角”来窥视真相。这就是大数据的魅力，我们获得了前所未有的获取真相的能力，而且对于大型互联网公司来说，即使是PB级别的数据分析也是准实时的，我们下一个小时就能够得知上一个小时的全量数据分析结果，这样的能力是前所未有的。

第三步大数据的核心价值——“资源优化配置”

前段时间，滴滴打车曾通过投票和订单分析的方式得出了北上广深四地的加班大楼排行榜，敝司不幸排名第三，但事实真的是即使加班很晚也很难打到车啊啊！所以滴滴打车更名为“滴滴出行”之后，也抛出了他们伟大的愿景，那就是利用大数据分析实时综合调度“快车”、“专车”、“出租车”、“顺风车”甚至是滴滴巴士的资源，实现全局的交通资源优化。事实也是如此，滴滴的司机们越来越多的需要完成“指派任务”，而不是集中去抢高净值客户。也许对于个别单体来说他们的利益降低了，但全局的资源配置却避免了全局的资源浪费和过度竞争，无疑大大提高了交通资源的使用效率。

所以我们说，基于大数据分析的结果，进行资源优化配置，才是大数据应用的落地点和真正价值。

而“资源优化配置”的价值，又远远超出我们能够想象的层面，在资本寒冬即将来临的大背景下，利用大数据实现资源的高效利用，显得更加重要。广告行业利用DMP、DSP进行广告的精准投放，房地产行业利用大数据分析价值洼地，宜信利用大数据建设征信系统降低坏账率，券商陆续推出大数据基金，全部都是广义的“资源优化配置”的体现。大数据也远远不再停留在学术和“分析现象”的阶段，而是在各行各业实现了落地并发挥着非常非常重要的价值。

我是在互联网广告行业从事程序化购买系统建设的，而这个行业也是大数据最先发挥价值的地方。举个最简单的例子来说明大数据在广告资源优化配置上的作用。
宝洁集团是我们的客户，而宝洁的产品有非常强的用户性别倾向性，护舒宝的广告就应该投给女性，投给男性就是赤裸裸的浪费。而吉列的目标用户就只是男性。之前保洁集团是怎么做广告的？就是海投品牌广告，不分性别的海投，那这个做法在投放之前就已经确切无疑的知道有一半广告费用时浪费的。但没有办法，因为我们没有大数据技术来发掘用户的性别。

而随着DMP（Data Management Platform）技术的不断成熟，越来越多的广告主建立起自己的用户数据中心，可以不断积累客户的各种用户行为，进而判断出用户的性别，再通过DSP（Demand Side Platform）系统定向投放，最终可以为宝洁节省一半的广告预算。

上面的例子正是广告资源的优化配置，事实上DMP系统对用户画像的构建精确程度远超人们的想象，精准投放的各类筛选条件也越来越精细。现在微信支持精确到设备的精准投放，也就是未来完全可能实现精确到每个人终端的精准投放，这都依赖于大数据对于用户行为的挖掘，最终实现整个广告行业的效果提升。

很多同学可能会说大数据的核心是数据挖掘，是分布式存储，是NLP，是深度学习，但这一切其实只是大数据的技术途径，大数据的终极核心价值就在于“资源优化配置”。

最后欢迎大家关注我的微信公众号「科学投资」：kexuetouzi
http://weixin.qq.com/r/iElXTyzEeHEHrWgs9xya (二维码自动识别)

乔一鸭 · 2018-10-13 14:54:27

大数据的本质就是消除不确定性。

欧阳辰 · 2018-10-13 14:54:28

大数据的５个小观点

2016 欧阳辰互联居

有些流行词像雾霾一样浸透了北京的空气，偶尔清静几天，不时又卷土从来。“大数据”就是其中的一个词。

大数据外表光鲜亮丽，内则无可奈何越来越多程序员也涌入大数据行业，但是仔细问一些从业人员什么是大数据？鲜有人知道？就算知道的，最常引用Victor的4V理论，大量(Volume)，快速(Velocity)，种类多(Variety)，价值(Value)，但究竟多大是大？多快是快？几种算种类多？每个人都有自己的观点。最核心的问题还不在数量和种类，而是价值(Value)。什么是大数据的价值？如何体现它的价值？如何衡量它的价格？它能够变现么？如何来变现却是大数据的核心问题。

做大数据的同学，外面看起来像是红楼梦的大观园一样，外表光鲜亮丽，身在其中的人，才知道各有各的无奈。大数据的处理通常分为，数据收集，数据清洗，数据加工。数据应用，数据可视化。数据收集同学总是抱怨数据源Garbage in, Garbage out的感觉，数据清洗的同学总有沙里淘金的感觉，数据加工的同学也经常受两头气，相比来说，做数据可视化的同学比较幸运，可以找到很多炫酷的感觉，但有不是大数据的主流技术。最难受的是做大数据应用/变现的同学，不得不靠着忽悠行走江湖。

好了，列举一下我对大数据的小观点，如有雷同，纯属偶合。

小观点１：大数据的信息熵值低
1948年，香农提出信息熵的概念，可以用于表述信息的价值，信息熵高的言简意赅，信息熵低的冗余拖沓。目前，很多大数据的来源都是一些系统的Log，图片，视频等。特别是日志系统数据，数据越来越多，越来越大，其中大部分是固定模板的数据，区分度差，信息量并没有随着数据的增加而线性增加。另外举个例子，之前我们使用胶卷照片的，我们会选择重要的场景，珍惜每一个照片，设计好角度和光圈，现在有数据相机了，内存近乎无限大了，大家肆无忌惮的自拍，哪怕都是同一个角度，大家照的废片也是一把一把的。同一类型的数据多了，信息熵也就降低了。

小观点２：大数据不是银弹，是蚂蚁效应
大数据应用常见，多见于推荐系统，业务流程优化，医疗，性能优化，预测，金融交易等，这些业务在传统的做法上，已经十分依赖于数据了，虽然以前不叫大数据，但是也都是数据驱动的业务。数据的规模和种类增多，处理方法的增多，会渐渐提高这些应用的精准性，这种提高一定是渐渐的，一点一滴的。也许一天两天感觉不错来的，但是经过多年的持续改进，这种效果是显而易见的。

举个例来说，语音识别起始于60年代，基于小型词汇库，在90年代，IBM推出的ViaVoice是语音识别的一个里程碑，基于复杂隐式马尔科夫模型(HMM)或者神经网络算法更加成熟，数据也是基于大量的词汇库，语料库。新闻联播曾经就是ViaVoice中文版本的重要训练语库。虽然用了更大的语料库，效果有改进，但是还无法达到实用的程度。2009年以后，借助于互联网语料库的进一步丰富，数据料的增长，远远超过算法的改进程度。语音识别在准确性和实用性得到很大的提升，用户也不断使用语音识别反馈更多的数据。以至于，谷歌公司人工智能方面的专家彼得·诺维格（Peter Norvig），和他的同事在一篇题为《数据的非理性效果》（The Unreasonable Effectiveness of Data）的文章中写道，“大数据基础上的简单算法比小数据基础上的复杂算法更加有效。”。大数据正在一步一步的解决一些科技应用难题，例如自动驾驶，人工智能等。

3.大数据不解释因果关系，只关心相关性

《大数据时代》中定义了大数据的第三个特征，“不是因果关系，而是相关关系”。沃尔玛通过数据挖掘，发现蛋挞和飓风产品有很多关联性，并且放在一起销售提高销售量。没有人清楚其中的因果关系，当然，也可能有人牵强的解释，美国人喜欢飓风时期躲在家里吃蛋挞，通过数据我们获得了相关性，但是却不理解其中因果关系。我突然想起来自于《三体》的降维攻击：很多时候我们在二维世界的相关性，是无法在二维世界进行解释因果的，也许只有在三维或者多维世界才能够解释因果关系，而这种因果关系无法直接理解，只能进行归纳成相关关系。

4. 大数据资源公司最佳变现之路是被收购，最直接变现渠道是广告和泛征信

很多专业大数据服务公司的发展都不走上市之路(注意不包括大数据技术公司），因为他们对于变现的能力和可持续性都有很多顾虑，他们也面临高风险的用户隐私挑战，因此很多大数据资源公司的PR工作，远远多于具体落地的数据服务工作。因此，各个专业大数据公司都忙于各种行业洞察报告和排行榜，数据可视化的工作一个比一个炫丽，一个比一个追热点。谈到大数据公司的变现，很多公司会提到“数据服务”，实际上数据服务的市场相对稳定，并没有因为大数据公司的发展而市场膨胀，因此“数据服务”实际上是一个明显的“僧多粥少”的状态，另外老牌的数据公司，例如Nielson等在客户方便还是有一定的优势。

收购成为大数据公司变现最佳方式，2014年Oracle收购BlueKai获得很多众互联网用户数据，BlueKai的数据来源于和很多小网站进行数据交换和购买，尼尔森公司收购了DMP公司eXelate，eXelate的数据来源各个合作伙伴的数据，它提供了数据共享和交换的平台，创建DMP支持广告优化投放。 2014年，农业技术公司孟山都宣布以9.3亿美元巨资收购意外天气保险公司Climate Corporation. Climate Corporation是一家分析历史天气数据的公司,如降雨和土地质量等来帮助农民预测作物产量。在中国阿里巴巴收购友盟也是觊觎数据资源。

既然数据服务不容易攒钱，那么有没有靠谱的变现途径呢？从目前来说，广告和泛征信是两个最有效的变现渠道，效果广告的精确投放，品牌广告主需要强烈的数据背书，这些都需要数据服务，因此在广告行业专业的DMP公司，对于程序化交易是必不可少的。另外，就是征信系统，金融的本质是一个套信用系统，这就是为什么各大互联网公司都早早进入金融业务。目前很多P2P公司是否能够生存，主要依据就是风险控制，大数据是重要技术支持，因此很多P2P会采购大量数据资源，加强自己的征信系统。

大数据是对用户隐私的汲取

大数据正在结合智能设备的普及而大力推进，例如摄像头，手机，智能穿戴设别等。其中，大量用户隐私数据被收集，例如用户地址，交易数据，搜索数据，用户的地理位置信息，用户的脉搏，联系人列表等等。这些都是用户的个人数据，各大数据公司都通过改善服务为借口，获得用户的授权，而进行隐私的汲取和偷窥。

也有一种声音，这些数据是为了让你享受更好的服务。这里面也是很多逻辑问题。首先，服务商提供更好的服务，并不代表可以收集用户的隐私数据；其次，很多公司不提供不收集用户隐私数据的服务的选项，这让很多用户无法选择禁止用户隐私数据收集，这是一种利用市场地位的垄断和霸王条款；而后，所有数据公司没有提供数据清理功能，删除用户所有的历史数据。这意味着，你的隐私数据一旦被收集，可以被无限次的无范围的滥用。

６结束语
好了今天先谈这么多，大数据很忽悠，小观点也不一定靠谱，兼听则明，偏信则暗。希望大家在大数据的雾霾里面找到自己的新鲜空气。

以太创服 · 2018-10-13 14:54:29

大数据的核心价值在于规律的总结，通过大数据得出规律，从而预测未来。

目前很多大数据的项目做的是通过大数据分析用户的行为习惯和喜好，这是大数据的价值，但是这只是一部分。

大数据其他方面比如：AlphaGo是通过下棋的数据来给出它对每一个棋子将来怎么下的一个判断方法。还有无人驾驶技术，这也是通过大数据，训练出一个会开车的技术产品。淘宝有定位基准的广告，这种广告是根据用户的历史行为数据推送。

再向上思考一个层面，通过大数据的分析可以得到一定的规律。

比如：地球的轨道是需要通过大量的观测来得出一个结论，所有规律性的事物都是可以从数据中找到它的规律。有时候，有很多规律是没法用特别简化的公式来表达，那可能就出现比如人工智能、神经网络这样的算法。这种规律是通过模型训练得到，虽然没法用特别简洁的公式来表达内在规律，但它的核心其实也是一个公式，也是一个规律。包括数据投递、广告投放，对于用户过去的行为数据做一些分析，会认为同样的行为大概率会发生同样的事情，这也是一些规律，而数据的核心在于它能得到一些背后的规律。

有规律就可以对未来的很多事情有判断作用，就可以对未来预测。

很多事情都是可以预测的，经济、宏观经济、人的部分行为、汽车该怎么行驶、棋该怎么下、某种疾病该怎么去诊断，这都是大数据可以预测的，它可以用到各行各业。有过往的数据就可以预测未来行为。

图灵Don · 2018-10-13 14:54:30

这个问题我想了三个月。

想三个月没想通的问题不多，这是一个。

昨天想通了。

信息，或者说数据的作用是什么？根据香农的定义，信息是减少事物不确定性的量度。

数据的根本用途就是提供决策依据，减少不确定性。

对未来、对未知领域，每个人、每个组织都会面临不确定。然而，尽管有各种不确定，每个人、每个组织、在每天都会作出决策；很多决策是明显错误的。

现有人类的决策，大多数是靠感觉，靠跟风，靠个人经验，只有很少部分是客观数据分析。海量数据，提供了一种更为可靠的决策依据。

如果有一个神器，可以显著消除不确定性，显著提高决策正确率，它有多大价值？

想想，全球有几千万家公司、有70亿人，这几千万公司、这70亿人每天都会决策。每天都会决策。

丨《未来知识图谱》，理解和洞察未来；请私信暗号“挥一挥匕首,不留一个活口”订阅

丨探讨虚拟现实、互联网金融、移动互联网O2O问题，我的微博：Sina Visitor System

挖数 · 2018-10-13 14:54:31

大数据的价值在方方面面，我认为目前最核心，也是有最广泛应用场景的，是让人类的生活变得更自动化，从方方面面提高我们生活工作的效率。以下的三个场景可以很好地说明：

很多互联网公司在做的推荐系统，本质上是替代用户搜索商品的行为，让你更快的找到符合自己兴趣的东西。以前你上网买书，可能先要花10分钟的时间看一下最近的新书榜和畅销榜，再花5分钟的时间搜索一下感兴趣的分类下有什么新的书目，这个过程是10+5=15分钟，如果有10万个用户，就是150万分钟。有了推荐系统，进去网站后展现在你的面前的，是你感兴趣分类下最新的并且是好评最高的书目，不用你去寻找，你感兴趣的东西自己找到你了。你买完一本书，这时页面下提示，购买了本书的读者还喜欢**书，这时你点进去看了下，觉得很感兴趣于是又付费购买，这时，网站本身的变现效率也提高了。这是大数据应用下一个典型的场景。

另外一个大数据应用下的典型场景，是滴滴打车和Uber。在没有打车软件的时候，打车的人和司机是这样的，乘客在A地点等附近的出租车路过，等了10分钟还是等不到车，司机在A地点附近的B地点等乘客，等了10分钟还是没有乘客上车，这时双方的时间损耗是10+10=20分钟。有了滴滴，场景变成了这样，乘客在A地点用滴滴，滴滴自动匹配了A地点附近的B地点空闲的司机，司机接到传唤立刻赶往A地点，整个匹配和沟通时间大约1分钟。那么这多出来的20-1=19分钟就是大数据的价值，打车软件通过对需求数据的高效匹配，提高了用户的乘车效率，降低了司机汽车的空置率。

场景三，这个场景发生在未来。A刚走入一家服装零售店，一个会说话的服装模特机器人立刻亲切地招呼A的名字，并告诉她，她一周前买的衬衣的配套裤子刚刚降价了，然后在自己身体的显示屏上显示这条裤子的图像。这个场景涉及到的是脸部识别数据，目前总部位于东京的NEC公司开发的NeoFace软件已经能立即识别人脸了。而Facebook公司已经一早嗅到这一块的商机，已经在偷偷建立世界上最大的私有消费者生物数据库，将其应用在“标签建议”功能上。据一家调研公司预测，到2020年，脸部识别设备的全球市场规模将达到62亿美元。

既然提到了未来，那大数据在未来的核心价值又是什么？让我们来开个脑洞，大数据在未来的价值，应该是让机器替代人类，至少是替代人类的某些职业（其实现在已经在发生了）。同样的，让我用三个场景说明：

四大会计师事务所的雇员中，相当大一部分是审计师，这些审计师每天的工作是给各种企业对账，看企业的现金进出是否合规，是否有财务漏洞。而未来是这样的，不需要审计师，只要把企业的财务资料对接到电脑的审计系统，只要几分钟，电脑就能出
审计报告。

第二个可以被替代的职业是司机，未来人们开车是这样的，对着汽车说一声“去最近的超市”，汽车通过网络下载最新的路面数据，快速匹配到路面距离和堵车情况最优的地点，自动驾驶过去，在路上通过匹配其他车辆的位置和速度，自动控制速度和规避事故。

前段时间有个很火的职业，叫鉴黄师（真实存在的职业），工作是每天看几十部网络视频，识别出其中含有成人画面的。未来，只要让电脑浏览几万部成人影片，这样只要某几部视频的几祯画面含有成人镜头电脑就能快速地识别出来，从而节省几个公务员编制（现在的技术已经可以做到了）。

沈浩翔 · 2018-10-13 14:54:32

关于题主的问题，@Han Hsiao 的概括更清晰明了：大数据的核心价值理解为核心商业价值。
然后我们再来细说核心商业价值，本人水平不高，讲不到面面俱到，但也许能帮大家管中窥豹见其一斑。

（利益相关，本人现在在芝麻信用，大数据用在征信场景；本人前公司淘淘搜，可以吹一些大数据相关牛逼。本人对大数据应用相关的产品：推荐、DSP、效果广告，使用较多，对其原理还算有一些了解。）

首先，不管你炒作什么概念，最后的目标都是为了让企业盈利，也就是大数据能怎么帮企业赚钱？
众所周知，互联网的盈利模式就三种：增值服务、广告、电商（商业服务），再加上互联网最基础的价值，用户量（或者流量）。
大数据最大的价值目前来看，最多的落地在广告和用户型产品上。远未来那些高举高打的数据价值和无限可能性，我们放下不表，我们具体来说说这个数据价值怎么落地。

1. 先谈谈大家最兴奋的商业产品（大部分大公司会将公司业务线分成两大分支：用户型产品和商业型产品）
先讲讲BAT三家的大数据在广告端的应用。
首先BAT三家中，B和A自身都是不生产流量的，而是需要大量的采购流量，特别是B。B和A最知名的广告场景就在搜索结果页。
无论是B的关键词匹配竞价广告，还是A的直通车和钻展，为了提高其广告价值，都需要不断强化该场景的广告价值。像B和A这么巨大的流量，广告不再强调聚合广告位，而是强调，流量分发能力。所以广告价值的提升，在于流量分发能力的强化。双方都在不断的强化个性化搜索，基于用户行为的推荐和搜索的融合。百度基于cookie（移动端基于cookie或imei等形成用户唯一标识），阿里基于更精细化的用户模型。当然，目前这些用户行为数据累积的很丰富，但是具体怎么用，怎么更好的挖掘，对于大家来说，都还处于摸索阶段。
第二，提升价值。首先，百度的搜索流量虽然巨大，但是其有效有商业价值的query其实并不多；相对来说阿里的内部搜索商业价值更丰富。但无论是百度还是阿里，其搜索都被大量无效结果干扰，因为他们有海量的数据——大量无价值的网站、信息，大量低质量的店铺和商品。提升搜索结果商业价值的本质就两条，一是增加优质内容的曝光量——将流量更多的分配给优质的网站或优质的；二是增加点击率——给用户符合他个人特征的优质结果。在这方面，大的用户数据有价值，但目前阶段，很讽刺，就年龄、性别、地域就解决大部分问题了，这是最有价值的数据；大的商品数据或网站数据并不一定有价值，很讽刺，像淘宝这样商品量级的网站，做个性化第一步，就是做小库优质库，第一步一定要做收敛。这点上，淘淘搜遇到的问题和他们一样，因为淘淘搜有4亿商品库，是除了阿里之外，全网最大的商品库；所以我们也采用了同样的处理手法。
第三，谈完了B和A的搜索广告，再聊聊更多其他的广告。百度还有相当大一块的收入是联盟广告收入，这个和大部分DSP类似，总之就是收集更多的流量，对这些流量的用户建模，有丰富的用户行为数据，然后对这部分用户在各种位置，推送他们感兴趣的内容，但不一定是在他们想要的时候。DSP应该算是非常成熟的模式了。（正因为模式成熟，所以DSP在国内不会有高估值，市场天花板明显）
第四，我们该聊聊腾讯了，腾讯现在把搜搜原有的商业产品团队也全部归并到广点通团队了。腾讯的广告业务由广点通大一统了。以广点通和粉丝通（新浪微博）为代表的效果广告，和DSP类似，不同的是，广点通粉丝通的流量都来自于自身，流量质量相当高。腾讯和微博都属于能生产流量的公司。他们的广告收入，几乎是净利润，不像百度阿里还有流量采购成本。而广点通、粉丝通，最受广大广告主青睐的部分，又称为信息流广告~（恩，国外，非死不可和推特早就有了，国外牛逼，但我们还是专注于我们身边可用的东西吧）。可以说，搜索场景，远远超越了门户各种橱窗场景的广告价值；而信息流场景，则在逐步超越并甩开搜索场景。以至于广点通年会时和广大移动开发者说：应用市场已死，信息流广告永生之类的话。从当初简单网、蘑菇街在广点通内测初期，大把获得优质流量，到现在一年半过去，粉丝通也风生水起。效果广告平台的发展速度堪比火箭升空。广告主可以像在DSP平台一样定向投放精准广告，依赖的就是腾讯和微博的用户行为数据。目前，这是国内效果广告的朝阳期，朝阳期的意思就是，腾讯和微博对用户行为挖掘还不充分，还没有进一步放大效果广告的价值，恩，原因就是，目前还是很讽刺，年龄、性别、地域、OS、投放时间，解决了绝大多数问题。这对腾讯、微博等公司（今日头条将是下一个效果广告大平台）来说，未来空前美好，广告收入大大滴可以挖掘。而对于广告主来说，未来这些平台中优质流量就不再那么集中了，分配到自身的优质流量将慢慢稀释，广告费将逐步水涨船高。
第五，基于大数据的效果广告真那么牛逼，贴吧和豆瓣小组是否一样会是未来辉煌的效果广告平台。好吧，本人怀着这样的梦想，去发掘贴吧和豆瓣小组的流量红利。忧伤的是，贴吧有个短板，匿名用户比例太高，用户行为数据不精准。更忧伤的是，贴吧和小组，这种话题式的讨论，让内容主题更聚焦，从而本身和用户个人属性关系不大，在帖子内和吧内帖子列表或小组内帖子列表场景下，精准的信息流广告都显得格格不入，无法像QQ空间、微信、微博的信息流广告那样击中用户的兴奋点。

2. 再谈谈大家最熟悉的用户型产品
首先，目前应用场景最大的在推荐，不论是相关推荐还是基于用户行为的推荐或者其他杂交算法。但就像上文中所说的，垃圾数据太多没意义，推荐所需要的大数据，不需要大到无所不包。工程上最有效的相关性算法和协同过滤足够有用。就像和某大牛交流时，他说的，在业内，大家都是凡俗算法解决90%工程和生产场景的问题；然后前沿新潮算法，用于在圈子内装逼，刷逼格。
在电商平台上的各种推荐产品，只要能促进成交额，那也算是大数据在用户型产品和商业型产品上的双重价值。
其次，实质上最重要的场景，还是在搜索，或者说的不那么狭隘一些——普适计算（Ubiquitous computing）。引用一下《随意搜寻》里的装逼句，我们正在从原子大陆，步入比特海。我们所处的环境变成无处不在的数据，我们可以在任何时间任何地点，找到任何人任何东西，任何事情。
装逼的事情，放下不表。讲一下市面上除了百度的文字搜索之外的一些大数据实践吧。
首先就是语音识别。音频指纹什么的，各家都已经走得比较前列了。反正音频翻译成文字，再走传统的语义识别套路，实现一些人工智能的场景应用
其次是图像搜索，代表产品：百度识图、google图片搜索、淘淘搜、淘宝拍照购等。原理很简单，第一有海量的标的（比如一般图片或者商品图）数据；计算特征库、同款库，等等等等，反正就是做标识了。然后输入图片，去库中匹配同样的数据，或者匹配相关性数据。目前，淘淘搜更多的把这个能力应用于非标类商品的同款比价。所以可以看到，目前市面上，服饰鞋包的同款比价上，淘淘搜是比较领先的。
最后讲讲百度筷搜，基本是各种传感器收集数据，然后和云端的库中数据做匹配。其中PH检测什么的都简单，真正对大数据有要求的是成分分析，这一块目前还没有谁能做好。百度筷搜的筷座上装了近红外发射接收的传感器，这块是用于探测分子原子钟的一些CHO键，甚至其他键，然后以这个比例，去和数据库中各种食物实际上这些不同键的数量的食物，进行拟合。但那个丰富的食物内各种成分含量相关的数据库，即便是百度，目前要能拥有，也是天方夜谭。

结论，
大数据很美，但不一定适合你的规模的企业。技术是手段，怎么持续挖掘其中的商业价值，请你继续大开脑洞。
目前淘淘搜在这块的使用和操作上很务实：比价、推荐、广告。

------补充-------

加入芝麻信用后，发现大数据用在互联网征信上，更美

吴斌 · 2018-10-13 14:54:33

Han Hsiao收集整理的内容挺全的。：）
不过，做过数据分析后，你会发现，这些媒体炒作内容，基本是没有实际意义的。对于Volume、Variety、Value、Velocity的定义，你随便写个死循环，不断产生随机数，几天就可以满足Volume、Variety、Velocity的要求，而Value对任何事情都是可以做评判标准的，不光是大数据。
同时，也不要轻信《大数据时代》这本书，因为作者似乎没有什么机器学习的背景，本质上说书中的内容并不科学。
要说大数据的价值，主要是IT业界的商业需要（大家要卖服务器，卖存储，卖服务）。
另一方面，大数据这个概念的核心价值，是让全民重视数据分析的价值。
也就是说，“大数据”价值就在于宣传。“大数据”是个过程，而不是结果。
Gartner技术成熟度曲线，预测大数据的炒作，在2013年是最高峰，后面就会逐步下降，这是很准确的判断。

逆魂笑笑生 · 2018-10-13 14:54:34

谢 @desperado光邀请。

首先强调几个点。

1 这是一个很长，很长，很长的答案。

2 利益相关：Mckinsey&Company以及对应相关机构

3 连载数不定，一天1.5小时左右更新，大概篇幅不会小于2000字per day，不会大于5000字per day。

4 关于连载：1 作为长期连载段子手，连载只是为了帮助学习，在此感谢 @desperado光的督促和 @洪霟的鼓励。2 本人是从大数据与咨询的角度出发分析，希望诸位不要犯Geek病，欢迎讨论，但拒绝回复牛角尖。3 连载的意义在于东西可以往简单里说，不至于抽象，水平有限，所以三五千字的东西，估计三五万字才讲的明白。

15.09.20

大数据的核心价值

与上贴一致，一开始先回答问题。

大数据的核心价值是？

先得明白，什么是大数据。

大数据（big data），是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法（抽样调查）这样的捷径，而采用所有数据进行分析处理。

大数据的4V特点：

Volume（大量）
Velocity（高速）
Variety（多样）
Value（价值）

前面不少答主已经提到了这个，这里不再展开

首先有几个关键概念：

1 无法在可承受的时间范围：大数据的存在土壤，基于单位时间无法解决所有数据的前提，最简单的例子：微博每周都需要出一期热榜，榜单上有本周各个门类，各个领域曝光度最高，关注度最高的热点，但是，统计整个微博的所有信息却需要花若干周，甚至更长的时间 —— 如此大量的数据，在概念上，几乎可以成为不可承受。

用高端数据牛人 @desperado光的话说：

这可以理解为长时间维度上的无法承受，毕竟时间成本有限，而要达到的功能却是时间成本无法承担的；而从另外的角度看，高频交易公司的服务器很多都集中在华尔街，亦或是金融数据大量集中，密布的区域，这样的分布可以保证前两个V的顺利实施 —— Volume的大量冲击，以及Velocity的急速要求，因为在金融交易场或者二级交易场，100毫秒的延迟也是不可接受的；军事上也有类似的用途，比如预警机和海基防空雷达的设计，都需要同时处理超过100个目标的能力，并且都是实时的。

所以，世界上规模最大的短时间爆发访问量，往往都在常态上无法承受：请注意，时间维度的不可承受，一方面来源于时间成本的不可承受，另一方面，来源于时间短期阈值与达到目标之间的鸿沟，这个鸿沟在某种程度上，一般成本和时间，都无法承受 —— 由于所有数据都有关联性，而且几乎每个数据都要在尽可能短的时间内反应到每个客户的界面上，在保证多样采集的过程中保证最大的工作效率和精确度，的确对计算能力和计算模型，是个巨大的挑战。

2 常规软件工具

Hadoop --- 它实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS放宽了（relax）POSIX的要求，可以以流的形式访问（streaming access）文件系统中的数据。Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算（From 百度百科）

3 捕捉，管理和处理数据

所以，基于数据量巨大，类型复杂，却富含价值的数据库，依托于Hadoop或其他大数据工具，对这部分数据库进行数据捕捉，数据管理和数据处理的技术，可以成为大数据。

引：

1 在Mckinsey的划时代报告《Big data : The next frontier for innovation, competition, and productivity》中，大数据并不一定是超过特定TB值得数据集才能成为大数据。

2 Amazon给出的定义是：超过任何一台计算机处理能力的数据量。

3 在本时期谈及的所有大数据概念，都必须延展到获取信息并且处理信息的能力，意味着失去这个能力，大数据的概念可以成为不成立 —— 大数据并不意味着数据堆叠，而意味着数据计算和一系列挖掘，分析的连带反应。

所以，建立在上述的概念上我们可以看到大数据的产业变化：

1 大数据飞轮效应所带来的产业融合和新产业驱动
2 信息获取方式的完全变化带来的新式信息聚合
3 信息推送方式的完全变化带来的新式信息推广
4 精准营销
5 第三方支付 —— 小微信贷，线上众筹为代表的互联网金融带来的全面互联网金融改革
6 产业垂直整合趋势以及随之带来的产业生态重构
7 企业改革以及企业内部价值链重塑，扩大的产业外部边界
8 政府及各级机构开放，透明化，以及随之带来的集中管控和内部机制调整
9 数据创新带来的新服务

由上述9点（绝不是大数据能够带来的全部意义，这些只是其中的一小部分）带来的数据化世界将会以怎样的方式展现，鄙人和诸位一样，只能拭目以待 —— 从三大产业角度撬动生态圈的概述，答主@Han Hsiao 已经介绍的非常详实，鄙人只是顺着他的知识链，继续向下展开，并且尽其可能进一步的展现大数据的美丽画卷。

下一期：

大数据飞轮效应所带来的产业融合和新产业驱动（从咨询行业的角度）

--------------------------------------------------------------------------------------------------------------------------------------------

15.09.21

大数据飞轮效应所带来的产业融合和新产业驱动（从咨询行业的角度）

首先，什么是飞轮效应？

顾名思义，飞轮效应的本质是产生运动属性。我们把自己置于社会的平均产业面这个巨大的轮盘中，很难用平面，平台的角度看待自己 —— 简单说，一个个体，无论是企业，个人，或者其他属性的个体，都没有任何可能，使整个商业平台产生飞轮效应 —— 一个静止的，巨大的飞轮需要转动，需要巨大的源动力，虽然开局极难，可是一旦开局，而后的转动只会越来越快 —— 飞轮效应的惯性就在于此 —— 达到某一零界点后，飞轮的重力和冲力也会成为所谓推动力的一部分，这时，你无需费力，便可跟随飞轮转动，在整个利益平台寻找自己的接口和资源，用资源惯性完成利益整合。

从咨询业的角度呢？

对于咨询公司来说，特别是诸如麦肯锡，贝恩，罗兰贝格这样体量和技术量的咨询大鳄，每年都会从自己的企业战略，文化咨询案例中，得到大量的数据 —— 这些数据包括企业运营的常用数据，人力资源KPI的运营数据，资本运营状况的基本数据 —— 简单说，整个企业内部可以量化的咨询数据，都会由咨询公司进行收集，打包，采样和整理。而随着行业的变动，亦或者随着互联网时代的到来，很多现代企业，诸如互联网公司，电信运营商，投资银行，不但自己积累数据，更为自己收集的数据进行大规模的整合，打包处理 —— 现代企业数据管控能力，也随着企业的发展而发展，二者属于共生关系。

所以，咨询公司往往在现代企业的咨询案例中坐收渔翁之利 —— 由于现代企业对于发展数据挖掘技术的渴求，以及对于充分释放数据资产中蕴含的商业价值的渴望，大规模的，高度管理化的数据资源，便可以通过咨询诊断报告务求数据背输和数据支持的手段，很好的被采纳和吸收，并且从咨询的角度，对整合过的数据进行进一步的挖掘，探索。

对于现代企业，特别是大型现代企业（国外的GE，中国的中铁，中钢），对于数据整理已经颇有心得 —— 所以，对于大型咨询公司而言，利用当前收集的数据资源，整理数据整合标准，显然是可行的。

怎么讲？

数据收集分为高中低等，咨询行业面对的行业模型，同样是高中低等。简单说，中小企业同样有利用数据发展的必要性，但是无奈缺乏数据收集的方法。所以，利用大型企业收集，打包，采样整理的数据收集经验，泛化到中小企业方法中，制定数据泛化收集标准，完成大数据资产的第一步清理工作。

所以，飞轮转动的前提，是整个商业社会和商业平台，形成常规化，常态化的数据整合收集思路 —— 咨询公司首当其冲 —— 利用大型企业数据收集整合的经验，泛化大数据资产收集的方法论，制定类行业，近似行业的标准，手册化，网络化的进行对外宣导。对于咨询公司而言，如果形成：大数据基础概念普及 —— 大数据收集方法论宣贯 —— 大数据资产化处理的咨询配套产品和模型，飞轮转动的社会基础，将在5-10年后，渐渐形成。

从咨询的角度看，大数据资产可以衍生的角度，可谓五花八门，例如：利用数据平台终端输出企业人力资源职能数据，在企业管理绩效考核中设定痛点机制，即：发生什么行为做什么事，完成企业人力资源管理的条件反射；利用数据平台输出大量对标案例，利用时间纵度完成企业对标问题假设和解决方案诊断验证，利用大数据的数据采集职能而不是通过大量企业高中低层的访谈，彻底改变咨询行业常态化的资讯模式和诊断模式 —— 数据化平台的租售数据，租售信息，数据采纳整合，媒体，空间运营的综合机制的建立，配合前面所需的大数据资产化处理的配套软件，数据模型，大数据衍生飞轮效应的理论模型也可以基本清晰。

在产业频繁接触的过程中，各个行业的特点将不再是经验主义的价值输出，更多会采用社会流行指标 —— 而社会流行指标的建立，对于咨询行业，特别对于各类社会资讯指数，社会问题常态化研究的机构，可谓是巨大的福音。可是，由于大数据概念并非完全落地和产业化，更多的产业，职能部门，对于数据终端的依赖仍然取决于第三方 —— 请注意，大规模数据化流通的本质在于，自己拥有可以和企业和社会流行指标向对应，采用一套数据方法整合和整理的数据模型和数据样本，才有对标意义和参考价值。在推动大数据飞轮转动的过程中，数据资产从适应社会生态到数据资产的垄断运用间，需要一个递进的过程，但一旦递进过去，行业将会被企业撬动。

所以，对于咨询来说，宣导社会进行数据化管理的意识首当其冲，其次，提供第三方的数据化整理标准范式（例如发改委，国资委等各部委的文件中设计的中国中小企业标准委员会等等），向全社会树立数据化建设模块的标准，以及数据管理组织形式的建立。第二步，利用各行业不同的数据整理方式和最终数据整合的数据资源，提供相对应的，撬动大数据飞轮转动的具体建议。例如，对于类谷歌类的搜索产品，由于门户特征集中于搜索领域，所以，五花八门的数据碎片，将出现在谷歌的大型数据库中 —— 这些碎片化的信息如何整理，运用？如果企业拥有一套有效的关联信息碎片化计算模型，并且可以将碎片数据整合管理起来，并且反馈给用户呢？谷歌已然做到这一切，并且在邮件，日历，地图，企业搜索排名，客户管理关系，Google Drive以及相关社区里，运用了这些技术 —— 碎片化信息和关联性的运用，让谷歌的产业飞轮，随着数据库的不断增大而越飞越快 —— 随着谷歌国际化，技术化的不断演进，这个飞轮的惯性，将会带来其他产业的产业迭代。

咨询行业能够更好的看到诸如谷歌对于信息碎片和数据处理而后转动的飞轮，那对于涉及更多行业的咨询类而言，产品类企业是否也可以被这样转动飞轮？艺术品鉴赏行业呢？快销品行业呢？

是的，任何采用标准化数据采集和管理的行业，都可以被数据的管理型和有效碎片化整合，最终转动产业飞轮，从而产生巨大的产业驱动力 —— 这不是简单意义的精准营销或定点销售，这是产业整合和产业变革的前兆。

下一期：信息获取方式的完全变化带来的新式信息聚合

--------------------------------------------------------------------------------------------------------------------------------------------

PS：应群内大部分人要求，大数据飞轮效应这里，补一期案例分析。明天分析信息获取方式的完全变化带来的新式信息聚合。

下面只讲一个东西，苹果。

苹果的伟大无需赘述，现在从大数据结构上对它进行剖析，将会更能看到苹果巨大的产能和数据效能。

1 数据化概念怎么在苹果形成的？

首先，IPOD是什么？

IPOD的物理本质是便携音乐播放器，但是它是怎么运转的？为何它成为了一座丰碑？那是因为它内在的数据意义 —— 它从易用性入手（例如消除了所谓P2P软件瞎子啊音乐，刻录CD，以及刻录机操作等等硬门槛），利用收购的Rio团队（音乐管理程序创业团队），以苛刻的要求简化产品，强调用户体验，一步步的完成了1.0版本的划时代音乐数据依托平台 ---- iTunes。

依托于iTunes，iPod才悄然问世 —— 神奇的苹果将数据整合放在终端产品前进行战略构建，让终端体验很好的嫁接在了数据之上 —— 殊不知在iPod大卖之前，乔布斯早已说服了五大唱片公司向苹果提供数字音乐的销售权，五大唱片公司所提供的数字音乐，成为了支撑iPod运转的数据总库，而在iPod没有进行全线商业运作之前建立好了标准化，结构完整的数字音乐数据库（依托于五大唱片公司对于音乐原本的初分类，本来这个体系就非常成熟和完备了），一个依托于iTunes的，iTunes+iPod的数据库输出终端，加上五大唱片公司，艺术家，用户和苹果四方盈利的天才商业模式应运而生。

从数据结构化，碎片整合的角度，我们又能看到什么呢？

首先，iTunes的音乐数据整合，更注重于个体音乐人的整理，我们这里可以把每一个人看作数据碎片 —— 每个音乐人只要由苹果出面解决版权问题和发行问题，借助这个平台，就可以走向世界任意一个被苹果覆盖的角落，这是及其有利的条件。而将这所有数据碎片整合，并且提供高质量运转数据平台的苹果公司，也因为各个个体音乐人（数据碎片）的加入，把不同曲目，不同风格，能够满足不同肤色，国家，地区人等不同音乐需求的音乐整合到自己的数据闭合平台，并且规定：用户可以在平台内任意购买自己喜欢的曲目 —— 最大限度地满足了用户个性化的需求，而这些由用户自组的音乐数据碎片被搁置到“播放列表”中 —— 这个极具个人色彩的设置，让所有人都参与到了大数据构建和数据信息整合的过程中。

所以，只从苹果的立场，利用自组闭合平台的建立整合的巨量数据碎片，只要在自己可以控制的范围内，定点，定向，精确，迅捷的处理和表达用户所需信息，完成所谓用户需求和供应的同步，一个巨大的大数据盈利闭环就实现了，只不过伟大的苹果公司，在15年前就实现了这个伟大的目标。

2 APP以及身后的平台，以及对于时代的影响

由iTunes建立，并由iPod作为物理呈现的一整套数据盈利闭合机制出现后，苹果向母级发起冲击 —— iPhone。

为何iPhone成为了母集？当手机内置音乐播放器软件后，iPod的存在意义，便烟消云散了 —— 而这个新型的iPod，还可以打电话，邮件，甚至做更多的事情。

在由iTunes转动起飞轮一角的时候，iPhone可谓彻底的转动了飞轮 —— 原因是，用手机依托可以展现的数据多样性，远远超越音乐一个领域 —— 所以，苹果将数据碎片整合的能力扩展到应用（一个如此huge，简直没有任何阈值的词），音乐商店摇身一变，成为了应用商店。试想：当全球的线上数据都通过iTunes平台进行同步数据运营机制的管理（同时你自己也是其中的一份子，只要你有自己的播放列表和下载列表），并且这样的巨量碎片可以由你（作为一个普通用户），在自己需求产生的瞬间满足到自己的需求，这样的平台，基本等于天堂再现 ——而如今，数以十亿计的苹果用户，正在每时每刻享受着这样的同步，这是最好的时代。

所以，如果说，iTunes+iPod的出现建立了大数据碎片整合概念，成为大数据的触媒的话，APP以及身后平台的构建，对互联网行业，甚至对整个商业生态，甚至人类生活模式，都产生了巨大的推动和影响。

3 放开APP应用开发权限，进一步做大转动的飞轮

2008年3月，苹果发布iPhone的应用开发包，对于大数据而言，这又是一次产业革命 —— 在构建好数据整合平台，从音乐入手，到而后渗透到整个线上领域的方方面面，完成所谓强交互式的大数据全民平台后，应用开发包的展开，则将原有的大数据飞盘做大。很简单，对于产品和技术一贯拥有封闭性的苹果而言，大数据飞盘的转动不可逆的前提下，飞盘的大小直接决定了苹果的市场体量。

所以，开放的第三方平台催生了整个产业格局的巨变 —— 以数据内容制造产业，只要苹果作为第三方和最大的平台拥有者，解决利益分配问题即可。而作为互联网王牌的苹果公司提供了3：7（用户购买应有所支付费用，苹果拿走30%，开发者拿走70%）的支付比例，留下了世界上最大体量的个体数据供应商，而正是这些供应商的数据碎片，构成了如今人们工作，娱乐，休闲，购物，生活等等各种丰富多彩需求的信息基础：由门户iPhone作为信息接收体，依托于巨大的，利益分配机制成熟的APP商店，以及由无数第三方参与的，10万种以上应用构成的巨大数据化碎片市场，改良了整个产业生态，形成了全新的商业格局。

4 对碎片化信息进行新一轮的大整合

当iPad问世后，一系列的苹果终端产品面临新的数据问题：用户如何把行为数据和内容数据更有效的收集和记录？比如照片，通讯录，音乐播放列表等等？

iCloud横空出世。

iCloud，从大数据的角度，对从2000年开始的iTunes所引发的数据化产业革命，进行了二度整合和产业梳理：利用多个数据源收集数据，但通过统一的储存和索引功能，建立大数据中心，而数据中心的本质，仍然是对于依托于苹果平台上的所有碎片化信息进行进一步的升级处理，形成新一轮的数据大整合。

iCloud的出现，标志着苹果完成了完整的闭合大数据产业链 —— 以iCloud作为用户行为，内容的大数据中心为核心，向全球第三方手机碎片化数据，由APP提供数据整合和发送平台，由信息终端（手机，播放器，电脑，平板电脑）收集用户数据，反馈回iCloud，然后由iCloud的数据反馈，依托于市场需求的变化，完成对于碎片化第三方的指导和进一步开发，形成完整的苹果数据大飞盘价值闭合链。

至此，苹果公司的大数据飞轮效应所带来的产业融合和新产业驱动的案例分析（咨询报告的角度），就结束了。

Again，明天分析《信息获取方式的完全变化带来的新式信息聚合》，请关注。

--------------------------------------------------------------------------------------------------------------------------------------------

15.09.22

信息获取方式的完全变化带来的新式信息聚合

在大数据下，所有的概念都不能简单的顾名思义 —— 如同前面说到的，大数据的本质是处理，挖掘，分析大数据的能力，并不是简单的数据组合。所以，对于信息获取方式，大数据本身的要求和条件，也相对其他类别，要更严苛，需要更多的方法加以管理和运用。

一般意义上，偏狭的数据样本对于数据分析的意义并不明显（也可以基本理解为，大规模全方位的数据覆盖与最终的数据分析效果成正比），所以，数据样本的大小，数据算法的优劣，直接决定了是否会产生最终的误导性结论。

所以，大数据就是这样一个工具 —— 利用大数据可以获得前所未有的精确的预测能力，可以成功预测大量历史上无法想象的事件：2012年总统大选中，内特希尔沃利用自己的数学模型准确预测了美国50州最终的选举结果，基本可以证明大数据样本和大数据分析的强大威力。

为何要强调信息获取？

刚才我们提到，大数据的本质并不是简单意义的数据堆叠 —— 这并不仅仅取决于数据处理的算法，数据样本也必须要足够大，大到大数据可运转的临界值，大数据才可真正意义上发挥功效。

但是，真正做到这两点，是否真的可以达到大数据信息获取的目的？不尽然是。

例如，跨国公司的市场部喜欢在全球各地进行市场调查，举办各类的现场活动。苹果公司喜欢在自己的商店中推广自己的IOS系统以及一系列device，并且在活动中大搞所谓的偏好度分析 —— 你会选择IOS还是Windows？

当然，可以预见的是：到苹果体验的用户，几乎所有都已经拥有了潜在的品牌偏好和品牌选择，在主观上已然认定苹果成为自己选择的前提下进行的数据分析和数据挖掘，其主观性会完全毁掉最终的计算结果。

所以，信息获取的客观度其实比想象的，更难保证。跨国公司都拥有自己的市场部门和战略部门，但是为何咨询公司的生意重来没有消失？一个第三方在选择数据和分析数据上所拥有的客观性，是主体调查公司完全不具备的 —— 从自己战略部出发的数据分析样本，总在不经意间，已被自己主观进行了排序。

所以，在保证了客观性的基础上，样本大小是第二步需要考虑的。

为何需要考虑数据样本的大小，这里插入什么是蒙特卡洛模拟（Monte Carlo Simulation）和蒙特卡洛分析（Monte Carlo Method/Analysis）。

蒙特卡洛模拟的核心思想是：

当所要求解的问题是某种事件出现的概率，或者是某个随机变量的期望值时，它们可以通过某种“试验”的方法，得到这种事件出现的频率，或者这个随机变数的平均值，并用它们作为问题的解。这就是蒙特卡罗方法的基本思想。蒙特卡罗方法通过抓住事物运动的几何数量和几何特征，利用数学方法来加以模拟，即进行一种数字模拟实验。它是以一个概率模型为基础，按照这个模型所描绘的过程，通过模拟实验的结果，作为问题的近似解。可以把蒙特卡罗解题归结为三个主要步骤：构造或描述概率过程；实现从已知概率分布抽样；建立各种估计量。

蒙特卡洛分析的核心思想是：

当所求解问题是某种随机事件出现的概率，或者是某个随机变量的期望值时，通过某种“实验”的方法，以这种事件出现的频率估计这一随机事件的概率，或者得到这个随机变量的某些数字特征，并将其作为问题的解。

从理论上来说，蒙特卡罗方法需要大量的实验。实验次数越多，所得到的结果才越精确。

以蒙特卡洛分析的核心思想看，蒙特卡洛方法需要实现的保证，在于大量重复实验的有效保障，只有保障了足够多的实验次数，最终所得到的结果也会越发精确。

对于大数据的分析来说，“大”，已经足够体现了大数据对于样本量的需求，这也是大数据信息获取上，最重要的一个前提保障。

所以，我们从信息获取的科学性角度，可以得到以下几个结论：

1 样本容量的大小，样本算法和分类方法的科学优劣，直接决定了大数据分析最终的结果。
2 要保证客观，前瞻性，以及数据的实用性，第三方介入大数据样本分析十分必要。
3 同行业数据不做交叉分析，最终得到的结论将没有意义。
4 异行业数据不做交叉分析，是行业属性不同带来的基准量和测量方式的不同，所以必须坚持。

优异的信息聚合怎么使用？有何用处？

咨询公司和市场调查公司利用自己宏大的市场背景和市场分析背景，除了增加样本量外，也可以大张旗鼓的扩宽数据来源的渠道，增加数据的维度。

在Mckinsey的大数据报告中，宏大的数据库和多维度的优势吸引了诸多行业的参与，其中最亮眼的，当属政府机构。

对，不仅是市场调查公司对于社会言论感兴趣，政府同样非常渴望得到人民群众的真实想法。公共舆论从古至今，都是政府维持公共行政管理和正常政府治理的关键因素。

比如，微博，朋友圈。

前文提到，良好的信息聚合，可怕之处在于：我们可以通过事先准备好的数据算法，在极短的时间内，完成大密度的数据聚合和信息归类，最终按照信息反映的真实情况，对各个问题进行分类处理，前提是保证客观，准确的信息获取渠道，以及提供足够的信息获取样本。而微博，朋友圈具有巨大的传播和扩散效应，并且从量上，完全可以满足大数据的分析要求 —— 一个正常的咨询公司总倾向于到微博寻找热点，一个正常的市场调查公司也会倾向于微博上搜索已被完全整理和疏导好的有效数据，一个政府行政部门呢？对，可以从这些巨大的舆论场中寻找到舆论走向，而在此同时，大数据舆情服务也就应运而生。

所以，政府部门可以通过事先的舆情调查分析，很好的引导舆论，缓解很多社会矛盾，甚至可以提早处理不少还未发生的恶性公共事件。所以，良好的信息聚合口径尤其重要，在保证客观，准确，足量的数据聚合后，政府利用大数据分析缓解社会矛盾，提升政府公共行政效能，完全有可能做到。

隐藏数据？

信息聚合另一个问题是：并非所有的数据都是显性数据，所以，数据挖掘（Data Mining）应运而生 —— 通过数据采集钱的预处理机制，建立数据处理预模型，从推断的商业价值用户中挖掘一系列隐藏数据，从而达到优化用户产品或者提高盈利的能力。比如：谷歌和百度同时拥有全球最大的用户即时意图数据，利用即时意图数据的偏好，只要拥有足够大的样本量和一定的时间维度，对数据进行一定的跟踪，聚合和利用，形成一个以用户即时意图数据为核心的用户数据生态圈体系完全是可行的。

下一期更：信息推送方式的完全变化带来的新式信息推广

--------------------------------------------------------------------------------------------------------------------------------------------

15.09.23

信息推送方式的完全变化带来的新式信息推广

雅虎 --- 依托信息高速公路传统概念的信息推送

其实当时，杨致远应该没有想那么多 —— 当年在杂志，电视，甚至家中的一本由复旦大学出版社出版的《阿爸讲现代科技》，都提到一个著名的概念：信息高速公路。

什么是信息高速公路？

信息高速公路就是把信息的快速传输比喻为“高速公路”。所谓“信息高速公路”，就是一个高速度、大容量、多媒体的信息传输网络。其速度之快，比目前网络的传输速度高1万倍；其容量之大，一条信道就能传输大约500个电视频道或50万路电话。此外，信息来源、内容和形式也是多种多样的。网络用户可以在任何时间、任何地点以声音、数据、图像或影像等多媒体方式相互传递信息。

雅虎的初衷，就是利用互联网作为运通媒介，利用自己的门户网站，建立一条名叫“雅虎”的信息高速公路。而“雅虎”只需要关注自己的受众面的覆盖广度，只要在自己的门户上设置各类广告，只要经过这条路的人，都可以看到广告的内容，从而达到最大效应的营销覆盖效果。

是的，作为真正的高速公路而言，每条高速公路的承载量都有限 —— 例如，洲际公路每公里可以承载的汽车数量，都有最大值。而信息的最大值？一条信道可以承载接近50万路电话的信息量 —— 这样的信息量对于雅虎一个门户而言，仅仅是微乎其微。

所以，雅虎所创建的门户网站的概念，很大程度上建立了互联网信息推送方式的建立：开放，免费的信道，传递信息的最便捷，以及访问流量与内容优质度挂钩的良性循环之路。在雅虎访问量如天文数字般爆发开始，互联网门户采纳品牌广告极大的推动了互联网产业的发展，而随着互联网的日益普及，互联网广告创制，定价，包装，售卖，以及一系列的广告营销手段，都随着互联网在全球站点的设立，迅速普及全球。

但随着行业的发展和建立，依托信息高速公路的基础概念所涉及的互联网广告牌，开始出现了发展瓶颈 —— 传统广告行业的宣传，包装，售卖的营销模式，无非就是被线上运营系统复制推广，并没有真正运用到信息聚合所产生的价值。试想：如果互联网品牌广告可以通过浏览分析，流量分析和其他手段，对消费者，商户的行为进行监控和切分，从而达到所谓的个性化精准投放，会是什么样的情况？任何实体用户都知道自己的广告不会被100%的人接纳，但是损失的部分，谁能精确的告诉我？那一部分客户到底喜欢什么？谁能告诉我？

于是，谷歌告诉你，我可以解答这些问题。

谷歌 ---- 依据消费者行为，甚至动机的信息推送流式

谷歌到底为何如此值钱？谷歌是怎样利用自己的搜索引擎制造自己的广告王国的？

上文说到，当雅虎模式慢慢布局开来的时候，所谓的传统广告行业的线上包装的本质，便暴露无遗了 —— 不管是多宽广的高速公路，无论广告牌怎样琳琅满目，客户对于广告牌的接受度都是极其有限的。

为何？其本质原因在于，所有的广告牌所提供的服务信息，都是商家主动提供了，它与消费者的需求之间，有一条明显的鸿沟 —— 一个广告牌是无法判断消费者真正所需的。那如何可以判断消费者的动机呢？

谷歌解决了这个问题 —— 利用搜索。由于搜索行为，谷歌可以掌握所有搜索行为的意图，根据搜集到的所有数据进行分类整理，根据分析推送报告，其操作流程可以归结为三点：1 提供免费的搜索服务；2 搜集所有搜索行为数据；3 根据意图推送广告。

这个模式，无疑迅速的解答了雅虎无法解答的问题：怎样让广告牌提升关注度，以达到最终提升成交转化率的目的。通过信息搜集方法的更迭，互联网早期广告模式在谷歌的搜索引擎带动下，完成了巨大的升级。

可这只是刚刚开始 —— 谷歌利用自己的算法，将收集到的搜索信息逐一分类，排名，用关键词出价和质量评定分数做乘积，决定搜索结果页面的关键词陈列显示顺序（这套做法而后的淘宝利用直通车的功能实现并加以运用，成为淘宝一个极其重要的盈利点） —— 这种依托于大数据量基础上进行的线上泛化拍卖，随着谷歌搜索量的日益提升，给谷歌带来了巨大的经济价值。而依托于关键词出价和质量评定两个变量的搜索排名体系，在满足谷歌自身的经济利润的基础上，也很大程度上优化了整个线上广告的质量和产品升级，毕竟市场为王。

依托于大数据的智能推送

依托于搜索动机的推送方式，将所有的动机揣摩，都局限在了谷歌的搜索框内，当然，这并不能让数据推送方完全满足。所以，谷歌通过AdSense，或者一些类分析软件，从各个角度捕捉消费者行为和动机 —— 简单说，广告和用户正在浏览的网页内容关联度和用户关注推送信息的关注度正相关。

所以，设置一个简易的信息推送互动体系，只要每个电脑拥有一个反馈模型，能把用户浏览的任何link信息进行分类处理，分析用户浏览的网页内容，将重复出现关键词高的几个字，反馈到主信息平台，然后由主信息平台反馈相对应的广告给用户 —— 这就出现了所谓的智能推送，当分析软件可以很好的读懂你的意图，广告的转化率，将会在现有的基础上，再提升一个数量级。

所以，依托于这个思路，捕捉用户浏览网页图片，数字，都可以成为依托于大数据下的精准定位和精确营销 —— 当信息推送的意图和用户的真实意图贴近度越高的时候，广告的点击率提高，最终的商业效益便会明显的体现出来。

下一期更：4 精准营销

--------------------------------------------------------------------------------------------------------------------------------------------

15.09.24

精准营销

这一节，讲一讲咨询行业的精准定位，进而进行精准的处理，最终达到精准营销。

咨询行业对于行业研究有天生的好感，对于行业内的所有与咨询有关的信息，都有收集的潜意识。简单说：一个咨询团队掌握一个行业的全面知识，无论是深度还是广度，都有很大的优势。

比如：负责酒店行业的咨询团队，常理来说，只要有超过10年的咨询经验，掌握全国高中低档酒店大量的index（管理），包括全行业行评报告（管理），资产负债表（会计），服务品质，商业模式，运作模式，诸如此类的信息，将会大量的聚合在团队数据库；一个茶叶行业的专业营销团队，甚至连茶叶产地的地理条件，气候以及当地种植方式的详细信息，甚至一部分可量化信息，都能轻松掌握。

在这样的条件下，咨询行业一旦接触到新的企业咨询立案，就能最快速度的切入，利用组织对标 —— 一些可以量化的指标，只要新企业也有量化标准，行业标准对比模型一旦建立，诊断方案便可以即刻得出，剩下的，只是对于个体本来个性方法论的探讨和进一步实施落地，但事先数据的整理，很好的避免了这些问题 —— 毕竟对标机构的落地实施细则具有极强的参考性，抛开时代变化和一些政策的细微调整，精准定位诊断的理论基础仍然存在。

所以，一个咨询团队利用自身数据库进行精准定位诊断企业，并且在接触新的企业数据时，能够第一时间更新自身企业数据库，从而有概率不断的为新案例提供对标，从而拥有更加科学，效率更高的企业战略以及企业文化的诊断机制。

所以，依托于大数据思维，每个咨询团队都可以通过自己人员配备的不同需求，建立最适合自己团队需要的大数据库，以匹配使用效率为此数据库的原则：一个资本团队的关注倾向与一个管理团队的关注倾向完全不同，使用泛化数据库的意义很小，效能会极其低下。

在收集和整理团队数据库时，团队人员配置，是建立此大数据库非常重要的指标，依托于这个指标所建立的数据库模块，才能在不同的，但针对性和指向性都相同的案例中，迅速发挥作用，并且形成拥有自己特点的业务模式，揭示自身团队的核心咨询价值。所以，精准定位在某种程度上，也是对咨询团队构建核心的一种正常要求。

做到上述几点后，咨询团队的精准营销思路，便完全打开 —— 由于有侧重点的构建某一项企业问题的咨询产品，在此问题上，团队也有相应侧重的数据面和数据模型，以此为营销核心，向平台展示自己的核心能力。简单说，只要数据库针对的企业有一定的社会代表性，这样的营销是精准无疑的 —— 企业诊断的效率在于对于错误信息的筛选频率，减少失误不确定性的亮度。数据的根本用途在于提供决策依据，而这样的决策依据，已经在前端的历史数据中，得到了很好的解决，提升，以及参考对标的空间，并不属于数据和团队的未知领域。

在这样的前提下，咨询团队只要解决好单体咨询产品1.0数据库的构建，剩下的就可以通过不断的更新案例来提升相关类目的咨询能力，毕竟数据库的作用在于建设确定性更明显的诊断方案。而这样的咨询产品构建，只要依托于大数据，便有一定普世价值：所有可以人为量化的咨询产品，都可以通过这样的方式，很好的建立起1.0的版本，顺遂着案例的不断递增而升级 —— 咨询公司依托于大数据的精准定位不仅有利于咨询工作的开展，更会有利于整个咨询产品的升级以及最终的精确营销和精确服务。

下一期更：第三方支付 —— 小微信贷，线上众筹为代表的互联网金融带来的全面互联网金融改革

--------------------------------------------------------------------------------------------------------------------------------------------

15.09.27

第三方支付 —— 小微信贷，线上众筹为代表的互联网金融带来的全面互联网金融改革

快捷支付分两个子概念 —— 快捷，支付。首先说一说快捷。

现代核心商业价值的来源地，以“快”为核心 —— 这和现今时代的工作节奏，生活节奏密切相关，快节奏已经渐渐成为了人们生活习惯的节奏。

但是，快的前提是？

一切金融的本质，都以安全为先。但只需安全维护可以保障，数据资产向不同行业的传统核心领域渗透，冲击 —— 凡是拥有大量用户行为导向的数据，都是有效数据，而剩下的，是对数据的有效梳理和有效整合，无非就是数据维度，质量，采取手段方面，核心业务的突破和管理。

快捷支付的本质在于：采调用户一级数据，完成支付平台支付，共享的第一时间，基本从目的上摆脱传统银行的束缚。支付次数和支付领域维度的不断扩大，使得支付平台的数据吞吐量陡然增大 —— 拥有大数据支付数据和支付平台的第三方，例如支付宝，可以最大限度的利用收集到的支付信息进行挖掘，探索，以深挖信息判断支付习惯和支付行为，从支付行为中对支付体系进行更新换代，从而吸引更大的现金流。

所以，数据的本质，更像土地：土地需要开发利用，在土地上构建什么样的钢筋混凝土结构，最终的楼层才有可能是什么样子。对于数据本身，更像一种基础资源，就如同土地，人力一般，成为公司的资产。

在淘宝，京东等行业巨头疯狂发展的今天，网上支付早已被巨头们一次次更新换代升级。但如果只是供应渠道链的终端进行掌控，数据资产的纵度，并不能完全得到彻底的挖掘。所以，在终端支付的前端，出现了供应链金融：

供应链金融是指在对供应链内部的交易结构进行分析的基础上，运用自偿性贸易融资的信贷模型，并引入核心企业、物流监管公司、资金流导引工具等风险控制变量，对供应链的不同节点提供封闭的授信支持以及其他结算、理财等综合金融服务。这里既包括企业上游的原材料零部件供应网络和链条，也包括下游的分销商、代理商、即渠道链 —— 中欧国际商学院、深圳发展银行2007《供应链金融》

所以，对于金融来说，数据作为基础资源能提供的，是试图以更为快捷，高效的运作方式取代高成本，较复杂系统的传统金融机构 —— 比如四大银行。但是，这里的运作方式并不是取代传统银行的传统支付方式，但是更多的，是促进整个商业银行体系的升级，至少是支付方式的升级 —— 毕竟流动性是金融世界的核心体征，并且打通以四大银行为核心的平台数据支付渠道。另外，四大银行利用自己定额资金池的巨大额度，开展了和其他第三方支付的合作：和快钱利用企业应收应付账款的资本和时间的效差开展融资服务，在企业的应收账款货音符账款信息和产业链上下企业中，分别打包资金流转数据给银行 —— 这样的一手数据，在某种层面上，可以为企业客户提供进一步的贷款服务 —— 而这样的服务，都是建构在数据这块肥沃的土地上进行的数据构架，而采纳第三方支付的企业沉淀海量数据，这样的模型对于发展数据这个稳态资产，有着广阔的前景和不可估量的影响。

B2B的支付革命

B2B 是指进行电子商务交易的供需双方都是商家（或企业、公司），她（他）们使用了互联网的技术或各种商务网络平台，完成商务交易的过程。电子商务是现代 B2B marketing的一种具体主要的表现形式。

含有三要素：

⒈买卖：B2B 网站平台为消费者提供质优价廉的商品，吸引消费者购买的同时促使更多商家的入驻。

⒉合作：与物流公司建立合作关系，为消费者的购买行为提供最终保障，这是 B2B 平台硬性条件之一。

⒊服务：物流主要是为消费者提供购买服务，从而实现再一次的交易。
（摘自百度百科）

传统金融机构的抵押，担保手段的使用原则，是降低由于信息不确定性导致的运作风险和经营损失。但是大数据很好的规避了这个问题：在大数据时代，所有的金融信息都将呈现透明，商业环境的该表也必将推动商业运作模式的变化，而这种商业模式的变化，建立在B2B平台的阿里巴巴，淘宝，支付宝，积累了数以亿计的用户交易数据，其中还涵盖大量的资金流动，产品变化，投诉量，用户注册信息（深度广度不同，根据用户注册的体验和最终提交的信息数），而通过大数据模型验算，这样的数据都以极低的成本，有序的进入阿里公司的数据库。在数据库中，实时自动生成的大量数据，便可以成为行业参考和行业对标信息的数据库，而这些行业对标信息的开展，最终带来的，将是以B2B支付革命为导火线的，以线上资金和数据中转为源头的，整个金融体系的改变。

一旦此类数据公开化，开展数据共享平台，只要保证商业利益不受数据共享的影响，传统金融机构的大额流动性，势必会加入金融信息共享的行列：这是对于传统金融产业的信息升级，而这样的信息升级，在某种程度上，将配合互联网+，进一步的彻底改变人类商业社会买卖的货币渠道，进而推动整个商业社会的变迁。

下一期更：6 产业垂直整合趋势以及随之带来的产业生态重构

--------------------------------------------------------------------------------------------------------------------------------------------

15.09.28

产业垂直整合趋势以及随之带来的产业生态重构

几乎每个行业的发展规律，都会沿着同样的轨道 —— 合并。有时垄断并非人为有意，在某种程度上，资源朝着最合理的分配方向走，乃是大势所趋。

什么是供应链？

供应链的概念是从扩大的生产(Extended Production)概念发展而来，现代管理教育对供应链的定义为“供应链是围绕核心企业，通过对商流，信息流，物流，资金流的控制，从采购原材料开始，制成中间产品以及最终产品，最后由销售网络把产品送到消费者手中的将供应商，制造商，分销商，零售商，直到最终用户连成一个整体的功能网链结构。

什么是产业整合？

所谓产业整合是指为了谋求长远的竞争优势,按产业发展规律,以企业为整合对象,跨空间、地域、行业和所有制重新配置生产要素,调整和构筑新的资本组织,从而形成以大企业和企业集团为核心的优势主导产业和相应产业结构的过程。

产业整合包括横向整合、纵向整合和混合整合。产业的横向整合是指产业链条中某一环节上多个企业的合并重组;产业纵向整合是指处在产业链中,上、中、下游环节的企业合并与重组,包括前纵向整合和后纵向整合。

（均来自百度百科）

所以，当产业链完成初期发展时，上游企业的产品成为下游企业的原材料和供货商，下游企业将最终产品呈现，来到市场，这样的供应链环节，成为了资本主义发展和市场经济发展的正常步骤，以及整个商业社会的基础。

但是，由于产业链的逐渐发展，产业链的每一端，所谓都会出现大量同类竞争者 —— 同类竞争者在几乎类似的产品和供应商不断的提高产品质量和降低成本，不断优化供应链体系，在供应链的端口完成市场占据和市场垄断 —— 20世纪90年代以及21世纪头十年，中国的珠三角，长三角地区，出现了大量的类似供应商，而很多供应商产品的成本，已经降到了不可想象的程度 —— 横向整合的结果，会形成在某产业环节的垄断，或者几家竞争的格局，这是供应链企业做大做强的表征。

在完成诸如此类的产业核心面竞争后，横向垄断，或者说横向整合，已经渐渐不能满足这些企业的胃口 —— 产业垂直整合开始出现。横向垄断的企业讲究的是低成本，大规模生产，关注的点，更多集中于成本的管控，企业规模的扩大以及生产技术的革新，而把企业逐渐做大；而纵向整合，所谓产业垂直整合，要求企业做强 —— 对于核心部件，垄断性资源和关键技术的限制加强，同时，渗透供应链的其他端口，用资本，技术，政策，战略等等核心手段，完成对于下游或者上游供应链的占领，以达到对于整条产业链的控制。例如：中国的电脑企业无论占据多大的市场规模，在芯片上自始至终掣肘于因特尔，操作系统掣肘于微软 —— 无论市场规模有多大，最终的利润空间，都会被无法完成垂直整合而缩减。

所以，对于大企业而言，产业内的垂直整合趋势是必然通道。随着技术的发展，特别是大数据能力的发展，产业链的最终战役和最终立足点，还是回到消费者的核心中去。

苹果，小米，以及千千万万的跟随者

我做手机。

是的，我做手机。小米的成功，是贴合消费者为核心的完全胜利。小米作为一款完全围绕消费者进行设计，全民参与创新，更新，制造，最终围绕用户进行经营的企业，最终被自己的粉丝推上了天空。这种经营思路，不是诺基亚，摩托罗拉等传统手机，移动设备巨头采纳的，但最终小米的一飞冲天，完全证明了这一套模式的可行性。

而为何小米可以做到这样的出色成绩？大量的线上运营加上精确的计算，定位，最终数据化的管理，是小米能够精准定位用户需求，提升客户粘性的关键因子。不能想象 —— 在诺基亚风靡全球的时期，网上论坛的信息量以及用户与企业的交互性，都由于线上垂直社区的不发达，数据处理技术的掣肘，没有发展完全。到如今，小米利用自己的网上社区以及大量的第三方论坛，释放自己的信息源，同时与用户完成同时段，同一频率的交互，进而改进同一时期的产品 —— 利用第一时间反馈的数据资源来提升客户粘性和最终的商品忠诚度，这样的体验，是非大数据时代无法想象的。

所以，每一款小米手机，都会因为贴合度，成为粉丝力捧的产品 —— 每个提出问题的粉丝，几乎与小米和小米公司一起，成为见证产品诞生的参与者，这样的近乎神圣的参与感，几乎一同参与研发，一同参与产品上市的感受，充分满足了消费者为自己设计产品的体验感，这种深度参与的价值几乎无可替代的反应在了小米成功的每个阶段。

而对于小米来说，除了使用安卓平台的定制以外，小米手机的几乎每一层供应链，都完全被自己抓住 —— 可以说，这样的运营和对自身产品的深度挖掘，以及对于自己产品供应链的控制，可圈可点。利用粉丝 —— 这个松散的组织，用第三方论坛，自己论坛以及一系列的线上手段对这些松散组织进行捏合，利用数据管理的方式，很好的梳理和筛选自身产品最终发展所最急需改进的问题以及升级的部分，通过社区设置的管理员，解决社区与铁杆粉丝，以及技术控的交流问题，能让有价值的意见，第一时间反应在产品上，完成技术渠道的构建；当技术渠道的构建逐渐完成后，一款完成技术研发的产品投入自己的生产线，完成第一步的产品生产，以及反馈到论坛中的，第一步的产品体验 —— 而这样的内部供应链轮转来回进行，最终，小米将自己作为制造商的身份和用户（消费者）之间的天然鸿沟逐渐消退，而一些用户通过不断的参与小米的技术研发，最终加入小米团队，成为小米的一份子 —— 可以说，小米完成了新型制造商和消费者的新关系构建，而这种新平台带来的“以消费者为核心，定制消费者核心需求，通过线上协作达成的信息共享”的新模式，将会逐步推广到更多的领域。而其中，完成一切新供应链整合的技术背景，都通过新型数据化的管理和信息筛选，完成供应链的精确调整和针对消费者核心的精确用户体验定位，这样的公司的投资价值，将远远超越传统横向供应链的企业。

下一期更：企业改革以及企业内部价值链重塑，扩大的产业外部边界

--------------------------------------------------------------------------------------------------------------------------------------------

2015.09.29

企业改革以及企业内部价值链重塑，扩大的产业外部边界

到底谁是权威？

什么是领导力？

领导力（Leadership）就是指在管辖的范围内充分地利用人力和客观条件在以最小的成本办成所需的事提高整个团体的办事效率，比较常见的领导力开发方法包括CEO12篇领导力提升、EMBA及EDP项目等。领导力与组织发展密不可分，因此常常将领导力和组织发展放在一起，衍生出了更具实战意义的课程《领导力与组织发展》[1] 。领导力心理学是以心理学为基础、以管理应用为实践、以组织实验为依托，塑造管理者的领导魅力；重新审视管理者的误区，突破管理瓶颈，改善管理氛围；培养管理工作中让别人说“是” 的能力-----让否定、拒绝、抵抗、放弃变成认同、接纳、支持、执行；应用于领导、管理、沟通、团队、策划、营销等诸多领域。

（摘自百度百科）

从概念上看，领导力对于管辖范围内的所有资源 —— 包括人力资源，物力资源以及一切客观条件在最小的成本办成最多的事情，提升整体办事效率上，有密不可分的作用。从历史上看，任何时代的英雄或者领袖之所有高人一等，就在于对于其个人意志或几个人的集体意志，可以改变一个时代的资源配置方式，以推动整个时代充分的物质发展和精神发展，衍生出更大的历史意义。

所以，领导核心的本质是寻找真理 —— 由于个人能力，个人经验和个人素质在某一群体中的高度，人群，群体，企业，集体中，总会退出一个或者几个极其优越的个人，对整个集体和群体的所有行为进行总的决策，而这种决策的最终目的，就是为了在政治世界，或者经济世界指明核心战略方向，以达到最终的资源优化配置的目的。

事实上，到了20世纪，几乎所有的大企业，仍然强调着以商业领袖为核心的组织文化和企业文化，而不同的企业文化代表的不同的思维和精神导向，仍然辅证着这个最终原理 —— 谁能为企业的最优资源配置定制战略导向，谁能够最大化的激励整个企业职能效率，这仍然是企业最大的价值。

于是，大数据的出现，开始撬动了人类这个传统的人权认知

怎么讲？

对于企业而言，如果自身企业数据库的建立已经达到成熟的商业级别，收集到的数据深度，广度以时间，以及企业核心价值体系的类目进行延伸，企业内部的权威价值的判断体系，将会无一例外的从人权，向数据妥协 —— 只要拥有足够大的样本库和数据量，没有人可以与数据所提供的精准定位相匹敌，也没有人可以质疑科学推演的数据决策。

但是，是否大数据的利用，是推动数据企业管理完全代替人制管理的序幕？

并不是。大数据的运用，无论在任何行业，任何区域，都有非常明确的针对性 —— 要知道，推动数据化或大数据演算提升企业决策和企业战略实施的，仍然是人的大脑，而大数据的运用，仍然是人的大脑给予数据在企业中的一个普遍试用的方法论。只是，大数据的运用，很好的代替了人为收集大量的数据资源所耗费的时间成本和经济成本（很多数据收集和数据推演如果都以人力完成，则需要耗费大量的时间和精力，而最终的分析结果，还依赖于分析人的经验），大数据的好处在于，利用设计好的，或者高度证明可行的数据模型，代替了决策层收集，分析数据的初步工作，而领导层 —— 利用这样的科技，就可以从第一时间享受到经过一手处理的，保持绝对正确率的数据资源，领导决策的准度和效率，其实上，得到了大大的提高。

而做到这一切，需要的是大数据什么样的能力？这里必须再提数据挖掘和数据分析：

数据挖掘（英语：Data mining），又译为资料探勘、数据采矿。它是数据库知识发现（英语：Knowledge-Discovery in Databases，简称：KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关，并通过统计、在线分析处理、情报检索、机器学习、专家系统（依靠过去的经验法则）和模式识别等诸多方法来实现上述目标。

数据挖掘利用了来自如下一些领域的思想：(1) 来自统计学的抽样、估计和假设检验，(2)人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。数据挖掘也迅速地接纳了来自其他领域的思想，这些领域包括最优化、进化计算、信息论、信号处理、可视化和信息检索。一些其他领域也起到重要的支撑作用。特别地，需要数据库系统提供有效的存储、索引和查询处理支持。源于高性能（并行）计算的技术在处理海量数据集方面常常是重要的。分布式技术也能帮助处理海量数据，并且当数据不能集中到一起处理时更是至关重要。

（均摘自百度百科）

对于企业而言，利用既有系统，亦或是设计好的计算模式所为管理层提供的一手数据资料，或者整合处理过的加工数据资料，都将撬动企业核心价值链体系 —— 至少是决策体系的大变动 —— 从前依靠丰富的企业经验和信息整合能力的领导层，如今依靠高性能并行的计算机处理技术，处理海量的数据集，分布式的演算出最终的战略决策，甚至是企业普通决策，其效率的普遍适用，慢慢将会为企业的传统人力组织架构大做减法。

数据分析是指用适当的统计分析方法对收集来的大量数据进行分析，提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。这一过程也是质量管理体系的支持过程。在实用中，数据分析可帮助人们作出判断，以便采取适当行动。

数据分析的数学基础在20世纪早期就已确立，但直到计算机的出现才使得实际操作成为可能，并使得数据分析得以推广。数据分析是数学与计算机科学相结合的产物。

在统计学领域，有些人将数据分析划分为描述性统计分析、探索性数据分析以及验证性数据分析；其中，探索性数据分析侧重于在数据之中发现新的特征，而验证性数据分析则侧重于已有假设的证实或证伪。

探索性数据分析是指为了形成值得假设的检验而对数据进行分析的一种方法，是对传统统计学假设检验手段的补充。该方法由美国著名统计学家约翰·图基(John Tukey)命名。

定性数据分析又称为“定性资料分析”、“定性研究”或者“质性研究资料分析”，是指对诸如词语、照片、观察结果之类的非数值型数据（或者说资料）的分析。

（均摘自百度百科）

传统企业中进行资源优化，资源配比的采购，出纳体系的大量基层和中层员工，将不再会占用企业的日常成本 —— 因为这一切的工作，都已然被大数据的使用代替，而大数据提供给企业的进化计算，信息，信息处理，甚至可视化模型，信息检索多样性，都完胜一个单体基层部门工作人员的日常效率。数据挖掘的普世价值一旦打开，企业内部价值链重塑，几乎是难以阻挡的必然趋势。

所以，在日常企业流程再造的过程中，定性数据分析和定性资料分析，甚至是一些非数据化的定性高质量数据研究，大数据演算系统的成本，都远远低于人本。

产业外部边界在哪？

首先，什么是产业？

定义：具有某种同类属性的经济活动的集合或系统。

在传统社会主义经济学理论中，产业主要指经济社会的物质生产部门，一般而言，每个部门都专门生产和制造某种独立的产品，某种意义上每个部门也就成为一个相对独立的产业部门，如“农业”、“工业”、“交通运输业”等。由此可见，“产业”作为经济学概念，其内含与外延的复杂性。

（来自百度百科）

在大数据时代，由于企业都采取了数据化的呈现方式，企业的外部边界，由于数据化语言的采用，变得越来越模糊 —— 殊不知一个卖糖果的商店和一个卖汽车轮胎的商店，由于使用同一种货币：人民币，而可以在两个迥然不同的业态中，使用同样的货币行为，比如金融。数据也是如此 —— 异行业的数据模型纵然不同，但利用同样的表达工具 —— 数字，最终呈现的产业，仍然属于同一种语言，这样，已然使整个工业组织架构的距离感，进一步拉近。

简单说：产业外部之所以出现边界，正是因为不同行业之间没有共同的企业语言，也没有泛型流程化的可能。而通过数据接口，产业外部边界的不断拓展，可以使企业面对同一组织目标 —— 消费者。

面对消费者，最终达到的效果只有一个 —— 从消费者身上，实现经济利润。如果所有的产业端口最终都以消费者作为开始，那么企业会更贴近于市场的需求：简单说，上一期所讲述的小米手机就是如此 —— 从消费者出发，产业和产品进行的流程建造，从消费者开始：这是个伟大的创举，以消费者为资源导向的资源配置模式，而得到了一手的资源配置模式后的数据计算和最终的战略布局，都依赖于消费者的需求展开 —— 传统企业的组织方式和组织模式将会完全变化，至少是流程和过程上本因颠倒。

而利用数据这个通算语言，一个企业所分享的数据平台和数据广度越大，则最终得到的以数据为语言的数据回报，将会愈发明显 —— 殊不知一直在强调建立平台化的大企业们，在大数据时代到来后，利用自身已有的历史资源，加上同一种语言和同一个最终的战略导向（消费者），企业的外部边界将会被一点点的逐步打破，最终达到数据化集成共享，以自由自愿的形式，将企业的核心数据资源和可共享资源，外包给非特定的（而且通常是大型的）大众网络，最终实现更大的商业布局，也凿开了以大数据为依托的全新市场资源的目的，一个崭新的时代，因为依托于大数据的核心处理能力，将会在不知不觉中展开。

下一期更： 政府及各级机构开放，透明化，以及随之带来的集中管控和内部机制调整

--------------------------------------------------------------------------------------------------------------------------------------------

15.09.30
政府及各级机构开放，透明化，以及随之带来的集中管控和内部机制调整

政府问题的繁杂，在于多个方面 —— 很多时候，我们很难理解一个正常的行政部门，处理社会五花八门的各种问题：各种各样的犯罪问题的集合，交通，教育，医疗 —— 政府的行政部门对于单独管控所有行政时间的端口，政权的集中带来的弊端，远远大于利端。

这很好理解 —— 政府和各级机构采纳的问题，必须由政府部门单独解决。简单说，政府部门的行政效能和企业一致，如果信息分散不集中，处理问题每次都需要回归到元认知的区域，而回到这个区域的代价，在于时间，人力资源的大量浪费和过度学习，而政府部门不可能无限庞大，处理问题的手段，往往在繁杂的事务面前，变得捉襟见肘。

那么，什么是政府的行政效能？

行政职能是指政府为实现国家利益和满足社会发展需要而负有的职责和所应发挥的功能。行政职能是国家职能的重要组成部分。国家有立法、司法和行政职能。行政职能是国家职能的表现形式，受其他职能制约，并影响其他职能。

（摘自百度百科）

美国政府开始了改革：利用行政数据库和数据算法的构建，集中统一整合政府采样信息，从政府采样加工信息后，再采取对应措施，解决政府问题。这样做将带来三个重大影响：

1 政府信息的透明度，将决定最终的政府数据库的有效程度。
2 政府需要重新构建采样部门，政府部门的工作效用，将建立在大数据演算的基础上。
3 政府大数据更新演化，将会给整个社会带来大数据规模化的推广以及大数据概念的进一步升级和运用，将是划时代的事件。

那么，大数据到底能给政府的行政效能，带来怎样的改变呢？

1 阶级性与公共性

行政职能是国家职能的构成和体现。国家有两种基本职能，一种是政治统治职能，一种是社会管理职能。行政职能一方面必须执行和体现国家的政治统治职能，体现国家意志的要求，反映政府所代表的国家的性质和活动方向，为占统治地位的阶级所赖以存在与发展的经济基础服务，具有一定的阶级性；另一方面作为国家权力的执行机关，它必须适应国家社会生活发展的需要，承担和执行社会公共管理职能，以服务社会公共利益的面目出现在世人面前。

政府实现统治职能的关键在于精确掌握社会发展的局部信息和整体信息，在掌握局部和整体信息的基础上，对应出相应的政府职能，就是我们统称的行政职能。行政职能是否能够精确的体现政府处理事务的有效度，完全依赖于政府本身对于社会发展和社会动向的了解精确度 —— 一套完整的数据化量化体系以及信息收集的职能化设计，将有利于政府达到以上的目的。所以，大数据不仅仅有利于商业社会对于资本的推广以及再定义，对于统治阶级赖以生存的经济发展，大数据的出现也可以助其一臂之力，至少美国政府，已经开始将自己信息透明公开，准备迎来以大数据满足社会公共服务的局面。

2 执行性与强制性

在现代社会中，国家的行政职能与立法职能、司法职能区别开来。相对于立法职能而言，行政职能具有明显的执行性质，表现为执行国家意志的管理方面的职能。正如美国学者古德诺指出的，政治是国家意志的表达，行政是国家意志的执行。

怎样提高国家的行政，立法和司法职能？这个问题，从美国建国初期，采取三权分立开始，就开始了长达200年的探索。我们并不能把大数据当做完成一切价值改良，完美提高三权分立金钥匙，但大数据的盐酸极致，的确可以量化当前社会事件，逐步定义和改良未来对于行政效能的执行，同样，通过对于历史案例的分析和研讨，为历史上出现的典型行政事件进行重新的量化评估，而这些量化评估后所形成的政府行政案例，将作为范本和对标，出现在未来美国行政能力的手册，亦或是出现未来相似问题的比较措施，这和英美法系所要求的案例对标如出一辙，但精确的量化，会提高案例的执行性，也能提高政府职能的精确性。

3 多样性

从静态分析，行政管理的范围涉及国家和社会生活的各个方面，行政职能广泛渗透到整个社会生活的每个角落，涵盖社会的各个领域，并且每种职能都具有十分丰富的内涵。这种职能范围的多样性不仅是非政府机构的职能无法比拟的，也是其他国家机关职能如立法、司法职能所望尘莫及的。

行政管理的范围涉及面之广，涉及的阶级和利益面之多，完全超越了企业和社会机构的层次和范围。所以，利用大数据对行政职能的广泛性进行重新定义，可以将社会生态分切成不同的模块，并且渗透到社会生活的每个角落。这样的普及和推广，让社会问题的多样性边界逐渐消失，并且赋予很多专业性职能新的内涵 —— 这样的内涵，是非政府机构，企业以及个人完全无法理解的综合度和多角度，也可以为国家的政府和司法职能，提供更多的视角：毕竟视角的来源，都已经可以用数据化进行充分的表达。

4 动态性

另一方面，由于行政职能的内容、范围及活动方式源于国家的性质和社会的需求，它与社会变化直接相联系，它对持续的社会变迁与复杂化极为敏感，往往以各种机动灵活的方式渗透到社会生活中去，以解决这些问题。因此，行政职能是动态变化的，行政职能的范围、内容、主次关系、作用方式等必然随着环境的变化而变化。适应环境变化需要，及时调整和转变行政职能，是搞好行政管理的重要前提基础，也是政府行政系统赖以生存与发展的前提条件。

大数据的另外好处在于数据大样本可以覆盖到社会问题的方面，以至于出现社会动态，数据样本的覆盖度同样可以为未来出现的行政问题提供新的数据对标。对于行政职能的范围而言，传统国家只能利用新的职能部门设置，而对应的社会问题带来的新的经验，才能成为这个职能部门的学习资料，以及最终对应的部门解决效用的解决办法，所以，传统部门对于社会边卡和复杂化问题的解决效用，完全停留在机构对于问题解决经验以及领导的个人能力 —— 这是一个典型的人治方针。而大数据提供的行政职能动态变化的参考以及历史对标，可以为部门提供及时调整的方针以及行政职能转变的方式方法，这是行政管理的前提和基础，更是政府不断提高行政效能的唯一通途。

5 整体性

政府行政系统和行政行为是整个社会系统中的一个子系统，行政职能是整个社会职能系统的一部分。从国家机构系统来看，国家职能是由立法职能、行政职能、司法职能组成的，行政职能是整个国家职能系统的一部分，它与国家其他职能有机地联系着：行政职能的行使既受立法机关的监督，又以司法机关等国家强制力为后盾。从行政系统自身来看，行政职能本身也是一个完整的体系，其职能结构极为庞大和复杂。

（均摘自《2015年国家行政手册》）

因为大数据的引入，行政职能将成为社会数据库的一部分，这个子集将会无边界的嵌入到整个社会系统中，而社会大数据体系的建立，将是国家政府的外在边界向社会融化的关键步骤 —— 只要政府信息可以做到完全公开（当然对于现在的国家政府而言，这一点几乎不可能做到），但是，政府信息公开度与整体社会效能之间，依托于大数据，是完全成正比的。从行政系统看，这种行政职能的普及和完善，将会大大提高社会的进步 —— 政府保护和治理环境主要是决定环境保护的政策问题，如布局政策，资源开发政策、投资政策、价格政策等，制定环境保护的法规和标准，从宏观上处理好环境与经济的协调发展。政府对环境管理具体涉及三方面内容，一是环境计划管理。主要包括工业、交通污染防治计划、流域污染控制计划、自然环境保护计划和环境科学发展计划等。二是环境质量管理。

另外的案例，如：

对于环境层面，政府职能主要包括组织、制定各种环境质量标准，各类污染物排放标准和环境监察工作、调查和评价环境质量状况以及预测境质量变化趋势等。比如，环境技术管理。主要包括确定环境污染和破坏及防治技术路线和技术政策，确定环境科学技术发展方向等。在市场经济体制下，政府治理环境的方式主要是使外部性内部化并运用法律措施和经济手段（如税收和补贴）加以解决。

（摘自百度百科）

所以，大数据引入后，国家行政效能的解决方式和最终能力外化，将会不断的打开整个社会问题的解决边界，政府的集中管控和内部机制调整在整个大数据的基础上，将会精确化政府行政管理指标，达到政府职能效用的大幅度提高。

下一期，也是最后一期更：数据创新带来的新服务

--------------------------------------------------------------------------------------------------------------------------------------------

15.10.06

数据创新带来的新服务

这里涉及两个：商业智能，垂直运用。

商业智能

商业智能的概念在1996年最早由加特纳集团（Gartner Group）提出，加特纳集团将商业智能定义为：商业智能描述了一系列的概念和方法，通过应用基于事实的支持系统来辅助商业决策的制定。商业智能技术提供使企业迅速分析数据的技术和方法，包括收集、管理和分析数据，将这些数据转化为有用的信息，然后分发到企业各处。

（摘自百度百科）

首先，是“运用基于事实的支持系统来辅助商业决策的制定”。怎么运用基于事实的支持系统？基于事实的本质在于对于事实的无偏化估计 —— 无偏化估计的基础是数据化的精确量化，而基于大量无偏化估计的数据，是提供商业智能技术的核心。

商业智能最大的功效在于对于数据的收集管理，分析，以及最终的数据有效传达 —— 分发企业各处的数据有用信息可以对企业的各种病症提供等效的良药。简单说：麦当劳的物流冷链系统常年的运转能够收集到大量的数据信息，包括肯塔基州今年Mcafe的出柜后多长时间喝完的信息，包括路易斯安娜州对于新汉堡面包的偏好度调查的调查报表，甚至包括犹他州 I-72 高度公路运送面包和料包的时间等等具体信息 —— 诸如麦当劳这种体量的数据处理能力的数据库，从诸如此类的细节信息中进行大量的业务分析和决策管理，从而加速更新和迭代自己的数据库，从而提升服务质量。商业智能技术提供的分发数据包是对本体企业，亦或是单一企业单体数据的可视化研究，这种研究数据分发到企业各处后，对于企业解决问题的帮助，远远大于对标案例的分析。

商业智能实现智能的关键，就在于数据分析后转化的准确业务决策，对于去也现有数据的转化，Hadoop的多节点为很多企业提供了技术上的便利 —— 2009年Facebook决定脱离Oracle系统对现在的新系统进行基于Facebook的数据流程再造，Hadoop的出现让Facebook提供了理论上可以承受的最大数据容量，而这个数据容量的构建，让用户可以上传的信息数量极度膨胀，从而转化为更多的用户以及更好的服务。所以，更大量的数据进入数据分析处理的区域，Facebook需要处理的，便是把巨量的流程化数据，进一步的转化为基于Facebook本体的有用信息更新在每个人的个人主页以及与他们朋友相连接的数据节点，分发到世界各地。

可以想见，Facebook利用大数据进行业务经营和业务决策整合的工具，这里所谈及的企业业务系统，在工业，商业，农业领域，会有着不同的运用。而智能的发挥，基于每一个特定领域的高等级数据库收集的大量针对性信息，而这些信息进行数据整合后得出的商业决策，最终成为未来决策中不可或缺的部分呈现在未来企业的决策之中，期间利用的企业运作系统中的抽取，转换，装载，以及提供的合适查询工具和分析工具视图，例如OLAP可以组建的数据工具辅助决策提供的解决方案，已经在微软，甲骨文，SAP，SAS等企业，向全球范围内铺展开来。

基于商业智能，这里提供三个体系结构的概念分析，数据仓库，联机分析处理，以及数据挖掘：

数据仓库：

数据仓库，英文名称为Data Warehouse，可简写为DW或DWH。数据仓库，是为企业所有级别的决策制定过程，提供所有类型数据支持的战略集合。它是单个数据存储，出于分析性报告和决策支持目的而创建。为需要业务智能的企业，提供指导业务流程改进、监视时间、成本、质量以及控制。

联机分析处理：

简写为OLAP,随着数据库技术的发展和应用，数据库存储的数据量从20世纪80年代的兆（M）字节及千兆（G）字节过渡到现在的兆兆（T）字节和千兆兆（P）字节，同时，用户的查询需求也越来越复杂，涉及的已不仅是查询或操纵一张关系表中的一条或几条记录，而且要对多张表中千万条记录的数据进行数据分析和信息综合，关系数据库系统已不能全部满足这一要求。在国外，不少软件厂商采取了发展其前端产品来弥补关系数据库管理系统支持的不足，力图统一分散的公共应用逻辑，在短时间内响应非数据处理专业人员的复杂查询要求。

联机分析处理（OLAP）系统是数据仓库系统最主要的应用，专门设计用于支持复杂的分析操作，侧重对决策人员和高层管理人员的决策支持，可以根据分析人员的要求快速、灵活地进行大数据量的复杂查询处理，并且以一种直观而易懂的形式将查询结果提供给决策人员，以便他们准确掌握企业（公司）的经营状况，了解对象的需求，制定正确的方案。

数据分析处理分为三个样式：

OLAP系统按照其存储器的数据存储格式可以分为关系OLAP（RelationalOLAP，简称ROLAP）、多维OLAP（MultidimensionalOLAP，简称MOLAP）和混合型OLAP（HybridOLAP，简称HOLAP）三种类型。

ROLAP

ROLAP将分析用的多维数据存储在关系数据库中并根据应用的需要有选择的定义一批实视图作为表也存储在关系数据库中。不必要将每一个SQL查询都作为实视图保存，只定义那些应用频率比较高、计算工作量比较大的查询作为实视图。对每个针对OLAP服务器的查询，优先利用已经计算好的实视图来生成查询结果以提高查询效率。同时用作ROLAP存储器的RDBMS也针对OLAP作相应的优化，比如并行存储、并行查询、并行数据管理、基于成本的查询优化、位图索引、SQL的OLAP扩展(cube,rollup)等等。

MOLAP

MOLAP将OLAP分析所用到的多维数据物理上存储为多维数组的形式，形成“立方体”的结构。维的属性值被映射成多维数组的下标值或下标的范围，而总结数据作为多维数组的值存储在数组的单元中。由于MOLAP采用了新的存储结构，从物理层实现起，因此又称为物理OLAP（PhysicalOLAP）；而ROLAP主要通过一些软件工具或中间软件实现，物理层仍采用关系数据库的存储结构，因此称为虚拟OLAP（VirtualOLAP）。

HOLAP

由于MOLAP和ROLAP有着各自的优点和缺点（如下表所示）,且它们的结构迥然不同，这给分析人员设计OLAP结构提出了难题。为此一个新的OLAP结构——混合型OLAP（HOLAP）被提出，它能把MOLAP和ROLAP两种结构的优点结合起来。迄今为止，对HOLAP还没有一个正式的定义。但很明显，HOLAP结构不应该是MOLAP与ROLAP结构的简单组合，而是这两种结构技术优点的有机结合，能满足用户各种复杂的分析请求。

数据挖掘（前文已经提过多次）：

数据挖掘（英语：Data mining），又译为资料探勘、数据采矿。它是数据库知识发现（英语：Knowledge-Discovery in Databases，简称：KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关，并通过统计、在线分析处理、情报检索、机器学习、专家系统（依靠过去的经验法则）和模式识别等诸多方法来实现上述目标。

（以上均来源于百度百科）

垂直运用

垂直运用，本质是垂直（整合）运用，旨在提供或降低公司对于投入产出控制水平的方法，就是对于核心商业价值的服务和产品的纵向服务的过程。垂直整合分为后向整合与前向整合两个部分。

企业内外价值增加的活动可以拆分成几个主要的部分：企业生产、销售、进料后勤、发货后勤、售后服务。支持性活动涉及人事、财务、计划、研究与开发，采购等等部分，这些基本活动与支持性活动构成了企业的整体价值链。这个价值链中，最早引入数据的部分，是企业的财务会计。企业的会计部门，会将诸如生产销售，发货后勤等等一系列的采购信息，销售信息，配送信息，通过近段时间的企业现金流水，反映出企业整体运营的趋势。而后，当Hadoop出现，大数据量化分析模型开始成熟时，企业便开始思考：是否可以将企业整体流程再造的诸多环节进行数据化管控以及数据化再造，将企业价值链上的诸多战略环节量化，从而在企业流程中，真正找到可以输出企业核心竞争力的部分，从而为企业做好减法？

所以，企业特别关注和培养在价值链上的关键环节获得的核心竞争力，得到巩固企业行业竞争优势以及最终达到的市场范围的调整，都可以依托于数据化和数据节点的优化运用。企业协调和价值链整合的最优效率，都来源于企业的价值链量化的结果 —— 对于总价值，包括价值活动的判读，什么流程可以量化，什么流程使用什么手段进行量化，最终采用什么手段对信息进行运用，只要涉及流程核心竞争力可判定范围的数据，都可运用于垂直整合。

例如，涉及任何行业竞争的各种基本活动的五种类型（来源于波特价值链模型）：

进料后勤：与接收、存储和分配相关联的各种活动，如原材料搬运、仓储、库存控制、车辆调度和向供应商退货。

生产作业：与将投入转化为最终产品形式相关的各种活动，如机械加工、包装、组装、设备维护、检测等。

发货后勤：与集中、存储和将产品发送给买方有关的各种活动，如产成品库存管理、原材料搬运、送货车辆调度等。

销售：与提供买方购买产品的方式和引导它们进行购买相关的各种活动，如广告、促销、销售队伍、渠道建设等。

服务：与提供服务以增加或保持产品价值有关的各种活动，如安装、维修、培训、零部件供应等。

（来源于百度百科）

从五个基本流程上看，从进料后勤，生产作业（特别是机械加工，包装，组装，设备维护，检测，上述提到的五个部门），发货后勤，销售，服务，都可以使用大数据工具对这些数据进行针对性的整合打包，五个方面不仅仅是对于产业竞争活动的基本核心框架的描述和整合，只是前向整合或后向整合的选择。例如：航空公司为飞机维护，飞机餐饮提供的数据，为供应商提供更多的准确信息，以便于整个航空业运作效能提高的方式，就是逆向整合，或者后向整合的典型事例；而渠道商，分销商，甚至旅行社针对自己的需求向航空公司提供大量针对性信息，以便于航空公司针对性的调整自己的运营机制，则是一种前向整合 —— 而两种整合所依托的条件，都是大数据背景下的垂直整合的经典范式。

PS：至此，总共11期的大数据核心价值分析，到此结束...感谢每一个看过文章的朋友（不知道是不是知乎最长的答案...但应该也是最长的之一）。特别感谢 @洪霟， @desperado光的鼓励。

PPS：今后会更多回答大数据方面的问题，只求一个学习的机会和交流的平台，水平有限，还望大家多多指教。

（完）

董飞 · 2018-10-13 14:54:35

来源：readwrite

“大数据” 的概念其实并不新鲜。

大数据时代已经到来，但不是每个人都在接受它的洗礼。更准确的说，现如今我们所谓的 “大数据”，其实就是硅谷的互联网大佬们若干年前所做的事，之所以现如今被人们所重新认识，觉得它是新鲜有趣的，那是因为现在推动大数据的技术，已经完全开源，并且普及到了大部分的企业和公司。

在与传统企业的对话中，我们可以越发清楚的察觉到，大数据除了能够让开发应用项目在非硅谷的地方迅速成熟起来之外，无甚新奇之处。当我们看到公司都在郑重其事的谈论大数据项目，那么就意味着大数据的概念确实开始深入人心。

“大数据” 的概念，所涉及的范畴比我们想象的更为宽广。

Gartner 报道称：42%的 IT 企业领导已经深入到大数据项目的开发中。换句话说，它还有长足发展的空间。但我怀疑这个数字被低估了，这涉及到了如何定义"大数据"这样一个概念。比如，当我问一个 IT 企业的专家是否会开发一个大数据项目时，一般得到的回答都是"NO"。但当我进一步阐明我的意思，你所要从事的项目并不是那种涉及兆兆字节甚至更大规模的数据量，相反，是一种可以从分散的端口来拉取数据的软件，进而能够进行实时分析的项目产品。当换成这样一个问法的时候，往往她的答案就是 “YES"! 这样的项目当然也是在"大数据"的范畴内。但是"大数据"这样的字眼，让人们往往更加关注的是” 大 “，而非数据，所以人们就走进了误区。

这个结论在 NewVantage 的调查中，变得更加清楚明朗，其中只有 15%的受访者是在处理超大规模的数据。而从剩下的 85%的受访者那里，我们可以看到企业最关心的目标，是要有能力不断的管理日益多样化，并且不断膨胀的数据资源，而非简单的处理超大规模数据。所以，当我们看到连 Hadoop 公司，这家以存储及加工超大规模数据闻名的公司，更加频繁的介入到 ETL 过程中，也就不足为奇了。（ETL：即构建数据仓库的重要一环，数据源抽取出所需的数据，经过数据清洗，最终按照预先定义好的数据仓库模型，将数据加载到数据仓库中去）

在大数据的概念里，规模真的并不重要。

Google 公司和 Facebook 公司早已经发明出 MapReduce 以及 NoSql 这样的数据库，来应付应用软件（这类软件主要由数据来驱动）对实时数据分析处理的需要。现在这样的技术已经开源，随处都可以得到并使用，以至于现在的互联网大佬们已经将目光投向 “更大规模数据” 的技术开发和利用，而其他人，将在若干年后享受这些技术带来的便利。也许，布莱恩·普罗斯特对 Hadoop 网站价值的揭示更加能够说明问题。他说：“Hadoo 也仅仅是让本该变得昂贵的数据存储变得便宜而已。” 而 GigaOm 的德里克·哈里斯（Derrick Harris) 也对 NoSql 这么评论道：“它并没有在管理复杂交易上，把其他数据库的角色取而代之。相反，NoSql 催生出来一系列的应用软件，能够在处理半结构化数据方面反映更加迅速。” 所以在我看来，定义大数据最好的的方式，应该站在你处理数据的角度，而跟所要处理的数据规模没有任何关系。

最近我遇到了一位 IT 企业老板，他说现在已经把他的工作团队从” 瀑布式” 的开发方式转换为更为灵巧机敏的开发方式。该团队面向市场上实时的客户反馈，从 3000 个服务器中读取信息，每天要生成 500G 的信息量，同时从开发到配置仅仅需要 24 分钟的时间。该公司毫无疑问，是在向由数据驱动的模式转型。这意味着他们要有能力一扫旧有僵化的数据基础系统，同时在转变过程中会遭遇很多阻力和挫折，但最终我相信能够达到他们的目标。

chym · 2018-10-13 14:54:36

Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it...

AreYouKiddingMe · 2018-10-13 14:54:37

大数据科学创造了一个平行宇宙（data universe ）.那个宇宙不断扩张，并与我们的物质宇宙高度相关。通过研究和观察数据宇宙，我们将获得许多这个宇宙的丰富的知识，并能利用这些观察结果来对物质宇宙的很多事件进行预测。

数据科学实现了一个重要的科技推进，就是它推进到了「科学的边缘」。科学对实证研究、论证、实验都有很高的要求，科学已经呈现出它的局限性，科学的局限就是「人类不可能对一切事物都做出科学的论断」。就是你不可能用科学研究一切。
这时候，数据科学提供了一个突破性的解决方法，观察数据宇宙并预测。也就是说，我只要知道数据预测它将是怎样的，就够了。海量的数据证明它99%的可能会怎样发展，我知道这个，就够了。至于科学有没有论证它，不重要了。
比如股市的涨跌，用科学实证研究、建模分析，都是不可能研究出什么来的。中国的股市，超级不理性，更不可能用模型去研究了。这时候，就是科学的局限到了。我们就能用数据科学来解决。如果我把极大极丰富的数据充分的利用起来，我就可以预测股市涨跌，人们的情绪。它基于极为海量的数据，不仅仅是金融数据还包括社交媒体数据，包括天气数据，包括新闻数据，一切数据都与此相关。然后得出一个结果。这个结果究竟科学能不能解释，不重要。只知道99%的可能性下面，结果是上涨，就够了。

当然以上说的，目前尚未实现。

短暫De記憶 · 2018-10-13 14:54:38

某比萨店的电话铃响了，客服人员拿起电话。
客服：XXX比萨店。您好，请问有什么需要我为您服务？
顾客：你好，我想要一份……
客服：先生，烦请先把您的会员卡号告诉我。
顾客：16846146***。
客服：陈先生，您好！您是住在泉州路一号12楼1205室，您家电话是2646****，您公司电话是4666****，您的手机是1391234****。请问您想用哪一个电话付费？
顾客：你为什么知道我所有的电话号码？
客服：陈先生，因为我们联机到CRM系统。
顾客：我想要一个海鲜比萨……
客服：陈先生，海鲜比萨不适合您。
顾客：为什么？
客服：根据您的医疗记录，你的血压和胆固醇都偏高。
顾客：那你们有什么可以推荐的？
客服：您可以试试我们的低脂健康比萨。
顾客：你怎么知道我会喜欢吃这种的？
客服：您上星期一在中央图书馆借了一本《低脂健康食谱》。
顾客：好。那我要一个家庭特大号比萨，要付多少钱？
客服：99元，这个足够您一家六口吃了。但您母亲应该少吃，她上个月刚刚做了心脏搭桥手术，还处在恢复期。
顾客：那可以刷卡吗？
客服：陈先生，对不起。请您付现款，因为您的信用卡已经刷爆了，您现在还欠银行4807元，而且还不包括房贷利息。
顾客：那我先去附近的提款机提款。
客服：陈先生，根据您的记录，您已经超过今日提款限额。
顾客：算了，你们直接把比萨送我家吧，家里有现金。你们多久会送到？
客服：大约30分钟。如果您不想等，可以自己骑车来。
顾客：为什么？
客服：根据我们CRM全球定位系统的车辆行驶自动跟踪系统记录。您登记有一辆车号为SB-748的摩托车，而目前您正在解放路东段华联商场右侧骑着这辆摩托车。
顾客当即晕倒。。。

Leven · 2018-10-13 14:54:39

“If you can’t measure it, you can’t manage it”
---彼得·德鲁克
“你如果无法度量它，就无法管理它”要想有效管理，就难以绕开度量的问题。
想必这就是小数据乃至大数据最终的核心的价值。

所以很喜欢这句话：不能度量，就无法改进。

张亮 · 2018-10-13 14:54:40

大数据就是分析海量数据，获得有价值性东西的新方式。
之所以近几年大数据火热，是因为过去tm的处理不了这么多数据，技术受限，现在技术慢慢的能处理，发现一下子处理这么多数据，哎，好像发现了好多其他的以前发现不了的东西。其实还是排名第一的答案里提到的大数定律。
所以我觉得大数据的核心是不断发展的的技术。

张昊 · 2018-10-13 14:54:41

核心价值。。。好奇怪的说法，应该一千个人眼里有一千个哈姆雷特吧

我个人认为，核心价值在于，相比于原本的统计分析，我们需要假定一个模型，然后用数据去验证这个模型，比如，房价涨是因为有人在炒，然后搜集炒房人的炒房数和房价画出时序图，如果是符合递增状态，可以认为假设成立

但是，如果想知道这个是不是伪命题怎么办呢？就得头脑风暴出一堆和房价上涨有关的数据，整理好以后，用回归分析的方法提取一下公式，看是不是炒房人的系数是正且大的，这是一个很费力的方法而且可能答案只覆盖了一部分原因

当用数据挖掘的方法，问题就会得到简化（数据挖掘而不是大数据，因为老师没有教过大数据，只教过数据挖掘，大数据只是话题），将历史房价变化数据，所有和房价相关无关的数据都丢入模型中，简简单单的算个决策树的熵，答案也许就呼之欲出了...

(例子可能不准确，因为数据格式都是假想的)

何明科 · 2018-10-13 14:54:42

大数据（其实就是数据，深深觉得大数据被大家玩烂了）让大家做决策有事实依据，摆脱以前靠拍脑袋和拍屁股来做决策的窘境。因为前者是群众随机决策，而后者是让老板随机决策。

——————————————————————————————————

更多文章关注我的专栏数据冰山 - 知乎专栏，更多精彩回答请看何明科的主页

徐亚波 · 2018-10-13 14:54:43

前面的写的太复杂了，核心就两条：提高决策质量，降低决策成本。

拿teenage sex来调侃的人，是自己不懂这个行业，也认为别人不懂。

大数据最核心的价值是什么？

20 个回复