大数据技术在金融行业有哪些应用前景?

论坛 期权论坛 期权     
匿名用户   2018-10-13 14:25   62953   19
提示: 作者被禁止或删除 内容自动屏蔽
分享到 :
0 人收藏

19 个回复

倒序浏览
2#
钱粮胡同  4级常客 | 2018-10-13 14:25:17 发帖IP地址来自
感觉答案里实际经历或纯金融和大数据结合的例子不多。我介绍个某行的实验项目和分析的公司案例(雅虎),权当娱乐~ 这方面有兴趣也有技术背景的同学可以和我保持联系,之后有意往这方面发展。: )


先科普,介绍下为什么做这个项目:我们都知道信用评级(可以理解为违约概率),有个人的(类似于个人征信,比如芝麻信用),有公司的(大到标普穆迪,本地的如中诚信,大公)。对于银行对公投行业务来说,银行还需要做一个内部评级(internal rating, 分自动评分和人工两种)。这种内部信用评级是银行计算风险权重资产(RWA)等重要关键数据的基础。目前来看,无论是基于财务分析或非财务分析,无论是系统根据模型自动评分或人工依据预设分析模板手动计算评分,都属于传统方法 - 即客户经理或信贷员将财务数据填入系统,然后得出一个信用评级。

但是这样的评分仍然片面,因为一个公司,假设上市有年报的话,里面提供的信息往往不是财务信息所能表达的,然而传统评级方法很难体现这类的考虑同时,很多公司,比如一些大型银行,年报厚达600页,国内比如万科的年报也有200多页。靠人来读然后给出评价的话基本不现实。也因此,我们目前在做的这个实验项目就是通过成千上万家上市公司年报进行大数据文本挖掘,借助机器学习算法,看是否可以相对准确快速的预测公司的信用评级,将这类结果提供给银行业务人员做为一个重要的参考指标。

#更新:评论区有朋友说有点粗糙,不够细致(但是感谢点赞!)。我想开脱两句:一是毕竟是行内在做的实验性东西(其实就是几个部门有类似兴趣爱好的同事),不好放上来所有具体的细节,只希望提供观点和实际经验引起讨论,谢谢理解;二是我尽量服从需求,往这里添加一些可以公开的信息和细节,供大家讨论交流。当然,这个只是初步尝试,还有很多缺陷,路还很长。评论区有些讨论很有意义,权当对答案的补充。

#更新1:具体使用的数据库:


整体过程大概分如下五步:


1. 模糊匹配 (fuzzy matching):因为数据量大,我们不能手动匹配公司年报与我们已有的公司评级数据库(已有的评级数据库是用来之后机器学习培训模型用的),所以我们将下载的所有年报公司名称通过模糊匹配的方法对应到我们已有的公司评级数据库里(这个数据库我们用的是标准普尔的):模糊算法主要是传统的Jaro-Winkler和Levenshtein。

2. 预处理数据,去掉噪音:目前我们只做英文年报,去掉年报中的文本噪音,比如the, and这类意义不大的词条,也包括去掉空格,将大写字母换成小写字母,去掉标点符号,数字等

3. 文本分割与词条分析:去掉噪音后,剩下的我们认为有意义的文本,计算词条频率,又称文本-词条矩阵;补充更新:其实这步还做了一些其他处理(feature selection & Binning),只是没有全写下来,这里补充下:
    • 把一些稀有词条去除:在所有年报中出现频率小于1%的词条
    • 去掉解释力量较弱的词条:与评级的相关性很低
    • 去掉冗余词条:与其它词条有高相关性
    • Data Binning:为之后的分类算法做准备
4. 机器学习:主要是分类算法,目前我们尝试的方法如下
    • 支持向量机 (support vector machine)
    • 朴素贝叶斯分类 (nave bayes)
    • 线性降维算法 (linear discriminant analysis)
    • 决策树 (decision trees)
    • 神经网络 (neural network)
    • 逻辑回归 (logistic regression)
5.模型应用:根据前一步培训的模型预估信用评级(具体预测的评级分布见下图更新2,深蓝色Base代表的是正确的评级,浅蓝色代表的是不同算法得出的结果,可以看出SVM和NSVM的评级分布拟合的最好

#更新2:不同算法得出的评级分布与正确评级分布的对比


综上,目前来看,支持向量机(svm和nsvm)得到的结果最好,但是总体来说准确率不到60%,还有很多地方可以改进来提升模型评估能力。

最终,我们将评估结果,外加语义情感分析(sentiment analysis)等做成自动报告供银行内部相关部门使用。

说到这儿,我有说所有的这些我们都用的是免费开源的R语言吗?: ) 这年头银行也很会省钱。

最后放个雅虎公司的报告做例子。基于2015年的年报,2.78%的词条有正面情感,3.08%负面,94.14%方向不清晰。模型结果:支持向量机的最准确,BB-,和标普以及行里内部给的评级一致,朴素贝叶斯和线性降维给的是BBB-,差了点儿。


3#
何明科  6级职业 | 2018-10-13 14:25:18 发帖IP地址来自
自己做过的几份工作都涉及到金融业和大数据的结合,来怒答一下。

一、行业标杆Bloomberg及前言
在回答问题之前,先对讨论之框架做个限定,免得撕逼。同时,抛出行业翘楚供大家参考。

首先,金融业的涵盖非常之广,主要包括三大类:银行类、投资类和保险类。具体则很多:商业银行、投资银行、证券、保险、小贷公司、租赁等。而且随着时代和技术发展,还出现了各类新型金融机构,比如:消费贷、P2P等等。

其次,金融业基本是全世界各个行业中最依赖于数据的,而且最容易实现数据的变现。在本回答中不纠缠于大数据和数据的区别。比如世界上最大的金融数据公司Bloomberg,看起来它提供的金融数据服务在深度上并不复杂,而且其成立时间远早于大数据这个词汇出现的时间,但是你很难说,Bloomberg不是一个金融大数据公司。
提到金融数据公司,就不能不提Bloomberg L.P.。这家创立于1981年的公司,是整个金融数据界的翘楚。创始人Michael Bloomberg,曾是Salomon Brothers的合伙人,因为公司被收购而拿到一千万美元的遣散费后离职,并创立了Bloomberg。下图左一就是Michael Bloomberg,不用怀疑你的记忆,你没有记错,他也是那个只拿一美元和坐地铁上班的纽约市市长,所以才有机会和加州州长施瓦辛格一起出现在Time杂志封面。


Bloomberg的最初产品是Innovative Market Systems (IMS),主要功能是向金融市场的各个玩家提供市场的实时数据、财务计算能力、财务分析等(听起来是不是很low,和大数据毫无关系)。创业之初,即使是高富帅创业的Michael Bloomberg及团队也依然苦逼,没有方向没有客户,为了激励劳累不堪的员工,Michael Bloomberg只好建议员工“看鱼缸中的金鱼来消遣”,于是每位新来的员工都会得到一只鱼缸。后来人员激增只能以公共空间的巨型鱼缸替代。

下图是著名的Bloomberg鱼缸。


在1983年,Bloomberg以30%股份的代价获得美林3000万美元的投资,估值仅为1亿美元。自此一路狂奔,推出各类产品,包括:Bloomberg Terminal,Bloomberg News,Bloomberg Radio,Bloomberg TV等等。

在1996年,Bloomberg以20亿美元的估值,花费2亿美元从美林回购10%的股份。而到了金融海啸的2008年,屌丝逆袭。昔日的大股东美林面临崩盘,结果其最大的资产就是所持有的20%的Bloomberg股份。昔日的小弟Bloomberg利用美林的危机买回所有股份自赎,当时估值为225亿美元。

2004年,这家专注于数据的公司,在纽约的曼哈顿的Midtown竖起了246米的高楼。算是技术公司对金融公司的一次彻底逆袭吧。


到今天,Bloomberg全球布局192个办公室,有1.5万名员工,2014年的收入是90亿美元。因为是私有公司,利润无从得知。但是按常规估计,即使20%的利润率及30xPE(这可不是市梦率Forward PE,而是一年多以前的实际PE),Bloomberg的估值也在500亿-1000亿美元之间,甚至超过1000亿美元。这个估值已经超过华尔街的标志企业高盛(2016年2月,高盛的市值为650亿美元),这才是真正的逆袭。

如果把Instant Bloomberg当成一种社交软件或者把Bloomberg Terminal当成一种客户端,Bloomberg是可以妥妥得作为一个互联网公司入围下面的排行榜(数值采集于2015年8月),至少排入前六,仅次于Google、Facebook、阿里、亚马逊及腾讯。将BAT之中的某家公司牢牢甩在后面。如果考虑到Bloomberg Terminal的软硬件结合以及Instant Bloomberg的社交属性(以上两个均为提升估值的利器),Bloomberg成为全球第二或第三值钱的互联网公司不是梦想。


华尔街的“约炮”名言堪称“Just Bloomberg Me”,Instant Bloomberg如果在中国会不会也被牵连到各种打黄扫非的案件中?因为Instant Bloomberg实在太垄断和强大了,堪比Facebook(Facebook的LYR PE可是38x),所以我说给Bloomberg更高的PE一点不过分。

然而外界经常猜测其利用Instant Bloomberg里面的隐私信息套利。2014年10月,一家叫做Symphony的创业公司出现了,并将产品定位于替代Instant Bloomberg。而华尔街上的各大机构对于Bloomberg实在是又爱又恨,在Symphony宣布成立时,十四家金融机构联合向 Symphony 注资 6600 万美元。2015年10月,Symphony 宣布寻求新一轮融资,估值高达 10 亿美元,投资人很可能是Google。

下图是著名的Bloomberg Terminal,Bloomberg的现金牛及拳头产品。经典的Terminal界面和极客的黑色背景,几乎没有图像化操作的违和感;下方是定制的键盘及无数的快捷键。Bloomberg Terminal每个终端每年的起步价是2.4万美元,根据服务级别不同,坐着火箭往上涨。



毫不客气得说,大部分购买Bloomberg Terminal的机构,只是做装饰,里面0.1%的功能都没有用到。在回答(做投行、行研、咨询等金融岗位,有没有什么好用的找数据技巧呢? - 何明科的回答)中提到,为了方便其他同事使用Bloomberg数据,我不得不写了个程序利用Bloomberg API获取Bloomberg数据,然后推送到邮件。Bloomberg API支持多种程序,包括 Java、C、C++、.Net、COM 和 Perl,API 设计简洁,适用于低延迟的应用程序,是quant及有编程功底的trader的最爱。


这种拿Bloomberg Terminal提升逼格的情况不仅仅在国内,华尔街也是如此。Bloomberg Terminal在某种程度上是一个人在华尔街地位的强大象征。过去当一名I Banker被提拔到董事总经理职位时,会得到一套个人专属的Bloomberg Terminal作为一种待遇,尽管实际的数据处理是由做牛做马的Analyst完成的。是不是很类似国内大老板们满满的书柜?


当然除了上述的严肃功能,Bloomberg还提供了订酒店、买红酒以及搭讪等各种高级功能。比如输入命令行指令DINE和FLY指令,可快速检索本地餐厅和航班。如果输入POSH,就可以得到各种华尔街和各种金融街的纸醉金迷。下图是《华尔街之狼》的截图。
二、大数据在金融行业的应用之一:风险定价
定价永远是金融或者任何市场中最核心的部分之一,大部分金融活动都涉及到风险和收益的平衡。放贷,是在平衡利息收益与违约风险之间的平衡;保险,是在平衡保费收入与理赔金额之间的平衡……

大数据技术,可以让金融产品的颗粒度精确到每个人。从而可以根据每个人过去的历史推测其未来的财务状况及履约情况,即所谓的大数据征信,因此给于每个人不同的授信额度以及利率。

而扩展到保险,也是同样的道理,保费可以根据每个人的情况不同而差异化。比如在美国买车险,根据人的婚姻状况、车辆颜色、年龄等各种信息,都会得到不同的保费金额。而最近大火的UBI(Usage Based Insurance)更是将大数据技术的使用推向新高度。甚至通过在保险购买者的车辆上安装检测OBD数据的硬件设备来获取各项数据,从而对好司机和坏司机差别定价保费。

下图是中国UBI的先驱者车宝推出的车宝盒子,用于监控车主的使用习惯。



三、大数据在金融行业的应用之二:信息优势
除去银行和保险,金融的另一大类是投资,无论对于一级市场还是二级市场投资,拥有更早更多更准确的信息,会让投资人获得先发优势而最终转化为投资回报。而且大部分投资游戏都是玩家之家的零和博弈,谁下手早下手狠下手准,就会进一步扩大利收益。这个口号真是很像奥运会更高更快更强的口号。


在获得更早更多更准确的信息方面,大数据可以充分得发挥。常见的技术有:爬虫、视觉技术、AI、软硬件结合等等。在我的回答(你用 Python 做过什么有趣的数据挖掘/分析项目? - 何明科的回答)中其实已经提到了许多案例,正是因此这个原因,许多前卫的基金找到我们团队,希望利用大数据的各种技术帮他们建立信息优势,而最终将信息优势转化为投资回报。

下面将举出若干案例。

案例1:找到下一个独角兽,也许是“小红书”?
哪个VC不想在众多的App中,先于所有人找到下一个独角兽,用钱把公司锁定呢?

我们利用爬虫获取各个应用市场及社交网络的数据,找出增装最快的App。下图是在各个维度找出最有价值的App,各种量级范围内在30天/7天增长最快及评价最好榜单。(顺便吹一下牛,我们这个榜单很早就发现小红书App的快速增长趋势以及在年轻人中的极佳口碑)


下图是对某个App的下载量跟踪,帮着基金做尽职调查。




案例2:在混沌的市场分歧中,找到证据尽快选对方向
在二级市场中,对一个公司的判断分歧越大,堵对方向而且敢于下注的一方,就会收获最大的利润。

在搜房从广告平台转型到交易平台后,市场意见出现严重分化。在公司财报发布之前,我们利用爬虫获取搜房在各个城市的经纪人数量及单产搞清楚并按时监督。发现搜房经纪人的产出远低于行业内的标杆公司——链家,而且完全没有出现快速爬坡追赶到行业平均水平的趋势。
http://xueqiu.com/3917381252/45640644



案例3:根据产品走势,确定公司及股价走势
越来越多的互联网公司甚至是传统行业的公司,变为产品导向性,一两款产品的走势就能决定公司的整体趋势乃至股价的走势,比如:苹果、长城等等。

我们抓取社交网络上关于哈弗H6及其他国产SUV的评论和用户购买信息,观察其重点产品上市的走势。同时根据用户的购买及关注行为,做出品牌忠诚度的交叉图,可以详细观察各个竞争品牌之间的替代和转换关系。




(还没实现的,下一步准备做)
苹果的价格很大程度上依赖于新发布的iPhone及iPad,然而这些产品的销量公布总是滞后或者大家是同步获得的。如果我们监测58上二手iPhone手机的价格(【二手手机价格),根据二手iPhone对于新品的折扣率,就可以基本得到新款iPhone的销量情况。基本上,销量与折扣率完全正相关。


案例4:一些更加高大上的案例,大数据及人工智能技术的完美结合
(以下案例为道听途说,不能完全保证其准确性,不过这些案例大部分都能实现)
MIT某实验室将声音采集设备放到交易所大厅,通过采集交易员的吼叫声然后做情绪分析,判断当前交易所众交易员的情绪,然后预测股市未来一段时间的走势。
有海外对冲基金动用卫星拍摄照片,根据建筑物的阴影长度,来跟踪某国各地的建筑情况,以此作为该国宏观经济的运行情况。

—————————————————————————————————————
更多文章及分享请关注我的专栏,数据冰山:http://zhuanlan.zhihu.com/hemingke
4#
雲翳  1级新秀 | 2018-10-13 14:25:19 发帖IP地址来自
我大致看了一下各位答主的答案,有很强的专业性,当然big data是专业的领域,但实际使用场景在企业里可能是以另外的方式来接地气,手机码字,简单说几个感受
1. Big Data首先在银行和保险里最基础的工作是建立整合的数据仓库,这是任何big data的基础,然而却不是个简单的工作,由于历史的原因,基本上大型金融机构的业务系统间都是分散的,或者不同体系的,这样造成数据质量有较多问题,数据清洗,数据抽取都需要很多工作去做准备
2.基于数据仓库的基础,应用平台层的选择比较多,SAS, IBM, SAP, 微软都有类似软件去实现,对于企业来说一般第二步是实现KPI报表,特别是固定报表的自动化工作,使得人力从中解放出来,转而专注于分析,固定报表完善后,才是自主化钻取和分析过程
3.再进一步是商业预测和建模分析,举个例子可以以一个客户为出发,分析他/她在不同渠道的信用行为,与分支行、网银、电话里的互动,从而可以判断其基本情况,再进行up-sales的销售推动。与以前市场部粗放式撒网投入相比,有了数据平台分析后的投放会更精准有效
4.金融的产品特性决定了某些特殊性,比如保险产品从产品设计到购买都是虚拟数据化的,精算评估,风险评估及市场比价都是数据化过程,美国的实践是一些保险公司与医疗机构合作能拿到客户更精准的数据和行为模式,从而可以做更好的产品package打包给客户,这对于健康险产品非常重要,而天朝目前健康险刚刚起步,数据类方面还有很多路要走
5.银行方面信用只是其中一方面,现阶段金融机构上线BI项目,几乎都要优先解决我前述1-3的功能,才能有后面的预测、风控管理、信用分析等等过程

我个人从业以来的感受是,金融机构与互联网公司有着差别很大的公司运作方式,受到内控要求和外在监管要求都不同,对于敏感数据的审慎,反洗钱反恐,客户真实性等考虑也是完全不一样的,秉承宁可不做也不能出错的思路下,央妈也没明确表态里,一些试水的思潮目前还看不到特别好的功能出路,但方向是没错的,做不了信用就先作营销嘛,营销都要管控报备的话,那就先把内部报表做了吧,或者……先把那些老掉牙的破系统整整吧!IT投入会越来越多,听IBM,微软之类厂商的“忽悠”也多了,互联网+下的氛围大家也都懂,这是大势所趋,或多或少都要有所作为才是~
5#
薛洪言  4级常客 | 2018-10-13 14:25:20 发帖IP地址来自
正如马云在一次演讲中提到的:
“很多人还没搞清楚什么是PC互联网,移动互联网来了,我们还没搞清楚移动互联的时候,大数据时代又来了。”
毫无争议的,我们已经进入到大数据时代。而金融业无疑又是大数据的最重要的应用领域之一。今天,我们就来简单谈谈大数据在金融业的应用,未尽事宜,可以留言(订阅号:洪言微语)讨论交流。
[h1]什么是大数据[/h1]关于这个,已经了比较标准的答案,就不在赘述了。所谓大数据,是指多个来源和多种格式的大量结构化和非结构化数据。有两个关键点:
一是大。即数据量要非常多,数量少了不叫大数据。在实践中,一般至少要有10TB(1TB等于1024GB,想想你32G的苹果手机,可以装多少数据?)的数据量才能称之为大数据,而在类似苏宁金融等互金巨头,基本都沉淀了PB级(1PB约等于105万GB,相当于3.3万个32G的U盘,截止目前,人类生产的所有印刷材料的数据量也不过200PB)的数据量。
大数据科学家JohnRauser就提到一个简单的定义:大数据就是任何超过了一台计算机处理能力的庞大数据量。啪菠萝·毕加索的定义是,大数据就是多,就是多,原来的设备存不下、算不动。这里强调的便是大。
二是数据来自多种数据源,数据种类和格式丰富,不仅包括结构化数据,还包括半结构化和非结构化数据。意味着,即便数据量很大,但如果局限于单个领域,也不能称之为大数据。因为大数据的一个重要作用就是利用不同来源、不用领域的数据进行非线性地分析,用于未来的预测。
比如,《大数据时代》在作者Schnberger的对大数据的定义就是,“大数据,不是随机样本,而是所有数据;不是精确性,而是混杂性;不是因果关系,而是相关关系”。这里强调的便是数据的多样性。
有了大数据,自然就要有大数据技术,即从各种各样类型的巨量数据中,快速获取有价值信息的技术,强调快,这是大数据技术与传统数据挖掘技术的重要区别。
从巨量数据中提取的有价值信息,即是大数据在各个领域的具体运用,比如基于大数据进行客群的细分,进而提供定制化服务;基于大数据模拟现实环境,进而进行精准评估和预测;基于大数据进行产品和模式创新,降低业务成本、提升经营效率等等。
不过,关于大数据的应用,有一个广为流传的段子,即:
“Big Data is like teenage sex: Everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it too .”
正如这个段子所讲,很多领域的大数据应用,还只是停留在想象的层面。
[h1]金融大数据数据领域应用逻辑[/h1]说道大数据在金融领域的应用,一般认为有精准营销和大数据风控两个方面。
精准营销就不说了,基于行为数据去预测用户的偏好和兴趣,继而推荐合适的金融产品,相比传统的短信群发模式,不知要先进了多少倍,这个大家都容易理解。
而对于大数据风控,其逻辑便在于“未来是过去的重复”,即用已经发生的行为模式和逻辑来预测未来。
统计学规律告诉我们,在实验条件不变的条件下,重复实验多次,随机事件的频率等于其概率。意味着,随着随机事件的大量发生,我们是可以发现其内在规律的。而大数据里面包含的海量数据,就为我们发觉隐藏在随机事件后面的规律提供了条件。
大数据风控的两个应用,信用风险和欺诈风险,背后都是这个逻辑,通过分析历史事件,找到其内在规律,建成模型,然后用新的数据去验证和进化这个模型。
以美国主流的个人信用评分工具FICO信用分为例,FICO分的基本思路便是:
把借款人过去的信用历史资料与数据库中的全体借款人的信用习惯相比较,检查借款人的发展趋势和经常违约、随意透支、甚至申请破产的各种陷入财务困境的借款人的发展趋势是否相似。
FICO评分是传统金融机构对大数据的运用,再来看看典型互金机构ZestFinance对大数据的运用,ZestFinance的客群主要就是FICO评分难以覆盖的人群,要么是在FICO得分过低金融机构拒绝放贷的人,要么是FICO得分适中,金融机构同意放贷但利率较高的人。
https://pic2.zhimg.com/v2-24765f5809b31fb55b78a4cf2c6576d1_b.jpg
在ZestFinance的评分模型中,会大量应用到非征信数据(50%-70%左右),在其官方宣传中,提到会用到 3500 个数据项,从中提取 70,000 个变量,利用 10 个预测分析模型,如欺诈模型、身份验证模型、预付能力模型、还款能力模型、还款意愿模型以及稳定性模型,进行集成学习或者多角度学习,并得到最终的消费者信用评分。
https://pic4.zhimg.com/v2-06bba933d7851199d1af08036f867d1b_b.jpg
而欺诈风险的防控,本质上也是通过对历史欺诈行为的分析,不断梳理完善风险特征库,比如异地登录、非常用设备登录等行为,都是一种风险信号,建立一系列的风险规则判定集,预测用户行为背后的欺诈概率。
[h1]几个待解决的问题[/h1]第一个就是数据共享的问题。大数据的应用,前提是要有大数据,而在很多金融机构而言,并没有所谓的大数据,何谈应用呢。我们知道,在次级类用户的信用评价中,非征信数据发挥着重要的作用,但是要获得有价值的数据并不容易。
一般来讲,盈利性质的商业公司和企业都不会轻易泄露自己的数据、建模方法和分析过程,这个无可厚非,但客观上便产生了这样一种效果,几大互联网巨头变成了数据黑洞,用户的数据进得去、出不来,可以为企业自身而用,但不能为整个行业或社会而用。此外,散落在税务、公积金、海关、工商等领域的数据梳理和整合,也是漫长的过程。
第二个便是数据保护的问题。正如我在之前的一篇文章《在上市平台信而富财报中,我找到了四个行业秘密》中提到,
没错,数据是核心驱动力。但问题是,在数据保护和用户隐私等相关法律框架最终明确落地之前,对互金平台而言,数据既是宝贵的资产,也可能演变成为声誉风险、合规风险、用户诉讼风险等各类问题的潜在来源,是福是祸,尚是未知之数。
——————————————————————————————————分界线
如想进一步了解大数据风控,可以去听听我最近的知乎LIVE课程《建立大数据风控的基本框架》,本次 Live 主要包括以下内容
传统金融机构风控的三板斧
大数据风控需要哪些数据
为何大数据模型最终取决于业务模式
大数据信用风险防控的几个维度
风控维度是越多越好吗
大数据欺诈风险防控的难点在哪里
大数据欺诈风险防控的基本流程
大数据风控的演变趋势
其他
6#
bh lin  3级会员 | 2018-10-13 14:25:21 发帖IP地址来自
看到@泛景的答案被推荐上知乎日报。大数据,金融,热门,又好拿funding,前景很好。但是我认为任何一个新兴事物都需要一些不同的看法,才能更好的推动他的发展。那么我就针对这篇文章提出一些不同的看法。

当然我不是质疑文章的质量,Twitter mood predicts the stock market 这篇文章作为大数据应用于金融的先驱者之一,具有重要的开拓意义。文章中预测结果,从数据上看是很惊人的(86.7%的准确率)。2014年的global derivatives也看到有数据商推销类似产品。

有幸在2014年初在伦敦听到文章作者的演讲。当时也提出了一些问题。下面就是一些疑问:

1. 文章所用的数据覆盖的时间段过于特殊,86.7%的准确率或许并有看上去那么惊人。文章用的数据是08年2月28号到12月19号。这是一段非常特殊的时期(金融危机):


- 这段时间金融市场有明显的trend。
基于9 week - KDJ分段来预测每日股票涨跌,也能够成功预测将近6成。
而这样的预测没有经过任何的fine tuning。也就是说,如果把KDJ和其他技术指标神马放进ANN之类,在这样一段特殊的数据中跑出比较好的预测成功率的可能性还是很大的。

- 投资者情绪,特别是重大金融事件发生之后,也相对明显。基于这些新闻点,应该可以取得不错的预测准确率:
以雷曼宣布破产(9月15号)为例,其后的23个交易日,有16个交易日DJIA是负回报率。

2. 还是预测问题:会不会存在over fitting 的问题?会不会是data snooping?
我们不讨论有效市场假说(EMH),以近期另外一篇文章(bitcoin and bayesian regression)http://arxiv.org/abs/1410.1231为例,文章用一众technical indicators输入Bayesian Regression,也对bitcoin走势取得很好的预测效果。而technical indicators是基于股市公开的past information.

3. Twitter Mood是在一定程度上可被操纵的这个proxy预测效果会持续吗?
比如这个知乎问答:
如何评价 Facebook 通过操纵 newsfeed 影响用户情绪的试验? - 大数据

就像浩如烟海的金融文献中很多过去被经济学家们发现的pattern现在都不复存在了。如果某些指标确实很好的预测市场,那么投资者就会利用这些信息。市场也可能会逐步适应。

好像有人用这个Twitter 预测的策略在伦敦成立的一家hedge fund (也是11年左右),不过貌似很快改卖数据和服务。很可能基于这些考量,对该策略长期盈利能力的不确定吧。

未来Twitter Mood这样的指标未必为成为很好的预测工具(forward-looking),但是或许会是投资者情绪很好的测度(current measure)。
7#
mwcc  3级会员 | 2018-10-13 14:25:22 发帖IP地址来自
在以下几个方面都是大数据在金融领域应用的角度
  • Business Intelligence & Reporting
  • Planning, Budgeting & Forecasting using Data
  • Financial Analytics & Dashboards
  • Align Financial & Accounting Data
  • Becoming Strategic Advisors
  • Financial Planning & Analysis
  • Corporate Finance Technology
  • 具体来说,比如说实时欺诈检测,大数据征信,社交媒体的舆情分析等等。
    就个人经验来说,用机器学习去检测用户的信用记录,监管贷款的风险,增强风险控制等方面都很有可行性。
    其他因为不太了解金融这里指的是什么,如果说指商业,businesss之类的,那应用前景简直太多了。。。。。

    最后听说一个CS PhD学长,被我认识的一个长辈忽悠去金融领域做量化交易模型,写了一个模型一个小时赚数十万,现在已经移民英国。。。。
    8#
    叶子庄园  3级会员 | 2018-10-13 14:25:23 发帖IP地址来自
    先回答一下这个题目,系统的看法我之后再详写。
    大数据的意义是什么。有一个观点,就是如果我能掌握这个世界上每一个粒子的状态,我能够预测未来。其实万事万物都是有迹可循的,只不过影响因素太多,人类的认知能力有限,所以就要提炼特征,提取主要的影响因素。
    如果你看过《大数据时代》,你就会知道这样一个例子,Oren Etzioni为了省钱提前很久买的飞机票,结果上飞机后发现后买的人机票价格都要低,非常生气,愤然创立Farecast。而且,Farecast最具有颠覆性的是,Oren认为他并不需要搞清楚影响机票价格的因素,事实上也没有人能搞清楚。他认为只要通过大数据,根据近十万亿条价格记录,直接预测机票价格的走势以及增降幅度。结果怎样,用Farecast买机票,平均每张机票节省50美元,准确率是75%。这是一个令人震惊的结果,我们不再需要搞清楚“原因”,长途航线还是短途航线?时间提前好还是临近好?大型客机还是小型客机?热点航班还是红眼航班?晴空还是阴天?林林种种,如果用传统的“因-果”方法,其实根本没有办法得到结论。事实上,上面每一种因素都可以写很多篇论文。   

    但是有了大数据,我们从另外一个角度来看问题,当数据量足够大的时候,我们就有了相当的预测能力。夸张一点说,如果大数据预测的不够准,那只是因为数据量还不够大。
    比如,2011年5月本拉登被美军击毙,大数据在追捕本拉登的行动中起到了决定性作用。

    这个哥们酷不酷?他的公司在15年底的估值就达到了200亿美元,还是在没有上市的前提下,全公司竟然没有销售部门

    这个哥们的公司,是专业的大数据公司Palantir,直接帮助CIA抓住了本拉登。




    大数据真正应用(民用),其实主要就是三个领域,传统自控的衍生、互联网(比如搜索引擎)和金融,因为这三者的信息化非常完善,信息结构化也非常完备,才能进行进一步的大数据处理。而其他行业的信息化过程还没有完善,更提不上大数据了。
    互联网的大数据应用主要在于整理,金融的大数据应用主要在于发现利润,其中预测是一个方向。
    关于金融市场,举个例子,量化交易,找的是套利机会,除了拼贷款、计算速度,也在一定程度上依赖大数据技术。再比如欧洲央行就层发过论文,通过twitter预测股票走势(这个我之后会详细写一篇文章)。
    至于说应用“前景”,我给你举个例子,你可以把国内能搞到的数据放到一起,来预测包括但不限于股票、股指、大宗商品、外汇等的走势,然后从中赚钱,这时最直接的想法,第一层的想法。
    那个经典的段子怎么说,美国淘金热,掘金的发财是少数,卖水的反而都发财了,你还可以走第二条路,我举个例子。
    传统的股票社区个人认为做的最好的是雪球,采用的是聚集牛人来预测,靠的是人的智慧。这样好了,你不用去挨个股票去伤脑筋了,你只要跟着大牛炒股就赚了!但是,有个问题,就是用户怎么判断谁是牛人呢。有数据说,准确率不到20%(未证实)。其实雪球的牛人还是很多的,但是一平均,准确度就下来了。所以你从挨个股票伤脑筋,变成挨个牛人伤脑筋了。
    我也用雪球,因为是互联网产品,很亲切,不像传统的股票操作软件里面的“消息”“评论”那么套路化,也不像传统财经媒体那样假大空。但是用久了就发现,其实雪球就是一个股票门类垂直领域的论坛,就像我上的虫虫钢琴啊,Dribbble啊这种,所以现在动力不足。据圈子里传,雪球还有一些数据造假的嫌疑,这个我没有求证过,也没有黑雪球的意思。
    不过也有人灵光一现,做了一个股票社区,叫众云股票,走大数据这条路线。说白了就是走卖水的路线。其实雪球大牛,从上向下分,无非三种人:1. 来自上市企业内部财务人员;2. 来自券商、投行的一级市场的操盘手; 3. 来自基金等做二级市场的操盘手;4.散户大牛。虽然大家都是为了赚钱,但是大家掌握的信息不一样,出发点也不一样。所以如果用一套方法综合这些人的观点,也许就会提炼出有价值的信息。众云里面有评级和投票,说白了你不用相信某一个大牛了,你可以形成自己的“大牛集合”,随着这个盘越来越精准,数据量越大,结果可能就越准确。这样好了,这就是第二条路,用大数据来服务给用户服务的人(像绕口令)。
    其实还可以做第三层,像雪球啊,上面说的众云啊,其实股票服务商有太多太多了,比如牛股网、东方财富网、摩尔金融等等等等,那么哪个平台靠谱呢?如果你是个创业者,你不妨在做个大数据分析平台,就是逐个股票,分析哪个平台(或专家)的预测更准哦?不是好多专家每天电视上夸夸其谈么(是的,我说的就是我很讨厌的叶檀),不妨都抓下来,大家pk一下啊。这个思路就像去哪儿网起步那样,同一间酒店的房间,把不同平台上的价格爬下来放到一起,让用户选最好那个。今天又知道一个网站叫“贷罗盘”,走的就是这个路线,把所有的P2P平台放到一起,把各家的基本情况,收益率,口碑啥的放到一起,让大家来选择。
    我觉得,就像盗梦空间一样,第三层下面一定还有第四层,大家自己开脑洞吧,我不想想了。

    9#
    爆尔野菊  1级新秀 | 2018-10-13 14:25:24 发帖IP地址来自
    大数据技术在金融行业有哪些应用前景?如果要聊这个话题,我个人觉得应用前景不是想出来,应该从实际的生产系统的痛点着手,不是为了大数据而上大数据,而是想着现阶段一些问题,能否利用大数据找到合理的解决方案和相应的技术来解决实际问题!
    金融行业,一般的,数据量大的
    银行首当其冲,一般的银行都有100-200个系统吧,最重要的,也是数据量最大的,应该是银行的发卡系统。其次征信数据现在也越来越重要。对企业做征信,基本上不需要什么资质,但是对个人做征信,需要国家相关部门发的拍照的,不是想做就能做的。
    其次是应该是证券和基金行业数据量较大,证券行业现阶段一般的数据应该能达到20TB-30TB这个量级
    金融行业系统现状:
    随着业务的发展与规模的扩张,数据呈指数级增长,各类IT系统的数据量已经非常庞大冗余,每日还有大量的增量数据,有包括,日志数据,交易数据需要存储和处理。
             首先是数据量庞大。现在有存储设备已经无法支持这样大级别的数据量,存储资源紧缺,存储扩展花费非常高。
             其次是现有的系统计算负载搞、延迟长、现有的系统在运行中跨历史的范围查询延迟长,一次计算的数据量大,计算和存储资源都存在瓶颈;大范围查询时,对生产业务影响较大,例如:银行的交易流水查询,个人明细下钻等,证券的持仓分析、对账流水情况、区间查询等应用,严重影响日常业务的正常运行。
             同时,历史数据服务请求带来的额外工作负载。历史数据查询时需要的额外将离线的历史数据导入,再等到系统资源贡献时进行查询,不仅效率低,而且工作负担繁重,也极易出错。
             最后,现有系统资源已经严重紧缺,CPU负载搞、存储空间不足,已经影响到业务的正常发展。
             由此背景下,本着不断发展,不断进步的原则。现代IT系统希望能够建设一套具有高效数据处理能力,同时兼具性价比的新平台。
             调研结果发现,在解决分布式存储,计算问题上,hadoop技术近年来得到了广泛的应用。Hadoop是一个由Apache基金会所开发的分布式系统基础架构。它是正对大规模分布式数据而开发的软件框架,目前已经成为企业管理大数据的基础支撑技术,是解决企业数据中心大数据存储、大规模数据计算、快速数据分析的优秀基础数据平台。
             现代物联网、多媒体、移动互联网时代,hadoop最适合用于解决由于数据爆发式增长所带来的传统架构下存储和计算瓶颈的问题。
             Hadoo技术发展迅速,同时也有众多国内,外厂家为企业客户提供了的成熟度一站式的大数据平台产品,个别技术领先的厂家也已经将hadoop平台用于了金融客户的数据仓库系统,经调研,恒丰银行、民生银行、平安银行等金融机构,就已经在hadoop技术解决现有DW存储、计算、分析等问题。
             首先是数据类型支持,Hadoop平台扩展了企业数据平台对数据处理类型的支持。传统的数据仓库仅仅能够处理结构化数据,而对半结构化、非结构化数据的处理,只能依赖于Hadoop平台,例如:来自新闻的个股/主题新闻聚合、智能研报,情感指数,热度统计、事件研究、主题跟踪和发现等等。
             其次是数据处理能力方面,Hadoop平台使得企业数据处理平台的处理能力变得更强大,它能够处理从中小数据量到大数据量的数据。能够作为传统数据仓库之前的数据统一存储和计算平台,将大规模的数据先进行清洗、计算、建模、汇总等,并将最终的精细化数据传递给数据仓库。例如恒丰银行就已经将数据仓库中复杂的、高负载的拉链表程序迁移至Hadoop平台。
              同时,在业务应用的支持方面,相比于传统的数据仓库平台,大数据平台可以完成更多的体现企业特质的有价值的应用,例如:通过数据挖掘、机器学习算法和模型,结合相关数据,完成财经新闻搜索、新闻类型分析、新闻聚类、情感分析、知识图谱等等。
              技术架构上,基于x86服务器集群的Hadoop平台,通过横向扩展的方式,线性扩展存储和计算资源,避免基于传统IOE架构的下只能进行基于硬件资源的纵向扩展。从而避免计算资源的瓶颈和IO资源的瓶颈。

    最后,仅花费40%左右价格,便可以达到甚至超越传统IOE架构的性能。在性价比方面也极具可行性。
    Ps:市面上的hadoop产品很多,既然花钱购买了,就要买最好的,各位看官回去好好仔细斟酌筛选。
    点赞的都是懂大数据的,O(∩_∩)O哈哈~
    10#
    李小翀  3级会员 | 2018-10-13 14:25:25 发帖IP地址来自
    说一说在P2P金融行业的运用,整理了自己之前几个相关答案供参考。
    1、授信。
    微众银行与普通银行在征信方面有什么差异? - 互联网
    宜人贷极速模式10分钟审批,是怎么做到的? - P2P

    2、风控。
    1)反欺诈检测
    @梁川
    实时风控引擎&准实时风控引擎
    实时风控主要在交易过程对交易过程进行实时监控,一个典型应用场景是甄别钓鱼、盗卡风险。
    准实时风控典型应用场景是在T+1结算时候,对商户洗钱、跑路进行甄别。
    实时/准实时风控引擎一般采用规则引擎+复杂事件处理(CEP)。
    复杂事件处理(CEP):开源的方案有Esper、Storm、Spark等,商业方案有Apama。了解复合事件处理,百度文库有篇深入浅出复合事件处理

    2)大数据催收(根据大数据技术描述出的个人知识图谱和用户画像而进行的大数据催收)
    小额贷款有什么漏洞可以钻么,可以让我们贷款后,不还钱或者是拖着,而又不会让小额贷款公司去将你告法院么? - 金融

    3、流动性管理。
    大数据在资金管理领域怎么应用? - 大数据

    最后再补充一个技术贴:
    如何用大数据软件分析金融数据,目前哪个领域最有分析价值,以及发展方向? - 数据分析
    11#
    泛景  4级常客 | 2018-10-13 14:25:26 发帖IP地址来自
    我来谈谈大数据在证券市场中的一个应用吧,也可以参看我的一篇专栏
    大数据在金融市场中的应用-利用Twitter用户数据的情绪预测金融市场未来涨跌 - 金融物理学(Econophysics) - 知乎专栏

    各个金融市场,包括股票市场的预测问题,一直吸引着学术界和商业界极大极的兴趣。但金融市场是否真的可以预测?传统的金融学是建立在随机行走和有效市场假说的基础之上。而根据有效市场假说理论,股票价格的变动取决于新出现的信息(新闻),而非取决于过去或未来的股价。而市场上新信息的出现是不可预测的,所以股票价格是不可预测的。

    但是近年来出现许多新的工作开始挑战有效市场假说的合理性,如从行为金融学的角度。许多研究也表明金融市场并不是一个完全的随机过程,在一定程度上,也许金融市场存在着一定的可预测性。比如,我们确实无法预料市场中新信息的出现,但却可以从社交网络媒体(Twitter,Facebook,其他的博客等)抓取出一些征兆,利用这些征兆,可以在一定程度上预测经济和社会中未来情绪和信息的变化。实际上,已有这样的工作在经济和社会中发挥作用,比如利用在线网络聊天数据预测图书销售,利用PLSA模型从博客中抓取情绪化信息来预测电影票房,利用Google的搜索查询来预测流感的早期传播和传播速率等。

    尽管我们知道新信息对股票价格的变化有着很大的影响,但实际上公众情绪可能在股票价格变动中扮演了更为重要的角色。在最近发表于Journal of Computational Science上的一篇论文中Twitter mood predicts the stock market,印第安娜大学和曼切斯特大学的研究人员利用Twitter上的用户发表的tweet内容,通过两种情绪分析模型,分别是OpinionFinder和Google-Profile of Mood States (GPOMS),来抓取和分析公众的情绪变化。其中OpinionFinder是将人的情绪区分为正面和负面两种模式,而GPOMS将情绪分成更细致的六类,分别是Calm, Alert, Sure,Vital, Kind和Happy。

    利用格兰杰因果检验(Granger causality test),作者发现公众情绪和道琼斯平均指数(DJIA)之间存在着明显的关联,且公众情绪的时间序列可以作为股指变化的自变量。尤其是GPOMS中的Calm指标,在提前2天到6天的范围内,可以对指数变动做出有效的反应。因此,从某种程度上讲,公众情绪某些指标可能可以有效的预测未来股价的变动。

    基于这样的猜测,该文作者在一个自组织模糊神经网络模型(Self-organizing Fuzzy Neural Network [SOFNN] model)的基础上,将公众情绪时间序列作为一个自变量输入到该模型中,通过这样的改进,使得预测的效果有明显的改进。该模型可以有效地预测DJIA指数收盘价的涨和跌的方向,其准确率高达86.7% ,而预测失误的平均百分比下降6%。

    我个人的观点是,如果单纯的基于股价的历史价格,我们基本上是不能预测其未来的走势的。但是股价从短期说,本质上是由投资者的交易行为所决定,而交易行为受投资者的情绪影响很大。在此前,我们很难实时的获取公众情绪状态,其获取的成本也很高,而随着社会化媒体的繁荣,实时获取和分析公众情绪状态变得更为容易,我这里介绍的这个工作就是一个有效的尝试,虽然对于真正利用它来预测证券市场的行为还不太现实,但至少为此开启了一扇窗,为这样的预测提供一种可能性,同时也为社会化媒体数据的未来发展和应用提供一个方向。
    12#
    Pei  3级会员 | 2018-10-13 14:25:27 发帖IP地址来自
    我在美国的银行做business analytics的。

    在回答这个问题时,首先,要做一个分类,当你说金融,你指的什么,二级投资交易市场(最典型的股市、投资银行)还是消费金融(最典型的商业银行、P2P),这两块都很大,但又截然不同,特别是从业者都算是金融行业的数据分析,但确是完全不同的两拨人。我是做消费金融的,消费金融又分为 Spending、 Lending、investing 和 saving四大块,我来谈一下消费金融中lending业务中数据分析的运用。

    1. Credit Risk: 这里面有一整个周期,放款的时候预测还款概率以确定是否放款,到了账上不仅要继续预测还款的概率,还要预测提前还款的概率,因为提前还款就没有利息赚了。如果是信用卡这样的revolving loan,还要预测增加信用额度他会不会用,不用就别增加了,资金是要钱的。如果出现坏账,要预测如果追账或者如果不追账,还款的概率是多少,以确定哪些账户应该采取什么样程度的追账。另外如果是有抵押物的贷款,比如车贷、房贷,还要预测一旦坏账了抵押物的市场价值。

    2. Marketing:同样按照生命周期分为acquisition和retention两部分,acquisition主要就是response model,因为信用产品的特征导致很多时候是在做direct marketing,那么什么样的客户收到广告后转换率最高,这个就需要用数据分析建模来预测,转化率低的别给他发了 浪费钱。Retention是客户到了账上之后预测哪个客户不高兴,有可能会流失(refinance with other lender),赶快慰问一下或者降低下利率。

    3. Fraud: 分为First Party Fraud和Third Party Fraud。First Pary包括恶意开户借款早就想好了不还钱,也包括信息,比如收入造价。Third Party Fraud就主要是身份冒充或者是信用卡被盗这些。Fraud Prevention运用数据主要是利用以前的数据建立classification的模型,对新的transaction进行scoring,对于被认为fraud的概率很高的transaction进行处理,比如信用卡的暂时停用或者打电话给取款人进行确认。Fraud的预防和customer experience之间需要找好平衡,利用scoring model 判断高危交易就是找到这个平衡的利器。

    4.Operation: 毕竟是service行业,operation里面也有不少数据分析,比如call center要做forecast,预测每天甚至是每半个小时的电话量,可以合理安排人员。周一电话量一般是最高的。

    如果想做金融行业的business analytics,可以考虑去美国读一个Business Analytics(MSBA)的硕士,建模那些东西,自己学还是挺麻烦的,有兴趣的话可以看下这个网站: http://www.analyticsguides.com 。专门介绍business analytics专业的。
    13#
    王涛   | 2018-10-13 14:25:29 发帖IP地址来自
    提示: 作者被禁止或删除 内容自动屏蔽
    14#
    Tassandar  4级常客 | 2018-10-13 14:25:30 发帖IP地址来自
    大数据在现在感觉已经变成了一个时尚。人人好像不说一点云计算大数据根本都没法开口了,然而在现实中,真正在做“大数据”的我觉得并没有多少,我以银行业来说一些看到的数据挖掘分析的例子。

    银行处处都在和数据在做打交道,而且做得越大越好的金融机构越能够驾驭和使用这些数据,用流行的话说叫数据驱动经营。所以其实银行到处都在进行着数据分析,现在真正做成系统,模块化,数据量能够到海量级别的,我觉得银行内部的CRM营销和统计,FTP的定价,征信系统(自己做的不是人行的那个),各个大行基本都已经达到了大数据的量,也都在做有关大数据的事情。

    例如征信,有的银行已经能够抓取社会上各类有意义的信息进行记录,例如搜房网上的各地各楼盘的房价、人行征信、法院执行纪录、工商局信息、企业上下游现金流等等,然后通过这种信息对个人企业进行分析计算,对超出常理的数据进行标红警告,便于内审人员快速识别风险。

    再或者把客户的pos消费记录,企业上下游流水清单,税务信息等等整个对企业客户进行现金流测算。
    再或者对客户信用卡还款时间,转账时间等等来判断客户手持现金或者回款时间,把推荐的营销日期时间推送给维护的客户经理等等。

    总而言之,就是把数据的分析和整理应用到整个金融的体系中去,而不是空谈大数据。比起争论数据分析还是大数据应用而言,我觉得找到客户或者内部员工的一个痛点,解决它,再考虑扩展是一个更为脚踏实地的方式。

    当然大数据因为数据量大(百亿以上)所以进行分析之前需要有配套的数据分析工具和架构,还需要有符合仓库要求的数据源,而这些东西要慢慢的搭建和准备。传统行业的数据是有的,但是很多并没有纳入到整个大数据的框架中去,这需要做一些工作,需要各个部门配合,审核,还有一些时日。但是这种以数据为基础进行精细运营,把数据融入商业运营的趋势是不会改变的,慢慢来吧。

    最后因为这个问题是问大数据而不是数据挖掘,我其实是偏题了,我自己对真正的大数据有一个疑问。真正大数据是根据数据的联系直接给出一个结果,典型的例子就是根据消费大数据,超市把啤酒和尿布放在一起直接增加了销量。问题是在现实世界中,技术的结果和业务的结果矛盾,就例如超市其实根本没法合理解释为什么尿布啤酒很多人一起买,那货架到底该不该调整呢?
    15#
    张喆  3级会员 | 2018-10-13 14:25:31 发帖IP地址来自
    转一下我的另一篇答案:

    虽然不情愿,还是转一下我们竞争对手的一篇科普文:http://hortonworks.com/blog/modern-financial-services-architectures-built-hadoop/

    我觉得比较有意思的几个应用场景:
    1. 银行或者信用卡公司的诈骗分析。比如根据异常消费行为发现信用卡被盗。

    2. 保险公司的个性化服务。这个很有潜力。一个常见的 是根据GPS数据预测车祸概率,调整保险价格。

    3. 投资机构预测单个公司,某个行业,或者宏观经济走势。这个想象空间就更大了。

    4. 其他的还有高频交易,借贷风险控制

    另外我需要更正一点,Spark是Hadoop生态系统的一部分,而不是和Hadoop并行的概念。Hadoop可以被理解为“数据中心的操作系统”,可以类比为Linux。Spark是运行在Hadoop上的一个计算引擎(MapReduce是另外一个),可以勉强类比为运行在Linux上的R或者SAS。
    16#
    Magic   | 2018-10-13 14:25:32 发帖IP地址来自
    提示: 作者被禁止或删除 内容自动屏蔽
    17#
    匿名用户   | 2018-10-13 14:25:33 发帖IP地址来自
    提示: 作者被禁止或删除 内容自动屏蔽
    18#
    李老  3级会员 | 2018-10-13 14:25:34 发帖IP地址来自
    谈“应用”的问题如果不落到实处的话很容易就会变成空谈概念。我们在做的就是尝试将大数据、机器学习等技术与金融知识相结合,希望能为研究员及基金经理提供智能化的投资研究工具,算是目前非常典型的技术与金融领域的结合。

    这里以我们自己的产品为例谈谈具体是如何应用的。

    首先是大数据。跟以上几位答主专注于大数据领域的应用不同,大数据对于我们来说其实更像是实践人工智能技术的地基,只有铺好了丰富的、可利用的底层数据,机器才有足够的学习和训练素材。在金融领域,我们更了解像万得这样的传统数据终端,但万得提供的以宏观行业数据为主,而在互联网时代有大量同样具有投资参考价值的新型数据,比如搜索热度、社交网络的发帖和评论、电商交易额等等;同时也存在着大量类似图片、视频、音频这样的非结构化数据亟待被处理成可供使用的结构化数据。

    相当于我们面前是一个丰富的原料宝藏,里面有足够的数据(即足够的信息)供我们分析,解读,进而挖掘出潜在的投资机会。我们做的第一步,就是通过各种方式——网络爬虫也好直接砸钱购买也好,把它们储备进我们的库里。

    下一步,就是利用机器学习的算法对这些数据和信息进行降噪、去重,对它们的重要性进行排序;引导机器反复学习研究员和基金经理的投资思路,让它们了解对我们的目标用户真正有价值的信息是什么,最终只把这部分信息保留和呈现出来。

    我们的后台显示,每天有成千上万的公司公告、新闻进入数据库,到了公告季研究员们甚至连着熬夜都消化不了这些资讯。我们在做的,就是利用智能技术去筛选这些内容,将研究员每天要阅读公告保持在100-300篇,极大提高他们获取有效知识的效率。

    这是第一步。

    人工智能还被用于打造专属金融领域的智能搜索引擎。我们通过足够多的反馈数据教会机器去识别搜索着的意图,最终实现根据研究员的偏好和擅长的投资类型进行相关信息的推荐。比如搜索“螺纹钢”,我们的产品会给做期货现货的研究员推荐差价图和大宗商品的价格、库存;同时给做基本面的研究员推荐相关的上市公司。总之就是保证单位屏幕面积内出现的都是研究员或基金经理所最需要的投资资讯。

    还有利用人工智能技术勾勒出上市公司的关系图谱。萝卜投研的知识图谱可以很快地整合出上市公司或整个行业的上下游、合作或竞争对手、子母公司关系、股权关系、对标关系等图谱。

    比如下图,我们可以很快整理出万科企业股份有限公司的股东持股比例,以及万科所投资的子公司及其潜在业务。这对之后的分析和决策都能起到很大的指导作用,也许容易被他人所忽视的投资机遇就隐藏在其中。



    目前在金融领域,即使是在应用大数据或者人工智能技术上最领先的产品,也只处于最初级的阶段。我们更多还是将一些杂活累活交给机器去干,让投资者有更多时间去思考更有价值的问题。也许有一天,当机器可以完全模拟研究员和基金经理的思维方式和投资逻辑,他们真的能取代人类投资者来做投资,谁知道呢?

    针对“以智能技术和大数据驱动基本面投研”这个话题,我开了一叫“智能投资俱乐部”的专栏,会持续发布一些大数据团队出品的投资干货,有大量真实的行业数据、对知识图谱等技术的应用还有层层推导的投资逻辑,欢迎各位关注:知乎专栏

    目前已经发布了:
    上海房价的今生与来世(上)知乎专栏
    如何层层解析汽车数据,发掘投资机会 知乎专栏
    生猪产业链背后的投资机会 知乎专栏

    欢迎批评指正。
    19#
    周勇  2级吧友 | 2018-10-13 14:25:35 发帖IP地址来自
    大数据征信,网络痕迹为你我画像


    你可能没想到,填表格时习惯用大写字母还是小写字母会影响你的信用评估。还有在支付平台里你的团购次数,旅行目的地选择,这些看似不相关的数据都可能影响你的信用评估。

    大数据时代,征信行业有了诸多改变。用户不再是蒙着面的神秘顾客,只要用户在网络上留下痕迹,征信机构可以从一个个碎片信息中勾勒出每个人的征信画像。

    大数据到底能怎样改变征信行业?


    首先,数据 变成海量的。,此前传统的征信公司可以用到的变量是几十个,但国外有的大数据征信公司,已经可以使用7万个变量。用户的阅读习惯、旅行目的地、社交关系,这些传统征信难以统计的领域都被计入其中。要知道,只要分析逻辑是对的,输入的变量越多,输出的征信结论就更加精准。
    另一方面,大数据征信让征信主体、被征信的个人,在金融活动中变得更加从容。举个例子,以前很多在央行系统里面没有征信报告的人,比如蓝领工人、学生、自由职业者,可以通过大数据征信得到对信用评估报告,从而也可以接受金融服务。


    互联网企业做征信的不足之处

    但是互联网企业做征信,也有不足之处。首先是线下数据它们拿不到。我们能预见,互联网金融的下一步创新是场景消费,就是真正进入到大家的消费生活当中去。比如我要装修了,能不能做贷款?我要去旅游,能不能做贷款?两个年轻人想办一场精彩的婚礼,能不能也申请到贷款?这些都是线下消费,而线下消费的数据未必在线上体现出来。所以从这个角度讲,互联网企业的数据数据可称之为“大”,但是不“全”。要想真正起到征信的作用,互联网企业还需要补充更多的外部数据、线下数据。

    如何保护个人的隐私权不受侵犯


    现在征信公司在信息采集过程中出现了一些违规情况。比如说,任何信息采集必须拿到用户授权,也就是征得用户同意才可以采集。但是在执行层面却出现了这样的情况:第一,未经用户授权,征信机构就采集信息了。第二,用户只授权一次,征信机构却持续采集信息。第三,说好采集信息做什么用途,但采集完之后征信机构将信息挪做其他用途了。只要未经客户授权,任何信息都不应该采集,这应该是一个基本原则。

    怎么防范征信中的违规违法行为?


    在我看来这应该是几个方面的共同努力。首先是企业、行业的自律;第二,行政监管要有力;第三,法律救济要跟上。
    从企业管理来讲,要加强合规性审查,确保信息采集的合规和信息的安全、不外漏。从行业角度讲,要制定行业的规范,提高行业的信息安全水平。
    就监管来说,政府监管的着力点就是保护个人的知情权和异议权,对于损害个人信息安全的行为要进行处罚。今年1月份有一家第三方支付机构,有数千张银行卡的信息外漏,已经造成的损失是将近4千万。像这样的信息,应该更多的让大家所知道,包括后面它相应的处罚结果怎么样,需要公开披露。
    法律方面,我们现在的力度是不够的。比如在美国,法律在征信领域发挥作用是非常非常大的。因为大数据征信完全是计算机程序做的,如果程序错了,得出错误的评估结果,征信机构可能会就面临赔几十万美元甚至数百万美元的赔偿。实际的赔偿案例在美国已经出现多例,,但在中国还没有让大家引以为戒的案例。如果立法层级不够,缺少法律约束的话,对征信机构滥用个人信息的担忧并不是杞人忧天。
    回到开篇第一句话,为什么填表时喜欢用大写字母还是小写字母会影响信用评估呢?因为根据大数据做的相关性分析,喜欢用大写字母的人违约概率更高。
    20#
    数据大汪  2级吧友 | 2018-10-13 14:25:36 发帖IP地址来自
    实现途径:七个维度分析模型
    1.企业基本信息分析: 包括企业工商注册信息。
    2.行业数据信息分析:行业政策法规等多角度去评估企业风险。
    3.法人治理结构信息分析:包括股东及股权架构。
    4.关联方信息分析:简称为利益冲突,看这些关联方有没有好的企业为他们背书。
    5.财务KPI数据分析:研究他们财务和非财务的KPI,财务的KPI我们就会在授权情况下取得他们的数据,通过网络拓扑结构去算它的实际控制人,最近诉讼的占比,最近招聘的人,与公司的主营业务匹配程度。
    6. 企业社交媒体信息分析,不同于传统的舆情,通过观察社交媒体释放出来的信息,分析与主营业务的匹配程度;
    7.是企业的无形资产和资产质押数据。
    应用场景:为金融机构做征信服务
    把所有的数据打造成为一体,形成企业行为数据库。将风险信息分为征信和评级,并且针对券商、银行、投资公司等不同机构的要求,研发出不同的尽调模板,甚至按照不同的征信需求,做一个动态的尽职调查服务。
    将尽职调查报告分为三个层次:第一是全项公开数据,利用公开数据调查一家公司的基本情况;第二,在授权情况下,做现场和非现场尽职调查,通过交换企业合法的数据源,在授权下研究企业的财务数据;第三,最后剩下5%的客户,金融企业就可以进场做现场尽职调查,这节约了企业大量的成本,并且更加准确。
    当做好征信数据以后,然后通过评级模型,就可以做定价。在定价的基础上在机上授信,就可以做银行间的借贷;评级模型加收益率模型,用来做债券;评级模型加估值,可以做投融资。
    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    积分:
    帖子:24326
    精华:1
    期权论坛 期权论坛
    发布
    内容

    下载期权论坛手机APP