国内目前的量化交易是否很少涉及到机器学习?

论坛 期权论坛 期权     
期权匿名问答   2021-8-30 11:54   18357   20
看了几篇券商金工的报告,策略大都很简单,主要是对一些技术指标进行量化再选股或者择时,但是筛选的参数很多还是主观设计的。boss也说现在基本不用机器学习。所以现在国内机构的量化领域机器学习应用的还很少吗?是因为效果不如简单的策略吗?(经常overfitting等)
分享到 :
0 人收藏

20 个回复

倒序浏览
2#
期权匿名回答  16级独孤 | 2021-8-30 11:54:49 发帖IP地址来自 福建
要解释机器学习能否以及怎样应用于量化交易,是一个反复以不同面貌出现在我的时间线的题目,同时也注定是个充满争议的题目。我们先把问题简化,设定市场上总共有三种视角:
    上帝视角:它全知全能,掌握着每时每刻的市场的真实状态,记作;投资者视角:无论是巴菲特还是小韭菜,其视角都是根据自己接收到的部分释放出的信号和噪声,递归地进行贝叶斯推断,形成条件概率分布,也就是我们常说的市场判断或投资理念,并以此预测未来趋势,如收益率;机器学习者视角:机器学习者得到了收益率数据(当然也包括其它可能代表市场趋势的指标),开始不停地训练,得到一个收敛于。至此,机器学习者训练结束,开始用预测收益率。是的,它也变成了投资者视角;(这就叫凝视深渊愈久,亦会被深渊凝视啊……)如果你是投资者,而上帝偷偷把的一切都告诉了你,NP-complete不复存在,你的似然函数是有解的了,状态空间变成了一个有限的闭环;如果你的机器真的训练出来,只要上帝没有告诉你,你就不知道你训练出来的真的是,你只能训练下去,只有在达到你的训练目标时才停下来。
所以楼上各位提到的过拟合是广泛存在的问题,但这个锅不应该让机器学习来背,而是你设定的训练目标与相差太远。机器学习只是帮助你做优化和计算而已。

再回头谈一下我对机器学习的理解。机器学习经过了这么多年,我自己概括下来也就分这么几块内容:模型表示,目标,优化求解,泛化证明。由于过去的机器学习领域重点关注多在目标和求解上,也就是为了实现计算而牺牲了模型表示。而事实上我觉得模型表示和优化计算本来就是个互相trade-off的关系,比如作为机器学习里非主流的一支,概率图模型就恰好反过来,为了实现模型表示而牺牲了计算。

而量化交易是对模型表示和计算都是有要求的,所以机器学习在量化交易的应用上始终面临着两难。但这绝不是一个无解的两难,因为你既可以设计一套白箱的交易模型,而只让黑箱的机器学习算法承担其中部分环节的优化工作,也可以用一个长于表示的机器学习模型作为交易引擎,而计算方面采用一些针对具体问题的启发式算法,至少能让一部分参数免于费时费力的暴力优化。

所以每当我们试图运用机器学习做交易时,上帝一定会发笑。可还能怎么办呢?我们只能把机器不停地训练下去。这就像是《西西弗斯的神话》,这个经加缪演绎过的隐喻无非就是告诉我们,在量化交易上使用机器学习真的没有意义,除非我们自己亲手去构建一个意义。
3#
期权匿名回答  16级独孤 | 2021-8-30 11:55:25 发帖IP地址来自 北京
在我看来, ML用于金融数据最大的问题是信噪比太低,“同分布”的数据量太少。 其他领域ml效果好的往往都有比较确定的模式, 只是模式很难规则化而已。 比如人脸识别, 虽然很难通过规则话程序语言描述人脸,但100个普通人来识别人脸,错误率非常低。说明这里是有一个规律性pattern的。这样的话,只要给出足够数量的数据,模型性能会显著提高。另外一个例子是智能驾驶,你并
不需要if else编程遍历到所有可能情况,只需要让传感器采集到足够长时间多地域的数据,自动驾驶能够很好的处理这些情况。 以上的例子从数据角度来说,都符合pattern相对固定,数据充足的,信噪比高的特征。这也是ML方法最适合的地方。

而即使是这样,在做预测的时候也需要主动选取特征,feature engineering也是一门巨大的学问。有人也许会说最近很火的cnn/deep learning, 不是可以by pass feature engineering这些,直接靠数据和计算力暴力撸么。 我是这样理解的, 人类识别特征和模式的能力远高于计算机, 如果需要让计算机逼近取代人的调参和feature engineering经验,那么你所需要的数据量是非线性增长的。很多通常运用ML的场所,数据量本身不是制约,或说,数据量的制约取决于你有多大的决心去获取数据。而机器运算能力的同步增长让更是让模型能够处理的数据大大提升。在这种情况下,deep learning才火起来。

然而金融世界里,事情并没有这么美好,最大的制约,在我看来数据是不足的。有人可能会笑,说tick level data,哪怕国内3秒一跳的股市也有4000多行一天,怎么能算是数据不足呢。
这里假设也用之前开车的例子来解释。金融世界里,如果你想训练出这么一个老司机,那么你会发现这辆车一会在人行道上, 一会倒开,一会儿飞起来, 前一刻有用的规律不一定能够稳定到下一刻。 又好比给一张股票k线图,100个人可能有100个说法, 语音识别,图像识别领域,不会出现这么低的识别度的。 所以,对一个正常开车的老司机,你坐副驾驶一个月能够总结出他开车方法,那么对于金融世界里这种逗逼老司机,又要积累多长时间的数据才能总结出它的行为模式呢。

也就是说金融时间序列里,训练集发现的pattern可能并不稳定, 也许只是过拟合的噪音, 哪怕确定不是噪音,pattern本身也会演化。这两个月的市场,和前两个月的市场,明显性状不一样。有个东东叫regime switch...哪怕你做的日内中高频,相对统计性状不受基本面太大影响,日度的波动率的变化也会有明显的变化,而这对你的pnl影响是非常直接的。

目前为止,在金融数据这块我个人还是偏好线性的描述,规则化的描述,因为这样即使错了,我知道错误在哪里,利润来源在哪里。 哪怕需要更复杂的信号组合,我也偏向random forest 或者svm 这种相对不那么容易过拟合的模型. 当然,这只是我个人的看法, 如果有其他的思路,也欢迎指出。
4#
期权匿名回答  16级独孤 | 2021-8-30 11:55:31 发帖IP地址来自 天津
从广义的角度来说,机器学习不仅仅是模型选择的问题。它涉及到数据预处理,特征工程,特征选择,模型选择,结果的验证和分析等一整套建模流程。因此,如果我们把机器学习应用于量化交易狭义地理解为 “用支持向量机成功预测股票涨跌” 这样的研究,这种认识接近于买椟还珠——令人遗憾地对机器学习领域散落遍地的珍珠视而未见。

        最近一些时间,机器学习和数据挖掘的热门导致了舆论上的小小逆反——大数据和机器学习的东西是否已经被过分吹捧?似乎与之相关的人和事都显得躁动不安。在社会科学研究中,有一个“经济学帝国主义”的说法,大致的意思是,经济学的研究范式被各个社会科学大量借鉴,其研究的范围似乎一望无际,了无边界,令其它学科的学者感到窘迫。如果我们去观察一些社会科学近几十年的发展脉络,我们会意识到,其趋势大致都可以用 “从定性到定量” 来概括。因此,放在这个历史进程中考量,机器学习的崛起无非是这一趋势的延续——过去模糊不定的经验,现在可以通过系统的数据分析证实或是证伪;而那些未曾被察觉的规律,则在机器学习算法的抽丝剥茧下得以浮现纸面。

        那么,当我们聚焦于“机器学习将如何深刻改变量化交易”这个命题,未来将会向我们展示何种图景?在我看来,大概有两个方向:(1)特别针对量化交易的统计学习算法被提出,使其适合于噪声大,分布不稳定的金融数据分析;同时在模型参数优化的过程中,考虑了夏普率或收益率最大化,风险最小化等量化交易者关心的目标;(2)对于机器学习的热情回归理性,从工具为导向回归到问题为导向——从 “不管怎么样先套用机器学习模型试试” 回归到 “我想要解决这个问题,而机器学习中正好有一个趁手的工具”。

       对于第一个方向,即研究更好更有针对性的新算法,我们能力有限,只能寄希望于学术界给我们带来启发;对于第二个方向,如何以问题为导向,在机器学习算法中挑选合适的工具,我们米筐科技量化策略研究团队最近一段时间做了不少的思考和尝试。以下是我们的一部分思路和经验,希望对你们有所帮助。

1 缺失值处理

由于早期的数据采样和收集不完善,或是数据源本身的问题,在金融的量化分析中,处理缺失值都是一个不可避免的问题。选取合理的缺失值处理方法,依赖于数据本身的特点、其对应的经济学意义和数据缺失的情况(大段缺失或是个别缺失),还有我们需要使用数据进行何种计算。

作为一个例子,在我们尝试构建多因子模型时,我们选择了两种缺失值替换方法:(1)把模型中包含的所有因子作为特征变量,并赋予其相同的权重,再采用机器学习中的K-近邻算法(K-nearestneighbors algorithm, KNN)来寻找最相似的标的,保证缺失值替换后,不会强化一部分因子的影响力; (2)采用期望最大化算法 (ExpectationMaximization Algorithm, EM)来用同一变量的已知数据对缺失值进行极大似然估计。


2 特征工程和特征选择

在机器学习应用中,特征工程是用于解决数据集中已有的特征变量不够多,或者已有的特征变量不足以充分表征数据特点的情况;而特征选择则适用于当我们拥有大量的特征,需要判断出哪些是相关特征,哪些是不相关特征。在多因子模型中,特征工程和特征选择则可以帮助我们解决产生并筛选因子的问题。

在研究中,我们以 WorldQuant LLC 给出的 101 个阿尔法的数学表达式为例,进行了特征/因子构建的尝试;并在我们的研究平台上,实现了一个特征/因子的集成打分器,以对其进行系统的筛选。关于这方面的研究,有兴趣的朋友可进一步参考以下的知乎答案和知乎专栏:

江嘉键 答过的问题

米筐科技(RiceQuant)策略研究:沪深300指数的特征工程和聚类分析-以WorldQuant Formulaic 101 Alphas为例 - 机器学习 & 金融量化分析 - 知乎专栏

米筐科技(RiceQuant)策略研究报告:特征选择方法探析—沪深300指数的集成特征选择和聚类分析 - 机器学习 & 金融量化分析 - 知乎专栏

3 多因子模型的因子权重计算

在构建多因子模型的时候,当我们已经选定了一系列因子,下一步我们需要解决的是如何根据不同的市场情况调整各个因子的权重。在我们过去的研究中,发现随机森林算法(Random Forest)对于存在非线性、噪音和自变量共线性的训练集的分析结果较其它算法更为出色。因此,在多因子模型的权重上,我们目前采用当期收益率对上期因子进行随机森林回归分析,以确定下一期多因子模型的因子权重。

4 舆情数据

通过分析群体情绪和新闻热点来预测证券价格的研究,大致上发轫于2011年的一篇研究《Twitter mood predicts the stock market》。尽管其采用的分析方法已经存在多年,但是直到直到各种社交平台的兴起,获取大量、即时的舆情数据才变得方便可行(大数据!)。而与之对应的自然语言处理(natural language processing, NLP)则是机器学习传统的研究领域。由于其涉及到的数据体量,这个研究方向天然就是复杂、精巧的机器学习理论和算法竞赛的舞台。如今,舆情数据的研究的方法和理论已是蔚为大观,可供尝试的工具和算法非常多。在应用舆情数据进行证券市场预测的研究上,我们团队的经验也非常浅。随着更多的舆情数据源纳入我们的平台,与舆情数据相关的研究也会成为我们团队下一步的重点。

以上就是我们团队目前对于机器学习应用于量化交易的一些尝试。希望对你们有所启发,也欢迎大家跟我们分享你的想法和经验。我们也将会陆续分享更多的研究成果,有兴趣的朋友也可以逛逛我们的专栏:

Moneycode - 知乎专栏
5#
期权匿名回答  16级独孤 | 2021-8-30 11:55:43 发帖IP地址来自 云南
凡是量化团队都尝试过ML做量化模型,但是效果差很大。在我看来有些人的水平也仅限于调用ML包不懂背后的数学原理 希望调参也能做出好模型这就太不现实了。
举例来说,在线性回归里面增加线性衍生变量完全是错误的做法。SVM模型对异常点outlier非常敏感,一个异常点完全改变整个模型的参数,并且由SVM的reproducing kernel theorem 你会知道SVM的表达式对所有X变量是对称的,有些在低维容易分类的问题 增加变量之后就分类困难,具体参见斯坦福那本statistical learning.
不知道这两点的人还在一个劲的做特征工程猛加因子  其实是缘木求鱼
6#
期权匿名回答  16级独孤 | 2021-8-30 11:56:13 发帖IP地址来自 北京
二八法則, 數據量夠大就能解決八成問題, 機器學習是剩下的兩成
但現在八成的努力都用在機器學習算法, 只有兩成的努力是用在怎找到或產生數據量夠大的特徵

現在機器學習統計算法. 都被用成只看黑盒子輸入輸出瞎猜, 沒打開盒子看看裡面的機制原理, 瞎湊地搞出模型. 這種瞎湊的研究方法, 跟物理、化學、經濟學跟社會學等都截然不同, 在其他學科也從沒成功過, 卻引來不少迷信模型的人群起效尤, 實在是很莫名其妙. 這樣搞量化不如去搞六合彩模型.
只要打開盒子搞清楚零件及其間的交互作用, 看到不同的偏好, 消費經濟行為, 各種商品的供需存貨, 那就是一大堆用不完的數據, 環環相扣又高度一致

葡萄酒都可以投資, 米糧玉石都可以囤積投機, 農作可以像利息一樣增長, 金融商品跟一般商品到底有啥不同? 沒有直接數據起碼也有代理數據, 到處都是供需投機, 一堆人的貪婪與恐懼可以被量化, 只往有限的金融類商品數據死裡挖, 就是機器學習量化死光的原因
Agent-based Model甚至能虛構商品跟偽經濟人, 自個兒生出一堆數據
實驗經濟學則只有商品是虛構的, 人是真的
有感而發, 這篇愈少人看到愈好
7#
期权匿名回答  16级独孤 | 2021-8-30 11:56:58 发帖IP地址来自 中国
简单说一下我的看法,并不是Machine Learning不work,而是真正懂如何用正确科学的统计思维使用Machine Learning的人才太少。我相信不论国内国外,Financial Charlatanism的风气太甚,真正用量化研究来做可靠投资在这样浮躁的环境下几乎没有空间生长。你知道文艺复兴公司的创始人是数学家吗?你知道如何量化和防止Backtest Overfit吗?很多时候并不是模型不work,而是人的见识太局限。
如果我是做量化模型的director,我做的第一件事情就是把最新的历史数据全部held out,black out公司其他模型研发的员工的获取权限。每个季度每个做模型的小组只有向我申请才能获得有限次数的trial来evaluate他们的方案。
参考:http://www.financial-math.org/blog/2014/04/faqs-on-backtest-overfitting/
8#
期权匿名回答  16级独孤 | 2021-8-30 11:57:46 发帖IP地址来自 中国
以我不专业的感觉看,机器学习特别擅长那些人也能知道答案,但是精力有限的问题,比如语音识别,人脸识别,物品分类,客户行为预测等任务。这些任务的特点就是你让人去做,给他足够时间和资源,他也能做好,但因为精力有限,让计算机做更划算。

而金融市场的预测本身就是一个人也不知道答案的问题。几百年来,从街边大妈到物理学教授到华尔街交易员,全世界无数精英人才使尽了能力,从基本面分析到数学模型到巫术,把能用的方法全用上了,到现在为止市场能否被长期稳定的预测仍然是个未解问题。在这种不确定环境下如果机器学习开始预测了,那一定是帮人类发现了新规律。这点上我还没见到机器学习有太多成果。

第二点就是市场本身是个互动式系统,规律是会随着预测者自身的行为而发生改变的。出现一个能预测市场的算法,就必然会出现针对这个算法的算法,一轮接一轮,最后让各种策略都短命。最后的长期的稳定状态,估计还是会像现在的高频交易一样,拼硬件速度。
9#
期权匿名回答  16级独孤 | 2021-8-30 11:58:01 发帖IP地址来自 中国
目前深度学习在量化投资领域应用的程度如何?以前提过一个段子,再写个续集。

有个牛人A用了机器学习闷声发财。
A告诉了水货B自己用机器学习。
B在网上到处乱吹机器学习怎么怎么牛逼。
有个牛人C不用机器学习也在闷声发财。
C告诉水货D自己不用机器学习。
D天天在网上喊机器学习是噱头。
最后B和D开撕了……

续集:
B和D吵得火热朝天,打得头破血流。
动不动就几百字上千字的摆事实讲道理,图文并茂。
从知乎辩论,到贴吧微博撕逼,再到qq群微信群骂全家。
可是争了半天也没争出结果。
最后B把A搬上场了,D把C搬上场了,2V2。
C说不需要机器学习,用线性回归就可以解决问题。
A说我用的机器学习就是线性回归……
10#
期权匿名回答  16级独孤 | 2021-8-30 11:58:50 发帖IP地址来自 中国
对 @Austin 的答案进行一点补充:

事实上, 一些欧美领先金融机构,比如 Deutsche Bank, 已经在使用基于machine learning的投资模型。

http://www.slideshare.net/LDrogen/the-wisdom-of-crowds-crowdsourcing-earnings-estimates

"N-LASR global stock selection model .The N-LASR model is our flagship stock selection model for global equities. The model is based on a machine learning algorithm called AdaBoost, and is designed to adaptively learn which factors to use, often in a non-linear way."

基于AdaBoost的旗舰选股模型!

http://www.qgroup.org.au/system/files/EVENING%20SEMINAR%20Rocky%20Cahan%2030July2012.pdf

"The challenging quant environment post the financial crisis has been the catalyst for a new breed of dynamic quant models that seek to better capture the increasingly short-term nature of the factor performance cycle. Many such models are tied to underlying macroeconomic conditions, and are designed to pick factors based on what has worked in similar economic regimes in the past. In this research, we take a different approach. We focus on machine learning techniques – ranging from simple and transparent to complex and black box – and study how such learning algorithms can help us to capture the dynamics of factor performance. We propose a model that we call the N-LASR (nonlinear adaptive style rotation) model that is designed to adapt to seasonal and evolutionary trends in factor performance. "

https://dailyfintech.com/2016/03/23/ai-in-digital-wealth-mgt-algorithms/

"The FT reports that Mr Luo chief quant at Deutsche Bank, leads a team that has developed an AI algorithm that searches the financial system for investment opportunities, “scraping unfathomably large data sets to unearth profitable patterns to proffer clients”."
11#
期权匿名回答  16级独孤 | 2021-8-30 11:59:37 发帖IP地址来自 北京
谢邀。

同意 @记忆豆豆的评论。以下说一下我自己对于机器学习(其实我更愿意使用统计学习)的一些鄙陋之见吧。

首先,提供一个从量化投资决策过程的角度。我想在任何一个负责任的机构,任何类型的策略,都需要向投资人回答“我们挣什么钱”这个最重要的问题。

在中低频策略领域,量化投资仅仅是认识市场的一种手段或哲学之一,绝不代表仅仅只是Data Manipulation。这意味着什么呢?这意味着纵然量化投研人员需要花大量的时间在学习新的技术与手段,但是认识市场、了解市场,发现市场的无效,也是量化投研必要的日常主题之一。假如我能够发现一个特别明显、持续、强劲的市场无效点且加以量化,在可以的前提下,线性模型无疑是最好的。

线性模型最大的优势就是“鲁棒性”好,对于金融数据这种高噪声的数据模式是最为稳健的。而且,往往线性模型的经济学解释和数学解释都非常直观。举个比较极端的例子,假如你有一系列信号,然后用SVM来预测股票涨跌。但是一旦经过一个月的实盘,你发现SVM分类持续出错,在实盘环境下,你想迅速找出问题所在并应对调整正确是非常困难的。这时候线性模型的优势就体现出来了,你可以很方便的通过归因分析发现哪些因子可能被under estimated, 哪些被over estimated。简而言之,“很多时候”,机器学习是Black Box。而非监督式的学习就更是耍流氓了。

对于实际投资而言,可解释性、鲁棒性往往与过拟合是一个硬币的正方面。比如WorldQuant在之前的论文中,提出:输入固定的“操作符”、基础信号,在一定的复杂度内可以通过它们来随机生成信号。但是,即使通过这种方法找出一些In sample表现非常优异的信号,你敢将其运用到实盘吗?这恐怕要打一个巨大的问号吧?最终,可能还是需要通过这些信号来探寻其背后的经济学意义,才能简化用于实战。

但是,机器学习在量化领域还是有着很深的介入的,它解决着线性模型天生的缺陷或弊端,在国内并非很少人应用。除去凸优化、降维(提取市场特征)等领域的应用,目前两个最重要的弊端就是“非动态性”和“非线性”。比如上面回答提到的adaboosting。很多时候,金融关系之间并不是线性的,也不是静态的。这个时候,统计学习的优势就会体现出来,它们能够迅速地适应市场,或者用一种更“准确的”方式来描述市场。而统计学习关注方法本身的统计学特征,应该说更适用于投资。

参见德银关于adaboosting在Alpha上的报告。

举例来说,IC(Information Coefficient,参见QEPM)是指信号与未来收益率之间的截面相关性,是一点典型的线性关系。它被经常用来描述信号的优劣。如果IC > 0,则意味着截面意义上,信号与下一期的收益率是正相关的。很多时候,它被用来分配在信号之间的权重。但是,(一)、IC在不同的市场状况下可能表现非常不同,所以我们可以用决策树/HMM等等方式来对此建模;(二)、IC可能不是一个很好地描述因子准确度的指标。所以,我们可以把股票分成N个篮子,计算因子在每个篮子的预测准确度。所以,我们可以把它转换成一个分类问题。我们可以用Boosting/SVM/Logit等等等等的方式来建模。

所以,在量化投资中,总是先有问题,再去寻找工具。应该说,统计学习是众多武器库中的一种。

其次,在国内,机器学习在量化内应用跟领域很大的关系。比如CTA的运用可能就要多于股票。CTA处理数据的维度要远小于股票,但是可获取市场的长度和动态却强于股票。其次,期货市场的momentum要强于股票市场的momentum,从这个意义上来讲,它的趋势相对股票要更为明显和低噪声。这些特征都更有利于机器学习发挥它的作用。

再次,在国内,机器学习的应用跟频率也有很大的关系。跟很多方法一样,机器学习在大样本下的表现要远优于小样本的表现。统计上来讲,因为机器学习能够不断试错,不断“学习”,所以通过不断的训练,实现对各种情况下概率的准确估计,从而实现超越普通模型。这也是为什么AlphaGO需要训练各大高手的对局棋谱的原因。

比如,在国内一些交易执行算法的设计上,就可能借鉴了机器学习。通过学习订单薄特征,我们可以对下一期盘口变化做一些概率上的预测,由于算法执行频率较高,经过一定样本的训练之后,能够显著地提升算法表现。

但是我仍是谨慎看好深度学习等机器学习方法的。原因在于,这些方法与现行的大部分方法不在一个维度上认识市场,而这个优势使得它们能够捕捉到其他方法正常无法捕捉到的收益。索罗斯说,不做拥挤的交易,这句话反过来说,一个新的认识市场的角度才能带来alpha。
--------------------------------------------------------------------------------------------------------------------------------------------
下面是胡说八道:

我总是希望提醒自己,更多把量化作为与市场交互的方式,“增强学习”自己对于市场的理解和认知,而不是让机器替代这一过程。我记得邱国鹭曾经在书里写过主动投资是一个非常有积累的行业,因为在这个行业里,经验是不可替代的。但是他觉得做IT就不是这样,因为IT的更新太快,积累太容易被淘汰和更新。他观点的对错按下不表,但其实,对于量化投资,又何尝不是这样。

只有把通过量化所感知的市场逻辑转化为自己的投资逻辑,无论机器或者主动,我想才能真正立于不败之地吧。

与诸君共勉。
12#
期权匿名回答  16级独孤 | 2021-8-30 12:00:00 发帖IP地址来自 北京
这个兴许能帮到你
13#
期权匿名回答  16级独孤 | 2021-8-30 12:00:56 发帖IP地址来自 北京
其实看了不少类似探讨及机器学习和量化投资的应用的问题,
一直以来高票回答非黑即白走极端的问题其实还蛮严重的,
要不就是机器学习万能,因为猜想理由好几个,
要不就是机器学习没用,因为猜想理由好几个,
其实机器学习就是一个工具,在最合适的场景下面使用最合适的工具就好了,
很多人,包括我,一开始就属于第一类的,机器学习出身,看到机器学习在CV和NLP上带来的提升非常兴奋,认为机器学习肯定有用,理由好几个,想快速把它应用的量化投资上试试,于是拿个日频历史五维价量预测个价格,一看完全不work,然后就变成第二类了,说机器学习没用,不信你看理由好几个。
直到后来有机会去专业机构实习,看到专业量化投资研究是怎么做的才意识到自己的Naive,
首先你需要通过强大的金融和数学领域知识去做特征工程,
构建,并筛选,并检查那些潜在可能有用的特征,去除那些显然没用的特征,
其实光这第一步大部分民间业余机器学习科班非专业机构投资研究者就望而却步了,
没有领域知识,没有靠谱的数据源,没有完善的基础设施,没有一定的数理统计基础都不行。
这才是第一步,后续其他答主也提到了:
样本权重,模型选择,模型训练与自动化超参数调优,策略选择与自动化超参数调优,模拟回测,实盘接入等等。
很多关注机器学习和量化投资应用的人其实无意中最关注模型训练(模型拟合)这一步,这虽然无可厚非,但是上面说到的每一个步骤,都是量化投资里非常重要的问题,如果让我按重要性排序,我觉得顺序可能会是这样的:
特征工程 > 策略选择与自动化超参数调优 > 模型选择 > 模型训练
而事实上到此还不算完,很多答主也提到了pattern迁移的问题,这个问题其实也非常的重要,这也是你经常在一些书籍上看到所谓“动量效应”,“反转效应”,“轮动效应”的本质,更基本的其实就是某组数据在不同时间下标签不同,直白的不可分,这种情况怎么处理?而事实上这样的Bad Case很多,这些都是问题。
读到这里看上去我好像成了第二类人?机器学习没用?
其实不是的,
上面的每一个问题都可以用机器学习做改进,做文章,有兴趣可以看下我这这个回答:
请问深度强化学习在高频交易领域的应用前景如何?最后总结一下,
机器学习肯定是有用的,但是怎么用?解决什么问题?都得心里有数,它不是万能的,也不是没用的,在最合适的场景下解决最适合用机器学习解决的问题,我认为才是关键。
最后正面回答一下题主的问题:
    所以现在国内机构的量化领域机器学习应用的还很少吗?
你可以去私募排排网搜搜关键字AI,我没有仔细调查过。
    是因为效果不如简单的策略吗?(经常Overfitting等)
Overfitting目前不是需要亟待解决,或者重点关注的问题,如果Overfiiting成了你用机器学习的主要问题,那很大程度上可能你模型选择和特征工程做的有问题。
最后祝你早日发大财。
14#
期权匿名回答  16级独孤 | 2021-8-30 12:01:29 发帖IP地址来自 北京海淀
某一次参加一个名叫量化投资和人工智能的讲座,来了几位业内大牛嘉宾,号称近百亿的资金管理规模。在对股、债和商品的未来趋势大谈特谈之后,当被问到对机器学习如何看的时候,都讳莫如深。既不说不看好,也不说看好。

终于有个嘉宾没憋住,但也只是像绕口令一样说了话,什么决策树不如回归,线性模型不如非线性模型,云云。当时学艺不精,也没有听出当中的含义。

最近碰巧找到一些国外的论文,虽然也只是对关键问题点到为止,但至少给出了量化策略的概率论框架。阅读过程中,一下就明白了当时嘉宾的那套绕口令在说什么。

所以说,量化策略中到底用不用机器学习,我也会回答:

各位还是别用的好
:D
15#
期权匿名回答  16级独孤 | 2021-8-30 12:01:34 发帖IP地址来自 北京
题主的提问似乎有些小问题,线性模型运用的很多呀,知友的回答让我受益匪浅,不过在我看来关注的重点不太对。记得@Jianchi Chen在一个答案中说过,诚然,现在机器学习很火热,但是哪怕在研究领域90%以上的应用仍然使用的是线性模型,所以机器学习在量化交易中的应用,仍然是以回归为主,至多加上一些决策树。

这里面的原因很复杂,首先,像@张庭坂图上画的那样,对于在市场数据里面找信号找特征的交易者,找到一个高质量的信号比换一个更复杂的模型更有利可图。使用复杂的模型反而有 Overfitting 的风险。

其次,用线性模型还主要是因为有强解释力,对每个特征变量的作用能看得很清楚,非线性模型比较解释不清楚,可以说没人敢直接用黑箱,用神经网络、HMM一类的算法结果常常很漂亮,但预测靠谱程度充满不确定性。

第三,不知为什么,似乎从事量化交易的人没有太多关注机器学习算法能够奏效的假设,而金融计量方法在这点上已经做得很全了。比如分类算法能够奏效的假设是在同一类下,样本数据独立同分布。然而绝大部分人直接用股票收益率的信息来构成模式。忽视了收益的不稳定、高噪声特点,这类方法的失败也是必然的。

当然,必须承认机器学习方法在挖数据调参数方面还是很管用的,这点上线性模型就不够用了。做事件驱动策略的,或者投资行为策略,基本是机器学习的天下。
16#
期权匿名回答  16级独孤 | 2021-8-30 12:02:07 发帖IP地址来自 中国
国内团队使用机器学习的比例不太清楚,国外几乎是必需,我们团队也在研究相关模型的应用,以下是一些简单的心得。
时间序列预测比横截面预测要难,要处理的不确定性非常多,不管是医疗领域预测细胞是否癌变,还是营销领域预测客户是否会购买某商品,都比较容易建模(前提是有大量的精确乬),预测精度也可以非常高,因为有明显的规律可循,但金融市场就不一样。我们尝试把未来的价格涨跌看成分类问题来处理,然后拟合逻辑回归,支持向量机,决策树,随机森林等常用模型,当使用不同的预测变量时结果大不相同,有的模型只能做到50%左右的精度,有的则能达到80%以上,说到底不是机器学习算法的问题,有监督的机器学习模型的最终表现还是取决于用什么样的预测变量(所谓特征工程),所以归根到底比拼的还是对市场的深度理解。如果只是随便将数百个变量塞进模型,那么训练集会出现非常高的预测精度,但检验集的结果毫无疑问是非常糟糕的,也就是过度拟合。至于复杂和简单模型哪个更有效的古老命题,我觉得两者都会有效,只要能够成功(至少在局部时间)识别价格运行的规律,两种类型的策略都可以盈利。
17#
期权匿名回答  16级独孤 | 2021-8-30 12:02:21 发帖IP地址来自 云南
1. machine learning的重要作用在于特征选择,基于这些特征进行样本内拟合与样本外预测,而从样本内到样本外的一致表现也即泛化能力是衡量模型性能的关键,通俗的讲,就是找到影响问题的主要因素,并基于对这些因素的认识进行现象的判断和预测;

2. machine learning目前表现优异的领域主要在语音、图像处理方向,这类领域都有较确定的边界,信息边界较为确定,信噪比较高,基于确定的规则现象可复现,所以有效特征的提取和选择成为了可能。而证券市场影响因素非常多,动态且不确定,信噪比极低,特征是无穷的,且特征的解释力大不如其他领域,因而ml这类智能模型在证券市场领域就显得不那么智能了,但并不是否认ml不能寻找到解释力强的特征,或者说ml也有可能将多个弱解释力的特征组合成强解释力的特征;

3. 目前将machine learning应用在证券市场上的研究大多还是基于人的市场直觉和经验挑选出一批经验特征,将这些特征扔进ml模型进行训练和优化,以期找到解释能力和泛化能力都较强的预测规则。因此本质上,还是带有领域知识的模型学习,与其他领域的ml应用差别较大;

4. 虽然machine learning在证券市场收益预测等角度来看似乎不尽如人意,不过这也很正常,如果收益的预测能那么轻易地就找到有效的特征,那么这些特征也早就被大家所熟知,既然熟知,那也便失效了。但ml在参数优化及特定条件下的优化问题上具有较大的作用,仍能给金融领域的问题带来新的解决思路。

以上,个人拙见。
18#
期权匿名回答  16级独孤 | 2021-8-30 12:03:20 发帖IP地址来自 北京
其实我就遇到两个机器学习的研究人员,一个辞职了一年,研究用机器学习研究外汇,但是效果不好,回去上班了,另一个研究了4年,目前还在坚持,思路是用机器学习过去的价格,用价格预测未来价格。
我是这么看的,机器学习也只是一个工具,如果研发人员基本的交易思想都不懂,机器怎么学习人的思维,这种研究必须交易员和程序员结合。
隔行如隔山,程序员以为靠机器学习可以打遍天下是不可能的,必须交易专家的指导才可以。
19#
期权匿名回答  16级独孤 | 2021-8-30 12:03:31 发帖IP地址来自 北京
说一下我的拙见吧
其实神经网络很早就被发明出来了,但是之前cv和nlp也并没有像现在这样发达。cv的真正飞跃是从卷积层和池化层的提出,nlp的飞跃也是借助于embedding层。这些附加层都是模型自动化特征工程的关键。
但是与之相对应的,金融领域还没有根据自己数据的特点为自己深度定制一个”层“,所以特征工程仍是目前金融量化最重要的,业内称为”因子“。因子对于金融预测的贡献比例远大于模型选择的贡献比例,所以用不用机器学习反倒成了不是特别重要的事情
20#
期权匿名回答  16级独孤 | 2021-8-30 12:03:48 发帖IP地址来自 北京
可以肯定的说,机器学习在国内交易层面的直接应用,目前还并不多。很多人都在尝试,这些年也可以看到很多智能投研、智能投顾的概念很火,但叫好不叫作,归根结底,还是没有在本质上带来效果,即投资收益的提升和机器学习之间到底有多少关系。
举个例子,2015年在哥伦比亚大学参加一个叫Machine Learning in Finance的seminar,哥大data science institute搞的,其中有一个报告是纽约大学的教授做的关于上市公司的并购预测,教授说他不知道什么是机器学习,但二十多年他用统计模型来预测上市公司发生并购的时间点,涉及几百个变量,这些变量涉及公司财务经营、新闻报道以及股价,这些模型有的是连续性的,有的则用于分类,通过长期跟踪,积累了很多数据,然后对每个因子以及因子组合来进行相关性的回测,最后把上市公司发布并购的可能性以及时间点作为预测的目标变量。
老实讲,教授说自己不知道什么叫机器学习,但他二十多年通过统计模型进行的预测性研究,完全就是典型的机器学习过程。再说西蒙斯的大奖章基金,位于长岛的这个数学研究所,用超级计算力每天分析加工几十上百亿条数据,为的是给自己的数学模型来优化参数,他们也从来不说自己在做机器学习,但你能说文艺复兴的这个超级证券分析系统不是一个机器学习系统吗?
为什么说国内的交易层面对机器学习的应用还不多?主要原因有两个,一个是产品本身的复杂度不高,市场上很多的交易标的,同质化非常严重,申万11个大行业上百个子行业,从主板到科创板的所有股票,用简单的聚类模型对股价走势看下相似度,你会发现其实相关性都太高,更不用说同质化的基金收益表现,以及规模和种类都极少的金融衍生品。
另外一个是策略的同质化,这会导致一个结果:与其做精细化和差异化的模型设计,不如等大的确定性趋势和市场机会,很多基金三年不开张、开张吃三年,在国内非常普遍。
那到底机器学习在量化交易里面有没有用?在数据清洗这个层面,一定而且非常有用。做策略的都知道数据的重要性,tick级别的价量数据也好,还有现在越来越流行的另类数据,动辄几百万上亿条的数据,要是再把分析的颗粒度缩小,一不小心就出现几千几万个特征,这个时候你要怎么建模,还不得做降维和特征选择,哪怕是你用深度学习,informative feature也很重要吧,所以数据预处理这块儿机器学习很有用,而且没准洗出来的特征可以直接当因子用。
再来说交易策略这个层面,我觉得之前Alpha go火的时候,很多人都希望能够设计出一个可以自己学习交易规则的智能交易系统,就好像下围棋一样,机器面对变化的市场,自己来决定买卖什么,什么时候下单,虽然之前加州有个公司也号称做了个这样的系统,发布了几次业绩也就没有然后了。但我觉得这个方向才是真正的智能化交易,但如果收益不好,相信最后成就的是这个系统本身的学习能力,但它不是个好的策略,因为不赚钱。
JP Morgan在2018年出过一个上百页的研究报告,是关于人工智能在量化交易中的应用。但几乎你可以看到大部分都是在另类数据,也就是文本还有一些非结构化数据分析上,机器学习的对于数据快速的结构化加工和分析的能力。策略本身的开发只用到一些零散的方法,但这些方法其实跟统计学习或者更早的统计分析没有本质上的区别。就好像之前提到的那个NYU教授,20多年在用统计方法预测,但你说到底它是不是机器学习?
总之,机器学习在国内的量化交易上肯定会有更多的应用场景,一起研究和学习吧。
21#
期权匿名回答  16级独孤 | 2021-8-30 12:04:43 发帖IP地址来自 北京朝阳
多因子的因子组合,CTA的信号组合,不同策略的组合等等这些都会涉及机器学习方面的东西。如果考虑regime switching的话,HMM和CRF这种应该也是可以用到的。
以因子或是信号的组合为例,个人感觉树模型(比如GBDT,Adaboost)和线性模型(比如Linear Regression或者Lasso)的效果会好一点,前者是因为防过拟合能力强,后者大概是因为很多信号和因子的原本的选择方式就是线性的。
除此之外,我自己还试过rankboost、多任务和多分类学习,甚至是增强学习、LSTM以及自己设计几层的ensemble learning。然而,复杂的方法却未必会一定实现更好的效果(也许是我个人水平的原因)。
最后,感觉大多时候数据处理是比模型本身还关键的存在。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:400157
帖子:80032
精华:0
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP