林晓明：《大类资产配置和人工智能量化》演讲文字实录

01  前言

我从2008年开始入行从事量化研究，见证了量化投资从一个边缘的门类，到近几年量化私募大爆发、市场份额越来越大、重要性越来越高的格局。这一路走来，每个从业者都会有自己的感受和体会，但还没有人对量化发展的历程做过详细梳理；对于量化市场的现状，也还没有机构或书籍特别系统地刻画中国量化投资的生态。
《2021中国量化投资白皮书》这本书经过了数个月的准备，内容非常详致、全面，很好地填补了这一空缺，对从业人员而言是一份了解量化行业全貌的理想读物。所以今天能够见证这本书的发布，我感到特别高兴。
今天很荣幸受邀参加会议，我想分享一下我们团队在量化领域的研究布局，主要分为三个部分：团队量化研究的整体框架，大类资产配置框架，以及人工智能系列研究。

华泰证券研究所金融工程首席分析师林晓明

02  基础研究框架：长中短三模型

在华泰的6年时间里，我们团队搭建了长期、中期和短期三大块模型。长期模型的研究核心是金融市场和宏观周期，以理论研究为主，在研究周期理论的同时，结合模型进行大类资产配置的实践尝试。
中期研究包括行业轮动和风格、择时方面研究。我们团队在行业配置和风格配置领域耕耘已久，从最早的海外论文验证，到特色模型的构建，我们已经积累了数十篇的深度报告。
短期研究主要分为多因子模型和人工智能选股模型。自 2017年6月1号推出第一篇人工智能选股报告以来，我们在人工智能方向已经研究了整整5周年，覆盖模型测试、因子挖掘、过拟合检验、生成对抗网络等一系列主题，发布的深度报告超过50篇。
资管业务本质就是数据流驱动资金流我们对于量化投资的整体理解包括三个点：
第一点：金融市场的核心功能是为现实世界中发生的事情进行定价。
第二点：所有的金融市场价格，其本质上就是要反映对象的基本状态。基本状态不仅仅是指公司的基本面、经营状况带来的价值投资，短期1秒钟或10秒股票的供求状况、全球宏观经济的走势也是基本面。
第三点，资管业务的本质是数据流驱动资金流。 我们做资产管理业务，无论是通过定量的方式，还是通过定性的方式，本质上就是做数据流驱动资金流的业务。资产管理行业核心比拼的是行业的劳动生产效率，我们生活的现实世界无比复杂，任何模型相对于整个世界都太过简单；而世界的变化是持续不断的，所以没有任何企业、模式或者体系能够长期有效，必须同步地保持更新。金融行业也是一样，无论是宏观、基本面选股或是高频的交易，我们用数据去描述环境的变化，本质上都是在做数据流驱动资金流的生意。
03  中频最拥挤，高频低频赛道性价比更高

从交易的频率出发，我们把所有的交易分成高频、中频与低频。中频是基于中等频率的数据来驱动交易，包括传统的公司基本面研究、股价K线图等。绝大部分的机构投资者和个人投资者都集中在此领域，因此中频也是中国市场交易是最拥挤的。如果从长期来看，我们认为高频和低频是性价比更高的两个领域。
高频领域是一个高门槛的赛道。当年“宁波敢死队”模式是基于股票的量价短期挖掘规律做短线交易，而当时能做这部分业务的人并不多，所以性价比比较高；近几年量化高频兴起迅猛，也是因为这部分的竞争强度相对较低。机构如果要介入这个领域，需要有专业的计算机、统计、金融工程的人才以及各类基础设施，硬门槛很高；同时，交易方面的限制导致公募、保险这些大型机构在高频上的发展受限。所以高频领域是一个拥挤程度低、前景很大的赛道。
低频领域是一个高难度的赛道。目前做资产配置、宏观配置的投资者，观点切换的频率仍然很高。无论是央行的一次会议，或者全球出现某个局势，都会影响交易、换仓或者观点的改变；即便是宏观对冲，每一两周也会有新的观点交易。而在超低频领域，半年或者一年拿着资产不动的投资者是极少的，其核心逻辑也不同于上述驱动因素；超低频的投资需要对长期的准确判断，找到逻辑的难度很高，但也因此发展空间更大。

04  用周期回答预测金融经济系统的三个问题

频率越高意味着数据量越大，数据和统计驱动的模式也就越明显，结果也能很快得到验证。而到了超低频领域，样本量非常少，对于模型和统计的依赖程度下降；而判断的差异会对未来产生持续性的影响，所以逻辑的可靠性很重要。因此，超低频领域的模型可能很简单，但在模型背后需要做大量的分析和验证，来保障核心逻辑的可靠。
从60/40、均值方差、风险平价到美林时钟，资产配置的模型很多，但总结下来主要可以分为两类，即被动模型和主动模型。我们认为除美林投资时钟以外，其他的资产配置模型基本都是被动模型。这些模型认为市场不可预测，基于历史数据计算收益率、波动率、协方差矩阵，在假设下进行组合构建；这类模型本质上是在解决风险收益的优化问题，是被动的模型。而美林时钟是主动的模型，无论它转或不转、效果好与不好，它对资产配置最大的贡献是讲清楚了一件事：宏观经济环境的变化和资产价格的相对强弱存在着映射关系。如果有这样稳定的映射关系，主动资产配置就可以战胜市场。

我们团队的资产配置模型研究分两个部分，一是周期理论的研究，包括周期的存在、起源和规律，其核心在于探究三个问题：金融经济系统是否可以预测，为什么可以预测，以及应该如何去预测。
我们在去年5月份推出了《工业社会的秩序》，用一份170多页的深度报告来解答这些问题；同时我们也在研究经济状态的刻画，包括收益的预测、风险的控制、组合的优化以及回撤控制。如果把所有的资产价格当做宏观变量，计算同比后就会发现全球的资产价格、宏观变量存在着很明显的周期性；再利用标准傅里叶变换或者周期小波变换等方式，可以从频谱上论证周期的存在；最后基于MUSIC算法部分，针对148个宏观变量和资产价格，从短至20、30年到长达100年数据，对周期性进行验证。这就能回答第一个问题，金融经济系统可不可以预测。

第二个问题是，如果可以预测，为什么可以预测？我们从自上而下和自下而上的两个角度来做逻辑推导。人类社会进入工业社会以后，劳动分工一定会导致周期性的波动，这与朱格拉周期结论是一样的：经济的衰退也是经济的周期性波动，本身就是经济系统稳态的一部分，经济不出现衰退反而是不正常的。不确定性因素引发各种各样的机制，而最后将形成周期。
第三个问题在于，我们如何去预测周期？我们把量化里面的风格因子如价值、动量因子的趋势项去掉以后，会发现A股市场风格与美元指数的走势非常吻合：美元向上的时候A股就呈现成长风格，美元向下的时候A股就呈现价值风格。逻辑也很清晰：当全球经济周期开始上行，资本会从美国流向新兴市场，美元贬值同时通胀上行，也就是DDM模型的分子分母同时上行，这时驱动金融市场的是分子端，所以造就价值投资的行情。反之，当全球的经济动能减弱时，资本就会回流到美国市场，此时美元升值，DDM模型的分子分母同时向下，驱动力从分子换到了分母，利率下行来支撑的高估值行情，就变成成长股的行情。
基于这些理论研究，我们花费3年半的时间，构建了一整套几十条的策略指数，目标在于大容量、稳夏普、低回撤，如今已经迭代到第三代。指数在新加坡交易所发布，Wind和Bloomberg每天更新策略指数的净值，我司的衍生品部门则基于策略指数来开发场外衍生品。这是一套超低频的指数，在全球配置股票、债券和商品，大约20个月换一次仓，中间无论出现什么环境变化都不做调整。我们始终认为模型得有信念，而模型的核心就是长期胜率要高。

05  人工智能5大系列，我们的有趣发现

2017年6月1号我们经过半年准备，推出第一篇人工智能深度报告；在此后接近5年的时间里，又陆续推了50多篇深度研究，慢慢地形成系统的研究框架，目前包括模型测试、因子挖掘、对抗过拟合、生成对抗网络以及其他总共5个系列。
模型测试是我们最先推出来的系列。一开始我们基于传统多因子模型进行改造，采用基本面因子、交易因子等经典选股因子，尝试用各种各样的机器学习算法来对这些因子进行整合，发现决策树集成模型相对更适合选股场景。近期我们在做的是图神经网络，图神经网络的基本思想是将邻居股票的因子加到自身因子上，学习股票间影响；我们也借鉴学术研究设计了残差图注意力网络，将收益拆解成行业、因子、残差三部分，采用不同组件学习，相比原模型有进一步提升。

因子挖掘方面我们做三个部分：遗传规划、AlphaNet和文本挖掘。高频领域是纯量价驱动的，当硬件不够又想挖掘这些人脑没办法理解的因子时，就可以借助自然界进化的过程，用遗传规划方式来做因子的挖掘。AlphaNet则是端到端，让机器从头到尾直接帮我们把所有可能的因子表达式都给生成出来。文本挖掘部分，每天有海量的研报、新闻，我们也可以用一些语义分析的方法，把有效信息挖掘出来。
对抗过拟合部分争议有很多，各家做法也不尽相同，对因子的可解释性也看法不一。有一句话讲得特别好：“技术分析不问为什么，问为什么就不是技术分析。”我一直认为，如果这些因子能够理解，就用不上机器学习模型；机器学习模型能够用得上，就是因为人脑难以理解。如果想利用这些算法来挖因子，最好的方式就是也不问为什么，而是采用一套比较科学来进行过拟合检验，从流程方面来优化。
接下来我们推出了真假k线识别和生成对抗网络系列。这部分研究的构想，起源于一个关于技术分析是否有效的问题。我们把真实的k线拿出来，将其顺序打乱并重新生成，普通人肉眼根本无法分辨孰真孰假。于是我们再用神经网络学习区分这些真假序列，如果能够有效地分辨真假序列，那就说明真的k线确实存在规律；也许我们肉眼看不到，但是机器能学得到。

研究结果显示，机器无法判别日k线，这说明日k线竞争比较激烈，接近了有效市场理论的假设，从历史价格上已经难以预测。但是越往高频领域，分辨效果越好。下图纵轴表示每一分钟的图，颜色越淡就代表它越难以辨别，红色择时能明显区分，表明每天早上开盘、下午收盘的时候是有交易信息的。2015年市场交易量特别大的时候，模型全天基本都能实现区分。

实际上金融市场是现实生活中的映射，当现实生活中出现了新的经济因素，它一定会通过交易注入到市场里面。当有大量的信息注入到交易市场里面时，在数据上就可能形成某种局部上的结构；即便肉眼看不到，它也一定是有规律的，而做量价的数据分析就是在找这方面的一些规律。
最后是生成对抗网络。金融领域存在很多被人诟病的地方，而样本内过拟合是其中的一大痛点：样本内效果很好，实际效果却不尽如人意。所有的模型都是基于历史样本来做分析寻找规律，当样本量不够充足时，就很难判断哪些是长期存在的规律，哪些是过拟合。因此我们认为，金融领域需要更多高质量的假数据来辅助模型的验证。这是我们这两年重点在做的系列，也产生了一些有趣的结果。

最后做个总结，我们的研究框架覆盖了高频、中频和低频三个领域，高频领域是数据和统计规律的驱动，更重视数据分析；中频领域是数据与逻辑的逐渐结合；低频领域的数据量较少，模型可能很简单，但需要充分验证核心逻辑的可靠性。以上就是我今天的分享，谢谢大家。

文字整理自《2021年中国量化投资白皮书》深圳站发布会

林晓明 ：《大类资产配置和人工智能量化》演讲文字实录

林晓明：《大类资产配置和人工智能量化》演讲文字实录