乾象投资:基于JuiceFS 构建云上量化投研平台

背景乾象投资 Metabit Trading 成立于2018年,是一家以人工智能为核心的科技型量化投资公司 。核心成员毕业于 Stanford、CMU、清北等高校 。目前,管理规模已突破 30 亿元人民币 。
Metabit 非常重视基础平台的建设,有一支强大的 Research Infrastructure 团队 。团队试图打破在单机上进行研发的壁垒,利用云计算进行更高效、安全的工具链研发 。
01 量化的研究都在做什么作为一家成立时间不久的量化投资机构,我们在对基础存储平台进行选型时,会受到这样两方面的因素的影响:公司成立的时间比较短,没有太多技术上的历史负担,在做技术选择时,更偏向于使用更现代的技术栈;同时,量化投资中使用到的机器学习场景中的特性也会影响到技术的选择 。

乾象投资:基于JuiceFS 构建云上量化投研平台

文章插图
上图是我们研究场景中和机器学习关联最紧密的策略研究模式的简化示意图 。首先,在模型训练之前需要对原始数据做特征提取 。金融数据的信噪比特别低,如果直接使用原始的数据进行训练,得到的模型噪音会非常大 。原始数据除了行情数据,即大家经常会看到的市场上的股价、交易量之类的数据,也包括一些非量价的数据,比如研报、财报、新闻、社交媒体等之类的非结构化数据,研究人员会通过一系列的变换提取出特征,再进行 AI 模型训练 。
模型训练会产出模型以及信号,信号是对未来价格趋势的判断;信号的强度意味着策略导向性的强度 。量化研究员会根据这些信息去优化投资组合,从而形成交易的实时仓位 。这个过程中会考虑横向维度(股票)的信息来进行风险控制,例如某一行业的股票不要过度持仓 。当仓位策略形成之后,量化研究员会去模拟下单,而后得到实时仓位对应的盈亏信息,从而了解到这个策略的收益表现,以上就是一个量化研究的完整流程 。
量化研究业务特点研究需求产生大量突发任务:高弹性
在策略研究的过程中,量化研究员会产生策略想法,他们会通过实验去验证自己的想法 。伴随着研究人员新想法的出现,计算平台就会产生大量的突发任务,因此我们对计算的弹性伸缩能力的要求很高 。
研究任务多样化:灵活性
从上面的例子可以看到,整个流程涵盖了非常多不同的计算任务,例如:
  • 特征提取,时序数据上的计算;
  • 【乾象投资:基于JuiceFS 构建云上量化投研平台】模型训练,经典的机器学习的模型训练场景;
  • 投资组合优化,会涉及到最优化问题的任务;
  • 策略回测,读入行情的数据,再对策略的表现去做模拟撮合,得到仓位对应的表现 。
整个过程任务的种类是非常多样化的,对计算的要求也很不一样 。
研究内容需要保护:模块化,隔离
研究员的投研内容是公司的重要 IP(知识产权) 。为了保护这些知识产权,公司的研究平台会将每个策略研究环节抽象成包含标准输入输出和评价方式的模块 。例如对模型的研究,输入标准的特征值,输出预测的信号和模型 。通过对模块之间进行隔离,研究平台可以有效保护 IP 的安全性 。在进行存储平台建设时,需要针对模块化这个需求做相应的设计 。
量化研究数据特点大量任务的输入来自于相同的数据,比如上文提到的回测,量化研究员需要对历史策略去做大量的回测,同样的仓位使用不同的参数去测试,观察它们表现;或者特征提取,经常有一些基础特征和新特征的组合,其中大量的数据是来自于相同的数据源 。

经验总结扩展阅读