某某博客某某博客某某博客

明汯投教|何为模型及过拟合?如何在模型训练中预防过拟合?_中证网

中国证券报·中证网

    

  一、何为模型?如何区分模型和算法?通用预测模型有哪些?

  一般而言,模型(Model)由数据及如何使用历史数据对未来数据进行预测的过程组成。而算法(Algorithm)指执行一种优化过程,即在训练数据集上让模型的误差最小化。

  在机器学习领域,“机器学习算法”经常与“机器学习模型”交替使用——前者指的是在数据上运行以创建机器学习“模型”的过程,后者着重表达用于进行预测所需的规则、数字和任何其他特定于算法的数据结构。

  在模型开发/模型预测、模型训练/预测值合并等环节中会将提取到的特征或Alpha因子进一步加工,得到“更优Alpha”。早期量化私募的模型开发以线性模型为主,随着非线性模型(如机器学习、深度学习模型)占比逐步提升,其模型复杂度、参数相比传统统计学习模型有了很大提升,预测效果也更好,量化机构整体投资能力获得较大进步——具体到如何精细化处理树模型、神经网络模型等也从侧面体现出各家研究深度和广度的不同。

  量化投资的环节中所采用的模型大致可以分为三类:因子挖掘模型、预测模型和组合优化及交易算法模型。其中预测模型的发展总体而言是从简单到复杂、未来还要更复杂的迭代过程。目前,业内比较通用的预测模型包括:

  ■注重可解释性的线性模型:OLS

  ■统计学习、机器学习模型:Lasso、SVM、GBDT

  ■可端到端的深度学习模型:DNN、LSTM、Transformer、GNN

  二、何为过拟合?如何在模型训练中预防过拟合?

  过拟合(overfitting)是统计学和机器学习领域的常用概念,可分为训练过拟合和回测过拟合两个层次。

  训练过拟合是机器学习语境下偏狭义色彩的过拟合,指“机器学习模型在训练集上表现良好,但在测试集或新数据上表现较差”。产生原因是模型超参数选择不当或模型过度训练,解决方案通常是采用合理的交叉验证方法选择模型超参数。

  回测过拟合是量化研究语境下偏广义色彩的过拟合,指“量化模型在回测阶段表现好,在实盘阶段表现差”。产生原因是市场规律发生变化,或者对回测阶段数据噪音的过度学习。回测过拟合难以根除,相对合理的解决方案是借助量化指标检验回测过拟合程度。

  金融市场有不同的参与者,参与者也在不断进化。在《明汯投教|如何理解金融数据的复杂性及数据处理的重要性?》一文中提到,金融数据本身具有低信噪比、时序单调性。当模型过于复杂、参数数量过多、学习能力太强时,容易出现模型对于训练集以外的数据泛化能力差,表现为过拟合。

  由于大多数机器学习模型并不是专门为金融时间序列开发的,这些模型在量化建模中的应用需要适时调整。所以将机器学习应用到量化投资领域时,在模型训练中如何预防和避免过拟合显得尤为重要,需要综合考虑预测精度、模型可解释性、模型鲁棒性和计算复杂性等因素。其中金融时间序列预测必须避免使用未来信息,有时更倾向于随着时间的推移将时间序列分成训练、验证和测试块,即进行前向验证,而非模型超参数优化中的交叉验证。

  在深度学习中,超参数的选择对模型的训练和泛化性能有很大的影响——如果超参数过大,可能会导致模型过拟合,因此需要根据数据集和模型结构进行调整。这里的超参数是指那些需要手动设置的参数,这些参数不能直接从数据中学习得到,而需要通过持续调整和优化参数来得到最优的模型。

  常见的超参数包括迭代次数(迭代次数指训练的轮数,过多的迭代次数则会导致过拟合,通常需要根据训练集和验证集的表现来确定)、正则化(通过惩罚模型复杂度来防止过拟合,常见的正则化方法包括L1正则化和L2正则化。需要根据具体问题进行调整)、丢弃率(丢弃率指在训练过程中随机丢弃一定比例的神经元,从而防止过拟合。过低的丢弃率会导致过拟合,通常需要根据具体问题和网络结构进行调整)等等。

  需要特别提及的是,模型在回测与实盘中表现不一致是投资领域中普遍存在的现象,并不都是过拟合导致的,还可能与以下因素有关:

  ■数据偏差:回测时使用的历史数据可能与实际市场环境存在一定差异;

  ■滑点和交易成本:实际交易中存在的滑点和交易成本都应在回测时进行预估;

  ■策略实现限制:在实盘交易中,策略实现效果可能会受交易执行速度、交易执行规模等因素的影响。

  ■市场已发生变化:由于金融市场由不同参与者组成,投资者结构及投资者行为均会发生变化。金融市场还受整体宏观环境、政治和经济等因素情况影响。所以不同阶段市场运行规律会发生一定的变化,基于过去总结的有效规律在未来也未必有效。(cis)

未经允许不得转载:某某博客 » 明汯投教|何为模型及过拟合?如何在模型训练中预防过拟合?_中证网