明汯投教｜何为模型及过拟合？如何在模型训练中预防过拟合？_中证网

中国证券报·中证网 2023-11-27 16:31

　　一、何为模型？如何区分模型和算法？通用预测模型有哪些？

　　一般而言，模型（Model）由数据及如何使用历史数据对未来数据进行预测的过程组成。而算法（Algorithm）指执行一种优化过程，即在训练数据集上让模型的误差最小化。

　　在机器学习领域，“机器学习算法”经常与“机器学习模型”交替使用——前者指的是在数据上运行以创建机器学习“模型”的过程，后者着重表达用于进行预测所需的规则、数字和任何其他特定于算法的数据结构。

　　在模型开发/模型预测、模型训练/预测值合并等环节中会将提取到的特征或Alpha因子进一步加工，得到“更优Alpha”。早期量化私募的模型开发以线性模型为主，随着非线性模型（如机器学习、深度学习模型）占比逐步提升，其模型复杂度、参数相比传统统计学习模型有了很大提升，预测效果也更好，量化机构整体投资能力获得较大进步——具体到如何精细化处理树模型、神经网络模型等也从侧面体现出各家研究深度和广度的不同。

　　量化投资的环节中所采用的模型大致可以分为三类：因子挖掘模型、预测模型和组合优化及交易算法模型。其中预测模型的发展总体而言是从简单到复杂、未来还要更复杂的迭代过程。目前，业内比较通用的预测模型包括：

　　■注重可解释性的线性模型：OLS

　　■统计学习、机器学习模型：Lasso、SVM、GBDT

　　■可端到端的深度学习模型：DNN、LSTM、Transformer、GNN

　　二、何为过拟合？如何在模型训练中预防过拟合？

　　过拟合（overfitting）是统计学和机器学习领域的常用概念，可分为训练过拟合和回测过拟合两个层次。

　　训练过拟合是机器学习语境下偏狭义色彩的过拟合，指“机器学习模型在训练集上表现良好，但在测试集或新数据上表现较差”。产生原因是模型超参数选择不当或模型过度训练，解决方案通常是采用合理的交叉验证方法选择模型超参数。

　　回测过拟合是量化研究语境下偏广义色彩的过拟合，指“量化模型在回测阶段表现好，在实盘阶段表现差”。产生原因是市场规律发生变化，或者对回测阶段数据噪音的过度学习。回测过拟合难以根除，相对合理的解决方案是借助量化指标检验回测过拟合程度。

　　金融市场有不同的参与者，参与者也在不断进化。在《明汯投教|如何理解金融数据的复杂性及数据处理的重要性？》一文中提到，金融数据本身具有低信噪比、时序单调性。当模型过于复杂、参数数量过多、学习能力太强时，容易出现模型对于训练集以外的数据泛化能力差，表现为过拟合。

　　由于大多数机器学习模型并不是专门为金融时间序列开发的，这些模型在量化建模中的应用需要适时调整。所以将机器学习应用到量化投资领域时，在模型训练中如何预防和避免过拟合显得尤为重要，需要综合考虑预测精度、模型可解释性、模型鲁棒性和计算复杂性等因素。其中金融时间序列预测必须避免使用未来信息，有时更倾向于随着时间的推移将时间序列分成训练、验证和测试块，即进行前向验证，而非模型超参数优化中的交叉验证。

　　在深度学习中，超参数的选择对模型的训练和泛化性能有很大的影响——如果超参数过大，可能会导致模型过拟合，因此需要根据数据集和模型结构进行调整。这里的超参数是指那些需要手动设置的参数，这些参数不能直接从数据中学习得到，而需要通过持续调整和优化参数来得到最优的模型。

　　常见的超参数包括迭代次数（迭代次数指训练的轮数，过多的迭代次数则会导致过拟合，通常需要根据训练集和验证集的表现来确定）、正则化（通过惩罚模型复杂度来防止过拟合，常见的正则化方法包括L1正则化和L2正则化。需要根据具体问题进行调整）、丢弃率（丢弃率指在训练过程中随机丢弃一定比例的神经元，从而防止过拟合。过低的丢弃率会导致过拟合，通常需要根据具体问题和网络结构进行调整）等等。

　　需要特别提及的是，模型在回测与实盘中表现不一致是投资领域中普遍存在的现象，并不都是过拟合导致的，还可能与以下因素有关：

　　■数据偏差：回测时使用的历史数据可能与实际市场环境存在一定差异；

　　■滑点和交易成本：实际交易中存在的滑点和交易成本都应在回测时进行预估；

　　■策略实现限制：在实盘交易中，策略实现效果可能会受交易执行速度、交易执行规模等因素的影响。

　　■市场已发生变化：由于金融市场由不同参与者组成，投资者结构及投资者行为均会发生变化。金融市场还受整体宏观环境、政治和经济等因素情况影响。所以不同阶段市场运行规律会发生一定的变化，基于过去总结的有效规律在未来也未必有效。（cis）

未经允许不得转载：某某博客 » 明汯投教｜何为模型及过拟合？如何在模型训练中预防过拟合？_中证网

某某博客

明汯投教｜何为模型及过拟合？如何在模型训练中预防过拟合？_中证网

热门推荐

某某博客

搜索

随机推荐

热门标签