某某博客某某博客某某博客

明汯投教 | 如何理解金融数据的复杂性及数据处理的重要性?_中证网

中国证券报·中证网

  一般而言,量化投资可粗略分为6个环节:收集数据、数据清洗、特征提取、模型开发、组合优化、交易执行。在《明汯投教| 量化投资一般有哪些环节及哪些策略类别?》中提到,目前主流量化私募在收集数据这一环节很难做到多大的差异,而其他环节则几乎千差万别,背后考验的恰是管理人对市场的理解程度和技术能力。

  以数据清洗和预处理环节为例,数据数量和质量将直接影响最终投资组合表现,其中数据的数量则是制约机器学习模型训练和预测准确度的关键因素。数据清洗和预处理的步骤一般包括:缺失值处理、 重复值处理、数据去极值、 数据中性化(指消除数据中的某些因素对投资策略的影响,从而使策略更具普适性和可靠性。常见的中性化包括市值中性化、行业中性化、风格中性化等)、数据标准化(如日期可能需要被转换为特定的格式)等。

  1、金融数据的复杂性:

  低信噪比

  金融数据中噪音比例高,提取有效信号的难度较大,模型如果调整不够得当,就容易学习“噪音”。由于这一特性,量化投资在模型开发和调校时尤其强调避免过拟合。

  同时,处理金融数据时要非常注重逻辑。以A股为例,不同股票具有不同涨跌停规则,此外新股上市以及复牌等行为都需要特殊处理,在逻辑的基础上对信息进行合理的挖掘、过滤、组合。

  时序单调性

  证券交易数据等时间序列有时序性(时间不可倒流),且金融市场时刻存在博弈,规律具有时变特性。量化投资方法论的目的是用历史数据预测未来,所以一定要避免未来信息的引入,并合理评估历史回测。

  2、金融数据的类别

  (1)按照数据格式分:

  标准化数据

  常见的是截面、时间序列等数值类型数据,如交易所原始数据、原始行情及各类衍生出的价格、交易量、K线图等。普通投资者在炒股软件上看的分时图、K线图等数据也都衍生于交易所的原始数据,这些较为干净的被称为“标准化数据”。

  非标准化数据

  以文本数据为主,包括财经新闻、财经论坛问答、卖方分析师投资报告、第三方机构提供的特殊数据等。这些数据里低相关非重大信息占比高,相比标准化数据会更复杂一些,所以被称为“非标准化数据”。为应用于量化策略开发,必须先对其进行数据清洗等结构化处理。

  (2)按照数据来源分:

  价量数据:

  价量数据包括一切能从市场交易行为中提取的信息,不局限于股票及其他资产的价格,以及衍生的各项技术类指标。包括日间量价数据(日K)、日内量价数据(分时数据)、逐笔数据(股票的每笔成交和挂单数据)。其中日内量价数据的体量是日间数据的几百到几千倍,逐笔数据的体量可以是日间量价数据的万倍以上。

  基本面数据:

  既包括宏观基本面、产业链上下游发展、行业发展趋势等,也包括上市公司的财务报表如资产负债表、利润表、现金流量表等。

  主观投资在获取及处理基本面数据上拥有明显的相对优势,通过深度调研还可获取非公开非结构化信息——比如企业正在跟进或已经跟丢某个关键的大订单,或用卫星拍摄汽车生产公司的厂房,通过照片上特殊金属的反光程度大致估算存货。

  事件驱动数据:

  通过预测市场对特定事件的反应不足或过度反应,判断股票价格变化以获取超额回报。在金融领域,“事件”通常指“可能在短期导致投资者预期发生变化、对公司的基本面或其股票价格产生重大影响的情况”。比如:

  ·股票回购和股东增持:公司回购股票或者股东一定规模的增持,往往代表内部人员认为股价低估,是给市场的正向信号。如果大股东和高管减持,会被认为是负向的alpha。

  ·热点个股和市场炒作较多的股票:交易量突然增大并伴随大幅上涨,同时又没有基本面改善支持的股票,通常会在不久后大幅跑输市场平均,可作为很好的负向alpha因子。

  另类数据:

  另类数据是个相对的概念——当某种另类数据逐渐被市场上大部分参与者所接纳和使用时,就不再“另类”。目前来看,另类数据包括所有投资研究中使用的非传统来源的新型数据,如ESG数据、社交媒体评论、卫星图像、移动设备数据、应用程序使用情况、互联网搜索记录和消费者交易数据等。

  另类数据研究在海外已拥有较为成熟的应用。另类投资管理协会(AIMA)与金融科技公司SS&C合作发布的报告显示,目前全球活跃的另类数据供应商超过400家,而1990年时只有20家。根据AIMA与美国银行的联合调查,目前约有一半的资管机构已经使用另类数据,且这一数量还在不断增长。

  但在国内,由于金融市场发展阶段的差异性,具体表现为获取难度偏大(高价值数据获取难、易获取数据质量低)、成本相对较高,非结构化数据的处理技术还不够成熟等原因,目前另类数据领域仍属蓝海。除了与多家数据第三方保持联动外,不少主流私募也在以较快的速度不断搜集、积累和持续探索另类数据,以寻找多元化、差异化的alpha来源。

  另类数据较为分散、来源众多,在这里仅举几个简单的例子:

  ·电商数据:电商会有各大类消费品的销售数据,根据这些数据和去年同期的比较和月度之间的比较,可以预测一部分消费类公司股票的未来销售和盈利情况。

  ·商品期现价格和库存:通过商品现货期货价格和库存的数据可以对商品未来价格有一定预测,也可以用来预测原材料类上市公司的业绩情况。

  一般而言,数据点及结构化数据越多,越有利于量化投资进行建模。如果某个大事件历史上没有发生过或仅发生过几次,基于过往总结出的“规律”在这个阶段不一定有效,也很难找到合适的数据来训练,进而影响置信度。目前国内主流量化私募的模型中价量因子占比较高,同时持续对基本面因子深入研究。随着量化行业的持续发展,未来各类因子都会提供非常重要的贡献。(CIS)

未经允许不得转载:某某博客 » 明汯投教 | 如何理解金融数据的复杂性及数据处理的重要性?_中证网