RR-Agent洞察 › A股量化因子挖掘方法论:七类因子与防过拟合验证

A股量化因子挖掘方法论:七类因子与防过拟合验证

因子挖掘是量化研究的起点,但"挖出一个回测好看的因子"和"挖出一个真实有效的因子"之间隔着一整套严格的验证流程。本文梳理 A股因子研究的类型框架与防过拟合纪律(方法论科普,不涉及具体因子的名称、公式与参数)。

七类因子候选

A股量化因子大致可分为七类,覆盖不同的市场微观与基本面信号:

类型 信号来源
动量 Momentum 价格趋势的延续性
反转 Reversal 短期超跌/超涨的均值回复
价量波动 Volatility 波动率与成交量结构
微结构 Microstructure 盘口、逐笔、大单分类等高频信号
资金流 Money-flow 主力资金、北向、龙虎榜
基本面 Fundamental F10、财务、估值、分红
ML 合成 ML-synthesized 多因子非线性组合

每一类的原始数据口径都依赖一个稳定的数据底座——这正是 ReachRich 数据平台 解决的问题:统一口径、复权对齐、多源校验。

为什么"回测好看"不够

因子挖掘最大的陷阱是过拟合:在同一段历史上反复试参数,总能找到一个 Sharpe 很高的组合,但它只是拟合了噪声。要区分真实 alpha 与噪声,候选因子必须通过三道关:

  1. 样本外(OOS):在挖掘时未见过的时间段上重新验证;
  2. DSR 多重检验校正:见 量化回测如何防过拟合;
  3. 交易成本 gate:扣除冲击成本、手续费后仍为正。

因子只展示类型,不公开实现

出于知识产权保护,严肃的量化团队只公开验证方法与样本外效果,不公开因子的名称、公式、参数与模型权重。可复现的是流程,不是 alpha 本身。

详见 研究方法论因子库类型