因子挖掘是量化研究的起点,但"挖出一个回测好看的因子"和"挖出一个真实有效的因子"之间隔着一整套严格的验证流程。本文梳理 A股因子研究的类型框架与防过拟合纪律(方法论科普,不涉及具体因子的名称、公式与参数)。
A股量化因子大致可分为七类,覆盖不同的市场微观与基本面信号:
| 类型 | 信号来源 |
|---|---|
| 动量 Momentum | 价格趋势的延续性 |
| 反转 Reversal | 短期超跌/超涨的均值回复 |
| 价量波动 Volatility | 波动率与成交量结构 |
| 微结构 Microstructure | 盘口、逐笔、大单分类等高频信号 |
| 资金流 Money-flow | 主力资金、北向、龙虎榜 |
| 基本面 Fundamental | F10、财务、估值、分红 |
| ML 合成 ML-synthesized | 多因子非线性组合 |
每一类的原始数据口径都依赖一个稳定的数据底座——这正是 ReachRich 数据平台 解决的问题:统一口径、复权对齐、多源校验。
因子挖掘最大的陷阱是过拟合:在同一段历史上反复试参数,总能找到一个 Sharpe 很高的组合,但它只是拟合了噪声。要区分真实 alpha 与噪声,候选因子必须通过三道关:
出于知识产权保护,严肃的量化团队只公开验证方法与样本外效果,不公开因子的名称、公式、参数与模型权重。可复现的是流程,不是 alpha 本身。