量化研究最磨人也最有意思的环节。本主题页汇总因子挖掘的完整方法论、类型框架、防过拟合纪律与典型陷阱。
| 类型 | 信号 |
|---|---|
| 动量 Momentum | 价格趋势延续 |
| 反转 Reversal | 短期均值回复 |
| 价量 / 波动 | 价格-成交量耦合,波动 regime |
| 微结构 Microstructure | 逐笔、盘口、大单分类 |
| 资金流 Money-flow | 主力净流入、北向、龙虎榜 |
| 基本面 Fundamentals | F10、财报、估值、分红 |
| ML 合成 | 非线性多因子组合 |
每一类的底层数据口径必须一致——这正是 ReachRich 数据契约层解决的问题。
候选因子必须过三道关才能进候选池: 1. 样本外 OOS——挖掘时未见过的时间段重新验证; 2. DSR 多重检验校正——对"试了多少次"做显式调整; 3. 交易成本 gate——扣除冲击成本 + 手续费 + 滑点后仍为正。
详见 CPCV + DSR 主题页 与 回测防过拟合方法论。
你以为有 50 个因子,矩阵一看实只 5-10 个独立维度——剩下都是高度相关的"近亲"。共线性会让模型权重不稳定 + 回测虚高。诊断三件套:相关系数矩阵 + 层次聚类 + VIF。详见 因子相关性深度。
LLM 用来辅助构造候选、综合文献、生成代码原型——但不能替代统计纪律:LLM 生成的候选必须过 CPCV + DSR + 成本 gate。我们把它定位为"研究助手",不是"alpha 生成器"。详见 LLM 辅助因子挖掘。
因子的名称、公式、参数、模型权重是研究 IP,不公开;公开的是验证方法 + 样本外效果(集合层 excess、DSR p 值等)。这不是藏着掖着,是合规与研究纪律——尤其在持牌投顾环境下,公开实现等同于免费送 alpha。