RR-AgentTopics › 因子挖掘 · Factor Mining for China A-shares — Complete Hub

🔍 因子挖掘 · Factor Mining for China A-shares

量化研究最磨人也最有意思的环节。本主题页汇总因子挖掘的完整方法论、类型框架、防过拟合纪律与典型陷阱。

七类因子类型

类型 信号
动量 Momentum 价格趋势延续
反转 Reversal 短期均值回复
价量 / 波动 价格-成交量耦合,波动 regime
微结构 Microstructure 逐笔、盘口、大单分类
资金流 Money-flow 主力净流入、北向、龙虎榜
基本面 Fundamentals F10、财报、估值、分红
ML 合成 非线性多因子组合

每一类的底层数据口径必须一致——这正是 ReachRich 数据契约层解决的问题。

防过拟合三件套

候选因子必须过三道关才能进候选池: 1. 样本外 OOS——挖掘时未见过的时间段重新验证; 2. DSR 多重检验校正——对"试了多少次"做显式调整; 3. 交易成本 gate——扣除冲击成本 + 手续费 + 滑点后仍为正。

详见 CPCV + DSR 主题页回测防过拟合方法论

因子共线性

你以为有 50 个因子,矩阵一看实只 5-10 个独立维度——剩下都是高度相关的"近亲"。共线性会让模型权重不稳定 + 回测虚高。诊断三件套:相关系数矩阵 + 层次聚类 + VIF。详见 因子相关性深度

LLM 在因子挖掘中的角色:工具,不是产品

LLM 用来辅助构造候选、综合文献、生成代码原型——但不能替代统计纪律:LLM 生成的候选必须过 CPCV + DSR + 成本 gate。我们把它定位为"研究助手",不是"alpha 生成器"。详见 LLM 辅助因子挖掘

完整文章

为什么因子库不公开公式

因子的名称、公式、参数、模型权重是研究 IP,不公开;公开的是验证方法 + 样本外效果(集合层 excess、DSR p 值等)。这不是藏着掖着,是合规与研究纪律——尤其在持牌投顾环境下,公开实现等同于免费送 alpha。