RR-Agent › Topics › 因子挖掘 · Factor Mining for China A-shares — Complete Hub

🔍 因子挖掘 · Factor Mining for China A-shares

量化研究最磨人也最有意思的环节。本主题页汇总因子挖掘的完整方法论、类型框架、防过拟合纪律与典型陷阱。

七类因子类型

每一类的底层数据口径必须一致——这正是 ReachRich 数据契约层解决的问题。

候选因子必须过三道关才能进候选池: 1. 样本外 OOS——挖掘时未见过的时间段重新验证; 2. DSR 多重检验校正——对"试了多少次"做显式调整; 3. 交易成本 gate——扣除冲击成本 + 手续费 + 滑点后仍为正。

你以为有 50 个因子,矩阵一看实只 5-10 个独立维度——剩下都是高度相关的"近亲"。共线性会让模型权重不稳定 + 回测虚高。诊断三件套:相关系数矩阵 + 层次聚类 + VIF。详见因子相关性深度。

LLM 用来辅助构造候选、综合文献、生成代码原型——但不能替代统计纪律:LLM 生成的候选必须过 CPCV + DSR + 成本 gate。我们把它定位为"研究助手",不是"alpha 生成器"。详见 LLM 辅助因子挖掘。

因子的名称、公式、参数、模型权重是研究 IP,不公开;公开的是验证方法 + 样本外效果(集合层 excess、DSR p 值等)。这不是藏着掖着,是合规与研究纪律——尤其在持牌投顾环境下,公开实现等同于免费送 alpha。