LLM 辅助因子挖掘:从候选生成到严格验证
"用 GPT 挖因子"听起来很潮,但 LLM 在量化里的真实价值不是"生成 alpha",而是加速研究流程:候选构造、文献综合、代码原型、错误检查。统计纪律不能被 LLM 替代。本文讲怎么把 LLM 嵌入因子研究而不被它误导。
LLM 能做什么
- 候选构造:基于领域提示(例如"基于隐含波动率与成交量分歧"),生成多个因子草案;
- 文献综合:把一篇学术论文的因子定义转成可实现的伪代码;
- 领域知识注入:对 A股特有现象(涨跌停、停牌、北向资金、概念炒作)做情境化解释;
- 错误检查:审视回测代码是否有未来函数、信息泄露;
- 报告/沟通:把回测结果整理成可读报告。
LLM 不能做什么(也不应做)
- 判定一个因子"有效"——这是统计学的事,LLM 不能替你跑 CPCV + DSR;
- 生成可直接上线的因子——LLM 产生的候选必须过 防过拟合三件套;
- 替代领域常识——A股的微观结构、税费、停牌规则等细节,LLM 经常出错,需人工核对。
工作流建议
- LLM 生成 N 个候选 + 经济直觉解释;
- 人工筛掉无意义/数据不可得/与已有因子高度相关的;
- 余下候选过样本外 + DSR + 成本 gate;
- 通过的进入候选池,公开类型与样本外效果,不公开公式参数(IP 保护)。
LLM 是"研究助手",不是"alpha 生成器"。详见 因子挖掘方法论。