RR-Agent › 洞察 › LLM 辅助因子挖掘:从候选生成到严格验证

LLM 辅助因子挖掘:从候选生成到严格验证

"用 GPT 挖因子"听起来很潮,但 LLM 在量化里的真实价值不是"生成 alpha",而是加速研究流程:候选构造、文献综合、代码原型、错误检查。统计纪律不能被 LLM 替代。本文讲怎么把 LLM 嵌入因子研究而不被它误导。

LLM 能做什么

候选构造:基于领域提示(例如"基于隐含波动率与成交量分歧"),生成多个因子草案;
文献综合:把一篇学术论文的因子定义转成可实现的伪代码;
领域知识注入:对 A股特有现象(涨跌停、停牌、北向资金、概念炒作)做情境化解释;
错误检查:审视回测代码是否有未来函数、信息泄露;
报告/沟通:把回测结果整理成可读报告。

LLM 不能做什么(也不应做)

判定一个因子"有效"——这是统计学的事,LLM 不能替你跑 CPCV + DSR;
生成可直接上线的因子——LLM 产生的候选必须过防过拟合三件套;
替代领域常识——A股的微观结构、税费、停牌规则等细节,LLM 经常出错,需人工核对。

工作流建议

LLM 生成 N 个候选 + 经济直觉解释;
人工筛掉无意义/数据不可得/与已有因子高度相关的;
余下候选过样本外 + DSR + 成本 gate;
通过的进入候选池,公开类型与样本外效果,不公开公式参数(IP 保护)。

LLM 是"研究助手",不是"alpha 生成器"。详见因子挖掘方法论。

📖 相关阅读 / Related

← 更多洞察 · 首页 · reachrich.ai