RR-Agent › 洞察 › 量化回测如何防过拟合:CPCV 交叉验证 + DSR 多重检验

量化回测如何防过拟合:CPCV 交叉验证 + DSR 多重检验

"回测 Sharpe 很高"几乎不能说明任何问题——只要你试的参数组合够多,总有一个看起来很好。本文讲量化回测中防过拟合的三件套(方法论科普,数字均为口径说明,非业绩承诺)。

问题:多重检验下的"幸存者"

如果你在同一段历史上测试了 N 个策略变体,即使它们全是随机的,最高的那个 Sharpe 也会显得很"显著"。这就是多重检验偏差。直接拿回测最高 Sharpe 当结论,等于在自欺。

把时间序列切成多个块,做组合式的训练/测试划分,并在训练与测试之间设置 purge / embargo 防止信息泄露。比单次留出法更稳健,能给出回测指标的分布而非单点。

对"试了多少次"做显式校正:把试验次数、回测长度、收益偏度峰度都纳入,算出扣除多重检验后的真实显著性。一个 DSR 显著的因子,远比一个裸 Sharpe 高的因子可信。

回测必须扣除冲击成本 + 手续费 + 滑点。很多"高 Sharpe"因子在扣成本后归零。换手越高,这一关越致命。

回测数字一律标注"回测口径",绝不冒充实盘;实盘曲线应以真实持仓 × 真实收盘价计算、可对账。任何把回测 Sharpe 当真实业绩宣传的做法,在持牌合规下后果更重。

数据口径的一致性(同源实时与历史)是回测可信的前提,见 ReachRich 稳定与准确。