过,就两遍。两遍没过,就三遍。直到样本外也能跑出稳定的结果,才能考虑实盘。”
小林在本子上飞快地记着。
陆方忽然开口:
“周老师,那我们现在手里的数据,只到2010年7月。样本外只有一年半,够吗?”
周寻想了想:
“不够理想。但够了。”
他走到白板前,又画了一条时间轴:
```
训练集 验证集 测试集
| | |
2005-2007 2008 2009-2010
```
“标准的学术做法,是分成三份:训练集、验证集、测试集。验证集用来在开发过程中做初步验证,防止过度依赖训练集。测试集只在最后用一次。”
他看着陆方:
“我们数据不够,做不到三份。但至少,必须保证有一份完全没碰过的数据,做最终检验。”
陆方点头。
陈默站在旁边,一直没说话。
等周寻讲完,他才开口:
“第二条呢?”
周寻走到白板前,写下:
铁律二:奥卡姆剃刀——如无必要,勿增实体
他转过身:
“什么意思?在效果相近的情况下,永远选择更简单的模型。”
他指着陆方上周那条“完美曲线”:
“陆方那条线,为什么可能是过拟合?因为参数太多。他把动量因子的回溯期从6个月优化到5个月零3周,把估值因子的阈值从30%分位数调整到27.5%,把状态识别的波动率阈值从90%分位数改成88%。”
他顿了顿:
“这些数字,有经济含义吗?5个月零3周,和6个月有什么区别?27.5%和30%有什么区别?没有。它们只是让曲线更漂亮。”
他看着所有人:
“真正的规律,应该是简单的。如果两个策略收益差不多,选参数更少的那个。如果两个参数差不多,选逻辑更简单的那个。”
他走到白板前,画了一个天平:
```
复杂模型 简单模型
参数多、拟合好 参数少、泛化强
\ /
\ /
选哪个?
```
他放下笔:
“答案:在效果相
本章未完,请点击"下一页"继续阅读! 第2页 / 共5页
