18%。第二,语义理解错误——比如,把‘目标市占率’理解成‘实际市占率’。这两种错误,都需要人工复核。”
周寻点头。“人机结合,永远是这样。”
陈默从门口走进来,站在白板旁边。“这就对了。机器做它擅长的快,人做我们擅长的准。”
陆方继续说:“下一步,我们计划把星海摘要的范围从券商研报扩展到上市公司公告、行业新闻、招股书。目标是在年底前,覆盖所有投研所需的中文文本。”
陈默问:“幻觉问题,能彻底解决吗?”
陆方想了想。“不能。因为大模型的本质,是预测下一个词。它不知道什么是‘事实’,什么是‘虚构’。所以,幻觉永远存在。我们能做的,是降低幻觉率,但不能归零。”
陈默点头。“那就接受它。人机结合,它出活,人复核。”
上午十点,研究部。沈清如带着研究员们测试星海3.5的摘要功能。她随机选了十份研报,让星海生成摘要,然后让研究员逐份核对。结果:十份摘要中,八份准确,一份有幻觉(把营收增速15%写成18%),一份语义理解错误(把“研发投入占比”写成“研发费用资本化率”)。准确率80%,低于陆方说的92%。她皱了皱眉,叫来陆方。
“陆方,这十份的准确率只有80%。你测的100份是92%,为什么?”
陆方看了一眼测试数据。“因为这十份研报里,有两份是港股公司的。星海对港股公司研报的理解能力弱于A股。因为训练数据中,港股研报的比例较低。”
沈清如点头。“那就增加港股研报的训练数据。”
陆方说。“已经在做了。陈曦在伯克利那边也在帮我们爬数据。”
沈清如笑了。“她比我们当年强。”
陆方也笑了。“对。”
上午十一点,陈默办公室。沈清如推门进来,手里拿着测试结果。
“星海3.5的摘要准确率,A股研报92%,港股研报80%。总体88%。”
陈默接过报告,看了一遍。“88%已经很高了。人也就90%。”
沈清如在他对面坐下。“但幻觉问题还是存在。万一研报里关键数据错了,星海摘要也跟着错,我们就会踩雷。”
陈默点头。“所以,不能完全信任。人机结合,它出活,人复核。”
沈清如说。“我让研究员每天下午三点前,复核当天的星海摘要。错的地方标注出
本章未完,请点击"下一页"继续阅读! 第2页 / 共6页
