不够努力,是方向错了。
他给陈曦发消息:“结果收到了。开源模型确实比我们的好。”
陈曦:“不是我强,是模型强。你们也可以试试。开源模型,成本低,效果好。不用自己从头训练。”
陆方:“我试试。”
陈曦:“需要帮忙吗?”
陆方:“需要。你教我怎么微调。”
陈曦:“好。我写个教程给你。”
陆方看着那行字,笑了。他想起2019年,陈曦第一次来公司,画了那张产业链图谱。那时候,她才11岁,什么都不懂。现在,她在伯克利,教他做大模型。时间过得真快。
陆方:“你才学多久,就比我们强了。”
陈曦:“不是我强,是模型强。你们也可以试试。”
陆方:“已经在试了。等你回来,我们一起做星海4.0。”
陈曦:“好。一言为定。”
2024年7月27日,星期六,上午九点。陈默走进技术部,看到陆方正对着屏幕发呆。
“怎么了?”陈默问。
陆方转过头。“陈总,昨天陈曦帮我跑了开源模型测试,准确率91.5%,比星海大模型模块高2.5个百分点。”
陈默愣了一下。“她怎么做到的?”
“用开源模型微调。LLaMA、Falcon、Bloom。在伯克利的服务器上跑了一个晚上。”
陈默走到屏幕前,看着那些数据。“你试了吗?”
“正在试。她用了一个简单的微调方法,只训练了最后一层。效果好,速度快。”
陈默笑了。“下一代,真的不一样。”
陆方点头。“对。他们比我们开放。我们习惯从零开始造轮子,他们习惯站在巨人的肩膀上。”
陈默拍了拍陆方的肩膀。“那就跟着他们学。”
陆方也笑了。“好。”
2024年7月28日,星期日,下午两点。陆方按照陈曦的教程,成功微调了LLaMA-7B模型。准确率91.2%,和伯克利的结果基本一致。他兴奋地给陈曦发消息:“成功了!91.2%。”
陈曦回复:“恭喜!接下来可以试试更大的模型,比如LLaMA-13B。准确率还能再提高。”
陆方:“13B需要更大的显存。我没有。”
陈曦:“用云服务。按需付费,不贵。”
陆方:“我试试。
本章未完,请点击"下一页"继续阅读! 第2页 / 共6页
