个切掉?”
顾屿抛出了这个在当时看来极其离经叛道的理论。
任少卿愣住了。安德烈直接站了起来,连连摇头。
“这不可能的顾。没有RNN的循环结构,模型怎么知道这句话里哪个词在前面,哪个词在后面?语言是有顺序的,直接切掉它,输入进去的东西就变成了一盘散沙。”
顾屿笑了笑。这就是他作为“穿越者”带来的认知差距。
他不需要自己去推导那些复杂的数学公式,他只需要在这些绝顶天才走上岔路口的时候,伸手把他们推上那条名为未来的高速公路。
“谁规定注意力只能用来让输出端去看输入端?”顾屿敲了敲桌面,抛出了那个价值千金的灵魂拷问。
“一个句子里面的每个词,为什么不能对这句话里的其他所有词施加注意力?让序列内部自己看自己。”
会议室里安静得落针可闻。
安德烈的眼睛瞪大,此刻只觉像遭了高压电击。
顾屿提出的这个概念,就是后世大模型时代的基石。
自注意力机制。
为了让这几个天才彻底打通任督二脉,顾屿开始用最通俗的语言描绘那个恐怖的数学模型。
“你们把每一个词想象成带着三个不同身份去参加相亲大会。我们管这三个身份叫Q、K和V。”
顾屿竖起三根手指。
这其实是一个非常直白的查询匹配逻辑。
Q代表QUery,也就是查询。相当于你带着一个问题去图书馆找书。
K代表Key,也就是键值。相当于书架上每一本书的标签和简介。
V代表ValUe,也就是内容。相当于那本书里真正写着的知识。
“当一个词想要理解自己在句子中的含义时,它就拿着自己的Q,去和句子里所有其他词的K进行匹配打分。谁的分数高,就说明谁跟它关系最紧密。然后把高分对应的V提取出来,融合到自己身上。”
顾屿看着屏幕那头目瞪口呆的三人,做出了最终的总结陈词。
“不需要排队。所有的词在同一时间,拿着自己的Q去和别人的K进行矩阵相乘。这完全是一个可以用GPU暴力加速的并行矩阵运算。”
安德烈根本没等顾屿把话说完。他直接抄起一支红色的马克笔,转身扑向了背后的白板。
笔尖在白板上疯狂摩擦,发出一连串刺耳的吱吱声。一串串极其复杂的矩阵变换公式被
本章未完,请点击"下一页"继续阅读! 第2页 / 共5页
