第112章 《Attention Is All You Need》 王mua
科学发展史上有许多篇章,其诞生便宣告着一个旧时代的终结与新时代的开启。
《自然哲学的数学原理》,牛顿。
他奠定了经典力学的基石,让人类第一次以此丈量宇宙。
《论动体的电动力学》,爱因斯坦。
他重塑了人类的时空观,告诉我们时间与空间并非恒定不变。
而2017年的《attentionisallyouneed》中提出的transforr架构,开启了生成式人工智能(aigc)与大语言模型(ll)的黄金时代。
可谓没有transforr,人工智能万古如长夜。
在它之前,自然语言处理(nlp)领域长期处于黑暗的摸索期,采用n或rn
的方法。
n,即卷积神经网络,好处是计算效率高,可以并行处理,善于捕捉局部特征。
rnn,即循环神经网络及其变体lst,好处是天生适应串行数据,能按顺序理解上下文。
但它们的坏处也同样明显。
n看不远,它难以捕捉长距离的词语关系。
rnn跑不快,并且必须读完前一个词才能读下一个词,无法并行计算,一旦句子太长,就会出现梯度消失,导致机器阅后即焚,读了后面忘了前面。
总之它们的根本局限在于,信息在串行中必须一步一步地传递。
这种固有的顺序性成为了处理长串行、捕捉全局上下文的瓶颈。
而transforr架构,就是为了解决模型又慢又忘的绝症。
它的原理说复杂,那确实很复杂。
比如多头注意力机制(ulti—headattention)、位置编码(positional
endg)和前馈神经网络(feed—forwardworks)。
但它的内核能力,其实也非常简单。
就是字面意思:
翻译。
把人类的语言,翻译成计算机能读懂的数字,然后计算这些数字之间的关系。
它不再象小学生读书那样一个字一个字地读,而是一眼看完整篇文章,然后把注意力(attention)集中在那些最关键的词与词的联系上。
它和word2vec的关系,是砖块与建筑的关系。
word2vec负责将人类的语言变化为数字砖。
而transforr负责将这些砖块搭建成有意义的摩天大楼。
最终达成的效果,就是可以精确的计算一个长句子中,每个词与其他词之间的关系。
这里面的重点,是:长句子。
映射的解法,是:长距离依赖。
比如下面这句话。
thecatateafishbecaeiashungry。
翻译:这只猫吃了一条鱼,因为它饿了。
对人类来说,看到“它饿了”这三个字中的它,可以非常轻松的知道它指的就是猫。
但对机器来说,这个它指的到底是猫还是鱼,是不明确的。
必须要计算才能得出结果。
而计算的方法,就是transforr中的自注意力机制(self—attention)。
通过计算每个词和其他词之间的关系,就能知道它和谁距离更近。
比如在这里计算出“它”和“猫”离的更近,关注度权重(atttio
weight)更高。
那么机器就知道,这个它指的是猫,而不是鱼。
当然这里面的逻辑计算十分复杂,并非几句话可以说清楚的。
在吴辰疯狂敲击着键盘的时候,闵欣柔也不由自主的看了几眼。
不过很快她就发现自己思考的速度,还跟不上吴辰打字的速度。
一个个矩阵变换公式如流水般从他的指尖下翻涌到了屏幕上。
闵欣柔完全看不懂。
但吴辰写在其中的一段解释,她看懂了。
“只要算力足够,模型就能无限堆栈。只要数据足够,机器就能在数学空间里涌现出智慧。”
“我们不再需要教机器语法。”
“我们只需要让它学会:关注。”
“在这个架构中,串行中任意两个位置之间的距离被缩短为1。”
“无论句子有多长,无论因与果相隔多少个字符,它们都能通过自注意力机制瞬间创建直接连接。”
“我们将不再受限于时间的顺序。”
“我们将同时看到过去、现在与未来。”
闵欣柔觉得自己的心跳漏了一拍。
难道————
这就是真正的人工智能的钥匙?
沉默片刻后,她轻手轻脚的起身,去厨房泡了一杯咖啡,然后轻轻的放在桌子上。
若是平时吴辰至少会点头示意一下。
但此时他完全没有察觉。
他感觉自己的大脑在以前所未有的速度运转着。
编码器ender,负责理解