返回第111章 黎明  王mua首页

关灯 护眼     字体:

上一页 目录 下一章

照他说的做。

吴辰仔细看了一下。

她的实现是在训练前,为每个句子预先采样生成n种分词结果,然后一起喂给模型。

思路是对的,但方法太粗暴了。

如果为每个句子都预生成多个版本,训练数据体积会爆炸,10也会成为瓶颈,严重拖慢训练速度。

靠他手搓的八张显卡,根本完成不了这样的任务。

必须要在动态和效率之间取得平衡。

吴辰拿起笔,在草稿纸上画了一个简化的流程图。

不能数据预处理阶段做,而是在训练时,在数据加载器内部做。

也就是每次向模型送出一批数据时,现场为其中的每个句子按概率采样一种分词结果。

这样做的话,同一个句子在不同训练周期见到模型时,可能就是不同的面貌,既实现了正则化,又避免了存储开销,计算代价也可控。

吴辰一边画,一边给闵欣柔讲起了修改方法。

闵欣柔则手指飞快的将吴辰说的每个字都记了下来。

只是在吴辰说话的停顿间,她突然有些恍惚,觉得好象回到了三天前的那个晚上。

等讲解完成后,吴辰又通篇看了一遍,发现其他地方都没什么问题。

于是他道:“你先按这个思路改,尽量三天内做完给我看看。”

“恩!

闵欣柔重重的点头。

大三上学期的课程不多,每周只有10节课不到,所以她有足够的时间。

在她开始修改后,吴辰也整理起了自己要做的工作。

按照目前的进度,理论方面他已经完成了word2vec,位置编码和多头注意力机制的推导。

加之闵欣柔完成的bpe分词。

那么剩下的,就只有一件事。

他打开了word,打算完成最终的一块拼图。

transforr架构。

所有未来人工智能大语言模型的起点。

它就在那篇经典、着名的论文中。

《attentionlsallyouneed》。

当吴辰敲下第一个字母的时候,明明是秋老虎最嚣张的时候,但他依然感觉到一丝凉意在脑海中蔓延开来。

这和系统无关。

只是他自己太过激动罢了。

对这篇论文的内容,他上辈子早已背的滚瓜烂熟。

所以手放在键盘上时,根本就不需要思考。

👉&128073; 当前浏览器转码失败:请退出“阅读模式”显示完整内容,返回“原网页”。

『加入书签,方便阅读』

上一页 目录 下一章