返回第102章 BPE算法完成!  王mua首页

关灯 护眼     字体:

上一章 目录 下一页

喝完粥后,闵欣柔去洗碗。

吴辰则打开计算机,把给康宁药厂的解决方案写成了一份文档。

前后时间总共花了不到半个小时。

但这份文档,却能为他赚100万。

等明天钱到帐后,就又是1000点的技能点到帐。

等梁嘉诚帮自己把深圳的地皮搞定后,他就可以从系统商城中买设备生产初级的显卡了。

伸了个懒腰,忙碌了一天的吴辰也感受到了一丝倦意。

他站起身想回卧室睡觉,一转头才发现闵欣柔还坐在旁边看着自己,吴淑芬则在她纤细的大腿上呼呼大睡。

“你怎么不去睡觉,有什么问题吗?”

吴辰问。

闵欣柔似乎走神了。

她连忙挪开目光,神情有些慌张。

不过说到问题,她又冷静了下来,不好意思道:“老师,我在实现bpe算法的时候发现rge规则很怪,词表切出来全是单字,英文还被拆成一个一个字母。”

“我看看。”

吴辰坐到她身边,看向了她的屏幕。

从上次他帮闵欣柔理清思路后,小姑娘的工作果然进入了正轨。

她先花了两天从天涯上抓取了5000条高质量的帖子,并且将贴子的每一个部分都分成了标题、

内容两个部分。

除此之外,每个贴子还包含了至少5条有效回复。

而且她没有象最开始的200多条数据那样去标记各种颜色,甚至还加粗加下划线来标注重点。

因为那是给人看的。

这一次的数据数据,完全就是最原始的数据。

虽然这项工作的绝大部分时间都是在机械的复制和粘贴,十分考验耐心。

但它的成果,也是用来训练人工智能大语言模型最佳的分词语料。

吴辰运行了一下她的分词算法程序。

果然如闵欣柔所说,虽然能运行,但生成的分词结果却不对。

但这个问题应该不是语料质量不够。

吴辰一时也想不明白,必须要仔细看一下她的代码才能发现问题。

干是他道:“你帮我去泡杯咖啡,然后把烟灰缸拿过来。”

闵欣柔站起身,一瘤一拐的先去把烟灰缸拿了过来。

但她尤豫了一下道:“老师,今天太晚了,您要是累了的话就先休息,我再研究研究,明天您再帮我看也是一样的。”

“不用。”

吴辰直接拒绝了。

深夜才是调试代码的最好时机。

没有产品经理在旁边bb,没有沙雕同事突然把数据库弄坏,也没有闲着没事干的领导突然要开站会。

见他态度坚决,闵欣柔便没有再劝,而是乖乖去厨房了。

“喵!”

闵欣柔都没说什么,倒是刚刚睡在她大腿上的吴淑芬不满了。

吴辰瞅了它一眼,当即给了几个耳刮子。

这傻猫不知道在叫什么,要是他们现在不努力,它哪还有罐罐吃。

等闵欣柔泡好咖啡回来后,吴辰已经把她的代码基本看了一遍,并且已经发现了问题。

于是喝了一口后,他立即开始指导了起来。

“首先,你在这个地方的pair频次统计用的不对,你遍历的是vocab的键,完全忽略了每个词条的出现次数,所以每一轮选出来的最频繁符号对其实并不频繁。”

pair频次统计在bpe分词算法中,是用来决定每一轮要合并哪一对相邻符号的。

只有把词频权重算进去,rge规则才会稳定收敛。

闵欣柔把它的代码写成了这样:

这就导致她每轮合并挑到的pair像抽签一样,越训练越碎,最后分词当然乱。

盯着吴辰指出的地方看了半天,闵欣柔才若有所思的开口。

“老师,是不是要在遍历时加权,而且合并时还要考虑边界?”

“没错。”

吴辰夸奖了一句。

他果然没有看错人。

闵欣柔腼典的笑了起来。

不过吴辰看她笑了半天,也不见她动手改代码,于是提醒道:“改啊。”

“啊,是您看着我改吗?”

闵欣柔有些吃惊。

“不然呢,难道我帮你改?”

吴辰奇怪的反问。

“呃,好————”

闵欣柔扭捏着靠近了一点,然后在吴辰的注视下敲起了键盘。。

“认真点。”

吴辰把手敲了敲她的脑袋。

被教训的闵欣柔缩了缩脖子。

不过看到吴辰认真的眼神,她也终于收敛思绪,开始认真思考了起来。

这一次,她改代码的效率明显提升了不少。

两个小时后,代码终于被改好了。

最终的代码是这样:

怀着激动的心情,闵欣柔运行了程序。

她并没有直接对5000条数据进行分词,因为那会花几十个小时。

所以她先用100条数据进行

『加入书签,方便阅读』

上一章 目录 下一页