第71章 礼物 王mua
车子到了楼下后,吴辰终于放下了手机。
人无聊了别说用3g刷网页了,连洗发液包装上的字都能逐字细读。
他看姜楠好象脸色很冷漠的样子,于是建议道:“要不上楼休息一下再回去?”
姜楠的拒绝了,但她还是好心提醒道:“你快上楼吧,明天还要上早八,而且吴淑芬估计饿了两天了。”
“还好吧,它挺能挨饿……这个给你,送你的礼物。”
吴辰也没说他让闵欣柔帮忙的事,而是从包中把机场买的《三体》递了过去。
姜楠接过后,借着车里微弱的氛围灯看了几行,略微诧异。
“谢谢。”
“不用。”
吴辰说完就上楼了。
看着他的背景消失在单元门中,姜楠才踩下油门,同时给陈蓓桃拨了电话过去。
“姜姜,你该不会在玩什么很奇怪的游戏叭?”
陈蓓桃警剔道。
姜楠奇怪道:“什么游戏?”
“就是那种一边打电话一边昆的游戏鸭~”
“无聊。”
姜楠忍不住啐了一口。
虽然两人都没谈过恋爱,但陈蓓桃是个理论高手,阅片无数,所以她们的闺蜜密语也是很黄很暴力。
只不过外人难以想象罢了。
瞎扯了几句,姜楠问道:“是你和吴辰说了我是大刘的粉丝吗?”
大刘就是刘慈欣,国内着名的科幻作家,《乡村教师》、《全频道阻塞》和《三体》这些都是他的代表作。
“哦。”
姜楠淡淡的应了一声。
难道是吴辰从别的地方打听到了她很喜欢看科幻小说?
会不会是自己母亲告诉他的?
姜楠觉得大有可能。
不过陈蓓桃并不知道吴辰送了姜楠《三体》。
她只是兴奋道:“姜姜,送你的那支钢笔可是吴大佬用过的哦,我特意拿给你的,嘻嘻~”
“……”
-----------------
吴辰是真不知道姜楠也爱看科幻小说,他只是按自己喜好买的。
回到家中,空气中还残留着闵欣柔身上的栀子花香。
吴辰在屋子里溜达了一圈。
家里被打扫的异常干净,连边边角角里都被擦的一尘不染。
他又掀开吴淑芬的尾巴瞅了瞅,发现它的屁股也很干净,看来闵欣柔也帮它洗了澡。
“真是个温柔的好姑娘啊。”
吴辰忍不住感叹了一句。
简单洗漱了一下,他便准备开启今天的深度阅读。
但计算机开机后,他发现桌面上多了一个文档。
标题是《给吴老师doc》。
打开后,里面先是闵欣柔列的一个表格,详细说明了她把各种零碎物品放在了哪里,还有衣服分类存放的位置。
第二部分则是她这两天的学习感悟以及一些不懂的问题。
吴辰看了一遍后,将她的问题仔细回复好,然后把文档发到了她的qq上,留言有问题随时交流。
看的出来闵欣柔的数学功底很好。
至少吴辰在论文中用到的算法她都能理解。
尤其是高维矢量的部分。
有一些大四的学生可能都没搞懂,但她却能轻松运用。
吴辰打算回头问问闵欣柔愿不愿意读研。
如果她能一直保持这种学习态度,那下学期他可以推荐她一个保研的名称,顺便给她找个好点的导师。
……
处理完杂事后,吴辰便开始了自己的研究。
今天他选择研究的方向是:基于语义密度的自监督文本去噪算法
原因是他现在已经确定可以获取到讯飞、搜狗和天涯社区的文本内容。
但还需要经过处理,才能用作人工智能训练的语料。
举个例子。
假设他现在拿到了天涯社区里的一篇贴子是《大家畅想一下,二十年后的手机会是什么样子?》,内容是讲网友对未来科技的预测。
帖子的主体及高质量回复,就可以作为训练人工智能大模型的优质材料。
但除了正常回复外,还会有各种gg、水帖。
比如“沙发”、“顶”、“楼主好人”或者纯表情等等。
这些没有价值的回复,就称之为噪音,需要清除掉。
正常来说,是需要人类去完成这一步的。
openai就曾被爆料雇佣了肯尼亚黑奴来帮他们清洗数据,时薪不到2美元。
吴辰也想,但他还没那么多钱,所以就只能用技术来搞定了。
而基于word2vec的无监督文本噪声过滤技术,就是最好的选择。
它可以通过word2vec,先将帖子主体转化为高维语义矢量,再把每一条回帖也转化为映射的矢量,最后计算两者的馀弦相似度,来判断回帖是否与主题相关。
相似度高的内容,在数学空间里就会聚集成一个紧密的球体。
相似度高于设置阈值的,就