返回第58章 论文打假  王mua首页

关灯 护眼     字体:

上一章 目录 下一页

关于这个问题,吴辰早已经有了想法。

“你有没有想过,为什么已经过去这么久,aβ56还是只能由西尔万的实验室合成,以至于1克样本就要300万美元?”

“难度太大了。”

姜楠说。

与其花费巨大风险去提取,还不如直接购买样品。

“所以这就是医药类论文是造假重灾区的一个重要原因啊。”

吴辰说。

听到他的调侃,姜楠忍不住又是一个白眼,但却没有反驳。

不过她也懒的再问了,反正吴辰说不出一周就会有结果。

这一点上,她还是相信对方的。

到家后,姜楠一进门,就发现父母正坐在客厅里等自己。

看着他们八卦的眼神,她忍不住一阵扶额。

-----------------

在姜楠努力陈述自己还不想恋爱,两人只是同事关系时,吴辰已经到家了。

简单洗漱了一下,又把吴淑芬喂饱,他便打开计算机,找到了那篇着名的论文:

《a specific ayloid-β assebly the bra ipairs ory》。

中文名是《大脑中一种特定的β淀粉样蛋白组装体损害记忆》,第一作者西尔万。

通读了一遍论文后,吴辰果然发现了几个问题。

不过让他一点一点的去抠图分析,那是不可能的。

这没有一两个星期是做不下来的,他不会在这件事情上浪费这么久。

所以他选择用图象分析的方法来做,这样就能非常轻易的检查出图象的拼接问题。

于是他基于opencv,快速编写了一个图象特征分析算法,来计算每条条带的灰度分布和背景噪点的标准差。

如果图象涉嫌造假,那么这两个值的差异会非常大。

除此之外,为了更具有信服力,他又单独用canny算子检测了条带边缘。

如果是拼接的图片,那么边缘肯定会有象素级的断裂痕迹,与正常条带的连续边缘差别很大,也可以作为实锤证据之一。

除了对图象本身份析外,还需要对实验数据进行处理。

吴辰先将论文中实验小鼠的逃避潜伏期(escape tency)提取出来,然后计算了它的变异系数cv。

其中,逃避潜伏期是指生物实验时,实验动物从进入水迷宫,到成功爬上隐藏平台所需的时间。

正常小白鼠的时间,肯定要比注射了aβ56蛋白的时间要短。

将两个算法在启明一号上运行起来后,吴辰觉得有点饿,就去给自己煮了一包泡面。

15分钟后,数据结果刚好出来。

当然这是基于他opencl架构的计算机,如果是其他人的计算机,是不可能这么快计算出结果的,时间至少要多十几倍。

检查一番后,吴辰发现计算结果果然如自己所料,存在大量的造假痕迹。

第一张图经过扫描后,一眼就可以看出aβ56条带的背景噪点,和其他条带完全不是一个画风。

很明显就是拼接上去的。

而实验数据就更离谱了。

就象一场满分100的期末考试,班级的平均分竟然是95。

这种方差的离散值,在常理计算中是不可能的。

有这两份数据,基本就可以实锤西尔万的这篇论文造假了。

但吴辰并不满足于此。

因为这篇论文的问题,实际上在业内已经有过讨论了。

最主要的一个问题,就是有多个实验室在尝试合成aβ56时,都以失败告终。

但这篇文章是发表在《自然》上的,而且西尔万的老师还是在阿尔兹海默症研究领域内的大牛卡伦阿什,所以大家更多的时候都在怀疑自己。

或者说,就算这篇论文中的数据有问题,那也没法证明aβ56是无效的。

因为阿尔兹海默症患者体内的β淀粉样蛋白确实产生了病变。

要证明这个问题,就象是辩证先有鸡还是先有蛋一样。

但吴辰也有自己的解决方案,那就是用支持矢量机sv和rosetta(一个用于蛋白质结构建模的软件),来预测aβ56的特性。

因为他记得一个关键点,就是后世已经证明,aβ56蛋白极不稳定,其特性根本不可能导致阿尔兹海默症。

有了思路后,吴辰从系统提供的全量医药数据库中,找出了10万条已知稳定性的蛋白串行,然后将串行特征中的疏水指数、氨基酸电荷和二级结构作为算法的输入特征,来训练sv模型。

除此之外,还需要用rosetta来预测 aβ56的三维结构。

不过这一次的计算量,就不是几张图片解析那么容易了。

初步预估的计算时间在两天以上。

确认算法运行稳定后,吴辰便将它丢在一边,开始了今日份的学习。

“系统,激活深度阅读状态!”

【深度阅读状

『加入书签,方便阅读』

上一章 目录 下一页