谷歌 DeepMind 被指抄袭,大模型圈再曝抄袭大瓜

admin 2024-07-16 阅读:2

大模型圈再度被曝抄袭,而这一次的“被告”依然是大名鼎鼎的谷歌DeepMind。

“原告”直接批评:他们简直把我们的技术报告洗白了!

具体来说,是这样的:

谷歌DeepMind一篇被顶级新一代会议CoLM 2024接受的论文被停刊,瓜主指出其抄袭了一年前发表在arXiv上的一篇研究。开源的那种。

使用开源文章算不算抄袭_开源论文会发的快吗_

两篇论文都探索了标准化模型文本生成结构的方法。

有趣的是,谷歌DeepMind论文明确表示引用了“原告”的论文。

_使用开源文章算不算抄袭_开源论文会发的快吗

不过,尽管标注了引用,“原告”论文的两位作者 Brandon T.Willard(Brandon)和 R´emi Louf(Remi)仍然坚称谷歌存在抄袭行为,并认为:

谷歌对于两者之间的差异的描述是“荒谬的”。

_使用开源文章算不算抄袭_开源论文会发的快吗

很多网友在看完论文之后,慢慢的问了一个问题:CoLM 是如何审阅稿件的?

_开源论文会发的快吗_使用开源文章算不算抄袭

唯一的区别只是理念的改变?

开源论文会发的快吗__使用开源文章算不算抄袭

快速浏览一下论文比较...

两篇论文的比较

让我们快速浏览一下两篇论文的摘要并进行比较。

Google DeepMind 的论文中说 tokenization 给受限语言模型的输出带来了麻烦,他们引入自动机理论来解决这些问题,核心就是避免在每个解码步骤中遍历所有的逻辑值(logits)。

该方法只需要访问每个 token 解码后的逻辑值,计算过程与语言模型的大小无关,在几乎所有语言模型架构中都十分高效且易于使用。

原告的陈述大致如下:

提出了一个高效的框架,通过在语言模型的词汇表上建立索引,大大提高约束文本生成的效率。简单来说,它避免通过索引来遍历所有的逻辑值。

也“不依赖于特定模型”。

方向确实差不多,我们继续看更多的细节。

我们利用Google Gemini 1.5 Pro对两篇论文的主要内容进行归纳总结,然后利用Gemini对两者的相同点和不同点进行对比。

针对“被告”谷歌的论文,Gemini 将其方法总结为将去标记化重新定义为有限状态转换器(FST)操作。

_开源论文会发的快吗_使用开源文章算不算抄袭

该 FST 与表示目标形式语言的自动机相结合,可以用正则表达式或语法来表示。

通过上述组合,生成一个基于token的自动机来约束解码过程中的语言模型,保证输出的文本符合预设的形式语言规范。

此外Google论文还做了一系列正则表达式扩展,使用特殊命名的捕获组编写,显著提高了系统处理文本时的效率和表达能力。

而对于《原告》的论文,Gemini 总结说,其方法的核心是将文本生成问题重新定义为有限状态机 (FSM) 之间的转换。

“原告”的具体做法是:

FSM 使用正则表达式或上下文无关语法构建,用于指导文本生成过程。

通过构建词汇索引,可以高效地确定每一步中的有效词汇,避免遍历整个词汇表。

使用开源文章算不算抄袭_开源论文会发的快吗_

Gemini 列出了两篇论文的共同点。

_使用开源文章算不算抄袭_开源论文会发的快吗

至于这两者的区别,有点像上面那位网友说的,简单总结就是:Google把词汇表定义为FST。

如前所述,谷歌在“相关工作”中将原告的论文列为“最相关”的工作:

最相关的工作是 Outlines(Willard & Louf,2023),它也使用有限状态自动机 (FSA) 和下推自动机 (PDA) 作为约束——我们的方法是在 2023 年初独立开发的。

Google 认为,两者的区别在于 Outlines 方法基于一种特殊的“索引”操作,需要手动扩展到新的应用场景。相比之下,Google 则利用自动机理论彻底重新定义了整个流程,使其更容易应用 FSA 并推广到 PDA。

另一个区别是,Google 定义了扩展以支持通配符匹配并提高可用性。

_开源论文会发的快吗_使用开源文章算不算抄袭

谷歌随后在以下两部相关著作中提到了Outlines。

一是 Yin 等人(2024)通过添加“压缩”文本段进行预填充的功能,扩展了 Outlines。

Ugare 等人 (2024) 最近提出的另一个系统称为 SynCode,它也使用 FSA,但使用 LALR 和 LR 解析器而不是 PDA 来处理语法。

与 Outlines 类似,此方法依赖于自定义算法。

但观众显然不买账:

CoLM 审阅者应该注意,我不认为这看起来像单独的“并发工作”。

_开源论文会发的快吗_使用开源文章算不算抄袭

网友:这不算罕见啊……

随着此事发酵,不少网友愤怒不已。抄袭是可耻的,更何况“科技巨头抄袭小团队的作品,已经不是第一次了”。

顺便说一句,当 Brandon 和 Remi 发表原告的论文时,他们都在为 Normal Computing(一家成立于 2022 年的 AI Infra 公司)远程工作。

哦,Normal Computing 的部分创始团队成员来自 Google Brain……

此外,Brandon 和 Remi 目前已经创办了一家名为 .txt 的新公司。根据官方网站介绍,其目标是提供快速可靠的信息提取模型。而官方网站上公布的 GitHub 主页就是 Outlines 存储库。

回到网友们的话题上,让大家更加愤怒的是“这种情况已经很普遍了”。

荷兰代尔夫特理工大学的一位博士后分享了他的经历:

我们去年十月完成了一项工作,最近有一篇论文被接受,它使用了相同的想法和概念,但甚至没有引用我们的论文。

使用开源文章算不算抄袭__开源论文会发的快吗

另外一个来自美国东北大学的家伙就更惨了,他两次遇到这种情况,而且攻击者都是同一个团伙,而且对方第一作者还给他的 GitHub 点了 star……

使用开源文章算不算抄袭_开源论文会发的快吗_

不过也有网友表达了不同意见:

如果发表一篇博客文章或未经审查的预印本论文算占据一个位置,那么每个人都会占据一个位置,对吗?

开源论文会发的快吗__使用开源文章算不算抄袭

对此,Remi愤怒地回应道:

哇,发表预印本并开源代码=占据一席之地;写一篇没有任何伪代码的数学论文=好工作???

使用开源文章算不算抄袭_开源论文会发的快吗_

Brandon弟兄也表示赞同:

开源代码、写论文是“占了工作”,抄袭别人的作品,然后说“我早就有这个想法了”,然后提交给会议就不是了?太恶心了。

_开源论文会发的快吗_使用开源文章算不算抄袭

两篇论文如下:

Google DeepMind 论文:

原告文件:

参考链接:

[1]

[2]

[3]

评论(0)