OpenAI 高层大地震背后:Q*项目引发的危机与隐瞒

admin 2024-09-17 阅读:6

还记得 OpenAI 高层管理层的大地震吗?

这个名为Q*(发音为Q-Star)的项目导致Sam Altman被解雇、联合创始人Greg Brockman辞职,也导致OpenAI内部矛盾加剧。

据知情人士透露,Q*项目当时已经取得了重大进展,已经可以解决基本的数学问题。与只能解决有限数量运算的计算器不同,与每次对同一问题给出不同答案的GPT-4不同,Q*可能具备概括、学习和理解的能力,这是迈向AGI的关键一步。OpenAI研究人员致信董事会警告称,Q*的重大发现可能威胁全人类,而Sam Altman隐瞒了这一点。

OpenAI内部发生了巨大的动荡,但OpenAI本身从未直接回应过Q*的存在。

今天OpenAI突然发布了一个新模型,还是预览版,就是传说中的Q*,后来代号“Strawberry”,现在的OpenAI o1-preview。

“编程作为一个职业在今日终结”,OpenAI新模型o1的可怕之处__“编程作为一个职业在今日终结”,OpenAI新模型o1的可怕之处

解决复杂问题的新推理模型,和ChatGPT不一样|OpenAI

O,或者说“omini”,包罗万象的O,但根据OpenAI的说法,这个模型“代表了人工智能的新高度”,并且在工作方式上与之前的大型模型有很大不同,因此可以将其确立为一个新的系列,从1重新开始(GPT5:我老了!)。

至于这种模式是否会像Ilya Sutskever等已经反目成仇的OpenAI前核心科学家所判断的那样“威胁人类”,将人类推向没有完美道德约束的AGI(通用人工智能)时代,大家可以看看文章自己判断。

o1,超越一切

首先是大家熟悉的跑分环节。

每一代大型车型的问世都会达到前所未有的新高度,但这一次的o1有着根本的不同。

目前流行的大模型大多以聊天机器人的形式出现,其思维路径难以解释,发展方向是多模态(能说、能看、能听),在语气和反应上越来越像人类。o1与它们不同。

首先,它的目标不是越来越快,甚至越来越慢。

OpenAI 科学家 Noam Brown 表示,目前 o1 可以在几秒钟内给出答案,但未来它将能够思考数小时、数天甚至数周。他随后附上了一张图片,显示 o1 在思考了十几秒后对一个病例做出了诊断。Noam Brown 的言外之意是,较长的推理时间意味着模型可以构建更长的思维链,进行更深入的思考。

“编程作为一个职业在今日终结”,OpenAI新模型o1的可怕之处__“编程作为一个职业在今日终结”,OpenAI新模型o1的可怕之处

其次,o1突破了以往大型语言模型的致命弱点:数学。

AIME,即美国数学邀请赛,比奥林匹克容易,但比 SAT 难得多,一般用于选拔美国数学成绩最好的高中生。GPT4-o 在回答邀请赛题目时只得了 12 分,但 o1 一下子就得了 74 分。如果抽取 1000 次样本,对这 1000 次样本重新排序评分函数(这样更能体现模型的预期水平),o1 会得到 93 分,可以跻身美国前 500 名,可以参加美国数学奥林匹克了。

_“编程作为一个职业在今日终结”,OpenAI新模型o1的可怕之处_“编程作为一个职业在今日终结”,OpenAI新模型o1的可怕之处

o1与GPT-4o性能对比,数学上巨大进步|OpenAI

当 O1 被要求为 2024 年国际信息学奥林匹克竞赛 (IOI) 出题时,它在 10 小时内获得了 213 分,排名在人类选手的前 49%,每道题最多允许提交 50 道题。如果提交数量增加到 10,000 道题,O1 将获得 362.14 分,这将使它获得 IOI 金牌并被清华大学录取。

“编程作为一个职业在今日终结”,OpenAI新模型o1的可怕之处_“编程作为一个职业在今日终结”,OpenAI新模型o1的可怕之处_

实际测试中,使用的是微调版的o1,而不是我们可以使用的前瞻性版本|OpenAI

其他的测试也不少,比如GPQA(物理、化学、生物综合智力测试),O1在一些题目上的表现甚至比相关专业的博士还要好。

总之,O1的目标不再是在自己已经很强的领域进行竞争,而是在大型语言模型不擅长的复杂逻辑上实现突破。

退一步,进两步

正如上面所说,o1的反应速度变慢了。

它会在做出反应之前花更多时间思考,不断完善自己的思维过程,尝试不同的策略,并从错误中吸取教训。这很可怕。

而且o1现在也不是多模态模型了,OpenAI花了两年时间把大模型做到能看能听,现在又返璞归真了,o1只能接受字符输入。

放慢速度、变得单调,对于O1来说,是退一步进两步。用过O1的人都说O1是自己用过的最智能的机型,与它的对话已经超出了以前小打小闹的范畴。

在一次测试中,用户问了一个逻辑悖论问题:“这个问题的答案有多少个单词?”

o1思考了十秒,展示了他的思考过程。首先它认为这是一个自指悖论,或者说是一个递归问题,在不确定答案的情况下,无法确定答案的单词数。“避免不必要的表达对于答案的清晰简洁很重要。”接下来就是统计单词数,需要将句子中出现的数字与句子中的单词数进行匹配。然后它列出了很多句子,找到了最合适的匹配选项。它发现“this has five words”有五个单词,所以将句子结构改为完整答案后,应该将五改为七。

于是它回答说:“答案是七个字。”

“编程作为一个职业在今日终结”,OpenAI新模型o1的可怕之处__“编程作为一个职业在今日终结”,OpenAI新模型o1的可怕之处

这个推理过程跟我的推理过程差别不大|X

在另一个例子中,o1 用 5.6 秒和 631 个 token 回答了简单问题“straberry 中有多少个 r?”。

“编程作为一个职业在今日终结”,OpenAI新模型o1的可怕之处_“编程作为一个职业在今日终结”,OpenAI新模型o1的可怕之处_

从上面的例子我们可以看出o1的工作方式和ChatGPT有着本质的区别,现在o1加入了推理token,会把一个问题拆分成多个步骤,分别进行思考,然后去掉推理token,生成答案。

下图展示了这个思路链的运作方式,这也解释了为什么o1的反应速度变慢了。

“编程作为一个职业在今日终结”,OpenAI新模型o1的可怕之处_“编程作为一个职业在今日终结”,OpenAI新模型o1的可怕之处_

当使用 o1 时,您可能想用一些经典的逻辑和数学问题来测试它的能力。

或许在回答简单问题的时候,进行多轮推理和不进行多轮推理的区别并不明显,但如果用在写代码、做数学题、在科学领域解决复杂问题时,这种思维能力是必不可少的。

OpenAI在论文中表示,现在,医护人员可以使用O1来注释细胞测序数据,物理学家可以使用O1来生成量子光学所需的复杂数学公式,各个领域的开发人员可以使用O1来构建和执行多步骤的工作流程。

更重要的是,这是一种思维模式的原型,是一种早期的智慧。

新模式,新习惯

由于 o1 的工作方式与 ChatGPT 不同,所以你之前看到的那些教你如何编写提示的教程不再适用——在目前的情况下,过多的描述只会消耗大量的 token,而且不一定会带来更好的结果。

为了让所有用户清楚这一点,OpenAI 编写了一份新的 token 指南。在指南中,OpenAI 解释称,o1 中最好的提示是直接而简洁的。指导模型一步一步地做或者给出几个零散的提示可能会适得其反。以下是一些官方建议:

_“编程作为一个职业在今日终结”,OpenAI新模型o1的可怕之处_“编程作为一个职业在今日终结”,OpenAI新模型o1的可怕之处

看到第三个的时候,我觉得这个格式有点眼熟。以后程序员编程,大概率还是用自然语言,基本指令还是一样,只是变成了通俗易懂的语言。按照最新的指导原则,一个好的提示会是这样的:

或者像这样:

§主持人§作家§酒吧老板§油画家§皮匠§银匠§歌手§手鼓手§背包客§金左脸§法国骑士§禅宗弟子§

其余的就交给模型来解决吧。

给我一分钟时间制作一条 3D 蛇

用贪吃蛇来举例是有原因的。o1 发布后不到一天,就有很多实验用它来做,包括 3D 贪吃蛇。

X 上的 @Ammaar Reshi 使用极其简单的提示,仅用一分钟就编写了一条 3D 蛇,o1 还一步一步教他如何使用代码。

_“编程作为一个职业在今日终结”,OpenAI新模型o1的可怕之处_“编程作为一个职业在今日终结”,OpenAI新模型o1的可怕之处

你学会写提示了吗?|@Ammaar Reshi

虽然效果有些粗糙,但谁也不能说它不是蛇。

“编程作为一个职业在今日终结”,OpenAI新模型o1的可怕之处__“编程作为一个职业在今日终结”,OpenAI新模型o1的可怕之处

而且还挺好玩的|@Ammaar Reshi

网友@James Wade 使用o1制作了一个数据分析应用,可以展示每个分布的简要描述和示例。包括部署时间在内,只花了15分钟。他说:我以前从来没有想过做这样的东西。以前太麻烦了。

_“编程作为一个职业在今日终结”,OpenAI新模型o1的可怕之处_“编程作为一个职业在今日终结”,OpenAI新模型o1的可怕之处

效果如图|@James Wade

另外一位从业 16 年的全栈工程师@Dallas Lones,几分钟就做出了一个 React Native 全栈开发应用,并表示自己创业不早,如今这项技能已经成为时代的眼泪。他表示,“编程作为一种职业,今天已经正式结束了。”

“编程作为一个职业在今日终结”,OpenAI新模型o1的可怕之处__“编程作为一个职业在今日终结”,OpenAI新模型o1的可怕之处

挑战o1极限的人越来越多,有人已经开始玩“看谁能问出最刁钻的问题,让o1思考最久”的游戏了。

_“编程作为一个职业在今日终结”,OpenAI新模型o1的可怕之处_“编程作为一个职业在今日终结”,OpenAI新模型o1的可怕之处

目前,o1 已向 ChatGPT Plus 和 Team 用户开放,而 API 访问权限将首先向在 OpenAI API 上花费超过 1000 美元的 Level 5 用户开放。接下来,OpenAI 将逐步向免费用户开放低配版 o1-mini。

这会是人类的夕阳吗?

评论(0)