OpenAI发布o1系列新模型：“自思考”模式推理能力大幅提升，将引领AI下一阶段发展趋势

来源: | 作者:DE.Tech | 发布时间: 2024-09-13 | 1161 次浏览 | 分享到:

OpenAI发布o1系列新模型：“自思考”模式推理能力大幅提升，将引领AI下一阶段发展趋势

在北京时间凌晨一点，人工智能领域发生了一件重大事件：OpenAI公司进行了一项备受期待的更新。经过近一年的预热，Q*/草莓项目——一个能够执行高级推理任务的大型语言模型，终于揭开了其神秘面纱。该公司通过社交媒体宣布，他们正式推出了名为OpenAI o1-preview的模型。根据之前的外媒爆料，o1可能代表Orion（猎户座），象征着OpenAI下一代大型模型的开始。

在发布的文档中，OpenAI声称新模型在推理能力上达到了一个新的高度，这可能意味着传统的模型迭代计数器将被重置。换句话说，我们可能不会看到GPT-5的出现，因为o1代表了OpenAI未来技术的新标杆。从发布之日起，ChatGPT Plus和Team用户将能够直接访问这一模型。用户可以选择使用o1模型的预览版——o1-preview，或者选择使用较小尺寸的版本——o1-mini。值得注意的是，o1-preview的每周使用限制为30条消息，而o1-mini的限制为50条消息。在OpenAI的模型介绍网页上，o1模型的训练数据截止于去年十月份，与最早关于Q*项目的爆料时间相吻合。这引发了公众的广泛好奇：OpenAI一年来的精心准备将带来怎样的成果？该公司是否能够再次引领大型模型技术的潮流，甚至让通用人工智能的未来变得更加触手可及？这些问题的答案将很快揭晓。

OpenAI的首席执行官Sam Altman在社交媒体上宣布：“需要耐心等待的时刻已经结束。”

在专业层面上，o1模型在解决博士级别的科学问题方面已经超越了人类。特别引人注目的是新模型的推理能力。Sam Altman在社交媒体上展示了o1与GPT-4o在数学、编程和解决博士级别科学题目上的能力对比。

在这些对比中，最左侧的柱形图代表OpenAI目前的主力模型GPT-4o，而新发布的o1预览版则以中间的橙色柱形图表示。结果显示，在2024年美国数学邀请赛和Codeforces算法竞赛的题目上，

o1预览版解决问题的能力比GPT-4o提高了5-6倍。更令人印象深刻的是，深橙色柱形图代表的完整版o1模型，其能力比GPT-4o提高了8-9倍。OpenAI的技术博客提供了更具体的数据。目前，o1模型在美国数学邀请赛上的表现可以排进前500名，而在物理、生物和化学问题上的准确度甚至超过了人类博士的水平。

这一进步可能会改变人们对大型模型技术的看法，即从一个在知识专精方面不足但在基础知识方面略知一二的“大学生”，转变为一个能够在复杂任务上超越人类专家的“高级专家”。

OpenAI在其官方博客中简要解释了这一进步背后的原理。o1模型在解决问题时，会采用一系列思考过程，类似于人类在回答难题前的深思熟虑。通过强化学习，o1学会了优化其思维链和策略。

它能够识别并纠正错误，将复杂步骤分解为更简单的步骤，并在当前方法无效时尝试其他方法。这种内部推理过程极大地提高了模型的推理能力。

在OpenAI提供的案例中，GPT-4o和o1模型被要求回答同一个问题——阅读一段长文并进行阅读理解。o1模型提供了一个额外的选项，即展开思维链。

在不展开思维链的情况下，两个模型给出的答案不同。当展开思维链时，可以看到模型与自己的长篇对话，解释为何做出不同的选择。

在解决化学问题的例子中，o1模型甚至能够自我对比多种解决方案。它在自我纠正后得出正确答案。

这种高推理能力背后的训练方法最早来自于斯坦福大学2022年开发的“自学推理”（Self-Taught Reasoner，STaR）。

后来，研究人员进一步开发了名为"Quiet-STaR"的技术，即在每个输入token后插入一个"思考"步骤，让AI生成内部推理。系统随后评估这些推理是否有助于预测后续文本，并相应地调整模型参数。

在o1模型出现之前，用户可以通过与模型对话的方式，引导模型进行逐步思考，即所谓的慢思考，以获得更准确的答案。然而，o1模型将思维链的概念提升到了一个全新的水平。

此外，通过不同的训练方式，o1模型有可能通过自身的推理能力，超越其训练材料的限制，产生更高级和准确的答案。

在复杂推理任务上的进步可能会直接推动编程和科学研究的发展。OpenAI提到，未来医疗保健研究人员可以使用o1来注释细胞测序数据，物理学家可以使用o1生成量子光学所需的复杂数学公式，

所有领域的开发人员可以使用o1来构建和执行多步骤工作流程。OpenAI提供了一个例子，展示了如何仅通过提示词就完成了一个游戏的编程。

推理能力的提升，如果能够进一步消除模型的幻觉，可能会对AI应用的建构产生间接影响。对未来的AI安全也有积极影响——之前通过提示词工程误导模型进行错误输出的手段，

可能会被模型通过更强的思考能力直接解决。OpenAI o1-preview将从今天开始在ChatGPT上可用，并提供给受信任的API用户。

在OpenAI此次发布之前，有媒体预测，由于新模型内部推理链条较长，对推理算力的需求增加，OpenAI可能会提高模型的使用费用，甚至有猜测达到每月2000美元。

然而，OpenAI的发布却出人意料地没有提高价格，尽管由于推理成本的原因，使用次数受到了限制。o1-preview的每周使用条数限制为30条消息。

除了限制使用次数，OpenAI还推出了o1-mini版，作为控制推理成本的另一个重要举措。尽管OpenAI没有具体说明o1-mini的参数量，但技术文档显示，o1-mini版与o1版在上下文长度上没有区别，

甚至最大输出token数更高。OpenAI表示，o1-mini特别适合准确生成和调试复杂代码，对开发人员特别有用。作为较小的模型，o1-mini比o1-preview便宜80%，

使其成为需要推理但不需要广泛世界知识应用程序的强大且经济高效的模型。OpenAI甚至计划将来为所有ChatGPT免费用户提供o1-mini访问权限

作为新模型，o1系列目前仍然不能浏览网页以获取信息，也不能上传文件和图像。OpenAI也指出，GPT-4o在短期内在某些任务上可能会更强。

此次发布的新模型并不是OpenAI发布中唯一重要的事情。OpenAI还提到了在训练中发现的一个现象：随着更多的强化学习（训练时计算）和更多的思考时间（测试时计算），

o1的性能可以持续提高。这种方法的扩展限制与LLM预训练的限制有很大不同。

英伟达的具身团队领导者Jim Fan在社交媒体上点评了这一事件的历史意义——模型不仅拥有训练时的scaling law，还拥有推理层面的scaling law，双曲线的共同增长将突破之前大模型能力提升的瓶颈。

Jim Fan表示，2022年人们提出了原始的scaling law，意指随着模型参数量、数据量和计算量的增加，模型性能可以不断提高。这指的是模型训练过程中的情况。

而scaling law在今年似乎有停滞的迹象——他在self-rewarding language文章中感受到3轮自我提升似乎是大语言模型的饱和极限。

而OpenAI的新模型，除了在训练时通过增大参数量和数据量获得性能提升外，还通过增加推理时间——即模型内部自我思考的时间——获得了能力上的提升。

这意味着，如果模型未来自我思考的时间越长，得到的答案可能会越准确。这非常接近我们对AI的终极想象——像AlphaGo那样，通过自我对弈提升棋艺。

OpenAI的新模型展示了一条新的大模型提升路径。Jim Fan在社交媒体上的一句话令人瞩目：“之前，没人能将AlphaGo的成功复制到大模型上，使用更多的计算让模型走向超人的能力。

目前，我们已经翻过这一页了。”

回顾2023年，许多人在问，Ilya看到了什么？大家都怀疑是一个超级强有力的模型——是的，此次发布的o1模型确实很强。

但或许，更有可能是这个——推理层面的scaling law的发现，再次让人们意识到，超人的AI或许不再遥远。

——完——

关键技术点：

OpenAI o1系列模型发布：OpenAI在凌晨发布了o1系列模型，标志着AI推理能力的重大突破。
推理能力显著提升：o1模型在数学、编程和科学问题上的推理能力显著超越了以往的模型。
模型规模与性能关系：o1模型遵循Scaling Law，即模型规模的增加与性能的提升成正比。
用户访问权限：ChatGPT Plus和Team用户将能够直接访问o1模型，但存在使用限制。
安全性措施：OpenAI采用了新的安全训练方法，以确保模型遵循安全和一致性指南。
o1-mini模型：作为o1的小型版本，o1-mini在成本效益和推理能力上进行了优化。
未来展望：o1模型的发布预示着AI技术在模拟人类思考方面迈出了重要一步。

主要关键字：

OpenAI o1系列模型 AI推理能力 Scaling Law 用户访问权限安全性措施 o1-mini模型 AI技术未来趋势

注：数据公开发布，版权出版方所有，不构成任何投资建议

京公网安备11011402054603号

售后服务

周一至周五 9：00-18：00

产品和技术中心

服务热线: 010-62128818

Email: deepelement.ai@outlook.com

开通流程

帮助中心

注册会员开通

请联系客服

QQ：3812246228