OpenAI扔出王炸，地表最强o1 Pro模型正式上线，数学，代码和博士级别问题解决性能暴涨！

来源: | 作者:DE.Tech | 发布时间: 2024-12-06 | 1234 次浏览 | 🔊 点击朗读正文 ❚❚ ▶ | 分享到:

OpenAI扔出王炸，地表最强o1 Pro模型正式上线，数学，代码和博士级别问题解决性能暴涨

北京，2024年12月6日 —— OpenAI今日宣布，其最新研发的满血版o1模型震撼上线，标志着人工智能技术的又一次飞跃。该模型首次结合多模态输入和新的推理范式，展现出更智能、更快速的处理能力，为科学、技术、工程和数学(STEM)领域带来革命性的进步。

相较于o1-preview，o1 pro数学性能提升了近30%，代码能力提升了27%，o1在GPQA Diamond基准测试中，表现完全超越了人类专家，在博士级别科学问题中，实现了79.3%的表现。

奥特曼直接总结了下今日发布两件大事：

o1，世界上最智能的模型，比o1-preview更智能、更快速、功能更多（如多模态）。现在已在ChatGPT中上线，很快将API中上线。
ChatGPT Pro，定价为200美元/月。无限制使用，使用o1时还有更智能的模式！

革命性技术突破

o1模型的独特之处在于其“思考”能力。在回应用户之前，o1会生成长的思维链条，像人类一样逐步分析和推理。这种前沿的思维链CoT推理方法，使得o1在安全性推理能力上展现出卓越的性能，有效地址非法建议的生成、拒绝刻板印象的响应、低于已知的模型越狱攻击。

现场演示

OpenAI的12天特别活动，将尝试一项迄今没有任何科技公司做过的事——在接下来的12个工作日，发布或演示一些新开发的新东西。

12天中的Day 1，正式拉开序幕。

网友们反馈，希望o1-preview更智能、更迅速、支持多模态，并且更好地遵循指令。据此OpenAI做了许多工作，做出了这个「科学家、工程师、程序员会很喜欢的模型」。

从GPT-4o到o1-preview再到o1，模型在数学、编程竞赛、GPQA Diamond方面方面性能暴涨，但奥特曼强调：我们非常关心的是原始智能，尤其是在编码性能上。

o1的独特之处在于，它是第一个在回应前会先思考的模型。这意味着，它比其他模型提供了更好、更详细、更准确的响应。

o1模型将很快取代o1-preview，因为它更快、更智能。而在o1 Pro模式中，用户可以要求模型使用更多的计算资源，来解决一些最困难的问题。

对于已经在数学、编程和写作任务上将模型推向能力极限的用户，将感到惊叹。

响应更快

首先，o1的提升，并不只是解决非常难的数学和编程问题，OpenAI收到的关于o1-preview的最多的反馈是，它的速度太慢了——只是说hi，它都要思考10秒钟。现在，这个问题已被解决。OpenAI研究者打趣地说，这件事其实很好玩——它真的思考了，真的在关心你。如果你问一个简单问题，它就会很快回答，不会想太多了。但如果问一个很难的问题，它就会思考很长时间。

经过非常详细的真人评估之后，研究者们发现，它犯重大错误的频率，比o1-preview要低大约34%，同时思考速度提升了50%。

例如，用户提问：列出二世纪的罗马皇帝、在位时间，以及他们做过的事。