OpenAI扔出王炸,地表最强o1 Pro模型正式上线,数学,代码和博士级别问题解决性能暴涨
北京,2024年12月6日 —— OpenAI今日宣布,其最新研发的满血版o1模型震撼上线,标志着人工智能技术的又一次飞跃。该模型首次结合多模态输入和新的推理范式,展现出更智能、更快速的处理能力,为科学、技术、工程和数学(STEM)领域带来革命性的进步。
相较于o1-preview,o1 pro数学性能提升了近30%,代码能力提升了27%,o1在GPQA Diamond基准测试中,表现完全超越了人类专家,在博士级别科学问题中,实现了79.3%的表现。
奥特曼直接总结了下今日发布两件大事:
o1,世界上最智能的模型,比o1-preview更智能、更快速、功能更多(如多模态)。现在已在ChatGPT中上线,很快将API中上线。ChatGPT Pro,定价为200美元/月。无限制使用,使用o1时还有更智能的模式!
革命性技术突破
o1模型的独特之处在于其“思考”能力。在回应用户之前,o1会生成长的思维链条,像人类一样逐步分析和推理。这种前沿的思维链CoT推理方法,使得o1在安全性推理能力上展现出卓越的性能,有效地址非法建议的生成、拒绝刻板印象的响应、低于已知的模型越狱攻击。
OpenAI的12天特别活动,将尝试一项迄今没有任何科技公司做过的事——在接下来的12个工作日,发布或演示一些新开发的新东西。
网友们反馈,希望o1-preview更智能、更迅速、支持多模态,并且更好地遵循指令。据此OpenAI做了许多工作,做出了这个「科学家、工程师、程序员会很喜欢的模型」。从GPT-4o到o1-preview再到o1,模型在数学、编程竞赛、GPQA Diamond方面方面性能暴涨,但奥特曼强调:我们非常关心的是原始智能,尤其是在编码性能上。o1的独特之处在于,它是第一个在回应前会先思考的模型。这意味着,它比其他模型提供了更好、更详细、更准确的响应。o1模型将很快取代o1-preview,因为它更快、更智能。而在o1 Pro模式中,用户可以要求模型使用更多的计算资源,来解决一些最困难的问题。对于已经在数学、编程和写作任务上将模型推向能力极限的用户,将感到惊叹。
响应更快
首先,o1的提升,并不只是解决非常难的数学和编程问题,OpenAI收到的关于o1-preview的最多的反馈是,它的速度太慢了——只是说hi,它都要思考10秒钟。现在,这个问题已被解决。OpenAI研究者打趣地说,这件事其实很好玩——它真的思考了,真的在关心你。如果你问一个简单问题,它就会很快回答,不会想太多了。但如果问一个很难的问题,它就会思考很长时间。
经过非常详细的真人评估之后,研究者们发现,它犯重大错误的频率,比o1-preview要低大约34%,同时思考速度提升了50%。
例如,用户提问:列出二世纪的罗马皇帝、在位时间,以及他们做过的事。
这个问题,GPT-4o在真正回答时,在相当一部分情况下会出错,而o1的响应速度o1-preview快了约60%。
可以看到,o1思考了大约14秒后给出答案,而o1-preveiw思考了大约33秒。
多模态输入和图像理解
o1模型的多模态输入和图像理解能力同样令人瞩目。它能够上传图片,并根据图片内容进行推理,给出更详细、更有用的回复。在一项演示中,o1模型仅通过一张手绘图,就成功估算出了一个包含GPU的数据中心的辐射损失面积,展现了其在处理模糊性问题上的高智能水平。
输入问题:
在未来,OpenAI可能会在太空环境中训练模型,功率数值是1吉瓦。
这是一个简化的数据中心空间示意图。对于任何细节假设,请提供相应的理由。如果受到了规范辐射的影响,你的任务是估算这个包含GPU的数据中心的辐射损失面积。在此过程中,还需要回答以下问题:
可以看到回答中成功避开了这个题目中多个陷阱。
首先,一吉瓦的功率只是在纸面提到的,显然,模型很好地从图中捕捉到了这一点。
其次,研究者故意将这个问题描述得不够具体,他省略了冷却板的温度这类关键参数,专门用来考验模型处理模糊性问题的能力。
o1很好地发现了上述潜在的几点问题,并意识到这是一个未具体指定但很重要的参数,而且令人惊喜地选择了正确的温度范围,然后进行了后续分析。
最终这个答案,经过了拥有热力学博士学位的研究者的认证是正确的。
技术报告的发布
随着o1的面世,背后整整49页的技术报告也同步发布。这份报告全面概括了对o1和o1-mini模型的全面安全评估,包括安全评估、外部红队测试和准备度框架评估。
原文: