OpenAI扔出王炸,地表最强o1 Pro模型正式上线,数学,代码和博士级别问题解决性能暴涨!
来源: | 作者:DE.Tech | 发布时间: 2024-12-06 | 421 次浏览 | 分享到:

OpenAI扔出王炸,地表最强o1 Pro模型正式上线,数学,代码和博士级别问题解决性能暴涨



北京,2024年12月6日 —— OpenAI今日宣布,其最新研发的满血版o1模型震撼上线,标志着人工智能技术的又一次飞跃。该模型首次结合多模态输入和新的推理范式,展现出更智能、更快速的处理能力,为科学、技术、工程和数学(STEM)领域带来革命性的进步。


    相较于o1-preview,o1 pro数学性能提升了近30%,代码能力提升了27%,o1在GPQA Diamond基准测试中,表现完全超越了人类专家,在博士级别科学问题中,实现了79.3%的表现。

    



奥特曼直接总结了下今日发布两件大事:

o1,世界上最智能的模型,比o1-preview更智能、更快速、功能更多(如多模态)。现在已在ChatGPT中上线,很快将API中上线。
ChatGPT Pro,定价为200美元/月。无限制使用,使用o1时还有更智能的模式!

革命性技术突破

    o1模型的独特之处在于其“思考”能力。在回应用户之前,o1会生成长的思维链条,像人类一样逐步分析和推理。这种前沿的思维链CoT推理方法,使得o1在安全性推理能力上展现出卓越的性能,有效地址非法建议的生成、拒绝刻板印象的响应、低于已知的模型越狱攻击。

现场演示

OpenAI的12天特别活动,将尝试一项迄今没有任何科技公司做过的事——在接下来的12个工作日,发布或演示一些新开发的新东西。
12天中的Day 1,正式拉开序幕。



网友们反馈,希望o1-preview更智能、更迅速、支持多模态,并且更好地遵循指令。据此OpenAI做了许多工作,做出了这个「科学家、工程师、程序员会很喜欢的模型」。
从GPT-4o到o1-preview再到o1,模型在数学、编程竞赛、GPQA Diamond方面方面性能暴涨,但奥特曼强调:我们非常关心的是原始智能,尤其是在编码性能上。
o1的独特之处在于,它是第一个在回应前会先思考的模型。这意味着,它比其他模型提供了更好、更详细、更准确的响应。
o1模型将很快取代o1-preview,因为它更快、更智能。而在o1 Pro模式中,用户可以要求模型使用更多的计算资源,来解决一些最困难的问题。
对于已经在数学、编程和写作任务上将模型推向能力极限的用户,将感到惊叹。

响应更快

首先,o1的提升,并不只是解决非常难的数学和编程问题,OpenAI收到的关于o1-preview的最多的反馈是,它的速度太慢了——只是说hi,它都要思考10秒钟。现在,这个问题已被解决。OpenAI研究者打趣地说,这件事其实很好玩——它真的思考了,真的在关心你。如果你问一个简单问题,它就会很快回答,不会想太多了。但如果问一个很难的问题,它就会思考很长时间。


经过非常详细的真人评估之后,研究者们发现,它犯重大错误的频率,比o1-preview要低大约34%,同时思考速度提升了50%。

例如,用户提问:列出二世纪的罗马皇帝、在位时间,以及他们做过的事。



这个问题,GPT-4o在真正回答时,在相当一部分情况下会出错,而o1的响应速度o1-preview快了约60%。


可以看到,o1思考了大约14秒后给出答案,而o1-preveiw思考了大约33秒。


多模态输入和图像理解

o1模型的多模态输入和图像理解能力同样令人瞩目。它能够上传图片,并根据图片内容进行推理,给出更详细、更有用的回复。在一项演示中,o1模型仅通过一张手绘图,就成功估算出了一个包含GPU的数据中心的辐射损失面积,展现了其在处理模糊性问题上的高智能水平。

输入问题:

在未来,OpenAI可能会在太空环境中训练模型,功率数值是1吉瓦。


这是一个简化的数据中心空间示意图。对于任何细节假设,请提供相应的理由。如果受到了规范辐射的影响,你的任务是估算这个包含GPU的数据中心的辐射损失面积。在此过程中,还需要回答以下问题:
1)你如何处理太阳和宇宙辐射?
2)热力学第一定律如何应用到这个问题中?
并附上了一幅手绘图:

O1 Pro模型很快给出了以下回答:


可以看到回答中成功避开了这个题目中多个陷阱。

首先,一吉瓦的功率只是在纸面提到的,显然,模型很好地从图中捕捉到了这一点。


其次,研究者故意将这个问题描述得不够具体,他省略了冷却板的温度这类关键参数,专门用来考验模型处理模糊性问题的能力




o1很好地发现了上述潜在的几点问题,并意识到这是一个未具体指定但很重要的参数,而且令人惊喜地选择了正确的温度范围,然后进行了后续分析。



最终这个答案,经过了拥有热力学博士学位的研究者的认证是正确的。


技术报告的发布

随着o1的面世,背后整整49页的技术报告也同步发布。这份报告全面概括了对o1和o1-mini模型的全面安全评估,包括安全评估、外部红队测试和准备度框架评估。

原文:




注:数据公开渠道收集发布,版权出版方所有,此处不构成任何投资建议
返回