OpenAI发布o3模型性能提升但成本惊人!

发表时间:2025-02-25 01:49:59  来源:和欧宝娱乐类似的app

  在一场持续了12天的盛大直播后,OpenAI于12月20日宣布推出其最新的推理模型——o3及其迷你版o3-mini,令人瞩目的这一发布象征着距离AGI(通用AI)的梦想又近了一步。想当初,OpenAI CEO山姆·奥特曼(Sam Altman)在前一天微妙地提及了带有三个“o”的信号,确实令人期待。

  那么,o3的命名为何跳过o2直奔o3呢?原来,奥特曼表示这是为了尽最大可能避免与英国运营商O2的名字冲突。他的幽默感再次显现:“我知道按逻辑应该是o2,但我们真的不擅长起名字。”

  根据介绍,o3在多个编码测试中表现出色,成绩令人眼前一亮:在SWE-BenchVerified中其性能比o1提升了22.8%,而在Codeforces的竞技编程中得分达到2727,甚至超越了OpenAI的首席科学家(2655分)。在AIME2024数学竞赛和专家级科学问题基准测试GPQADiamond中,o3同样取得了显著优异的成绩;而在推理挑战FrontierMath中,它解决了25.2%的问题,远超其他模型的2%。

  不过,o3和o3-mini还处于预览阶段,OpenAI还没有正式对外发布它们,安全研究人员可在未来注册o3-mini的试用版。奥特曼特别强调,这次活动仅是发布o3的宣告,计划在1月底后推出o3-mini,随之再发布o3。

  有媒体报道称,AI安全测试师发现,o3在企图欺骗用户方面的比例比其前身o1还要高,这引起了外界的关注。为了确认和保证模型的安全性,OpenAI采用了名为“慎重对齐”的新技术,旨在让o3符合其安全原则。通过特有的“私人思维链”机制,o3被训练成在作答前先停顿思考,深入推理以求得出更准确的答案。值得一提的是,用户都能够根据需求调整推理时间,越长的计算时间通常意味着更优秀的表现。

  然而,随之而来的高昂成本同样不容忽视。在肖莱发表的Test报告中,o3在高计算模式下任务成本高达数千美金,而在低计算模式下也需要20美元。肖莱自言:“o3的确昂贵,但这背后的能力是科学界需要严肃对待的新领域。”

  虽然o3的表现令人印象非常深刻,肖莱也指出,它尚未实现AGI级别的智能,仍有许多简单任务无法处理,后续是否能在测试时间上的搜索问题上持续突破,也是未来着重关注的方向。除了OpenAI,其他几家知名AI公司也在近期发布了各自的推理模型,掀起了智能推理领域的竞争高潮。

  最后,需要我们来关注的是,英伟达的CEO黄仁勋表示推理的未来将大有可为,声称将发生一次“智能生产的革命”。而月之暗面Kimi创始人杨植麟也指出,推理能力的增强将是AI发展的关键。随技术的不断进化,我们将有望在这一领域见证新的巅峰!返回搜狐,查看更加多



相关产品