Sam Altman公布路线图:GPT-5与o3强强联合,自动推理完胜手工策略
在2024-25赛季英超第15轮,托特纳姆热刺主场对阵切尔西。只用了4分钟,索兰克就为热刺破门,库库雷利亚复刻了杰拉德滑倒被断球的经典一幕。两队的状态截然不同,以5比1大胜南安普顿,取得英超三连胜之后,切尔西在英超积分榜上升至第2位,比排名榜首的利物浦少了7分。
来源 @indigo
今天在 Sam 公布的中,GPT-5作为一个模型系统整合了 o3,我们不用来回选择模型去完成任务了,看来 o3的能力足以让 GPT 升级换代。在 OpenAI 的一篇评测论文「Competitive Programming with Large Reasoning Models」中,再次验证了萨顿教授在「苦涩的教训」中总结的历史规律:
1. 研究者总想构建一些知识并教给 AI;
2. 这些知识在短期内让人感觉是有用的;
3. 但是从长远看,人类构建的知识有个明显的天花板,它们的发展会被限制;
4. 让 AI 自行搜索和学习的暴力破解法,最终确带来了突破性进展;
OpenAI 拿微调版的 o1-ioi 与 o3对比 。前者在 o1的基础上继续强化学习、并针对2024年国际信息学奥林匹克竞赛(IOI)做了专门调优;另配合手工设计的“ 时推理策略”(test-time str egies)以提升得分;而后者是更大规模、更多强化学习训练的模型,无需依赖设计的策略就可自主在推理过程中生成复杂验证流程。
在模拟真实竞赛环境评测的比分:
- o1-preview(o1早期版本)1258分(62% 分位);o1最终达1673分(89% 分位)
- o1-ioi(带人类手工推理策略)提升至2214分(98% 分位)
- o3更进一步,在 CodeForces 中达2724分(99.8% 分位), 接近顶尖人类选手
可以看出,手工策略在一定阶段可提升效果,但不如大规模通用模型的“自我推理”。一方面,o1-ioi 类似于 AlphaCode 早期做法,通过人为的策略在推理时筛选/组合大量方案,显著提高在竞赛任务中的表现;另一方面,随着模型规模和 RL 训练量的增大,o3“涌现”出了更加灵活且强大的自验证、自适应推理能力,反而摆脱了手工策略的依赖,取得更优效果。
统一的强化学习框架更具有通用性!o3不再需要特定的竞赛类策略,也能在 CodeForces、IOI、高级软件开发任务上大幅领先。意味着依靠纯粹的模型大规模训练、让模型自动学会工具调用(如编译、 、写辅助检查脚本)可以取得“超越人为微调”的成果。
论文表示“大规模通用推理模型” 很可能成为学术研究与工业落地中 复杂问题的核心基础设施,其背后的思路链推理(chain-of-thought)与强化学习机制,将持续拓展到更多模态、更广领域,为 AI 自动化与生产力变革带来深远影响。