重磅!OpenAI正式推出传说中的"草莓"模型o1

2024年9月13日凌晨1点，OpenAI宣告正式推出了传闻已久的“草莓”推理模型——o1。这一次OpenAI终于没有食言，ChatGPT Plush和Team用户现已可以使用这一全新模型，并且API也已开放。

一、o1的主要特点

早在两周前，外媒The Information就对“草莓”模型的存在进行了报道，并引发了AIGC领域的广泛关注。o1发布之后除了名称有所不同，其功能特性与传闻中的“草莓”模型几乎一致。
o1在回答问题前会进入拟人化思考状态，将问题细分为更小的步骤逐步解决，生成较长的内部思维链，从而提供更为准确的回答。这一技术早在谷歌DeepMind的研究中就曾被称为“训练时计算”（Test-time computation）。其核心技术包括密集型、流程导向的验证奖励模型搜索，以及自适应更新模型响应概率分布两种方法。

根据OpenAI公布的测试数据显示，o1在美国数学奥林匹克预选赛中表现突出，跻身前500名学生行列，且在物理、生物和化学等学科领域首次超过了人类博士，也就说明已经o1超越了GPT-4o，成为现役最强的超复杂推理大模型。

1、拟人化

o1的拟人化推理模式是其亮点之一。与传统模型相较，它在回答问题之前会进行深入思考，产生较长的内部思维链。这一思维链的生成让o1能够更全面地理解问题的本质，分析各个方面，从而提供更准确、合理的答案。

2、自适应强化学习与纠错机制

o1通过大规模的强化学习算法进行训练，使其在解决问题时能够更加有效地利用思维链。这种训练方法使o1得以不断优化其策略，识别并纠正错误，能够将复杂的问题分解为更简单的步骤，并在当前方法不奏效时尝试不同的解决方案。通过持续学习与改进，o1的推理能力得到了极大提升，具备了智能体的特征。

3、采用了类似于谷歌“训练时计算”的技术

OpenAI发现，随着训练时计算资源的增加以及测试时思考时间的延长，o1的性能呈现显著提升。这表明，通过增加计算资源的投入，o1能够在多种任务中展现出更为出色的表现。

o1的其他主要功能包括：直接翻译不完整句子并自动补全缺失内容；根据提示自动编写复杂的视频游戏；以及在解决超复杂推理问题方面表现突出。

二、o1测试数据

OpenAI对o1进行了多项测试，以评估其在不同领域的表现。在竞争编程问题方面，o1在Codeforces编程竞赛中的表现卓越，超过了83%的专业选手。

在数学竞赛方面，以AIME 2024为例，GPT-4o平均只能解决12% 的问题，而o1的平均解决率达到了74%。若使用64个样本的共识，其解决率更是高达83%。使用学习到的评分函数对1000个样本进行重新排序时，o1的解决率高达93%。这样的成绩使o1在该考试中获得的得分成功跻身美国前500名学生的行列，超过了美国数学奥林匹克的入选分数线。

在PhD-Level Science Questions（GPQA Diamond）的测试中，o1也展现出了优异的表现，超过了人类专家的水准。为进行这项测试，研究团队邀请了具有博士学位的专家解答GPQA-Diamond问题，结果发现o1的准确性更胜一筹。

另外o1在ML Benchmarks的多个子类别中也有显著进展。例如在MATH-500、MathVista、MMMU、MMLU等测试中，o1的准确率均高于GPT-4o。在其他考试中，如AP English Language、AP English Literature、AP Physics 2、AP Calculus、AP Chemistry、LSAT、SAT EBRW、SAT Math等，o1同样表现出巨大的优势，整体表现超越GPT-4o。