首页运营教程重磅!OpenAI正式推出传说中的“草莓”模型——o1

重磅!OpenAI正式推出传说中的“草莓”模型——o1

2024-09-13 57

2024年9月13日凌晨1点,OpenAI宣告正式推出了传闻已久的“草莓”推理模型——o1。这一次OpenAI终于没有食言,ChatGPT Plush和Team用户现已可以使用这一全新模型,并且API也已开放。

一、o1的主要特点

早在两周前,外媒The Information就对“草莓”模型的存在进行了报道,并引发了AIGC领域的广泛关注。o1发布之后除了名称有所不同,其功能特性与传闻中的“草莓”模型几乎一致。
o1在回答问题前会进入拟人化思考状态,将问题细分为更小的步骤逐步解决,生成较长的内部思维链,从而提供更为准确的回答。这一技术早在谷歌DeepMind的研究中就曾被称为“训练时计算”(Test-time computation)。其核心技术包括密集型、流程导向的验证奖励模型搜索,以及自适应更新模型响应概率分布两种方法。

根据OpenAI公布的测试数据显示,o1在美国数学奥林匹克预选赛中表现突出,跻身前500名学生行列,且在物理、生物和化学等学科领域首次超过了人类博士,也就说明已经o1超越了GPT-4o,成为现役最强的超复杂推理大模型。

重磅!OpenAI正式推出传说中的“草莓”模型——o1

1、拟人化

o1的拟人化推理模式是其亮点之一。与传统模型相较,它在回答问题之前会进行深入思考,产生较长的内部思维链。这一思维链的生成让o1能够更全面地理解问题的本质,分析各个方面,从而提供更准确、合理的答案。

重磅!OpenAI正式推出传说中的“草莓”模型——o1

2、自适应强化学习与纠错机制

o1通过大规模的强化学习算法进行训练,使其在解决问题时能够更加有效地利用思维链。这种训练方法使o1得以不断优化其策略,识别并纠正错误,能够将复杂的问题分解为更简单的步骤,并在当前方法不奏效时尝试不同的解决方案。通过持续学习与改进,o1的推理能力得到了极大提升,具备了智能体的特征。

3、采用了类似于谷歌“训练时计算”的技术

OpenAI发现,随着训练时计算资源的增加以及测试时思考时间的延长,o1的性能呈现显著提升。这表明,通过增加计算资源的投入,o1能够在多种任务中展现出更为出色的表现。

o1的其他主要功能包括:直接翻译不完整句子并自动补全缺失内容;根据提示自动编写复杂的视频游戏;以及在解决超复杂推理问题方面表现突出。

二、o1测试数据

OpenAI对o1进行了多项测试,以评估其在不同领域的表现。在竞争编程问题方面,o1在Codeforces编程竞赛中的表现卓越,超过了83%的专业选手。

在数学竞赛方面,以AIME 2024为例,GPT-4o平均只能解决12% 的问题,而o1的平均解决率达到了74%。若使用64个样本的共识,其解决率更是高达83%。使用学习到的评分函数对1000个样本进行重新排序时,o1的解决率高达93%。这样的成绩使o1在该考试中获得的得分成功跻身美国前500名学生的行列,超过了美国数学奥林匹克的入选分数线。

重磅!OpenAI正式推出传说中的“草莓”模型——o1

在PhD-Level Science Questions(GPQA Diamond)的测试中,o1也展现出了优异的表现,超过了人类专家的水准。为进行这项测试,研究团队邀请了具有博士学位的专家解答GPQA-Diamond问题,结果发现o1的准确性更胜一筹。

另外o1在ML Benchmarks的多个子类别中也有显著进展。例如在MATH-500、MathVista、MMMU、MMLU等测试中,o1的准确率均高于GPT-4o。在其他考试中,如AP English Language、AP English Literature、AP Physics 2、AP Calculus、AP Chemistry、LSAT、SAT EBRW、SAT Math等,o1同样表现出巨大的优势,整体表现超越GPT-4o。

三、o1用户体验

已开始使用o1的用户反馈显示:

o1成功写出了极具挑战性的藏头诗,传统模型无法达到这一水平。其在生成答案的过程中展现出强大的推理能力与自我纠正能力,推理模式非常独特。

重磅!OpenAI正式推出传说中的“草莓”模型——o1

o1的进步显而易见,其推理能力、准确性和思维复杂性都有显著提高。

重磅!OpenAI正式推出传说中的“草莓”模型——o1

超过人类博士水平的表现,令人震惊不已!

重磅!OpenAI正式推出传说中的“草莓”模型——o1

期待已久的草莓模型终于如愿以偿。

重磅!OpenAI正式推出传说中的“草莓”模型——o1

“太阳从西边出来了,这次居然没有候补名单?”

重磅!OpenAI正式推出传说中的“草莓”模型——o1

国际数学奥林匹克资格考试中,GPT-4o 只正确解决了 13% 的问题,而新模型的得分为 83%,编程竞赛中的表现更好。

重磅!OpenAI正式推出传说中的“草莓”模型——o1

  • 广告合作

  • QQ群号:707632017

温馨提示:
1、本网站发布的内容(图片、视频和文字)以原创、转载和分享网络内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。邮箱:2942802716#qq.com(#改为@)。 2、本站原创内容未经允许不得转裁,转载请注明出处“站长百科”和原文地址。

相关文章