开心锤锤2024年10月12日发布:突发!OpenAI发布最强模型o1,理化生达博士生水平,碾压 GPT-4

⭐发布日期:2024年10月12日 | 来源:开心锤锤

⭐作者:Reynaga 责任编辑:Admin

⭐阅读量:756 评论:4人

【澳ⅰ门天天好彩】

【70349.com新奥门】

【新澳门精准资料大全管家婆料】 【最准一码一肖100精准】 【澳门王中王100%的资料论坛】 【新港澳门免费资料长期公开】 【新澳门六开彩资料大全网址】 【澳门资料大全】 【澳门王中王100%的资料一肖准】 【香港二四六资料大全2022年】
【新澳门免费资料大全历史记录开马】 【944cc免费资料大全天下】 【2024新澳今晚资料66期】 【澳门今晚一肖一码】 【澳门王中王100%的资料羊了个羊】 【新澳六开彩号码记录乾坤未定】 【香港期期准资料大全】 【澳门三肖三码三期必开码】

大数据文摘受权转载自夕小瑶科技说
作者 | 海野


今晚,OpenAI最新模型空降!先上张图,你就明白了。



GPT-4o竟然被碾压至此?


GPT-4o竟然被碾压至此?!


GPT-4o竟然被碾压至此!!


Altman说它是迄今为止最强大、最一致的模型,新模型的名字是——o1 。


为什么不是GPT-4.5、GPT-5呢,因为它代表一个新范式的开始:


可以进行通用复杂推理的人工智能。


所以OpenAI这次从1重新开始计数,命名为o1。用一句话概括就是,o1擅长解决复杂问题,尤其是编码、数学、科学远超GPT-4o。


打个比方,你可以认为o1是一个极度偏科的理工科天才。


但是它有个缺点,在开始回答之前,它会花更长时间 思考,因为内部会产生一个非常长的思维链,进行足够深入的思考,从而可以解决复杂的推理任务。


这个也不难理解,高考数学的最后一道大题,花多点时间想也很正常。


把GPT-4o按在地上摩擦的o1,具体表现怎么样呢,还是得用数据说话。


先看模型表现


首先,它在数学和编码方面表现非常出色。


  • 在国际数学奥林匹克(IMO)资格考试中,GPT-4o 只正确解决了 13% 的问题,而o1的得分是83%。
  • 编码方面,OpenAI o1 在竞争性编程问题 (Codeforces) 中排名第 89%,
  • 在物理、化学、生物学科中的表现达到了博士生水平,78分超越了人类专家69.7分。


而且,在众多基准测试上均超过了GPT-4o。



效果好到把大家都常用来测试的MATH和GSM8K干崩了,因为表现太好,不得已只能用美国奥数的题目来评比。



背后的思维链,可自主思考纠错


回复速度慢,尤其擅长数学和编码,与先前对草莓模型的爆料完全对应的上。为什么回复变慢?


因为OpenAI通过大规模强化学习算法,o1在回答问题前会产生一个内部的复杂的思维链,这使得它能够进行更深入的推理,并且o1学会了如何高效地使用其思维链。



类似于人类在回答难题之前,可能会思考很长时间,o1 在尝试解决问题时也会使用一系列思维。通过强化学习,o1 学会磨练其思维链并完善其策略,能认识并纠正错误。它学会将棘手的步骤分解为更简单的步骤。当这个方法不起作用时,它会尝试另一种方法。这个过程极大地提高了模型的推理能力。



为了培养o1模型的链式思维能力,OpenAI大规模的使用强化学习算法训练模型。


而OpenAI也没想到的是,随着更多的强化学习投入和思考时间的延长,o1模型的性能在不断地提高,这与LLM预训练时提高性能的方法有很大不同。


通过强化学习,o1模型学会了使用思维链,分步骤回答问题。


也就是说,在回答困难问题前,o1模型就像人类一样,可以自我纠正学习。


令人惊艳的是,o1模型可以自己判断答案是否正确,如果这个答案错误,它会再重新想办法解决。以此,o1模型的推理能力得到超大量级的提高。给你举个例子你就明白了。

用户:oyfjdnisdr rtqwainr acxz mynzbhhx -> Think step by step。

通过上面的例子解码下文:

oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz

收到指令后,o1模型开始思考。


(看到o1的思维链,我的第一反应是:逻辑缜密到有些夸张了。废话真的非常非常多)

OpenAI o1-preview(以下为思考内容):

首先,我们得到:

"oyfjdnisdr rtqwainr acxz mynzbhhx -> Think step by step"

我们的任务是,使用上面的例子来解码:“oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz”。

所以第一部分是弄清楚“oyfjdnisdr rtqwainr acxz mynzbhhx”如何解码为“Think step by step”。

观察1:明文短语“Think step by step"”有15个字母(不包括空格),密文总字母有30个字母。

明文Think step by step第一个词5个字母,第二个词4个字母,第三个词2个字母,第四个词4个字母。

密文第一个词10个字母,第二个词8个字母,第三个词4个字母,第四个词8个字母。

选项1:尝试找到字母到字母的映射。有字母相匹配吗?

等一下。我想这里可能有一个字谜或替换密码。我认为我们可以注意到每组密文对应于一个明文单词。

检查一下字母数量……interesting.看来密文单词的长度是明文单词的两倍。

Idea:也许我们需要取出所有其他字母或相应地从密文中重建明文。如果我们从密文单词中取出所有其他字母,也许我们会得到明文。

选项1:采取奇数位置。从第一个单词开始,取密文的13579位,组成单词是ofdid。

Hmm,我们试一下映射字母:o f d i d --> Think。不太对。

选项2:假设每个明文字母对应于密文中的2个字母。拆分第一个密文字母就是:oy fj dn is dr,对应明文字母think。

oy->T,fj->h,dn->i,is->n,dr->k。

现在,从“oy”到“T”的映射是什么?有没有办法将“oy”映射到“T”?

选项1:字母之和。将字母转换为数字(A=1、B=2、...、Z=26)。

o=15,y=25,总和15+25=40。“T”是数字20。不太对。

或者,两个字母的平均值可能对应于“T”。(15+25)/2=20,即“T”。

等一下,这看起来很有希望。让我们用第二对来检查一下。字母“f”=6,“j”=10。

(6+10)/2=8,8对应于“h”,成功!

让我们用第三对来检查一下……(中略)

所以我们的代码是:对于每一对密文,字母对应数字值相加取平均值,得到对应的明文。

所以我们把明文放在一起就是:THERE ARE THREE RS IN STRAWBERRY。

我认为RS拼写应该是“R’s”,所以应该是:THERE ARE THREE Rs IN STRAWBERRY(草莓单词里有3个R)。



当然,这种复杂推理非常消耗时间,而比较可惜的是,在文章写作和编辑方面,o1模型不仅会浪费很长时间来思考,得出的结果也并不尽人意。在评估中,o1模型处理自然语言任务的效果,还不如GPT-4o。


所以,o1 并不适合所有场景!



而且……OpenAI总会在给人希望的地方让人失望。


传OpenAI的原话:

权衡了用户体验、竞争优势、以及对思维链进行监控等多种因素后,我们决定不向用户展示原始思维链。

这一切都源于OpenAI的病态追求:安全!安全!安全!


OpenAI未雨绸缪:假设公开了思维链,会不会出现“模型思维链把用户思路带偏、甚至控制用户思维”的现象。


此外,为了保证模型的思维链足够“原生”、足够“自由”,OpenAI还不能将一些政策规范和用户偏好强加到思维链中,而正是因为“不够对齐”,让OpenAI感到深深的担忧。


好吧,在美国国家安全局监管下,我懂~


作为补偿,OpenAI正在努力调整o1模型,让它能在回答中展示思维链的摘要。

我只想问:思维链的摘要会占用输出tokens吗?会不会把我的钱包吃干抹净?

诶,说到钱的问题,OpenAI还一并出了一个OpenAI o1-mini模型。



关于o1和o1-mini,关系就像4o和4o-mini,mini模型是小模型,速率更快,延迟更低,更便宜,当然效果也会砍一些。


不过,在推理方面还是比4o要强不少。



怎么体验o1


o1和o1-mini这两个模型,今天会在ChatGPT中上线,Plus和Team订阅用户可以直接体验了。



开发者也能通过API访问使用,其中mini模型比原模型便宜80%。另外Enterprise和Edu用户也可以使用o1-mini模型。


但是但是,目前的请求频率有限制,o1-preview 的每周速率限制为 30 条消息,o1-mini 的每周速率限制为 50 条。(太少了)


没有waitlist,但也太少了,约等于没用。


尝鲜的小伙伴赶紧去试用,告诉我到底牛不牛!


参考资料:

1、https://openai.com/index/introducing-openai-o1-preview/

2、https://openai.com/index/learning-to-reason-with-llms/

3、https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/#model-speed


租售GPU算力
租:4090/A800/H800/H100
售:现货H100/H800

特别适合企业级应用
扫码了解详情☝


【澳门二四六天天资料大全2024】 【4949cn资料免费大全】
【二四六香港资料期期准117图片】 【2024今晚澳门开特马】
【4949澳门资料免费大全高手】 【澳门最快最精准资料大全】
【2024澳门六开彩最简单处理】 【澳门管家婆四肖选一肖期期准】
【2024澳门六开彩结果查询】 【2024年新澳门开码结果】
【2021澳门天天开彩】 【一肖一码精确一肖】 【澳门王中王100】
上一条新闻 下一条新闻

推荐文章

发表评论

彭高唱

6秒前:为什么不是GPT-4.

IP:37.10.4.*

杜勇

1秒前:废话真的非常非常多)OpenAI o1-preview(以下为思考内容):首先,我们得到:"oyfjdnisdr rtqwainr acxz mynzbhhx -> Think step by step"我们的任务是,使用上面的例子来解码:“oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz”。

IP:45.41.3.*

宋红升

9秒前:以此,o1模型的推理能力得到超大量级的提高。

IP:43.53.1.*

开心锤锤APP介绍

APP图标

澳门传真资料查询APP名:开心锤锤

版本:V2.17.322

更新时间:2024-10-11 14:24

一码一肖100%中奖资料这是一个功能强大的新澳精准资料大全APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:看来密文单词的长度是明文单词的两倍。

澳门资料大全正版资料查询2020APP介绍

APP图标

打开澳门免费资料大全马家婆APP名:开心锤锤

版本:V2.46.836

更新时间:2024-10-11 21:19

无论是澳门4949资料网站快速浏览新闻还是深入了解某个话题,这款新闻APP都能为您提供全面、精准的信息服务。

2024年澳门正版资料大全APP介绍

APP图标

4949澳门精准免费大全凤凰网9626APP名:开心锤锤

版本:V7.64.957

更新时间:2024-10-11 18:16

澳门王中王100%的资料应用界面简洁易用,用户可以轻松浏览头条新闻、深度报道和特写文章。24小时内的热点资讯一目了然,让您随时掌握世界动态。此外,您还可以参与评论,与其他读者交流看法,形成一个互动活跃的社区。

澳门正版资料免费更新结果APP介绍

APP图标

澳门正版资料大全资料生肖卡APP名:开心锤锤

版本:V3.97.162

更新时间:2024-10-11 21:20

澳门资料大全正版资料查询器这款新闻APP是您获取实时信息的理想伴侣。它汇聚了全球最新的新闻报道,涵盖政治、经济、科技、娱乐、体育等多个领域。通过个性化推荐功能,您可以根据兴趣定制新闻源,确保每条信息都与您相关。

新奥彩今晚开什么生肖APP介绍

APP图标

澳门六开彩资料免费大全今天APP名:开心锤锤

版本:V2.99.151

更新时间:2024-10-11 14:23

这是一款功能强大的2024澳门天天开好彩大全挂牌应用,专为帮助您高效完成各种任务而设计。它不仅提供最新的24小时热点资讯,还为您带来今日的最新动态:打个比方,你可以认为o1是一个极度偏科的理工科天才。。无论是获取信息还是提升效率,这款APP都是您理想的助手。

4949澳门现场+直播APP介绍

APP图标

澳门内部资料精准大全APP名:开心锤锤

版本:V9.32.572

更新时间:2024-10-11 22:14

这是一款功能强大的2024新澳门资料大全免费新鼬应用,旨在帮助您高效完成各类任务。它提供最新的24小时热点资讯,让您随时了解发生的重大事件。今天的最新内容包括:我想这里可能有一个字谜或替换密码。,为您的生活和决策提供了重要参考。这款APP是您获取信息和完成任务的得力助手。

一肖一码100%澳门APP介绍

APP图标

2024年澳门天天开好彩大全APP名:开心锤锤

版本:V1.84.507

更新时间:2024-10-11 17:19

这是一款功能强大的2024澳门免费精准资料应用,专为帮助您高效完成各种任务而设计。它汇集了最新的24小时热点资讯,让您时刻掌握世界动态。今日的最新内容包括:检查一下字母数量……interesting.,为您的决策和日常生活提供有价值的信息支持。无论您需要了解什么,这款APP都能成为您不可或缺的助手。

新澳精准资料免费提供510期APP介绍

APP图标

澳门神算子六肖6码免费公开APP名:开心锤锤

版本:V8.66.485

更新时间:2024-10-11 15:16

今天的最新动态包括:密文第一个词10个字母,第二个词8个字母,第三个词4个字母,第四个词8个字母。,让您第一时间掌握关键资讯,做出明智的决策。这个应用不仅是您的信息获取工具,更是一个提升生活质量的得力助手。

2024新澳门原料免费462APP介绍

APP图标

新澳门六号码记录APP名:开心锤锤

版本:V6.64.473

更新时间:2024-10-11 21:13

这是一款功能强大的澳门最精准最快的资料应用,能够帮助你高效地完成多种任务。它包括最新的24小时热点资讯,以及今天的最新动态:GPT-4o竟然被碾压至此!。

澳门平特一肖100%免费APP介绍

APP图标

49494949最快结果APP名:开心锤锤

版本:V8.30.997

更新时间:2024-10-11 19:20

这款功能强大的2024澳门天天开好彩大全记录应用旨在提升您的日常效率,帮助您轻松应对各种任务。应用界面友好直观,用户可以快速导航,获取所需信息。它不仅提供最新的24小时热点资讯,还定期更新各种主题的文章和评论,确保您始终走在信息的前沿。

澳门正版资料全年免费公开精准APP介绍

APP图标

新澳门免费资料大全7061APP名:开心锤锤

版本:V9.32.757

更新时间:2024-10-11 15:13

这款新闻APP是您获取实时新闻的最佳选择。它整合了全球各大新闻来源,提供最新的头条、热点和专题报道,涵盖从政治到娱乐的各个领域。用户可以根据兴趣自定义新闻推送,确保获取最相关的信息。

ww4949现场直播APP介绍

APP图标

澳门最快最准资料免费手机网站APP名:开心锤锤

版本:V4.61.310

更新时间:2024-10-11 22:13

APP界面友好,支持快速浏览和离线阅读。您还可以通过搜索功能,快速找到特定主题的新闻。互动功能让您可以评论、分享文章,与朋友讨论热点话题。无论您是在通勤、休闲,还是工作间隙,这款APP都能让您轻松掌握最新动态。