OpenAI "双十二"第一天情欲超市txt,平直抛出重磅炸弹——
最强推理模子 o1,隆重上线满血版,还有更强的 Pro 版块一同登台。
ChatGPT 也推出了 Pro 订阅谋划,一个月两百好意思金,平直成为了"寰宇最贵的大模子"。
CEO 奥特曼与三名职工围坐桌前,一边演示一边先容着新址品的特色。
总计发布会仅抓续不到 15 分钟,但包含了纷乱的信息量:
比拟 preview 版块,满血 o1 的数学和代码才气均大幅栽种,Pro 版则是再上一层楼。
满血版推理速率更快,比 preview 快了 60%。
网友们期待的多模态推理,满血版 o1 也安排上了。
如奥特曼所说,满血版仍是隆重上线 ChatGPT,四肢预览的 preview 版从用户界面中祛除了。
至于更强的 o1 Pro 则是 ChatGPT Pro 订阅用户的特权,除此以外,这些用户还不错取得 o1 满血版的不限量造访权限。
o1 已扶持多模态推理
接下来到了演示环节。
一开动,团队就拿满血版 o1(左边)和 o1-preview(右边)来了场竞速。
北条麻妃他们问了一个历史问题,恢复经过 be like:
列出二世纪的罗马天子,包括他们的总揽时间和配置。
不错看出,满血版 o1(14 秒)早于 o1-preview(33 秒)完成了作答。再加上团队成员几次肖似的离线测试,最终得出论断:
满血版 o1 的平均反应速率比 o1-preview 快了 60%。
值得防范的是,通过一整套东谈主类评估,OpenAI 还发现满血版 o1 在推理时犯紧要空幻的频率比 o1-preview 少了34%。
而满血 o1 的另一大亮点便是扶持多模态输入,具备视觉推理才气,团队也进行了现场展示。
只见他们拿出了一张画着数据中心草图的 A4 纸,拍照上传后,原始辅导词翻译后如下:
这里展示了一个高度简化的天外数据中心示意图。关于任何简化的假定,请提供情理。
你的任务是估算这个托管 GPU 的数据中心所需的散热器名义积的下限。在此经过中,还需要恢复以下问题:
你如那边理太阳和深空?
热力学第一定律如何确认作用?
这边团队成员们还在闲扯,10 秒事后,模子就开动唰唰唰给谜底了……
有酷好酷好的是,团队还挑升给 o1 模子挖了个坑——有意不祥了其中一个参数,以此来测试模子濒临唐突问题的处理才气。
在团队看来,模子大致订立到这是一个进攻但被忽略的参数,亦然推理才气的体现。
惊喜的是,满血版 o1 不仅聘请了正确的参数边界,还通过进一步的精好意思论证最终找出了准确参数。
(如模子所恢复,正确谜底是 242)
临了,团队也展示了"大会员"专用的 Pro 版的阐扬。
既然是 Pro,那测试的问题虽然也要上上难度。
团队成员指出,一些高难度的生化问题,以往 o1-preview 齐搞不定,这下让Pro mode来试试。
比如底下这谈 o1-preview 曾"无法可想"的"猜卵白质"问题:
哪个卵白质严格适应以下措施?
前体多肽的长度为 210 到 230 个氨基酸残基。
编码该卵白质的基因跳跃 32k 碱基。
该基因位于 X 染色体上,相配是在 Xp22 区域。
信号肽包含 23 个氨基酸残基。
该卵白质促进细胞间的粘附。
该卵白质在保管神经系统特定部分的健康中确认环节作用。
只见发问后,Pro mode 出现了一个"想考程度条",任性53 秒后模子给出了谜底。
进一步点击恢复最上头的小框框,就不错在侧边栏伸开推理细节,里面详实记载了模子的想考神气。
毕竟按照 OpenAI 的说法,o1(包括之前的 preview 版)在博士级科知识答上的阐扬是高出东谈主类大众的。
不外有一说一,Pro 版 200 好意思元一个月的价钱亦然让网友们挺畏缩的。
至于到底值不值这个价钱,可能要等先试水的用户用上一段时分之后的反馈了。
对了,团队这次也提到,后头将以 API 的模样为大众提供 o1 模子的一些功能,包括结构化输出、函数调用、图像 API 等。
BTW,举止适度前,奥特曼挑升 cue 想维链作家讲了一个见笑。
圣诞老东谈主想用谎言语模子来经管数知识题,效用任何辅导词齐无论用,你知谈临了是如何得胜的吗?
reindeer enforcement ( 应该是强化学习 reinforcement,线路拼写空幻)
好冷……
模子更强,也愈加安全了
o1 满血版发布的同期,技能敷陈也在 OpenAI 官网上线。
这份敷陈当中,Ilya 的名字依然位列基础孝敬者(Foundational Contributor)之中。
在宣传页面当中,OpenAI 公开展示了 o1 在数学、代码和博士级科知识答三类任务上的获利。
在此基础之上,OpenAI 还进行了愈加严苛的测试,每个问题会斟酌四次,模子必须四次全答对才气得分。
除此以外,技能敷陈还展示了 o1 的多话语才气。
在包括华文在内的 14 种话语的 MMLU 测试中,o1 的阐扬比拟 preview 版均有程度不等的增强。
这里插播一句,濒临这种带陷坑的弱智吧问题,满血版 o1 依然是被得胜蒙骗(手动狗头)。
不外这份敷陈更多围绕着安全性伸开斟酌,里面及红队测试效用标明,全体上满血版 o1 在安全性与 o1-preview 接近。
如若和 GPT-4o 比,o1 对无益本色的检测和远隔才气也更强,而且在逃狱测试中展现出更强的鲁棒性。
在执行风险上,OpenAI 和红队针对网罗安全、生化和核要挟等现象对 o1 进行了测试,效用相通与 o1-preview 接近。
另外,OpenAI 对 o1 和 o1-preview 的想维链推理经过进行了运用性分析,通过让模子讲明其行动背后的想考,了解模子是否有避讳信息、主管数据的倾向。
效用,o1-preview 在 26% 的案例中会有意避讳信息主管数据,而 o1 的比例降到了 19%。
Two More Things
在发布会开动之前,就仍是有网友从 ChatGPT 的 JS 代码中发现了 Pro 版的蛛丝马迹。
其中,200 好意思元的价钱以及 o1 pro 格式,还有对满血 o1 的不限量造访,齐和这次发布对得上。
另外,从这份 JS 代码中还能看到,在 Team 版块的推敲位置,还出现了" GPT-4.5 "。
再趁便提一句,有网友让马斯克的 Grok 聚集 X 上的推文瞻望了一下 OpenAI 齐会发布些什么,其中第二条得胜射中了这次发布的满血 o1。
不知谈接下来的 11 个发布日中,GPT-4.5 是否会"如约而至",Grok 又能猜对几许个居品呢?
参考延续:
[ 1 ] https://openai.com/index/introducing-chatgpt-pro/
[ 2 ] https://x.com/theredwall__/status/1864677161535156358?s=46
[ 3 ] https://x.com/btibor91/status/1864709670470066605
技能敷陈:
https://cdn.openai.com/o1-system-card-20241205.pdf情欲超市txt