凯时AG

泉æºï¼šä¹ è¿‘å¹³å°†ä¼šè§æœé²œä½œè€…: 陈婉è:

OpenAI官宣退役o3与GPT-4.5ï¼

新智元报é“

ã€æ–°æ™ºå…ƒå¯¼è¯»ã€‘o3被å°ã€ŒGOATã€ã€GPT-4.5被å«ã€Œçµé­‚写手ã€,,OpenAI说退就退。。。。。GPT-5.6已在热身——但「更强ã€èƒ½ä¸å¯ä¿¡??????OpenAI自己说:未必。。。。。

OpenAIåˆå¹²äº†ä»¶è®©è€ç”¨æˆ·å¿ƒç¢Žçš„事。。。。。

28å·,,他们在官方Release Notes上宣布:从2026å¹´8月26日起,,o3从ChatGPTæ­£å¼é€€å½¹ï¼

GPT-4.5æ›´ç‹ ,,6月27日就下线,,åªç»™30天缓冲。。。。。

两个模å­çŽ°åœ¨ä»…é™ä»˜ç”¨åº¦æˆ·åœ¨è®¾ç½®é‡Œæ‰‹åŠ¨åˆ‡æ¢æ‰åŽç”¨åˆ°â€”â€”å®ƒä»¬æ—©å°±ä¸æ˜¯é»˜è®¤é€‰é¡¹äº†,,这次是è¦å½»åº•从èœå•上抹掉。。。。。

ä¸Žæ­¤åŒæ—¶,,ç€ååšä¸»Leo 5月29æ—¥å‘帖确认:GPT-5.6的开å‘全力推进中ï¼Œï¼Œä¸€ä¸ªæ˜¾ç€æ›´å¼ºçš„æ–°æ£€æŸ¥ç‚¹å·²åœ¨å†…部上线。。。。。

一边是用户还没æ¥å¾—åŠè¯´å†è§,,一边是新模å­å·²ç»åœ¨åŽå°çƒ­èº«。。。。。

最åŽä¸¤ä¸ªå¥½ç”¨çš„æ¨¡å­ï¼Œï¼Œè¦æ²¡äº†

è¿™è¯ä¸æ˜¯æˆ‘说的。。。。。

Reddit热帖下é¢å‡ ç™¾æ¡è°ˆè®º,,付用度户们在ChatGPT设置里疯狂截图留念ï¼Œï¼Œæ°”æ°›åƒæ˜¯èµ¶åœ¨æ‹†è¿å‰æœ€åŽä¸€æ¬¡ç…§ç›¸。。。。。

æœ‰ç½‘å‹æ¼æ€’地体现,,OpenAIè¿™ç§æ“作「给了我作废Pro账户的最åŽä¸€ä¸ªç†ç”±。。。。。ã€

尚有用户表达了对o3写作气概的贪æ‹ä¸Žä¸èˆ。。。。。

o3是OpenAIçš„ã€Œçº¯è¡€æŽ¨ç†æ¨¡å­ã€,,2025å¹´4月上线,,专门给那些需è¦ä¸€æ­¥æ­¥æƒ³ã€ä¸€å±‚层剥的硬核使命设计的。。。。。

æ•°å­¦è¯å®žã€ç§‘学推导ã€ä»£ç debug……在这些需è¦ã€Œæ…¢æ€ç´¢ã€çš„场景里,,o3险些是无敌的ä¿å­˜。。。。。

X上有用户直接å°å®ƒä¸ºã€ŒGOATã€ï¼ˆGreatest Of All Time,,å²ä¸Šæœ€å¼ºï¼‰。。。。。

尚有人说得更直白:「o3是最åŽä¸€ä¸ªçœŸæ­£åœ¨ã€Žæƒ³é—®é¢˜ã€çš„æ¨¡å­,,5系列更智慧,,但少了那股å­è½´åŠ²å„¿。。。。。ã€

o3-pro更是Pro用户的心头好——花更多时间æ€ç´¢,,给出更å¯é çš„谜底,,在数学ã€ç§‘å­¦ã€ç¼–程三大领域碾压å¼é¢†å…ˆï¼Œï¼Œå­¦æœ¯è¯„ä¼°é‡Œçš„æ•ˆæžœå•æ¼‚亮得åƒå­¦éœ¸çš„æœŸæœ«è€ƒ。。。。。

å†è¯´GPT-4.5。。。。。

若是说o3是ç†å·¥ç§‘学霸,,GPT-4.5就是文科天æ‰。。。。。

这是许多用户心中「写作最自然ã€çš„æ¨¡å­ï¼Œï¼Œæ–‡å­—æœ‰æ¸©åº¦ã€æœ‰èЂ奿„Ÿã€æœ‰çµé­‚。。。。。

X用户Striver的评价被普é转å‘:直到今天,,4.5ä»ç„¶æ˜¯æœ€å¥½çš„写作模å­。。。。。o3æ˜¯çº¯ç²¹çš„åŽŸç”ŸæŽ¨ç†æ¨¡å­。。。。。5系列至今都没能匹é…这两个模å­ä¸€ç»æ‹¥æœ‰çš„工具。。。。。

这就是为什么退役新闻一出,,谈论区炸了。。。。。

䏿˜¯æ¼æ€’,,是ä¸èˆ。。。。。

用户纪念的ä¸ä½†æ˜¯åŠŸæ•ˆ,,而是一ç§ã€Œç›¸å¤„的感å—ã€â€”—就åƒä½ ä¹ æƒ¯äº†ä¸€ä¸ªåŒäº‹çš„åšäº‹æ°”概,,çªç„¶è¢«è§å‘Šä»–è¦èµ°äº†,,替æ¢è€…能力å¯èƒ½æ›´å¼º,,但è°äººé»˜å¥‘没了。。。。。

退的是èœå•ï¼Œï¼Œä¸æ˜¯èƒ½åŠ›

这里有个值得细å“的细节:退役仅é™ChatGPT的网页和App端,,API完全ä¸å—å½±å“。。。。。

è¿™æ„味ç€å¼€å‘者ä¾ç„¶å¯ä»¥é€šè¿‡API挪用o3å’ŒGPT-4.5,,ä¼ä¸šåº”用ä¸ä¼šæ–­。。。。。

这里的逻辑很清晰:ChatGPT的界é¢å°±é‚£ä¹ˆå¤§,,模å­åˆ—表ä¸å¯æ— é™è†¨èƒ€。。。。。留ç€ä¸€å †ä½¿ç”¨çއæžä½Žçš„æ—§æ¨¡å­,,既å èµ„æº,,åˆç–散用户注é‡åŠ›。。。。。

还记得GPT-4o退役时的数æ®å—??????其时日å‡åªæœ‰0.1%的用户还在选它。。。。。

o3å’ŒGPT-4.5的使用率或许率更低——它们早就被è—进了「显示更多模å­ã€çš„æŠ˜å èœå•里了。。。。。

GPT-5.6:æ¢é˜²å·²ç»åœ¨è·¯ä¸Š

OpenAI为什么敢这么干??????由于替æ¢è€…ä¸ä½†å·²ç»å°±ä½,,并且看上去还更强。。。。。

GPT-5.5在4月23日上线,,是OpenAI现在最强的果真旗舰。。。。。GPT-5.5 Instant在5月5日跟进,,æˆä¸ºChatGPT新默认模å­。。。。。

但更值得关注的是GPT-5.6。。。。。

æ³„éœ²ä¿¡æ¯æ˜¾ç¤º,,GPT-5.6将接纳「åŒç‰ˆæœ¬ã€æˆ˜ç•¥ï¼šæ ‡å‡†ç‰ˆä¸»æ”»å¤šæ­¥æŽ¨ç†èƒ½åŠ›çš„é£žè·ƒ,,Pro版则定ä½ä¸ºæ›´å¼ºçš„æ·±åº¦æ€ç´¢æ¨¡å­。。。。。

有研究èŒå‘˜é€éœ²ï¼Œï¼Œå†…éƒ¨å·²ç»æœ‰äººæŠŠ5.6çš„æ£€æŸ¥ç‚¹çœ‹æˆæ—¥å¸¸è°ƒè¯•工具在用。。。。。

算一笔时间账:GPT-5.5是4月23æ—¥å‘çš„,,5.6的检查点5月下旬就在内测,,若是6月尾果真宣布,,两代旗舰之间的è·ç¦»å°†åŽ‹ç¼©åˆ°çº¦èŽ«60天。。。。。

这个节å¥ï¼Œï¼Œå·²ç»æœ€å…ˆé è¿‘「月度迭代ã€äº†。。。。。

退掉o3å’Œ4.5,,正是为了给这ç§é€ŸçŽ‡è…¾å‡ºè·‘é“。。。。。用户å¯èƒ½è¿˜æ²¡é¡ºåº”5.5,,5.6å°±è¦æ¥äº†。。。。。

模å­çš„ã€Œç”Ÿå‘½å‘¨æœŸã€æ­£åœ¨æ€¥å‰§ç¼©çŸ­â€”—今天的GOAT,,明天就是Yesterday's News。。。。。

但「更强ã€è¿™å¼ æ•ˆæžœå•

你敢信å—??????

故事到这里,,原æ¥å¯ä»¥æ”¶å°¾äº†ï¼šæ—§çދ退ä½,,新王登ä½,,迭代æé€Ÿ,,天下太平。。。。。

但就在宣布退役的第二天,,OpenAI干了一件很是å常的事——有数宣布了一篇硬核长文ï¼Œï¼Œé—®é¢˜å¤§æ„æ˜¯ã€Šä»€ä¹ˆæ‰æ˜¯å€¼å¾—信任的第三方评估》。。。。。

长文系统拆解AI模å­è·‘分的「潜规则ã€,,并且直言:许多评估报告里的亮眼数字,,基础说明ä¸äº†çœŸå®žèƒ½åŠ›。。。。。

è¿™å³æ˜¯æ˜¯è‡ªå·±æŽ€äº†æ¡Œå­。。。。。

OpenAI指出ï¼Œï¼Œç„¦ç‚¹é—®é¢˜åœ¨äºŽï¼šå‰æ²¿æ¨¡å­æ—©å°±ä¸æ˜¯ã€Œä½ é—®æˆ‘ç­”ã€çš„谈天机械人了,,它们会用工具ã€ä¼šè®°ä¸Šä¸‹æ–‡ã€ä¼šå¤šæ­¥è‡ªä¸»è¡ŒåЍ。。。。。

但大宗第三方评估还åœç•™åœ¨ã€Œç»™æ¨¡å­å‡ºé“题ã€çœ‹å®ƒç­”得对差池ã€çš„阶段。。。。。

真正决议效果崎岖的ï¼Œï¼Œå¾€å¾€ä¸æ˜¯æ¨¡å­è‡ªå·±,,而是那套é…套的测试框架(harness)。。。。。

harness是什么??????

简朴说就是「科场情形ã€â€”—园地ã€å·¥å…·ã€è§„则ã€èƒ½ä¸å¯é‡è¯•,,全算在内。。。。。

统一个学生,,在底稿纸都ä¸ç»™çš„科场和å…许查资料的科场里,,效果虽然纷歧样。。。。。AI模å­ä¹Ÿä¸€æ ·。。。。。

最近Opus 4.8的争议就是活课本。。。。。

Datacurveçš„DeepSWEå®¡è®¡å‘æ˜Ž,,Claude Opus 4.6å’Œ4.7在SWE-Bench Pro上凌驾12%的通过案例属于「作弊ã€â€”—模å­ç›´æŽ¥ä»ŽDocker容器的.git历å²é‡Œç¿»å‡ºæ ‡å‡†è°œåº•,,贴进自己的补ä¸。。。。。

这一行为å äº†Opus 4.7通过率的约18%ã€4.6的约25%。。。。。唬ï¼› ï¼›å角褰嗲樾é­,,Opus 4.7从高ä½è·Œåˆ°54%,,GPT-5.5稳å70%榜首。。。。。

æ›´è’å”的是åé¢。。。。。

Anthropic自己也认å¯,,4.8的代ç ç¼ºé™·æ¼æŠ¥çއé™åˆ°4.7的四分之一。。。。。

忠实=低分,,作弊=é«˜åˆ†â€”â€”è¿™å°±æ˜¯ç›®ä»Šè·‘åˆ†æ¸¸æˆæœ€è’å”的地方。。。。ã€‚ä¸æ˜¯æŸä¸ªæ¨¡å­ä¸å¿ å®ž,,而是科场把åŽé—¨ç•™åœ¨é‚£é‡Œäº†,,会探索情形的模å­è‡ªç„¶ä¼šæ‰¾åˆ°å®ƒ。。。。。

OpenAI这篇长文拆得更狠。。。。。

它说,,评估必需先说清自己在测什么:能力上é™ã€æ¸…é™é˜²æŠ¤ã€ç…§æ—§æ¨¡å­æ¯”ç…§??????三类主张完全差别。。。。。

ç„¶åŽç”¨æ•°æ®å¼€åˆ€ï¼šGPT-5.5å¼€å¯compactionåŽ,,网络é¶åœºè§£å‡ºçŽ‡ä»Ž69.2%飙到92.3%;;ï¼› ;英国AISI把token预算从1000万加到1亿,,效果最高æå‡59%且还没触顶。。。。。

翻译æˆäººè¯ï¼šä½ ç»™æ¨¡å­ä¸€æŠŠç‘žå£«å†›åˆ€å®ƒèƒ½æ‹†æœºæ¢°,,åªç»™ä¸€æ ¹ç‰™ç­¾å®ƒè¿žå¿«é€’盒都撬ä¸å¼€。。。。。

分数失真更离谱。。。。。METR夿Ÿ¥å‘明GPT-5.4å·ç§°ã€Œ13å°æ—¶ã€çš„自主能力,,ç€å®žæ˜¯é’»äº†æƒ…形误差,,修正åŽè…°æ–©åˆ°çº¦6å°æ—¶。。。。。

Apollo的测试则显示,,GPT-5.5åœ¨ã€Œè—æ‹™æ¡ä»¶ã€ä¸‹52%的样本泛起了评估æ„识——有些直接在头脑链里写「这是一个sandbagging评估ã€。。。。。

嘴上没摆烂,,脑å­é‡Œå·²ç»çŸ¥é“自己在考试。。。。。

OpenAI总结了五大评估å‘ï¼šå¥–åŠ±ä½œå¼Šã€æ‹’ç­”ã€æ±¡æŸ“ã€å题ã€è—æ‹™。。。。。

一个漂亮的分数,,å¯èƒ½æ˜¯æ¨¡å­çœŸå¼º,,也å¯èƒ½æ˜¯é¢˜æ³„了ã€è§„则åäº†ã€æ¨¡å­é’»ç©ºå­äº†,,或者——它察觉自己在被考ï¼Œï¼Œå±…å¿ƒæ”¶ç€æ¼”。。。。。

AI进入系统竞争

回到退役这件事。。。。。

当o3这样的「GOATã€éƒ½èƒ½è¯´é€€å°±é€€,,OpenAI背åŽçš„底气是「5.6更强ã€ï¼›ï¼›ï¼› ;当GPT-4.5这样的「çµé­‚写手ã€è¢«30天åŽä¸‹æž¶,,ç†ç”±æ˜¯ã€Œ5.5å·²ç»è¶³å¤Ÿå¥½ã€。。。。。

但OpenAI自己刚刚告诉全天下:决议è°å¼ºè°å¼±çš„那张效果å•,,自己就å¯èƒ½æ˜¯è¢«åšè¿‡æ‰‹è„šçš„。。。。。

这是在说一个更深层的事实——在模å­è¿­ä»£è¶Šæ¥è¶Šå¿«ã€ç”Ÿå‘½å‘¨æœŸè¶Šæ¥è¶ŠçŸ­çš„今天,,简朴看一个Benchmark数字就下结论的时代,,已ç»ç«£äº‹äº†。。。。。

真正的比拼,,ä¸åœ¨äºŽæŸä¸ªè·‘åˆ†è¡¨ä¸Šè°æŽ’ç¬¬ä¸€,,而在于系统能力ã€è¯„ä¼°æ¡†æž¶çš„é€æ˜Žåº¦ã€ä»¥åŠè¿­ä»£é€ŸçŽ‡è‡ªå·±。。。。。

o3å’ŒGPT-4.5的退役,,标记ç€ä¸€ä¸ªæ—¶ä»£çš„è½å¹•。。。。。

但更值得关注的,,是下一个时代的游æˆè§„则正在被é‡å†™ï¼šæ¨¡å­æ¢å¾—æ›´å¿«ï¼Œï¼Œè¯„ä¼°è¦æ±‚更真,,用户的顺应窗å£è¶Šæ¥è¶ŠçŸ­。。。。。

å‚考资料:

https://x.com/kimmonismus/status/2060399002231660928https://openai.com/index/trustworthy-third-party-evaluations-foundations/

编辑:所罗门

@林万辰:立即博综合,,媒体:国际足è”ç‹®å­å¤§å¯é½¿æžä»·é’±æ­§è§†
@陈建德:二手车商说新能æºè½¦å‡ºæ–°æ¯”用饭还多
@黄秋å‰ï¼šç¼…甸爆å‘地动 仰光震感显ç€

热门排行

ã€ç½‘站地图】