文 | AIX财经,,,,,,作者 | 王璐,,,,,,编辑 | 魏佳
Claude再次成为焦点。。。。
5月29日破晓,,,,,,AI行业又上演了一场“深夜突袭”。。。。美国大模子公司Anthropic正式宣布Claude最新旗舰模子Opus 4.8,,,,,,并同步宣布完成H轮650亿美元融资,,,,,,投后估值高达9650亿美元。。。。在不到三个月的时间里,,,,,,Anthropic的估值增添约154%,,,,,,正式凌驾竞争敌手OpenAI。。。。
本次模子更新,,,,,,笼罩编码、智能体使命、推理与知识事情等焦点能力,,,,,,其中重点提升了模子的“忠实度”,,,,,,并新增了支持大规模重大使命并行处理的“动态事情流”功效。。。。
然而,,,,,,若仅从功效列表来看,,,,,,很容易高估此次宣布的意义。。。。现实上,,,,,,Opus 4.8并没有带来架构层面的倾覆性突破,,,,,,从业者一致以为其属于“渐进式前进”。。。。
但本次宣布也转达出一个明确信号:大模子的竞争重心,,,,,,正从手艺突破,,,,,,转向谁更可靠、更好用、性价比更高。。。。
这种转向,,,,,,也体现在Claude的迭代节奏上,,,,,,Opus 4.8距离上一版本Opus 4.7的宣布仅43天。。。??焖俚母滤俾,,,,,,既是大模子竞争白热化的缩影,,,,,,也反映了Anthropic目今的处境。。。。它必需以更快的节奏,,,,,,同时向开发者、企业客户与资源市场证实,,,,,,Claude值得信任。。。。
01.前进有限,,,,,,“忠实”是最大亮点
先看官方宣布的Opus 4.8效果单。。。。
在编程、多学科推理、金融剖析等主流基准测试中,,,,,,Opus 4.8的得分周全逾越前代Opus 4.7,,,,,,也压过了竞争敌手GPT-5.5。。。。但有一个细节值得关注:在最贴近开发者真实事情流的“终端编码”测试(Terminal-Bench 2.1)中,,,,,,Opus 4.8以74.6%拿下本次所有单项测试中最大的提升幅度,,,,,,但仍落伍于GPT-5.5的78.2%。。。。
不过,,,,,,这个差别在现实使用中的影响,,,,,,可能比数字看起来要小。。。。
资深开发者張鈺樞告诉「AIX财经」,,,,,,模子在“终端编码”上的体现,,,,,,与开发者详细接纳的事情流亲近相关,,,,,,若是日常高度依赖下令行逐条调试,,,,,,GPT-5.5的领先或许更随手;;;;但若是焦点事情是在IDE中阅读代码、明确架构、重构或修复重大缺陷,,,,,,Claude在SWE-Bench Pro上的优势则更具参考价值。。。。
在他看来,,,,,,对大大都应用层开发者而言,,,,,,终端操作上的差别,,,,,,更多反映的是厂商在各自工具链和优化战略上的差别着重,,,,,,而非模子底层编码能力的根天性短板。。。。因此,,,,,,其在现实开发事情中的影响并不显著,,,,,,是可以接受的。。。。
相比编码能力的细微得失,,,,,,这次更新中更值得关注的,,,,,,是Anthropic重点打磨的“忠实度”。。。。官方数据显示,,,,,,Opus 4.8编写的代码中缺陷被漏报的概率,,,,,,只有Opus 4.7的约四分之一,,,,,,在“诱骗用户”或“协助干坏事”等行为上的爆发率也显著下降。。。。
但这个数字并非没有争议。。。。资深AI从业者方思明告诉「AIX财经」,,,,,,他并没有感受到模子变得特殊忠实,,,,,,“这种前进可能更多体现在相同话术或表达方式的玄妙调解上。。。。”
Anthropic官方也体现,,,,,,其在训练历程中视察到一个潜在矛盾,,,,,,即模子在推理时,,,,,,越来越倾向于“臆测评分者意图”。。。。也就是说,,,,,,它可能正在形成“自己正在被测试”的感知,,,,,,从而给出它以为能拿高分的谜底,,,,,,而非真正最优或最真实的解答,,,,,,这对它所追求的“忠实”原则,,,,,,组成了一定挑战。。。。
综合来看,,,,,,Opus 4.8更像是一次扎实但幅度有限的小版本迭代,,,,,,现实体验上的提升感知并不显著。。。。
方思明的评价颇具代表性,,,,,,他以为“Opus4.8相比Opus4.6和GPT-5.5都算不上越级式的提升,,,,,,更多是针对上一版本Opus4.7的修复与优化。。。。”鉴于此前4.7版本的体现,,,,,,对Anthropic而言,,,,,,当下最迫切的使命是重修用户对AI可靠性的信任,,,,,,然而,,,,,,仅凭现在宣布的数据与体现,,,,,,仍难以说服整个市场相信Claude已是“最值得托付的那一个”。。。。
02.“动态事情流”成新王牌,,,,,,但本钱是个问题
不止一位从业者体现,,,,,,这次宣布最值得关注的不但只有Opus 4.8的各项评分,,,,,,尚有同步推出的Dynamic Workflows(动态事情流)。。。。值得一提的是,,,,,,Anthropic实验室中能力更强的Claude Mythos Preview并未随此次宣布对外开放,,,,,,也就是说,,,,,,Opus 4.8是目今最强的“通用可用版本”,,,,,,但不是Anthropic手里最强的牌。。。。
动态事情流可以简朴明确为,,,,,,Claude现在能饰演“项目总监”的角色,,,,,,把一个大型重大使命自动拆解成数百个子使命,,,,,,分配给多个“子智能体”并行处理,,,,,,中心效果经由交织验证后,,,,,,再整合输出给用户。。。。
Anthropic为此展示了一个官方案例:开发者Jarred Sumner借助动态事情流,,,,,,将Bun的底层语言从Zig迁徙到Rust,,,,,,天生了约75万行Rust代码,,,,,,通过了现有测试套件的99.8%,,,,,,从第一次commit到最终merge,,,,,,历时11天。。。。
这相当于在不到两周内,,,,,,Claude便完成了一个通常需要高级工程师团队耗时数月的大型底层重构项目。。。。
一位从业者以为,,,,,,Dynamic Workflows的泛起标记着Claude的主张,,,,,,从按次收费的“对话/天生”服务,,,,,,转向了按流程和效果收费的“重大使命交付”服务,,,,,,企业购置的,,,,,,是完成一个详细、重大事情流程简直定性。。。。
不过,,,,,,这张“王牌”在业内也引发了不少质疑。。。。
在手艺层面,,,,,,有看法以为其立异性有限。。。。
張鈺樞指出,,,,,,动态事情流在架构上并非倾覆性设计,,,,,,其演示案例所验证的更多是“手艺可行性”,,,,,,距离在真实生产情形中稳固运行仍有显著的工程化距离,,,,,,其中涉及性能、资源与边沿情形等一系列重大挑战。。。。
更为现实的制约来自经济层面。。。。
方思明指出,,,,,,该模式比通例对话消耗更多Token,,,,,,本钱问题尤为突出。。。。“由于需要同时调理十几个智能体协同事情,,,,,,其本钱会蓦然上升。。。。纵然一个事情流设计得再精巧,,,,,,若是最终效果没有显著提升,,,,,,而本钱却翻了几倍,,,,,,对企业来说仍然是不划算的。。。。”
他增补道,,,,,,现实中并非所有企业都拥有高预算。。。。“微软就曾体现,,,,,,在某些场景中,,,,,,使用AI的本钱已高于人力本钱。。。。现在,,,,,,一个本钱可能数倍于通俗AI的解决方案,,,,,,其带来的价值能否带来响应倍数的回报,,,,,,这需要市场和时间的验证。。。。”在他看来,,,,,,这个功效的推出自己也带有一定的实验与探索性子。。。。
为了降低使用门槛,,,,,,Anthropic在本钱端也做了调解。。。。
一方面,,,,,,新增effort control(投入控制)机制,,,,,,用户可凭证使命庞洪水平和需求,,,,,,手动调理Claude在使命上的“思索投入”强度。。。。好比在“High模式”下,,,,,,Claude会举行更深度的推理,,,,,,以追求更优效果;;;;而在“轻量模式”下,,,,,,则可实现更快的响应速率和更低的token消耗。。。。
另一方面,,,,,,在定价战略上,,,,,,Opus 4.8的通例模式维持了与上一版内情同的价钱,,,,,,仍为每百万token 5美元(输入)/ 25美元(输出)。。。。但快速模式的价钱大幅下调,,,,,,从4.7时代的30美元(输入)/ 150美元(输出),,,,,,降至10美元(输入)/ 50美元(输出)。。。。在坚持速率相当的条件下,,,,,,价钱降至原先的约三分之一,,,,,,性价比提升显著。。。。
虽然降价能在一定水平上缓解本钱压力,,,,,,但动态事情流自己的ROI问题,,,,,,仍是企业真正下场之前绕不开的那道坎。。。。
03.按月迭代背后,,,,,,是手艺与商业的双重压力
Claude Opus 4.8的宣布时间,,,,,,距上一版本Opus 4.7仅相隔43天。。。。云云麋集的迭代节奏,,,,,,正是手艺与商业压力叠加的直接体现。。。。
手艺层面,,,,,,这次快速迭代被部分从业者以为是一次不得不做的修复。。。。
Opus 4.7因自顺应推理体验不佳饱受诟病,,,,,,该功效在部分场景下无法合理分配推理资源,,,,,,导致模子面临重大问题时过早省力,,,,,,谜底纰漏,,,,,,推理链条残破。。。。方思明直言,,,,,,“Opus4.8主要目的照旧在修复Opus4.7遗留的问题,,,,,,Opus4.7在开发者圈里绝对不是一个口碑特殊好的模子。。。。”
与此同时,,,,,,外部压力也不允许Anthropic慢下来。。。。
竞争敌手OpenAI最新宣布的GPT-5.5在多项基准测试中一连领先,,,,,,Google Gemini依附深度融入谷歌生态的分发优势组成另一维度的竞争。。。。方思明视察到,,,,,,这次宣布某种水平上也是Anthropic与OpenAI在“舆论声量上的直接对冲”。。。。
这背后有一个更深层的行业现实。。。。不止一位从业者体现,,,,,,当下大模子在架构层面已难以制造倾覆性差别,,,,,,竞争焦点正在转向工程化实现和事情流塑造。。。。
也就是说,,,,,,谁先把AI做进企业的日常生产流程,,,,,,谁就占有了下一阶段的焦点位置。。。。“动态事情流”的推出,,,,,,正是Anthropic试图在这一新维度上争先结构,,,,,,押注重大使命的自动化交付能力,,,,,,不再只靠单项测试分数的微弱领先。。。。
而最直接的压力,,,,,,来自资源市场。。。。
宣布新模子同日,,,,,,Anthropic宣布完成650亿美元H轮融资,,,,,,估值提升至9650亿美元,,,,,,其在2026年2月完成G轮融资时估值仅为3800亿美元,,,,,,三个月内增添幅度约为154%,,,,,,离万亿美元只差一步之遥,,,,,,这个数字放在任何行业都称得上惊人。。。。
支持这个估值的,,,,,,是Anthropic的收入增速。。。。有报道称,,,,,,该公司预计二季度营收将达109亿美元,,,,,,并有望首次实现季度盈利。。。。
巨额融资带来的弹药虽然富足,,,,,,但与之对应的是资源市场同样重大的期待,,,,,,投资者需要看到与估值相匹配的实质性希望。。。。
Opus 4.8肩负着这个“证实自己”的使命。。。。它在基准测试上的体现、动态事情流所描绘的自动化想象,,,,,,以及全线瞄准企业级市场的产品升级偏向,,,,,,配合组成了支持这近万亿估值的底座,,,,,,但动态事情流的投资回报率仍难以量化,,,,,,“更忠实”的模子允许能否真正赢得企业客户的恒久信任,,,,,,尚有待市场的最终磨练。。。。
以是,,,,,,Opus 4.8更像是一次信心释放,,,,,,用43天一个版本的节奏告诉市场,,,,,,它还在加速。。。。但能不可跑稳,,,,,,才是这家公司接下来真正要做的事。。。。
*应受访者要求,,,,,,文中方思明为假名。。。。
在南京路小学“悦读+家庭念书会”上,,,,,,阅读推广人、文史学者刘宜庆以青岛本土文化为切入点,,,,,,讲述岛城书店变迁与名人念书故事,,,,,,向导亲子家庭触摸都会书香脉络。。。。