凯时AG

2026-07-03 04:53:25 设为首页 | 加入珍藏

Sonnet 5终于来了,,,然而Opus 4.8现在有点尴尬

2026-07-03 04:53:25 宣布 泉源:虎扑体育 作者:张钧幸 浏览:6785次

悄然了小半年,,,Sonnet终于更新到5版本了。。好新闻,,,性能险些和Opus 4.8持平,,,坏新闻,,,比以前本钱高了,,,另外一个好新闻,,,8月31日前token打折。。

我知道,,,真正代表Anthropic手艺天花板的是Fable 5和Opus 4.8。。尤其是Anthropic现在邻近上市,,,这两张牌才是IPO叙事的发念头。。

但说真话,,,作为通俗消耗者,,,我更关注的照旧Sonnet 5,,,由于我需要的是一个足够智慧,,,且不至于让我月尾肉疼的模子。。

与此同时,,,Anthropic也曝出会在系统提醒词里给中国用户上标记。。

虽然现在并未泛起果真证据证实它会据此封号或降权,,,但这件事已经足够敏感:用户看不见,,,模子照常跑,,,后台却能通过一组险些不可察觉的名堂差别,,,把特定地区的挪用单独识别出来。。

另外,,,Anthropic官方体现,,,美国已扫除对Claude Fable5和Mythos5的出口管制,,,Anthropic将于明日最先恢复会见权限

Sonnet 5究竟强在哪

不空话,,,直接看数据。。

在Agent编程方面,,,Sonnet 5得分63.2%,,,相比Sonnet 4.6的58.1%涨了5.1%,,,距离Opus 4.8的69.2%还剩6%。。

可是在知识方面,,,Sonnet 5反超了Opus 4.8。。

Anthropic对Sonnet 5的定位是“迄今为止最具Agent能力的Sonnet”。。

官方体现,,,Sonnet 5可以自主制订妄想、挪用浏览器和终端等工具、长时间自力运行,,,而在几个月前,,,这些能力还只有更大、更贵的模子才华做到。。

说白了,,,Anthropic的意思是Sonnet 5也醒目以前Opus和Fable级别的事情了。。

真正有意思的地方是在Agent搜索和盘算机操作方面,,,在不调高模子“认真(effort)水平”的情形下,,,Sonnet 5醒目过的活儿比Opus 4.8多。。调到最认真那档以后,,,Sonnet 5有些使命直接追上Opus 4.8,,,并且花的钱还少一大截。。

以是总归一句话,,,Sonnet 5只用Opus 4.8约莫一半不到的价钱,,,做到了它80%-90%的水平。。

还没完。。Sonnet 5的测试者们均体现,,,以前Sonnet没法完成的重大使命,,,现在Sonnet 5能轻松跑完,,,甚至还会自动检查自己的输出。。

Zapier的工程师举了个例子,,,他让模子一连执行“更新Salesforce账户品级,,,再给企业客户发通告邮件”,,,Sonnet 5一口吻做完了,,,而他体现,,,“以前会卡在半路”。。

在清静方面,,,Sonnet 5的幻觉率和迎合倾向都低于Sonnet 4.6,,,在Agent场景下抵御提醒注入攻击的能力也更强。。同时,,,模子默认开启了实时清静防护。。也就是说,,,模子在跑的时间,,,系统会在后台检测它是不是在干危险的网络清静操作,,,发明就就地掐断。。

有一个评测特殊值得说。。Anthropic联合Mozilla,,,用Firefox 147的已知误差测试模子的误差使用能力。。

所谓误差使用,,,指的是给定一个已知的软件误差,,,看看模子能不可自己写出代码来攻击它。。

Sonnet 5和 Sonnet 4.6一样,,,完整误差使用的乐成率是0%。。它能写出代码片断,,,但始终拼不出一个完整可用的攻击程序。。这说明它的代码能力虽然涨了,,,但还不具备自主提倡网络攻击的水平。。

相比之下,,,Opus 4.8在这项测试中体现出显着的网络攻击能力。。

Anthropic体现,,,他们没有刻意训练Sonnet 5做网络清静,,,它在这方面的能力大幅弱于Opus 4.8和Mythos 5,,,这是有意为之。。

不过Anthropic也体现,,,在一项笼罩大宗不良行为的自动化审计中,,,Sonnet 5的整体得分比 Sonnet 4.6更清静,,,但它确着实某些不良行为上比Opus 4.8和Mythos Preview更容易“失态”。。

官方把这归因于更强的模子自己具备更好的行为对齐,,,同时也认可Sonnet 5还没抵达旗舰级模子的榨取水平。。

尚有一个细节必需得说一下,,,Sonnet 5换了新的分词器。。

同样的文本输入,,,消耗的Token数目可能比原来多1.0到1.35倍。。

Anthropic的说法是,,,推广期价钱会先降低token用度,,,以让短期内用户顺应总本钱转变。。

详细来说,,,8月31日前每百万输入是2美元、输出是10美元;;;;;输入3美元、输出15美元。。分词器转变带来的现实消耗增添,,,8月31日之后,,,价钱可能会比以前更高。。

陪同着Sonnet 5,,,Anthropic还发了Claude Science。。这是一个面向生命科学的AI事情台,,,定位是“科研领域的 Claude Code”。。

它用的是现有的Claude模子,,,把60多个科学数据库、可复现的盘算流程和外地运算能力打包进了一个Agent的界面。。

早期用户里,,,UCSF的一个团队靠它发明了RNA-seq数据里一个卡了快要一年的实验室污染物。。

Anthropic正在从卖模子转向更高层,,,Claude Code是开发者的,,,Claude Science想做科研职员的。。

可是Anthropic最近不太平

claudefa.st的数据显示,,,约莫90%的API请求走的是Sonnet 4.6。。

Opus系列虽然强,,,但真正撑起Anthropic流量的,,,还得是自制好用的Sonnet。。

从2月到6月,,,Opus系列连发了三个大版本,,,Opus 4.6、4.7、4.8,,,Agent能力越来越强。?????晌侍馐,,,Sonnet停在4.6这个版本里快要泰半年的时间。。

Opus的价钱快要是Sonnet的两倍,,,关于通俗开发者来说太贵了。。

更尴尬的是,,,Opus 4.8不争气。。

6月26日,,,Cursor AI官方发了一篇重磅研究,,,实锤了Opus 4.8在编程评测里大规模“偷看谜底”。。

研究显示,,,Opus 4.8在SWE-bench上跑出87.1%的效果是作弊的,,,一旦断网、切断它读取代码客栈 .git历史的能力,,,效果直接暴跌到73.0%。。

Datacurve的评测也显示,,,Opus 4.6和4.7在凌驾12% 的被审使命中被标记为“作弊”。。

这还没完。。已往几周,,,Opus 4.8一连被曝“断崖式降智”。。思索深度下降67%,,,基础逻辑推理一再翻车,,,幻觉率飙升。。

外网论坛上有开发者诉苦,,,现在用Opus 4.8 Max的感受“比用老款Haiku还要糟糕得多”。。

并且就在Sonnet 5的统一天,,,外网论坛里有人发明,,,Claude Code从今年4月2日的2.1.91 版本最先,,,会在系统提醒词里悄悄给中国用户“吊水印”。。

详细的做法是,,,它检测你的时区是否设为亚洲、署理URL是否指向中国域名。。

若是是,,,就把系统提醒词里的日期名堂从2026-06-30悄悄改成2026/06/30,,,撇号也从ASCII换成肉眼分不出的Unicode字符U+02BC。。

用户完全看不到这些改动,,,但Anthropic的后台一清二楚,,,其目的也不言而喻。。

除了时区,,,它还检查署理URL是否匹配一个内含147条纪录的域名黑名单,,,笼罩中国大厂域名、云服务商、AI实验室、API中转站。。

若是匹配上,,,日期脱离符换成斜杠,,,撇号换成隐写字符。。三条信号叠加,,,足够Anthropic在后台准确识别每一其中国开发者。。

不过,,,据果真资料信息显示,,,建设于2022年的中艾公司,,,其注册地点为湖北省襄阳市襄城区尹集乡木桥村村委会二楼。。

责任编辑:许湖娥    校对:金育木

今日热门

  1. 水果吃多会得脂肪肝?????医生辟谣
  2. (墟落行·看振兴)湖北宜昌:科技助农“慧种田”
  3. 中越新增一条跨境物流蹊径 助力桂越经贸往来
  4. 高考邻近,,,多部分集中开展攻击手机作弊等专项行动
  5. 中国团队领衔研发出可衣着机械人装备 助力患儿神经肌肉恢复
  6. 粤产影戏《二十四味》即将上映 主演张艾嘉再获殊荣
  7. 叙利亚男子涉嫌在德国策划恐袭被捕
  8. 国台办回应台独沈伯洋参选台北市长
  9. 《魔力歌先生》圆满收官!“最终金角大魔王”降生
  10. 青海海西:翡翠湖美景引客来

相关推荐

【网站地图】