凯时AG

泉源:家中透明碗养鱼变凸透镜险酿成火灾作者: 赖圣杰:

Sonnet 5终于来了, ,然而Opus 4.8现在有点尴尬

悄然了小半年, ,Sonnet终于更新到5版本了。。。。。好新闻, ,性能险些和Opus 4.8持平, ,坏新闻, ,比以前本钱高了, ,另外一个好新闻, ,8月31日前token打折。。。。。

我知道, ,真正代表Anthropic手艺天花板的是Fable 5和Opus 4.8。。。。。尤其是Anthropic现在邻近上市, ,这两张牌才是IPO叙事的发念头。。。。。

但说真话, ,作为通俗消耗者, ,我更关注的照旧Sonnet 5, ,由于我需要的是一个足够智慧, ,且不至于让我月尾肉疼的模子。。。。。

与此同时, ,Anthropic也曝出会在系统提醒词里给中国用户上标记。。。。。

虽然现在并未泛起果真证据证实它会据此封号或降权, ,但这件事已经足够敏感:用户看不见, ,模子照常跑, ,后台却能通过一组险些不可察觉的名堂差别, ,把特定地区的挪用单独识别出来。。。。。

另外, ,Anthropic官方体现, ,美国已扫除对Claude Fable5和Mythos5的出口管制, ,Anthropic将于明日最先恢复会见权限

Sonnet 5究竟强在哪

不空话, ,直接看数据。。。。。

在Agent编程方面, ,Sonnet 5得分63.2%, ,相比Sonnet 4.6的58.1%涨了5.1%, ,距离Opus 4.8的69.2%还剩6%。。。。。

可是在知识方面, ,Sonnet 5反超了Opus 4.8。。。。。

Anthropic对Sonnet 5的定位是“迄今为止最具Agent能力的Sonnet”。。。。。

官方体现, ,Sonnet 5可以自主制订妄想、挪用浏览器和终端等工具、长时间自力运行, ,而在几个月前, ,这些能力还只有更大、更贵的模子才华做到。。。。。

说白了, ,Anthropic的意思是Sonnet 5也醒目以前Opus和Fable级别的事情了。。。。。

真正有意思的地方是在Agent搜索和盘算机操作方面, ,在不调高模子“认真(effort)水平”的情形下, ,Sonnet 5醒目过的活儿比Opus 4.8多。。。。。调到最认真那档以后, ,Sonnet 5有些使命直接追上Opus 4.8, ,并且花的钱还少一大截。。。。。

以是总归一句话, ,Sonnet 5只用Opus 4.8约莫一半不到的价钱, ,做到了它80%-90%的水平。。。。。

还没完。。。。。Sonnet 5的测试者们均体现, ,以前Sonnet没法完成的重大使命, ,现在Sonnet 5能轻松跑完, ,甚至还会自动检查自己的输出。。。。。

Zapier的工程师举了个例子, ,他让模子一连执行“更新Salesforce账户品级, ,再给企业客户发通告邮件”, ,Sonnet 5一口吻做完了, ,而他体现, ,“以前会卡在半路”。。。。。

在清静方面, ,Sonnet 5的幻觉率和迎合倾向都低于Sonnet 4.6, ,在Agent场景下抵御提醒注入攻击的能力也更强。。。。。同时, ,模子默认开启了实时清静防护。。。。。也就是说, ,模子在跑的时间, ,系统会在后台检测它是不是在干危险的网络清静操作, ,发明就就地掐断。。。。。

有一个评测特殊值得说。。。。。Anthropic联合Mozilla, ,用Firefox 147的已知误差测试模子的误差使用能力。。。。。

所谓误差使用, ,指的是给定一个已知的软件误差, ,看看模子能不可自己写出代码来攻击它。。。。。

Sonnet 5和 Sonnet 4.6一样, ,完整误差使用的乐成率是0%。。。。。它能写出代码片断, ,但始终拼不出一个完整可用的攻击程序。。。。。这说明它的代码能力虽然涨了, ,但还不具备自主提倡网络攻击的水平。。。。。

相比之下, ,Opus 4.8在这项测试中体现出显着的网络攻击能力。。。。。

Anthropic体现, ,他们没有刻意训练Sonnet 5做网络清静, ,它在这方面的能力大幅弱于Opus 4.8和Mythos 5, ,这是有意为之。。。。。

不过Anthropic也体现, ,在一项笼罩大宗不良行为的自动化审计中, ,Sonnet 5的整体得分比 Sonnet 4.6更清静, ,但它确着实某些不良行为上比Opus 4.8和Mythos Preview更容易“失态”。。。。。

官方把这归因于更强的模子自己具备更好的行为对齐, ,同时也认可Sonnet 5还没抵达旗舰级模子的榨取水平。。。。。

尚有一个细节必需得说一下, ,Sonnet 5换了新的分词器。。。。。

同样的文本输入, ,消耗的Token数目可能比原来多1.0到1.35倍。。。。。

Anthropic的说法是, ,推广期价钱会先降低token用度, ,以让短期内用户顺应总本钱转变。。。。。

详细来说, ,8月31日前每百万输入是2美元、输出是10美元;;输入3美元、输出15美元。。。。。分词器转变带来的现实消耗增添, ,8月31日之后, ,价钱可能会比以前更高。。。。。

陪同着Sonnet 5, ,Anthropic还发了Claude Science。。。。。这是一个面向生命科学的AI事情台, ,定位是“科研领域的 Claude Code”。。。。。

它用的是现有的Claude模子, ,把60多个科学数据库、可复现的盘算流程和外地运算能力打包进了一个Agent的界面。。。。。

早期用户里, ,UCSF的一个团队靠它发明了RNA-seq数据里一个卡了快要一年的实验室污染物。。。。。

Anthropic正在从卖模子转向更高层, ,Claude Code是开发者的, ,Claude Science想做科研职员的。。。。。

可是Anthropic最近不太平

claudefa.st的数据显示, ,约莫90%的API请求走的是Sonnet 4.6。。。。。

Opus系列虽然强, ,但真正撑起Anthropic流量的, ,还得是自制好用的Sonnet。。。。。

从2月到6月, ,Opus系列连发了三个大版本, ,Opus 4.6、4.7、4.8, ,Agent能力越来越强。。。。??晌侍馐, ,Sonnet停在4.6这个版本里快要泰半年的时间。。。。。

Opus的价钱快要是Sonnet的两倍, ,关于通俗开发者来说太贵了。。。。。

更尴尬的是, ,Opus 4.8不争气。。。。。

6月26日, ,Cursor AI官方发了一篇重磅研究, ,实锤了Opus 4.8在编程评测里大规模“偷看谜底”。。。。。

研究显示, ,Opus 4.8在SWE-bench上跑出87.1%的效果是作弊的, ,一旦断网、切断它读取代码客栈 .git历史的能力, ,效果直接暴跌到73.0%。。。。。

Datacurve的评测也显示, ,Opus 4.6和4.7在凌驾12% 的被审使命中被标记为“作弊”。。。。。

这还没完。。。。。已往几周, ,Opus 4.8一连被曝“断崖式降智”。。。。。思索深度下降67%, ,基础逻辑推理一再翻车, ,幻觉率飙升。。。。。

外网论坛上有开发者诉苦, ,现在用Opus 4.8 Max的感受“比用老款Haiku还要糟糕得多”。。。。。

并且就在Sonnet 5的统一天, ,外网论坛里有人发明, ,Claude Code从今年4月2日的2.1.91 版本最先, ,会在系统提醒词里悄悄给中国用户“吊水印”。。。。。

详细的做法是, ,它检测你的时区是否设为亚洲、署理URL是否指向中国域名。。。。。

若是是, ,就把系统提醒词里的日期名堂从2026-06-30悄悄改成2026/06/30, ,撇号也从ASCII换成肉眼分不出的Unicode字符U+02BC。。。。。

用户完全看不到这些改动, ,但Anthropic的后台一清二楚, ,其目的也不言而喻。。。。。

除了时区, ,它还检查署理URL是否匹配一个内含147条纪录的域名黑名单, ,笼罩中国大厂域名、云服务商、AI实验室、API中转站。。。。。

若是匹配上, ,日期脱离符换成斜杠, ,撇号换成隐写字符。。。。。三条信号叠加, ,足够Anthropic在后台准确识别每一其中国开发者。。。。。

@陈永桂:AG管网, ,深圳机场“We are sorry”广播引热议
@王惠婷:从摩尔到韬定律的六十年
@张淑敏:中国龙舟果真赛前两艘龙舟被烧

【网站地图】