翻开软件,,点击"?添加 竞猜软件"按钮,,从电脑中选择《竞猜软件》文件,,或直接将其拖拽至软件界面中。。
软件会自动识别并剖析导入的文件,,您可凭证界面提醒选择所需的生涯路径或下载名堂。。
确认无误后,,点击"最先下载/处理"按钮。。期待进度条读取完毕,,即可在设定的文件夹中审查下载好的正版文件。。
Claude Sonnet 5来了:价钱打到六折,,账单却让你“肉疼”,,竞猜软件
出品 | 网易智能
作者 | 小小
编辑 | 王凤枝
Anthropic把一部分"旗舰能力",,塞进免用度户的默认模子里。。
北京时间7月1日破晓,,Claude Sonnet 5正式亮相。。它能自主妄想使命、挪用浏览器和终端、写代码、查错、跑完重大事情流……用Anthropic官方的话说,,这是现在"最像智能体(Agent)"的Sonnet模子。。它的性能已经直逼Opus 4.8,,但价钱却结结实实地降了一个层次。。
听起来确实挺香。。
宣布期内,,Sonnet 5的输入和输出Token价钱(每百万)划分只要2美元和10美元;;;;即便8月尾恢复常态,,也就是输入3美元、输出15美元。。比照Opus 4.8(输入5美元/输出25美元)的标准定价,,Sonnet 5相当于直接打了六折,,首发期更是下探到四折。。
但若是你只盯着跑分表和价钱战,,那就低估了Anthropic的野心。。
这更像是这家硅谷独角兽在IPO前夜搞的一场极限压力测试:当一个靠近旗舰水准的模子,,自制到可以作为日常生产力工具时,,企业客户还会不会把它锁在"试点项目"里??????他们敢不敢真正把AI接入焦点营业流程??????
这个谜底,,不但决议了Sonnet 5能卖得有多火,,更决议了Anthropic那套指向万亿美元估值的弘大故事,,究竟能不可在资源市场融到真金白银。。
与此同时,,Anthropic通过官文宣布,,美国商务部已作废对Claude Fable 5和Mythos 5的出口管制,,两款模子的会见权限将于明日恢复。。
01四个月,,从付费壁垒到公共基准:智能体不再尊贵了
若是你之前没用过顶配的Opus,,你可能无法明确Sonnet 5这次给人带来的攻击。。
把时间拨回今年2月,,那时间想让AI不但是在谈天框里回覆问题,,而是能自己去操作浏览器、翻开终端、自主执行多方法的重大事情流,,你大都得掏钱买最贵的模子。。
那是少数派的特权,,是企业的预算在撑腰,,是通俗用户沾不上边的工具。。
现在翻开Claude,,免费的默认模子已经具备了这种能力。。
AI产品专家阿卡什·古普塔(Aakash Gupta)在体验后分享了一组让人心惊的比照。。他翻出数听说,,在智能体编码的硬核测试SWE-bench Pro上,,Sonnet 5拿到了63.2%的分数,,而旗舰Opus 4.8是69.2%,,追到了旗舰水平的九成以上。。
在另一个知识事情基准GDPval-AA v2上,,Sonnet 5的得分是1618分,,甚至直接反超了Opus 4.8的1615分。。他的感受很直接,,四个月前照旧高端付费壁垒的能力,,现在成了所有人的标配。。
古普塔还提醒各人,,不管你现在在价钱性能曲线上占有什么优势,,谁人护城河实质上都只是一份一直被重置的短期租约。。Anthropic今无邪正宣布的,,或许就是这个被大大缩短了的贬值时间表。。 前沿智能的折旧周期或许只有四到六个月的半衰期,,大大都团队甚至还没做完诠释为什么需要腾贵版本的演示文稿,,那些顶级能力就已经跌进了廉价层级。。
另一位X用户@Shawnife也在社交媒体上表达了类似的感伤。。
他以为像Sonnet 5这样的宣布正在变得容易被低估,,不是由于刷新不主要,,而是AI前进现在感受太频仍了,,以至于能力跃升最先显得正常。。对他来讲,,突出的地方不但仅是Sonnet变好了,,而是"日常模子"和"前沿能力"之间的界线正在一直变薄。。
几个月前,,想获得这种水平的推理、工具使用、自主性和可靠性,,通常意味着要选其时最大的可用模子,,并接受随之而来的高昂本钱。。现在Sonnet 5在坚持价钱规模的同时,,大幅迫近了Opus级别的能力,,这会让更普遍的使用成为可能。。
@Shawnife总结道,,感受我们正进入这样一个阶段,,人们不再问"哪个模子最智慧",,而是最先问"既然这种水平的能力足够自制,,可以天天使用,,我们现在能构建什么"。。 那通常是真正转变最先的地方。。
02不但是"更智慧一点",,而是学会了"把活干完"
关于通俗用户来说,,模子变智慧的感受往往是模糊的,,但开发者们的嗅觉很迅速。。
这次Sonnet 5升级的最大特点,,不在于它多会谈天,,而是它变得极其"靠谱",,尤其擅优点理那种以前会中途卡壳的脏活累活。。
这种"不掉链子"的特质,,正是企业敢把实验项目转为生产安排的要害。。 把AI从试点推到生产线,,最大的障碍历来不是某个炫技的单项得分,,而是能不可在杂乱、不可展望的真实事情流里坚持稳固。。一个在八十步路走到六十四步就迷路的向导,,还不如一张忠实的地图有用。。
先看客观数据。。
在署理式编码测试SWE-bench Pro上,,Sonnet 5拿到了63.2%,,前代Sonnet 4.6是58.1%,,这一跳让Sonnet 5迫近了Opus 4.8的69.2%。。
在另一项更强调实战的编码评估Terminal-Bench 2.1上,,差别收得更窄,,Sonnet 5抵达80.4%,,Opus 4.8是82.7%,,险些追平。。
多学科推理方面,,以人类最终考试为标尺,,Sonnet 5在借助工具的情形下拿到了57.4%,,和Opus 4.8的57.9%基本持平。。
在模拟真实电脑操作的OSWorld-Verified评估里,,Sonnet 5拿到81.2%,,比前代的78.5%有了实打实的前进。。
这些数字背后配合指向一个事实:Sonnet 5并不是前代的修修补补,,它直接跳进了一个和旗舰模子高度重叠的性能区间。。
再来看主观体验。。
AI代码编辑器Cursor的联合首创人苏阿莱·阿西夫(Sualeh Asif)拿它跑了一遍日常事情,,发明这个新模子能死死咬住既定的妄想,,规规则矩遵照开发规范,,最后用让人惬意的本钱交支付一串清晰的多方法代码变换,,就像真正靠谱的工程师那样稳固输出。。
自动化平台Zapier的高级工程师丹尼尔·谢泼德(Daniel Shepard)给它派磷砌以前模子常搞砸的活儿,,自动更新公司繁杂的Salesforce账户层级,,同时发出一封名堂严谨的宣布通告。。以前的模子通常举行到一半就会卡住,,但Sonnet 5重新到尾完成了整个事情流,,这种能可靠地跑完全程的能力,,彻底改变了自动化的经济效益。。
播客主持人本·戴维斯(Ben Davis)的体验则带出了另一层感受。。他的第一反映是这工具基准测试体现着实很差,,在推理方面尤其效率低下,,不是一个快模子,,只管降价了,,由于低效问题也不是一个自制模子。。
但话锋一转,,他说首次印象是他以为别人都错了,,这是一个很是好的模子。。他用的表述是,,Sonnet 5闻起来有"下一代"的味道。。
他诠释说,,Fable是各人拿到的第一个"下一代"模子,,这种模子的特征不是跑分多高,,而是能连贯运行谬妄长的时间、能很好地处理子署理、会自己检查自己的事情,,并且比以往任何模子都更能填补你提醒中的空缺,,真正明确你话里的寄义。。
Sonnet 5在首次测试中就继续了这种味道,,会查自己的输出,,会在没人明确要求的情形下自动核对过失。。不过他也认可,,就像大大都Claude模子一样,,它有时间说教太多,,会回覆你没问的问题,,容易跑题。。幸运的是,,当你指出来的时间,,它不会跟你争辩太久,,而是爽性认错然后拐回正轨。。
以是他的结论是,,在Fable真正回归之前,,这可能是现在最好的模子。。
最后看企业实战。。Box的首席执行官阿隆·列维(Aaron Levie)的测试效果,,给前面这些感受提供了更扎实的佐证。。
Box内部有一套自己开发的AI重大事情评估系统,,专门让模子去端到端地啃真实的企业文档。。他把Sonnet 5扔进去摸爬滚打了一圈,,效果相当惊艳。。在几个利润丰盛的高重漂后领域,,好比能源行业,,Sonnet 5比前代领先了4.7个百分点,,零售领先4.4个百分点,,专业服务领先2.6个百分点。。
列维还分享了几个详细的实战案例。。在做融资尽调时,,Sonnet 5从最原始的资产欠债表中自己下手算出了公司的流动性和杠杆比率,,甚至揪出了泉源报告里低估的债务权益比,,把三笔贷款都标记为违规,,而不但仅是文档自己认可的那些。。
在剖析大修本钱时,,其他模子可能会无脑把表格里的每个数字都加起来,,但它智慧地限制在公司自己界说的KPI框架内,,把应该单独追踪的生产损失本钱清洁地剥离出来,,还顺藤摸瓜找到了电子表格里一个损坏的引用单位格。。
做SKU收入剖析时,,它也没掉进除以总和的常见坑里,,而是准确盘算了每个产品对准确子种别分母的孝顺,,甚至能诠释为什么某类产品没能挤进排行榜前九名。。
列维以为,,在那些非结构化数据高度重大的领域,,Sonnet 5确实展现出了能扛起生产大旗的水准。。 他确认这款模子很快会在Box AI Studio里向客户开放,,用来搭建企业自己的个性化智能体。。
03分词器里的账本:自制了,,但纷歧定省钱
对企业客户来说,,这种能稳固处理重大文档的能力,,恰恰是他们愿意掏钱的理由。。希望意掏钱的条件是,,账单得在预算之内。。
外貌看起来,,Sonnet 5本钱下降了许多,,只用2美元和10美元的特惠价就能买到靠近Opus的智能,,但不少人跑完测试后,,都扭头提醒各人注重"避坑"。。
专门研究AI细节的研究员西蒙·威利森(Simon Willison)有一个习惯,,每次新模子宣布,,他会直接去看开发者文档里的"新特征"部分,,由于那里通常藏着比官方通告更着实的信息。。这次他果真挖出了一个需要仔细掂量的手艺细节。。
Sonnet 5换了一版新的分词器,,处理文字的方式变了。。这带来的直接效果是,,同样的输入文本,,现在的token消耗量比老模子Sonnet 4.6多了快要三成。。
他用一个果真可查的Claude Token计数工具做了实测,,效果相当直观。。他拿来《天下人权宣言》的英文版全文做测试,,在老模子Sonnet 4.6上只消耗2356个token,,到了Sonnet 5直接膨胀到3341个,,增幅抵达1.42倍。;;;;怀晌靼嘌牢陌姹,,token数从3572涨到4747,,增幅1.33倍。。
最狠的是测试一份四千多行的Python代码文件,,token从44014猛增到56113,,涨了1.27倍。。唯一让他松一口吻的是简体中文,,中文文本在前后两个模子上的token消耗量基本持平,,只有稍微的1.01倍波动,,险些可以忽略不计。。
这个发明意味着,,关于重度依赖英文处理或者大宗跑Python代码的开发者来说,,模子的单次使命本钱可能并没有宣传的那么优美。。
Anthropic在官文脚注里着实也坦承了这一点,,他们诠释说优惠定价的设定目的就是为了让过渡期大致坚持本钱中性。;;;;痪浠八,,那几美元的降价空间,,有一部分是用来对冲token膨胀的。。
这个隐藏的变量,,让一些原本对降价拍手叫好的开发者瞬间冷静下来,,转而最先比照自己的典范事情负载重新算账。。
04在社交网络上吵翻天了:有人喊真香,,有人喊退钱
任何一次模子宣布,,社交媒体上都不会只有一种声音。。Sonnet 5上线后的头几个小时,,X平台上的反馈迅速破碎成了两极。。
有人以为这次更新至心满满,,也有人绝不客套地表达了自己的失望。。
X用户@BennettBuhner的吐槽相当尖锐,,他直接说Sonnet 5是迄今为止最差的模子。。他的理由是,,每项使命的现实消耗本钱比用Opus还高,,体现却比Opus差,,并且从4.6到5这么大的版本号跳跃,,在任何方面都算不上有意义的前进。。他用了一个自创的词来发泄不满,,说这是Anthroslop,,带有显着的讥笑意味。。
X用户@weswinder也表达了类似的疑心。。他的逻辑很直接,,Sonnet 5看起来比Opus 4.8更贵,,并且还没那么智慧。。若是为了获得更差的效果反而需要更多token,,那所谓的每token单价优势着实毫无意义。。 他直接问,,这个模子的意义究竟在那里??????
另一位X用户@DaveShapi的体验则像坐过山车。。他的第一反映是震惊,,用他的原话来说是简直不敢相信自己会这么说,,但Sonnet 5的Max起劲模式太费劲了。。他形容那种感受就像给一箱松鼠喂了一堆可卡因,,然后说一句怨亓保佑你,,就等着看另一边会蹦出什么玩意儿。。
随后,,他又诉苦Sonnet 5太容易跑题了,,跟大大都Claude一样爱说教,,会回覆你没问的问题,,整体上就是太狂妄了。。幸亏有一个优点,,当你指出它的过失时,,它不会跟你硬杠太久,,会很爽性地认错,,然后问那行吧我们不必在这上面费劲了。。他无奈地反问,,我花钱买这个干嘛!
但不满的声音之外,,也有人给出了完全差别的判断。。X用户@kimmonismus的谈论则带上了更多战略层面的审阅。。
他拿到的评估效果是,,Sonnet 5确实比前代好,,这谁都能想到,,但在所有评估中都弱于Opus 4.8。。他特殊不明确的是,,既然性能没有跳跃,,为什么版本号要从4.6直接跳到5,,而不是叫4.8或者类似的编号。。通常大版本号的跳跃意味着能力上的重大飞跃,,但这次显然没有。。
@kimmonismus说,,整体而言,,这次宣布让他很疑心,,提出的问题比解答的还多。。他忍不住把Sonnet 5放在Fable 5的配景下审阅,,既然各人已经知道内部保存一个性能显著更强的Fable 5,,也知道可以假设内部有更好的Opus,,为什么憋了半天只放出一个不上不下的Sonnet 5呢??????
他的推测是,,这很可能是由于目今需要榨取。。真正的重头戏由于羁系相同还在周全推迟,,Anthropic眼下需要宣布点什么来坚持自己在对话里不被遗忘,,包括坚持那些起劲的声量。。 在他看来,,Sonnet 5的宣布生怕只能在这个配景下被明确,,留下的余味是某种过渡性的中心产品,,至少对他个人而言,,总体上令人失望。。
面临这些品评,,也有不少人为Anthropic语言。。
有人以为,,拿Sonnet跟Opus比自己就说明Sonnet已经越级了,,中端产品被拿来跟旗舰型号较量,,这恰恰证实晰性能挤进了第一梯队。;;;I杏腥酥赋,,Free用户现在能白嫖这个水平的模子,,尚有什么好诉苦的。。
这种争论自己就说明Sonnet 5踩在了一个玄妙的平衡点上,,它离惊艳还差一口吻,,但离失败又远了太多。。 真正磨练它的不是宣布当天的口碑,,而是接下来几个星期里,,有几多开发者会把日常事情流真正迁徙到这个模子上,,以及那些迁徙已往的人,,月尾收到账单时是颔首照旧皱眉。。
05被"封印"的危险与IPO前夜的榨取
作为正在冲刺万亿美元估值的明星公司,,Anthropic在清静上的弦绷得极紧。。这次Sonnet 5的系统卡里,,清静评估占有了大段篇幅,,坦率了不少细节。。
先说前进的地方。。与前代Sonnet 4.6相比,,Sonnet 5在多个维度上有实着实在的改善。。
它泛起幻觉和谄媚行为的比率更低了,,在面临恶意请求时更善于拒绝,,在智能体场景下反抗提醒注入攻击的能力也更强了。。官方做了全套的自动化行为审计,,测试规模涵盖了配合滥用、诱骗等一系列不当行为,,Sonnet 5的整体不当行为得分比前代更低,,也就是说更清静了。。
但忠实地说,,它并不是最清静的谁人。。系统卡里明确写着,,与能力更强的Opus 4.8以及谁人专门聚焦网络清静的Claude Mythos Preview相比,,Sonnet 5在同样的评估中显示出略高的不当行为爆发率。。 这个表述很审慎,,但也足够说明问题,,更强的模子在某些清静维度上反而做得更好。。
最直观的比照来自一项与Mozilla相助开发的误差使用测试。。
使命是让模子为Firefox 147浏览器编写可用的软件误差使用程序。。Sonnet 5的效果单很清洁,,完全搞不出能用的误差,,乐成率为零。。它的部分乐成率是13.2%,,略高于前代Sonnet 4.6的8.8%,,但这两个数字在Opus 4.8眼前都不值一提,,Opus 4.8搞出了68.8%的可用误差使用程序,,而Mythos 5更是高达88.4%。。
也就是说,,只管Sonnet 5的万能性飙升了,,但在需要极强破损力的网络清静技巧上,,它和两个晚年迈之间还隔着一条鸿沟。。
防止它由于智慧过头而瞎搅,,Anthropic的处理方式是直接默认开启网络清静防护。。这套系统能实时检测并阻止危险的网络使用行为,,只要模子试图触碰危险区域,,防护罩就会弹出来。。
官方诠释说,,这套防护步伐的严酷水平和Opus 4.7及4.8上的一样,,由于他们判断Sonnet 5的总体网络清静风险水平较低,,以是没有接纳像限制Fable 5那样更严肃的手段。。
关于那些有特殊需求、需要较少防护举行网络清静研究的组织,,Anthropic提供了一个"网络清静验证妄想"(Cyber Verification Program)的通道。。已经加入该妄想的组织在Sonnet 5上会自动获得同样的会见权限,,不需要重新申请。。总的来说,,官方照旧推荐那些正经做网络清静事情的人去用Opus 4.8。。
06 Sonnet 5在IPO叙事里饰演什么角色
Anthropic正在冲刺上市,,估值已经推到靠近万亿美元。。在这个节点上推Sonnet 5,,它更像是一次战略上的落子,,而不但是例行更新。。
翻看它近半年的融资轨迹,,速率确实快。。今年2月,,Anthropic以3800亿美元的估值完成了300亿美元融资,,其时的年化营收抵达140亿美元,,已往三年里每年增添凌驾十倍。。到5月下旬,,它又完成了650亿美元的H轮融资,,估值直接跳到9650亿美元,,年化营收已经飙过470亿美元。。
但这种增添速率也带来了一个躲不开的审阅。。剖析机构D.A. Davidson的科技研究主管吉尔·卢里亚(Gil Luria)泼过一盆冷水,,他提醒说,,只管Anthropic在尖端模子方面看起来确实领先,,但现在大部分使用量来自试用和实验,,这生怕没法一连。。 把开发者的猎奇式试用,,转化成签了恒久条约的生产级依赖,,是横在AI实验室眼前最要命的一道坎。。
在这个配景下看Sonnet 5的定价战略,,逻辑就清晰了。。那些正在试用腾贵Opus级模子的企业客户,,可能会发明Sonnet 5在财务部分愿意大规模批准的价位上,,提供了足够好的生产质量。。若是这件事跑通了,,它就能加速整个行业从实验到安排的转变,,而那正是Anthropic为自己的估值提供合理性的要害一步。。
尚有一个容易被忽略的信号。。就在Sonnet 5宣布前一天,,加州州长加文·纽森(Gavin Newsom)宣布了一项相助,,以五折的折扣向所有州政府机构提供Claude,,还附带免费的劳动力培训。。这意味着,,Anthropic将获得一连性、经常性的收入。。
Anthropic美洲区认真人凯特·詹森(Kate Jensen)说,,这是为了让Claude为那些维持加州运转的人服务。。这个协议还延伸到了加州各个市县,,代表的不是一次性的生意,,而是那种能让收入基础穿透开发者社区,,扎进公共服务系统的深度绑定。。对企业客户来说,,这种能稳固处理重大文档的能力,,恰恰是他们愿意掏钱的理由。。
07竞争名堂和估值压力
Sonnet 5宣布的时机,,也恰恰撞上了整个行业竞争最麋集的窗口。。
OpenAI在三月份以8520亿美元估值完成了1220亿美元融资,,同样在准备自己的IPO。。埃隆·马斯克的SpaceX和xAI合并后,,IPO定价每股135美元,,估值到了1.77万亿美元。。谷歌、Meta以及一批资金丰裕的亚洲AI首创公司都在争取统一个企业市场。。
这是一场烧钱的军备竞赛,,没人敢停下来喘气。。
PitchBook的剖析师哈里森·罗尔夫斯(Harrison Rolfes)对此说过一句很着实的话。。他的意思是,,别光盯着估值和营收这些外貌数字看,,那些都可以靠烧钱堆出来。。真正要命的数字是毛利率,,就是公司每挣一块钱,,扣掉算力、电费这些直接本钱之后,,究竟还能剩下几多。。这个数字外界到现在都没见过。。若是毛利率难看,,再高的营收也执偾赔本赚吆喝。。
以是,,2026年这一波AI公司的上市,,要么会成为互联网泡沫以来最乐成的一次资源盛宴,,要么就会酿成一个反面课本,,让果真市场的投资者记着,,光听故事不看账本,,价钱究竟有多贵。。
这句话的潜台词是,,华尔街不会被营收的高速增添容易感动,,他们会一层层剥开财报,,去看每一块钱的营收背后究竟烧掉了几多算力本钱。。而毛利率,,就是谁人磨练AI公司究竟是科技奇;;;U站勺试春诙吹囊χ副。。果真市场很残酷。。
现在球已经踢出去了。。Sonnet 5的真正磨练不在宣布当天的跑分图上,,而在接下来几个月的账单和留存率里。。 开发者是不是真的把日常事情流迁过来了??????月尾收到账单时,,他们是颔首照旧皱眉??????这些才作数。。
拆开来看,,有三个变量会决议谜底。。
第一个是智能体的可靠性。。 基准测试测的是能力天花板,,但生产情形测的是恒久稳固性。。成千上万的开发者在各自杂乱、不可展望的场景里跑起来之后,,Sonnet 5会不会掉链子,,比它在实验室里跑出多高的分都要害。。
第二个是谁人藏在分词器里的账单变量。。 若是企业客户不针对自己的营业场景老忠实实做本钱测算,,只是看一眼宣传的每token单价就以为自制,,那比及优惠期竣事,,真实账单可能会让人吓一跳。。
第三个变量更有意思。。 假设Sonnet 5真的乐成了,,开发者大规模迁徙过来,,企业客户也把它塞进了生产流程,,接下来会爆发什么??????
Opus的位置会变得很尴尬。。若是Sonnet已经能在绝大大都场景下以低得多的本钱提供够用的性能,,谁还愿意花两倍以上的钱去挪用Opus??????到时间Anthropic可能被自己的乐成反噬,,Sonnet卖得越好,,Opus的销量就越受挤压,,而Opus才是毛利更高的那条产品线。。
要么自动降价压缩利润空间,,要么硬扛着看客户从高价产品流向低价产品,,两条路都欠好走。。
Anthropic这次的赌注,,恰恰压在两种下场中心。。
它拿出一个性能直逼旗舰、价钱却能大规模铺开的模子,,就是想证实一件事:尖端能力可以不但停留在最贵的旗舰层,,也能酿成企业天天都能挪用、同时还能赚钱的基础设施。。
等Anthropic真正走到果真市时势前,,投资者会给出谜底:这种"靠近旗舰、价钱下探"的蹊径,,能不可支持一个靠近万亿美元的故事。。
| 软件名称 | 竞猜软件 |
| 软件版本 | v8.86.42 |
| 软件巨细 | 704.81KB |
| 软件分类 | 工具软件 |
| 运行平台 | Android/ios/winall/win7/win10/win11 |
| 软件授权 | 免费版 |
1、翻开软件,,点击"?添加 竞猜软件"按钮,,从电脑中选择《竞猜软件》文件,,或直接将其拖拽至软件界面中。。
2、软件会自动识别并剖析导入的文件,,您可凭证界面提醒选择所需的生涯路径或下载名堂。。
3、确认无误后,,点击"最先下载/处理"按钮。。期待进度条读取完毕,,即可在设定的文件夹中审查下载好的正版文件。。