凯时AG

泉源:女子破晓接到去世半年表弟来电作者: 陈丽毓:

Claude“神话”模子登场。 。。。∽灾骺蒲行Ч犊蒲А仿畚乃剑 , ,,,token在燃烧

智工具作者 陈骏达编辑 李水青

Claude的“神话”级模子, , ,,,终于上线了!

智工具6月10日报道, , ,,,今天, , ,,,Claude正式宣布新一代旗舰模子Claude Fable(寓言) 5, , ,,,以及面向特定机构开放的Claude Mythos(神话) 5。。 。。。这两款模子同属Mythos(神话)级, , ,,,共享统一个底层模子, , ,,,能力高于Opus级。。 。。。Mythos级是Anthropic迄今为止能力最强、综合性能最高的大模子级别。。 。。。

Anthropic在手艺博客中称, , ,,,面向公众开放的Fable 5在险些所有AI能力基准测试中处于顶尖水平, , ,,,能胜任软件工程、知识事情、视觉明确、科学研究等多个领域的重大使命。。 。。。同时, , ,,,使命越长、越重大, , ,,,Fable 5的优势就越大。。 。。。与Opus 4.8、GPT 5.5和Gemini 3.1 Pro相比, , ,,,Fable 5/Mythos 5称得上是断层领先。。 。。。

▲Fable 5/Mythos 5基准测试效果(图源:Anthropic)

Anthropic的官方案例显示, , ,,,“下手”设计3D打印模子、玩重大的战略游戏, , ,,,打造太阳系、流体力学模拟, , ,,,这些使命关于Fable 5/Mythos 5来说都不在话下。。 。。。

▲Fable 5实测案例(图源:Anthropic)

Mythos 5与Fable 5的主要差别在于清静步伐。。 。。。Fable 5在处理生物学、网络清静和前沿科研场景的部分敏感请求时, , ,,,将自动降级到Opus 4.8响应。。 。。。

而被定位为“全球最强网络清静模子”的Mythos 5则在某些领域移除了清静防护步伐。。 。。。这款模子现在率先通过Anthropic与美国政府相助的Project Glasswing项目对外开放, , ,,,未来妄想通过更普遍的受信任会见妄想扩展会见权限。。 。。。

价钱方面, , ,,,Fable 5和Mythos 5的价钱划分为每百万输入token 10美元(约合人民币67.7元)和每百万输出token 50美元(约合人民币338.6元), , ,,,或许是Mythos Preview的一半。。 。。。即便云云, , ,,,这两款模子烧起token来照旧十分惊人的。。 。。。

有用户反馈。 。。。 , ,,,在200美元/月的Claude Max套餐中, , ,,,Fable 5仅用1分钟消耗了约14%的5小时使用配额, , ,,,并消耗约2%的周配额。。 。。;;;;;;凰阆吕矗 , ,,,或许1分钟1美元。。 。。。

▲网友吐槽Fable 5使用本钱(图源:X平台)

Fable 5模子现已周全上线。。 。。。克日起至6月22日, , ,,,Pro、Max、Team和按座收费的企业版用户可免费使用。。 。。。6月23日起, , ,,,Fable 5将从这些套餐中移除, , ,,,之后需消耗积分才华使用。。 。。。Anthropic官方称, , ,,,待容量富足后, , ,,,他们会尽快将其恢复为订阅妄想的标配功效, , ,,,并可能视情形延伸免费期。。 。。。

Anthropic对新模子的命名也值得关注。。 。。。Fable和Mythos沿用了此前的文学文体命名方式, , ,,,相较此前接纳的Haiku(俳句)、Sonnet(十四行诗)、Opus(巨著), , ,,,这些名字的更为弘大。。 。。。这种转变或许反映出其产品定位的调解, , ,,,Claude未来肩负所肩负使命的重漂后和规模, , ,,,或将进一步提升。。 。。。

一、2个月开发事情几天干完, , ,,,还能靠记条记自我优化

Anthropic在其博客中格外强调了新模子的恒久自主事情能力。。 。。。他们称:“Fable 5和Mythos 5可以比任何之前的Claude模子更长时间地自主运行。。 。。。”

这种能力让这代Claude模子可以完成更为重大的使命。。 。。。

在软件工程领域, , ,,,加入早期测试的金融科技公司Stripe称, , ,,,Fable 5将数月的工程事情压缩到了几天内。。 。。。在一个5000万行的Ruby代码库中, , ,,,该模子在一天内完成了全代码库的迁徙, , ,,,而原本这一事情需要整个团队人工操作2个月才华完成。。 。。。

与已往的Claude模子相比, , ,,,Fable 5的token效率也更高:在编程基准测试FrontierCode中, , ,,,Fable 5仅用中等思索强度, , ,,,就凌驾了前沿模子。。 。。。

▲Fable 5在FrontierCode上的体现(图源:Anthropic)

有不少网友已经在编程使命中验证了Fable 5的能力。。 。。。有位网友晒出了自己用Fable 5打造的《我的天下》, , ,,,这一游戏的完成度已经很高了, , ,,,有完整的制作和背包系统, , ,,,游戏渲染没有bug, , ,,,甚至还添加了音效和配景音乐。。 。。。完成这样一个使命, , ,,,Fable 5或许烧掉了30美元。。 。。。

另一位网友比照了Fable 5和Opus 4.8的能力差别。。 。。。在所有使命中, , ,,,都能显着感受到Fable 5显着强于Opus 4.8。。 。。。好比, , ,,,在近地物体监控网页上, , ,,,Fable 5的设计显着更具美感, , ,,,抓取的信息富厚度也更高。。 。。。

▲Fable 5和Opus 4.8打造的近地物体监测器(图源:X平台)

在天下杯球衣销售监测网页使命中, , ,,,Fable 5的效果运行正常, , ,,,但Opus 4.8打造的网页泛起了显着的视觉bug。。 。。。

▲Fable 5和Opus 4.8打造的天下杯球衣销售监测网页(图源:X平台)

在知识型事情方面, , ,,,Fable 5在企业级AI知识治理创企Hebbia的金融基准测试中, , ,,,Fable 5获得了所有模子中最高的分数, , ,,,并在基于文档的推理、图表和表格解读以及问题解决方面取得了显著提升。。 。。。

全球头部的自营生意公司和做市商IMC也以为, , ,,,Fable 5险些周全逾越了IMC的生意剖析评估, , ,,,包括事实盘问、看法推理、基础原因剖析和预期价值剖析。。 。。。

同时, , ,,,Fable 5也是一款视觉模子。。 。。。这意味着它可以看懂重大的科学图表、仅靠一张截图复刻应用源代码。。 。。。

在执行视觉使命时, , ,,,Fable 5所需要的辅助工具也变少了。。 。。。在仅使用最小化、纯视觉的Harness时, , ,,,Fable 5就已经能够通关《宝可梦 火红》(Pokémon FireRed), , ,,,而此前的Claude模子需要更重大的辅助工具才华玩这一游戏。。 。。。

Fable 5的影象和长上下文能力也是一大亮点, , ,,,它可以在长时间运行的使命中能够一连坚持专注, , ,,,并使用其自身条记刷新输出。。 。。。

二、Mythos 5自主做科研一周, , ,,,效果逾越《科学》期刊论文

若是说Fable 5更适用于通用场景, , ,,,那么Mythos 5则是Anthropic为前沿研究打造的强力工具。。 。。。

在药物设计中, , ,,,卵白质设计专家借助Mythos 5将部分环节的效率提升至约10倍。。 。。。

在一个案例中, , ,,,仅配备卵白质设计和生物信息学工具、完全没有人类协助的Mythos 5, , ,,,体现抵达甚至凌驾了熟练的人类操作者。。 。。。Mythos 5自主完成了科学家通常需要亲自执行的所有使命:选择连系位点、选用并运行卵白质设计工具、在历程中遭遇失败时自行纠错和恢复。。 。。。

▲Mythos 5设计的卵白质结构(图源:Anthropic)

研究所涉的14个卵白质靶点中, , ,,,有9个爆发了强候选分子, , ,,,现在已进入后续研究阶段。。 。。。这些设计笼罩免疫检查点、生长因子与受体信号传导、神经退行性疾病、肌肉疾病以及结构难度更高的靶点。。 。。。

在分子生物学领域, , ,,,Mythos 5是首个能够一连提出新颖且有说服力的科学假设的模子。。 。。。在与Opus级模子举行双盲比照评测时, , ,,,科学家对Mythos所提假设的偏好率约为80%, , ,,,已有多项假设进入实验验证环节。。 。。。

其中一项关于大肠杆菌某一卵白质新机制的假设, , ,,,获得了一个自力研究团队近期揭晓效果的验证。。 。。。

在基因组学方面, , ,,,Mythos 5自主开展了为期1周多的原创性研究。。 。。。它搜集了横跨138个动物物种的数百万个单细胞数据, , ,,,自行设计并训练了一个定制的机械学习模子, , ,,,用于识别在亲缘关系甚远的物种中执行相同功效的细胞。。 。。。

在履历富厚的人类研究者指导下, , ,,,Mythos 5训练出的模子逾越了近期揭晓在《科学》期刊上的一个模子, , ,,,而前者的参数目仅为后者的百分之一。。 。。。团队妄想在未来数月内揭晓这些效果。。 。。。

三、接纳新型清静分类器, , ,,,网安、生物学和蒸馏使命或被“降智”

模子能力的大幅度提升, , ,,,让Anthropic最先重新构建模子的清静系统。。 。。。在面向公众开放的Fable 5中, , ,,,Anthropic打造了清静分类器, , ,,,三类请求会被路由到Opus 4.8。。 。。。Anthropic的数据显示, , ,,,约莫5%的请求会被降级到Opus 4.8举行处理。。 。。。

在网络清静类使命中, , ,,,Mythos级模子善于发明和使用软件误差。。 。。。因此, , ,,,它们可以大大简化网络攻击, , ,,,降低实验本钱。。 。。。为了防止这些黑客手艺被应用于网络攻击, , ,,,Anthropic设计了网络清静分类器, , ,,,应用于Fable 5。。 。。。

Anthropic对这一分类器举行了大宗测试, , ,,,在1000小时的测试中, , ,,,暂时没有团队找到通用的越狱要领。。 。。。不过, , ,,,Anthropic也认可, , ,,,完全防止越狱是基本不可能的, , ,,,他们的目的是让越狱足够缓慢且腾贵, , ,,,让Anthropic能在大规模使用前监测到这些行为, , ,,,并实时阻止。。 。。。

在生物学和化学使命中, , ,,,Anthropic此前已经会阻止生化武器相关的使命, , ,,,但随着模子能力提升, , ,,,Anthropic发明一些通用类的生物学和化学研究也有可能被用于危险用途。。 。。。因此, , ,,,现在Fable 5在这些领域的大部分请求都会被路由到Opus 4.8上。。 。。。

Anthropic还对所谓“蒸馏”行为举行了限制, , ,,,当用户的请求被标记为蒸馏行为时, , ,,,也会被路由到Opus 4.8举行处理。。 。。。

最后, , ,,,Anthropic还要求企业客户将Mythos级型号的数据生涯30天, , ,,,这些数据不会被用于训练模子, , ,,,可是会被用于提防网络清静攻击和镌汰误报。。 。。。

结语:干活的能力上去了, , ,,,商业模式也在重构

头部AI企业正把竞争重点, , ,,,转向真实使命的闭环交付能力。。 。。。通读Anthropic的Fable 5/Mythos 5博客, , ,,,可以感受到性能指标与榜单效果的占比似乎没有那么多了, , ,,,Anthropic更希望强调, , ,,,这一模子能自力把活干完、干对的能力。。 。。。

同时, , ,,,在这一代Claude模子上, , ,,,我们也看到了算力本钱与订阅模式之间张力的进一步加剧。。 。。。顶级模子烧token的速率远超目今订阅制的承载能力, , ,,,按量计费、混淆计费模式以致按效果计费的新模式可能会加速普及。。 。。。这些新型商业化模式的探索也值得关注。。 。。。

@梁姵来:乐鱼买球, , ,,,稀土板块投资价值再审阅
@孟敏宇:美2架战机航行演出时相撞坠毁
@杨志鸿:开车遇对向开远光 前方有人路中吃席

热门排行

【网站地图】