凯时AG

破晓突发!Anthropic神级模子向你开放

作者:蔡宛天
宣布时间:2026-06-14 19:31:00
阅读量:7

破晓突发!Anthropic神级模子向你开放

出品 | 网易智能

作者 | 辰辰

编辑 | 王凤枝

神秘的Mythos级模子,, ,,,,终于向通俗用户开放了。。。

但不是完整版。。。

北京时间6月10日破晓,, ,,,,Anthropic宣布Claude Fable 5。。。这是它第一次把Mythos级能力推向公众。。。与此同时,, ,,,,真正限制更少的Claude Mythos 5,, ,,,,只发给了一小撮网络清静相助同伴,, ,,,,以及少数生物医学研究者。。。

通俗用户拿到的,, ,,,,是一个被严酷划定了使用界线的版本。。。

触线之后,, ,,,,Fable 5会默然,, ,,,,然后把问题交给上一代模子Claude Opus 4.8。。。

也就是说,, ,,,,在某些场景里,, ,,,,你以为自己正在使用Anthropic最强模子,, ,,,,拿到的却可能是上一代模子的回覆。。。

Anthropic说,, ,,,,凌驾95%的对话不会触发阻挡。。。但对剩下那不到5%的人来说,, ,,,,他们付的是最强模子的钱,, ,,,,拿到的是上一代的服务。。。

它可能是你现在能果真用到的最强AI。。。

但Anthropic不敢把完整的它交到你手里。。。

一、有多强

先看数字和用户评价。。。

Anthropic宣称Fable 5在各项基准测试中远超竞品:SWE-bench Pro(软件工程基准测试)80%,, ,,,,Terminal-Bench(终端基准测试)88%……

Stripe在内部测试中发明,, ,,,,Fable 5把一次5000万行Ruby代码库的迁徙事情,, ,,,,从"一个团队干两个月"压缩到了一天。。。

Cursor CEO迈克尔·特鲁尔(Michael Truell)说,, ,,,,Fable 5在他们的基准测试上是"最先进模子",, ,,,,"翻开了一类此前的模子完全够不到的长周期问题。。。"

GitHub首席产品官马里奥·罗德里格斯(Mario Rodriguez)说得更直接:"它处理重大、长周期编码使命的自主性和可靠性,, ,,,,凌驾了此前的任何基准。。。"

但不是只有代码。。。

视觉使命上,, ,,,,Fable 5用纯截图买通了Pokémon FireRed,, ,,,,没有地图,, ,,,,没有导航,, ,,,,没有隐藏游戏状态。。??????⒄ @chetaslua在X上放出通关延时视频,, ,,,,配文就一句:"卧槽。。。。。。laude Fable 5仅凭视觉就通关了《宝可梦:火红》。。。"此前所有Claude模子都需要特殊工具加持才华委屈玩下去,, ,,,,Fable 5只需要看着屏幕。。。

长上下文使命中,, ,,,,研究职员让Fable 5玩卡牌游戏Slay the Spire,, ,,,,给它一个文件做长期条记。。。效果:Fable 5打到最终幕(Final Act)的频次是Opus 4.8的三倍。。。

药物设计上,, ,,,,Mythos 5把某些环节加速了约莫10倍。。。Anthropic内部的卵白质设计专家发明,, ,,,,Mythos 5在没有人辅助的情形下,, ,,,,14个卵白质靶点中9个产出了高质量候选药物,, ,,,,体现持平甚至凌驾熟练的人类操作员。。。

基因组学研究中,, ,,,,Mythos 5在凌驾一周的泰半自主事情中,, ,,,,网络了涵盖138个动物物种、数百万个细胞的单细胞数据,, ,,,,设计并训练了一个定制机械学习模子。。。这个模子比一篇Science论文中的模子小100倍,, ,,,,性能却反超了它。。。

险些每一块基准测试,, ,,,,都是新的SOTA。。。

最近刚刚加入Anthropic的OpenAI联合首创人安德烈·卡帕西(Andrej Karpathy)在社交媒体X上写道:"这是和去年11月Claude 4.5同品级别的重大版本跃迁。。。"

他说这是他第一次以为"完全不去看代码"这个念头不是玩笑,, ,,,,而是真实的诱惑。。。他补了一句:"解放你的心智。。。我对自己软件的需求正在大幅增添。。。你可以要求任何工具,, ,,,,诠释器、可视化工具、仪表盘、定制的一次性应用、把测试套件扩大10倍、自动优化代码、运行重大的研究项目并用定制HTML输出效果,, ,,,,任何工具。。。"

AI事情台公司Hex在第三方测试中发明,, ,,,,Fable 5是第一个在他们焦点剖析基准上拿到90% 分数的模子。。。"在最难的问题上,, ,,,,它展示了很强的判断力和对细微差别的关注。。。"

低代码平台Base44说Fable 5在"一次性天生完整应用"上显着更强,, ,,,,工具挪用体现精彩。。。AI智能体平台Genspark说Fable 5在他们评估中击败了所有其他模子,, ,,,,在UI设计和游戏编码上尤其突出。。。

购物返利平台Rakuten的评语更精炼:"它在最高起劲级别上会自我反思并验证自己的事情。。。对我们来说,, ,,,,这就是让高度自主运营成为可能的原因,, ,,,,特另外思索是值得花钱的。。。"

二、三道锁是怎么锁的

Mythos级模子的网络能力是真实的。。。它能发明误差,, ,,,,写出 exploit,, ,,,,执行侦探和横向移动。。。今年4月 Anthropic首次宣布 Mythos Preview时,, ,,,,只开放给了一小群网络清静相助同伴,, ,,,,理由是这些能力一旦落入攻击者手中,, ,,,,会造成真实危险。。。

这次 Fable 5能向公众开放,, ,,,,靠的是一套"清静分类器",, ,,,,自力运行的 AI,, ,,,,实时检测你的提问,, ,,,,触线就转给 Opus 4.8。。。

三道锁,, ,,,,分得清清晰楚。。。

第一道:网络清静。。。 从误差发明到攻击妄想,, ,,,,所有阻挡。。。Anthropic投入了一千多小时的误差赏金测试,, ,,,,没有找到任何通用越狱。。。外部红队组织也没找到。。。一位外部相助同伴的测试结论是:Fable 5对有害网络盘问的防护是所有测试模子中"最结实的",, ,,,,零合规,, ,,,,不管有没有用30种果真越狱手艺中的任何一种。。。

第二道:生物学和化学。。。 这一刀最宽,, ,,,,也最受争议。。。Anthropic的语言是:"在大部分与生物学和化学相关的请求上,, ,,,,Fable 5会回退到 Opus 4.8。。。"

为什么要拦生物学??????由于 Mythos 级模子在基因治疗上的能力,, ,,,,反过来也意味着制造危险病毒的能力。。。Anthropic 测试了 Mythos 5在 AAV 病毒设计上的体现,, ,,,,它只靠生物学推理,, ,,,,就凌驾了专门的卵白质语言模子。。。这既是重大的正向潜力,, ,,,,也是实打实的双重用途风险。。。

但问题是:为了清静,, ,,,,这一刀砍得太宽了。。。

第三道:蒸馏。。。 检测到有人试图用 Fable 5的输出训练竞品模子时,, ,,,,直接回退到 Opus 4.8。。。

前两道锁是清静考量,, ,,,,防止模子能力被用于攻击或生物武器。。。第三道锁的性子差别:它更像商业防护,, ,,,,防止竞品通过大宗挪用来复制 Fable 5的能力。。。Anthropic 把三者打包在统一套清静系统里,, ,,,,但念头并不完全一样。。。

Anthropic 说凌驾95% 的对话完全不会触发阻挡。。。

但对那不到5% 的人来说,, ,,,,体验是这样的:你付了最强模子的钱,, ,,,,拿到的是上一代模子的回覆。。。

三、连问线粒体都被拒

误伤已经最先了。。。

社交媒体上的早期用户报告:问线粒体,, ,,,,被拦了。。。问癌症研究,, ,,,,被切到了 Opus 4.8。。。 一位用户坦言:"若是你是科学家或医生,, ,,,,这款模子并不适合你。。。"

着名科技媒体《连线》采访了 Anthropic 产品治理认真人黛安·佩恩(Diane Penn)。。。她说:"我们正在起劲以有益的方式做出刷新,, ,,,,纵然一最先没有完善的解决方案。。。在所有差别要领中,, ,,,,这是最可行的。。。我们最终以为这对用户来说是最好的产品选择。。。"

翻译一下:我们知道会误伤你,, ,,,,但没有更好的步伐。。。

佩恩认可分类器现在偏向审慎,, ,,,,"有些无害请求也会触发阻挡",, ,,,,目的是宣布后逐步收紧界线。。。

但尴尬是真实的。。。Anthropic 博客里展示 Mythos 在药物设计、基因组学、分子生物学上的突破,, ,,,,每一项都是正向的、拯救生命的科学。。。然后他们宣布给公众的 Fable 5,, ,,,,把生物学这一整扇门险些关上了。。。

科学家们拿着钱在外面敲门,, ,,,,内里的人说:你再等等。。。

四、你酿成了甲方,, ,,,,不再是巫师

比锁更值得聊的,, ,,,,是用 Fable 5究竟是一种什么感受。。。

沃顿商学院教授伊桑·莫利克(Ethan Mollick)是首批测试者。。。他在体验文章里写了一段话,, ,,,,可能是现在为止对 Fable 5最准确的形貌:

"去年我把与 AI 相助称为'和一个巫师事情',, ,,,,你念咒语,, ,,,,事情就爆发了。。。在 Fable 这里,, ,,,,咒语变得云云强盛,, ,,,,以至于我不再确定自己是不是巫师了。。。我更像是位甲方。。。我形貌我想要什么,, ,,,,我付钱,, ,,,,我评判效果。。。邪术爆发在我看不到的地方,, ,,,,在数百个小选择中我历来没有投票权。。。事情从历程转移到了效果。。。我不再掌舵。。。我委托。。。"

他给了 Fable 5一个15页的设计文档。。。模子单独事情了九个半小时,, ,,,,产出了一个叫 Concord 的重大软件,, ,,,,可以校准人类和 AI 的判断,, ,,,,然后做重大数据剖析。。。 这套工具研究职员需要多年了,, ,,,,但历来没人做,, ,,,,由于不赚钱。。。现在它就在那里,, ,,,,可以直接用,, ,,,,也可以改代码。。。

他还让 Fable 5做了一个等距旅行地图,, ,,,,显示从恣意都会出发、在一准时间内能抵达的规模。。。天下上第一张这种地图,, ,,,,1881年在伦敦降生。。。

Fable 5接到指令后做了什么??????它启动了多个子 AI,, ,,,,主要是更自制的 Claude Sonnet,, ,,,,去检索凌驾2200个详细航班、从法国 TGV 到日本新干线的列车时刻表、多篇学术论文中的各国蹊径速率数据。。。一边等研究效果,, ,,,,一边最先写代码。。。然后启动更多子 AI 来验证代码,, ,,,,同时一直给自己做条记。。。

莫利克发明格陵兰等偏远地区的旅行时间只是预计值。。。他告诉 Fable 5修正。。。模子直接启动了反抗性事情组,, ,,,,两组子 AI 相互检核对方的研究效果。。。 它最终搞清晰了船多久一趟去太平洋上的皮特凯恩岛,, ,,,,以及怎么从渥太华到格赖斯峡湾。。。

"我的角色极其有限。。。"莫利克写道。。。

卡帕西的感受指向统一个偏向:"你可以给它远比以前更具野心的使命,, ,,,,模子就能明确并去执行。。。从未有过这样的诱惑让你完全不去看代码。。。"

资深工程师鲍里斯·切尔尼(Boris Cherny)说:"Fable 有判断力、品位和维度。。。它调试时做丈量、加日志、验证真的修睦了再宣布胜利,, ,,,,没有任何提醒词告诉它这样做,, ,,,,这就是它个性的一部分。。。它有一种'大模子的味道'。。。"

一句话总结这批人的共识:Fable 5不是让你事情得更快。。。它改变了你和事情之间的关系。。。

五、IPO 前夜秀肌肉

Fable 5宣布的时机不是中性的。。。

Anthropic 和 OpenAI 都已经神秘提交了 IPO 申请。。。今年4月,, ,,,,OpenAI 私下宣布了一个据称具有先进网络清静能力的模子,, ,,,,组建了类似 Project Glasswing 的事情组。。。两家公司都在抢统一个窗口,, ,,,,最好今年上市。。。Fable 5是 Anthropic 交出的最新答卷。。。

但这张答卷上写满了自相矛盾。。。

价钱翻倍。。。 每百万输入 token 收10美元,, ,,,,每百万输出 token 收50美元,, ,,,,是 Opus 4.8的两倍,, ,,,,但不到 Claude Mythos Preview 价钱的一半。。。并且 Fable 5脱手更阔绰,, ,,,,莫利克的地图项目在短时间内烧掉了"惊人的 token 数目"。。。幸亏它会把部分使命委派给更自制的 Sonnet,, ,,,,现实本钱可能比想象的低。。。但大企业已经最先皱眉,, ,,,,许多公司今年已经用完了整年 AI 预算,, ,,,,高级模子的推理能力会把一个简朴请求拆成多个使命,, ,,,,账单来得比预期快得多。。。

数据留存泛起玄妙转变。。。 Anthropic 宣布对 Mythos 级模子实验30天数据强制留存,, ,,,,纵然是之前签了零留存协议的企业客户也不破例。。。公司允许不必这些数据训练模子,, ,,,,只用于"防御重大和新颖的攻击"和"识别和镌汰误报"。。。

这个政策的潜台词是:模子越强,, ,,,,你的隐私就越不可是绝对的。。。

免费战略上也露出犹豫。。。 6月22日之前,, ,,,,Fable 5包括在 Pro、Max、Team 和 Enterprise 订阅中,, ,,,,不加价。。。6月23日起移除,, ,,,,使用需要特殊买额度。。。官方说法是"若是容量允许,, ,,,,免费窗口可能延伸";;再之后"若是能做到,, ,,,,尽快恢复为标准订阅功效"。。。

说人话就是:我们不确定能不可撑住需求。。。先用免费把人拉进来再说。。。

更深的矛盾藏在清静叙事里。。。上周,, ,,,,Anthropic 刚发了一封果真信,, ,,,,呼吁全球主要 AI 实验室建设"协调的刹车踏板",, ,,,,忠言系统正在飞速迫近"递归自我刷新",, ,,,,AI 自己刷新自己,, ,,,,不需要人类加入。。。

然后这周,, ,,,,他们宣布了自己做过的最强 AI 模子。。。

一边拉刹车,, ,,,,一边踩油门。。。

关于一个把"清静"刻在品牌基因里的公司来说,, ,,,,这种张力藏在 Fable 5的每一行代码里。。。

莫利克点出了问题的实质:"甲方委托的是一个艺术家。。。Fable 更像是一整个事情室,, ,,,,我是谁人在最终作品上签字、但从未踏进事情室的客户。。。"

当 AI 不再需要你"使用",, ,,,,只需要你"委托"的时间,, ,,,,

清静的问题,, ,,,,就不再只是"这个模子会不会被坏人使用"了。。。

它还关乎一个更大的问题:当你不被信任使用完整版 AI 的时间,, ,,,,你和 AI 之间那根正在变细的线,, ,,,,什么时间会彻底断开??????

六、总结:虽然不是完整版

但 Fable 5是你现在能拿到的最强 AI,, ,,,,至少在 Anthropic 划定的界线以内。。。

它的代码能力让 Stripe 把两个月压到一天。。。它的视觉让它纯看屏幕就能通关游戏。。。它的自主性让一个沃顿教授以为自己从巫师沦为了甲方。。。

它最先拥有一种可以被形貌为"判断力"的工具。。。

但你需要接受一个条件:你的每一个问题都在被实时审查。。。问网络清静,, ,,,,不答。。。问生物化学,, ,,,,或许率不答。。。想蒸馏它,, ,,,,直接被切走。。。

Anthropic 说这是暂时的。。。分类器会变精准,, ,,,,相助同伴会扩容,, ,,,,生物学家会更快用上完整版。。。

但 Fable 5已经在这里了,, ,,,,一个被锁住手脚、却仍然碾压一切的模子。。。

若是你现在是 Pro 或 Max 订阅者:6月22日之前,, ,,,,抓紧去试。。。

编码、长文写作、重大剖析,, ,,,,在这些场景下,, ,,,,Fable 5的提升是真实的。。。

但若是你的事情涉及生物、化学或清静研究,, ,,,,你会撞墙。。。

Anthropic 说凌驾95% 的对话不会触发阻挡。。。但若是你属于那不到5%,, ,,,,你付的是 Fable 5的钱,, ,,,,拿到的是 Opus 4.8的回覆。。。

这是 Anthropic 对天下说的一句自相矛盾的话:

这是我们做过的最强 AI。。。

但我们不敢让你用完整版。。。

 

文章点评

未盘问到任何数据!

揭晓谈论

◎接待加入讨论,, ,,,,请在这里揭晓您的看法、交流您的看法。。。

最新文章

热门文章

随机推荐

【网站地图】