凯时AG

环球热门新闻资讯
2026-06-18 10:16:14
首页 > 新闻 > 时政要闻 > 正文

破晓突发!Anthropic神级模子向你开放

出品 | 网易智能

作者 | 辰辰

编辑 | 王凤枝

神秘的Mythos级模子 , ,,,,终于向通俗用户开放了。 。。。。

但不是完整版。 。。。。

北京时间6月10日破晓 , ,,,,Anthropic宣布Claude Fable 5。 。。。。这是它第一次把Mythos级能力推向公众。 。。。。与此同时 , ,,,,真正限制更少的Claude Mythos 5 , ,,,,只发给了一小撮网络清静相助同伴 , ,,,,以及少数生物医学研究者。 。。。。

通俗用户拿到的 , ,,,,是一个被严酷划定了使用界线的版本。 。。。。

触线之后 , ,,,,Fable 5会默然 , ,,,,然后把问题交给上一代模子Claude Opus 4.8。 。。。。

也就是说 , ,,,,在某些场景里 , ,,,,你以为自己正在使用Anthropic最强模子 , ,,,,拿到的却可能是上一代模子的回覆。 。。。。

Anthropic说 , ,,,,凌驾95%的对话不会触发阻挡。 。。。。但对剩下那不到5%的人来说 , ,,,,他们付的是最强模子的钱 , ,,,,拿到的是上一代的服务。 。。。。

它可能是你现在能果真用到的最强AI。 。。。。

但Anthropic不敢把完整的它交到你手里。 。。。。

一、有多强

先看数字和用户评价。 。。。。

Anthropic宣称Fable 5在各项基准测试中远超竞品:SWE-bench Pro(软件工程基准测试)80% , ,,,,Terminal-Bench(终端基准测试)88%……

Stripe在内部测试中发明 , ,,,,Fable 5把一次5000万行Ruby代码库的迁徙事情 , ,,,,从"一个团队干两个月"压缩到了一天。 。。。。

Cursor CEO迈克尔·特鲁尔(Michael Truell)说 , ,,,,Fable 5在他们的基准测试上是"最先进模子" , ,,,,"翻开了一类此前的模子完全够不到的长周期问题。 。。。。"

GitHub首席产品官马里奥·罗德里格斯(Mario Rodriguez)说得更直接:"它处理重大、长周期编码使命的自主性和可靠性 , ,,,,凌驾了此前的任何基准。 。。。。"

但不是只有代码。 。。。。

视觉使命上 , ,,,,Fable 5用纯截图买通了Pokémon FireRed , ,,,,没有地图 , ,,,,没有导航 , ,,,,没有隐藏游戏状态。 。。。。?????⒄ @chetaslua在X上放出通关延时视频 , ,,,,配文就一句:"卧槽。 。。。。。 。。。。laude Fable 5仅凭视觉就通关了《宝可梦:火红》。 。。。。"此前所有Claude模子都需要特殊工具加持才华委屈玩下去 , ,,,,Fable 5只需要看着屏幕。 。。。。

长上下文使命中 , ,,,,研究职员让Fable 5玩卡牌游戏Slay the Spire , ,,,,给它一个文件做长期条记。 。。。。效果:Fable 5打到最终幕(Final Act)的频次是Opus 4.8的三倍。 。。。。

药物设计上 , ,,,,Mythos 5把某些环节加速了约莫10倍。 。。。。Anthropic内部的卵白质设计专家发明 , ,,,,Mythos 5在没有人辅助的情形下 , ,,,,14个卵白质靶点中9个产出了高质量候选药物 , ,,,,体现持平甚至凌驾熟练的人类操作员。 。。。。

基因组学研究中 , ,,,,Mythos 5在凌驾一周的泰半自主事情中 , ,,,,网络了涵盖138个动物物种、数百万个细胞的单细胞数据 , ,,,,设计并训练了一个定制机械学习模子。 。。。。这个模子比一篇Science论文中的模子小100倍 , ,,,,性能却反超了它。 。。。。

险些每一块基准测试 , ,,,,都是新的SOTA。 。。。。

最近刚刚加入Anthropic的OpenAI联合首创人安德烈·卡帕西(Andrej Karpathy)在社交媒体X上写道:"这是和去年11月Claude 4.5同品级别的重大版本跃迁。 。。。。"

他说这是他第一次以为"完全不去看代码"这个念头不是玩笑 , ,,,,而是真实的诱惑。 。。。。他补了一句:"解放你的心智。 。。。。我对自己软件的需求正在大幅增添。 。。。。你可以要求任何工具 , ,,,,诠释器、可视化工具、仪表盘、定制的一次性应用、把测试套件扩大10倍、自动优化代码、运行重大的研究项目并用定制HTML输出效果 , ,,,,任何工具。 。。。。"

AI事情台公司Hex在第三方测试中发明 , ,,,,Fable 5是第一个在他们焦点剖析基准上拿到90% 分数的模子。 。。。。"在最难的问题上 , ,,,,它展示了很强的判断力和对细微差别的关注。 。。。。"

低代码平台Base44说Fable 5在"一次性天生完整应用"上显着更强 , ,,,,工具挪用体现精彩。 。。。。AI智能体平台Genspark说Fable 5在他们评估中击败了所有其他模子 , ,,,,在UI设计和游戏编码上尤其突出。 。。。。

购物返利平台Rakuten的评语更精炼:"它在最高起劲级别上会自我反思并验证自己的事情。 。。。。对我们来说 , ,,,,这就是让高度自主运营成为可能的原因 , ,,,,特另外思索是值得花钱的。 。。。。"

二、三道锁是怎么锁的

Mythos级模子的网络能力是真实的。 。。。。它能发明误差 , ,,,,写出 exploit , ,,,,执行侦探和横向移动。 。。。。今年4月 Anthropic首次宣布 Mythos Preview时 , ,,,,只开放给了一小群网络清静相助同伴 , ,,,,理由是这些能力一旦落入攻击者手中 , ,,,,会造成真实危险。 。。。。

这次 Fable 5能向公众开放 , ,,,,靠的是一套"清静分类器" , ,,,,自力运行的 AI , ,,,,实时检测你的提问 , ,,,,触线就转给 Opus 4.8。 。。。。

三道锁 , ,,,,分得清清晰楚。 。。。。

第一道:网络清静。 。。。。 从误差发明到攻击妄想 , ,,,,所有阻挡。 。。。。Anthropic投入了一千多小时的误差赏金测试 , ,,,,没有找到任何通用越狱。 。。。。外部红队组织也没找到。 。。。。一位外部相助同伴的测试结论是:Fable 5对有害网络盘问的防护是所有测试模子中"最结实的" , ,,,,零合规 , ,,,,不管有没有用30种果真越狱手艺中的任何一种。 。。。。

第二道:生物学和化学。 。。。。 这一刀最宽 , ,,,,也最受争议。 。。。。Anthropic的语言是:"在大部分与生物学和化学相关的请求上 , ,,,,Fable 5会回退到 Opus 4.8。 。。。。"

为什么要拦生物学??????由于 Mythos 级模子在基因治疗上的能力 , ,,,,反过来也意味着制造危险病毒的能力。 。。。。Anthropic 测试了 Mythos 5在 AAV 病毒设计上的体现 , ,,,,它只靠生物学推理 , ,,,,就凌驾了专门的卵白质语言模子。 。。。。这既是重大的正向潜力 , ,,,,也是实打实的双重用途风险。 。。。。

但问题是:为了清静 , ,,,,这一刀砍得太宽了。 。。。。

第三道:蒸馏。 。。。。 检测到有人试图用 Fable 5的输出训练竞品模子时 , ,,,,直接回退到 Opus 4.8。 。。。。

前两道锁是清静考量 , ,,,,防止模子能力被用于攻击或生物武器。 。。。。第三道锁的性子差别:它更像商业防护 , ,,,,防止竞品通过大宗挪用来复制 Fable 5的能力。 。。。。Anthropic 把三者打包在统一套清静系统里 , ,,,,但念头并不完全一样。 。。。。

Anthropic 说凌驾95% 的对话完全不会触发阻挡。 。。。。

但对那不到5% 的人来说 , ,,,,体验是这样的:你付了最强模子的钱 , ,,,,拿到的是上一代模子的回覆。 。。。。

三、连问线粒体都被拒

误伤已经最先了。 。。。。

社交媒体上的早期用户报告:问线粒体 , ,,,,被拦了。 。。。。问癌症研究 , ,,,,被切到了 Opus 4.8。 。。。。 一位用户坦言:"若是你是科学家或医生 , ,,,,这款模子并不适合你。 。。。。"

着名科技媒体《连线》采访了 Anthropic 产品治理认真人黛安·佩恩(Diane Penn)。 。。。。她说:"我们正在起劲以有益的方式做出刷新 , ,,,,纵然一最先没有完善的解决方案。 。。。。在所有差别要领中 , ,,,,这是最可行的。 。。。。我们最终以为这对用户来说是最好的产品选择。 。。。。"

翻译一下:我们知道会误伤你 , ,,,,但没有更好的步伐。 。。。。

佩恩认可分类器现在偏向审慎 , ,,,,"有些无害请求也会触发阻挡" , ,,,,目的是宣布后逐步收紧界线。 。。。。

但尴尬是真实的。 。。。。Anthropic 博客里展示 Mythos 在药物设计、基因组学、分子生物学上的突破 , ,,,,每一项都是正向的、拯救生命的科学。 。。。。然后他们宣布给公众的 Fable 5 , ,,,,把生物学这一整扇门险些关上了。 。。。。

科学家们拿着钱在外面敲门 , ,,,,内里的人说:你再等等。 。。。。

四、你酿成了甲方 , ,,,,不再是巫师

比锁更值得聊的 , ,,,,是用 Fable 5究竟是一种什么感受。 。。。。

沃顿商学院教授伊桑·莫利克(Ethan Mollick)是首批测试者。 。。。。他在体验文章里写了一段话 , ,,,,可能是现在为止对 Fable 5最准确的形貌:

"去年我把与 AI 相助称为'和一个巫师事情' , ,,,,你念咒语 , ,,,,事情就爆发了。 。。。。在 Fable 这里 , ,,,,咒语变得云云强盛 , ,,,,以至于我不再确定自己是不是巫师了。 。。。。我更像是位甲方。 。。。。我形貌我想要什么 , ,,,,我付钱 , ,,,,我评判效果。 。。。。邪术爆发在我看不到的地方 , ,,,,在数百个小选择中我历来没有投票权。 。。。。事情从历程转移到了效果。 。。。。我不再掌舵。 。。。。我委托。 。。。。"

他给了 Fable 5一个15页的设计文档。 。。。。模子单独事情了九个半小时 , ,,,,产出了一个叫 Concord 的重大软件 , ,,,,可以校准人类和 AI 的判断 , ,,,,然后做重大数据剖析。 。。。。 这套工具研究职员需要多年了 , ,,,,但历来没人做 , ,,,,由于不赚钱。 。。。。现在它就在那里 , ,,,,可以直接用 , ,,,,也可以改代码。 。。。。

他还让 Fable 5做了一个等距旅行地图 , ,,,,显示从恣意都会出发、在一准时间内能抵达的规模。 。。。。天下上第一张这种地图 , ,,,,1881年在伦敦降生。 。。。。

Fable 5接到指令后做了什么??????它启动了多个子 AI , ,,,,主要是更自制的 Claude Sonnet , ,,,,去检索凌驾2200个详细航班、从法国 TGV 到日本新干线的列车时刻表、多篇学术论文中的各国蹊径速率数据。 。。。。一边等研究效果 , ,,,,一边最先写代码。 。。。。然后启动更多子 AI 来验证代码 , ,,,,同时一直给自己做条记。 。。。。

莫利克发明格陵兰等偏远地区的旅行时间只是预计值。 。。。。他告诉 Fable 5修正。 。。。。模子直接启动了反抗性事情组 , ,,,,两组子 AI 相互检核对方的研究效果。 。。。。 它最终搞清晰了船多久一趟去太平洋上的皮特凯恩岛 , ,,,,以及怎么从渥太华到格赖斯峡湾。 。。。。

"我的角色极其有限。 。。。。"莫利克写道。 。。。。

卡帕西的感受指向统一个偏向:"你可以给它远比以前更具野心的使命 , ,,,,模子就能明确并去执行。 。。。。从未有过这样的诱惑让你完全不去看代码。 。。。。"

资深工程师鲍里斯·切尔尼(Boris Cherny)说:"Fable 有判断力、品位和维度。 。。。。它调试时做丈量、加日志、验证真的修睦了再宣布胜利 , ,,,,没有任何提醒词告诉它这样做 , ,,,,这就是它个性的一部分。 。。。。它有一种'大模子的味道'。 。。。。"

一句话总结这批人的共识:Fable 5不是让你事情得更快。 。。。。它改变了你和事情之间的关系。 。。。。

五、IPO 前夜秀肌肉

Fable 5宣布的时机不是中性的。 。。。。

Anthropic 和 OpenAI 都已经神秘提交了 IPO 申请。 。。。。今年4月 , ,,,,OpenAI 私下宣布了一个据称具有先进网络清静能力的模子 , ,,,,组建了类似 Project Glasswing 的事情组。 。。。。两家公司都在抢统一个窗口 , ,,,,最好今年上市。 。。。。Fable 5是 Anthropic 交出的最新答卷。 。。。。

但这张答卷上写满了自相矛盾。 。。。。

价钱翻倍。 。。。。 每百万输入 token 收10美元 , ,,,,每百万输出 token 收50美元 , ,,,,是 Opus 4.8的两倍 , ,,,,但不到 Claude Mythos Preview 价钱的一半。 。。。。并且 Fable 5脱手更阔绰 , ,,,,莫利克的地图项目在短时间内烧掉了"惊人的 token 数目"。 。。。。幸亏它会把部分使命委派给更自制的 Sonnet , ,,,,现实本钱可能比想象的低。 。。。。但大企业已经最先皱眉 , ,,,,许多公司今年已经用完了整年 AI 预算 , ,,,,高级模子的推理能力会把一个简朴请求拆成多个使命 , ,,,,账单来得比预期快得多。 。。。。

数据留存泛起玄妙转变。 。。。。 Anthropic 宣布对 Mythos 级模子实验30天数据强制留存 , ,,,,纵然是之前签了零留存协议的企业客户也不破例。 。。。。公司允许不必这些数据训练模子 , ,,,,只用于"防御重大和新颖的攻击"和"识别和镌汰误报"。 。。。。

这个政策的潜台词是:模子越强 , ,,,,你的隐私就越不可是绝对的。 。。。。

免费战略上也露出犹豫。 。。。。 6月22日之前 , ,,,,Fable 5包括在 Pro、Max、Team 和 Enterprise 订阅中 , ,,,,不加价。 。。。。6月23日起移除 , ,,,,使用需要特殊买额度。 。。。。官方说法是"若是容量允许 , ,,,,免费窗口可能延伸";;再之后"若是能做到 , ,,,,尽快恢复为标准订阅功效"。 。。。。

说人话就是:我们不确定能不可撑住需求。 。。。。先用免费把人拉进来再说。 。。。。

更深的矛盾藏在清静叙事里。 。。。。上周 , ,,,,Anthropic 刚发了一封果真信 , ,,,,呼吁全球主要 AI 实验室建设"协调的刹车踏板" , ,,,,忠言系统正在飞速迫近"递归自我刷新" , ,,,,AI 自己刷新自己 , ,,,,不需要人类加入。 。。。。

然后这周 , ,,,,他们宣布了自己做过的最强 AI 模子。 。。。。

一边拉刹车 , ,,,,一边踩油门。 。。。。

关于一个把"清静"刻在品牌基因里的公司来说 , ,,,,这种张力藏在 Fable 5的每一行代码里。 。。。。

莫利克点出了问题的实质:"甲方委托的是一个艺术家。 。。。。Fable 更像是一整个事情室 , ,,,,我是谁人在最终作品上签字、但从未踏进事情室的客户。 。。。。"

当 AI 不再需要你"使用" , ,,,,只需要你"委托"的时间 , ,,,,

清静的问题 , ,,,,就不再只是"这个模子会不会被坏人使用"了。 。。。。

它还关乎一个更大的问题:当你不被信任使用完整版 AI 的时间 , ,,,,你和 AI 之间那根正在变细的线 , ,,,,什么时间会彻底断开??????

六、总结:虽然不是完整版

但 Fable 5是你现在能拿到的最强 AI , ,,,,至少在 Anthropic 划定的界线以内。 。。。。

它的代码能力让 Stripe 把两个月压到一天。 。。。。它的视觉让它纯看屏幕就能通关游戏。 。。。。它的自主性让一个沃顿教授以为自己从巫师沦为了甲方。 。。。。

它最先拥有一种可以被形貌为"判断力"的工具。 。。。。

但你需要接受一个条件:你的每一个问题都在被实时审查。 。。。。问网络清静 , ,,,,不答。 。。。。问生物化学 , ,,,,或许率不答。 。。。。想蒸馏它 , ,,,,直接被切走。 。。。。

Anthropic 说这是暂时的。 。。。。分类器会变精准 , ,,,,相助同伴会扩容 , ,,,,生物学家会更快用上完整版。 。。。。

但 Fable 5已经在这里了 , ,,,,一个被锁住手脚、却仍然碾压一切的模子。 。。。。

若是你现在是 Pro 或 Max 订阅者:6月22日之前 , ,,,,抓紧去试。 。。。。

编码、长文写作、重大剖析 , ,,,,在这些场景下 , ,,,,Fable 5的提升是真实的。 。。。。

但若是你的事情涉及生物、化学或清静研究 , ,,,,你会撞墙。 。。。。

Anthropic 说凌驾95% 的对话不会触发阻挡。 。。。。但若是你属于那不到5% , ,,,,你付的是 Fable 5的钱 , ,,,,拿到的是 Opus 4.8的回覆。 。。。。

这是 Anthropic 对天下说的一句自相矛盾的话:

这是我们做过的最强 AI。 。。。。

但我们不敢让你用完整版。 。。。。

宣布会宣布的一系列第三方实测数据引刊行业关注。 。。。。在山茶噬黑677与主流美白因素的横向比照中 , ,,,,其抑黑力抵达光甘草定的29倍 , ,,,,温顺性是美白因素377的62倍。 。。。。同时 , ,,,,借助超导透皮吸收手艺 , ,,,,产品渗透力可达通俗美白英华的2倍 , ,,,,实现“6小时直达肌底” , ,,,,突破了“外貌功夫”的局限。 。。。。

责任编辑:周志杰

【网站地图】