凯时AG

泉源:杨幂自动扶持孙俪杨紫作者: 蔡冠宇:

Fable 5解禁即上岗,, ,,工程师转业当「验收员」

新智元报道

【新智元导读】Fable 5刚解禁就接入了Claude Tag。。往后最吃香的,, ,,不再是最会写代码的人,, ,,是最会验收AI干活的人。。

Fable 5刚被放回,, ,,就接入Claude Tag,, ,,住进事情群,, ,,酿成一个能连着跑好几天、还会自己给你发PR的同事。。

你不必再守着它补全下一行,, ,,只管派下一个活。。

已往,, ,,一个人坐在那儿,, ,,一次敲一行代码。。厥后,, ,,一个人带着十个Claude,, ,,一次写一堆功效。。

而现在,, ,,偏向盘直接递到了Claude手里,, ,,坐在它扑面的也不再是一个人,, ,,是一整个团队。。

Claude,, ,,从一辆车,, ,,酿成了开车的人。。

Boris Cherny回忆AI辅助编程的两次跃迁:已往一个人对着屏幕一次敲一行代码,, ,,现在一个人身边带着十来个Claude,, ,,一次并行写一堆功效。。(图源:Anthropic官方视频)

Claude Code之父Boris Cherny说:

有了Tag,, ,,它把整件事全干了。。写完一个功效,, ,,端到端跑完一个实验,, ,,连数据剖析都包了。。两年,, ,,跨了两大步。。

两年前,, ,,Boris还在用输入遐想(typeahead)写代码。。AI帮你补半行,, ,,这行怎么落,, ,,还得你自己拍板。。

今天,, ,,他手上跑着几十个Claude Tag会话,, ,,有的连着跑了几天,, ,,有的跑了几周。。

他天天做的事,, ,,就是看着PR一个一个提上来,, ,,看着数据一份一份发过来。。

Boris甩出的一个数字更狠:产品团队65%的代码,, ,,现在由内部版Claude Tag写出,, ,,并且这个比例还会一连攀升。。

这个65%,, ,,是「代码占比」,, ,,并非「65%的PR自主完成」。。

但它已经够说明问题:Anthropic内部,, ,,「@一下AI派活」已经酿成主流的干活方式。。

一个人也能拥有一支Claude小队

6月23日,, ,,Anthropic把Claude Tag扔进了Slack。。

最大的一个转变:你手里的AI不再是一个工具,, ,,而是一个能替你干活的队友。。

Anthropic官方演示中,, ,,@一下Claude即可派活。。(图源:Anthropic官方视频)

官方给Claude Tag的定位不是又一个谈天机械人,, ,,而是Claude Code的一次演进。。

以后,, ,,Claude Code、Claude Tag、Fable 5,, ,,三条产品线,, ,,各干一摊。。

Claude Code就像个笃志干活的先生傅。。

它管的是「改代码」,, ,,是面向开发者的智能体编码工具(agentic coding tool),, ,,能读懂你的代码库、编辑文件、修bug、跑测试。。

你把代码库丢给它,, ,,它闷声不响就改好了。。

Claude Tag是群里谁人揽活的领班。。

它管的是「派使命」,, ,,你在Slack群里@一下Claude,, ,,说清要什么,, ,,它就把使命拆成几个阶段,, ,,一段一段往下推,, ,,挪用它有权限的工具。。

干完,, ,,在Slack线程里回你一句它办成了啥。。

Fable 5是全队的体力兼脑力继续。。它管的是「能扛多重的活」,, ,,是这三其中的大脑。。大型迁徙、重大重构、要连着跑好几天的使命,, ,,都能顶上。。

前两个把台子搭好,, ,,真正把重担挑起来的就是它。。

三个凑一块,, ,,就即是一个人有了一支Claude小队。。

前两个都是壳

Fable 5才是发念头

Claude Tag是入口,, ,,Claude Code是手脚,, ,,真正让它敢接长活的,, ,,是底下的大脑Fable 5。。

它究竟比别的模子强在哪??谜底是:它能自己把一件大事重新扛到尾。。

在Claude Code这类智能体运行框架(agent harness)里,, ,,Fable 5能连着跑好几天(work for days at a time)。。

它自己排布几个阶段的活,, ,,忙不过来就把子使命甩给子智能体,, ,,最后还转头把自己干的检查一遍。。

使命越长越重大,, ,,它甩开其他模子的差别就越大。。

Cherny还在官方视频里透露了一个数字:按最新的METR评估,, ,,前沿模子的自主使命时长已经爬到16小时这条线周围,, ,,甚至进了「连它究竟能跑多久都测禁绝」的区间。。

差别模子能以50%乐成率完成的使命时长,, ,,六年间沿指数曲线一起爬升。。图顶斜纹区标注:凌驾16小时的丈量,, ,,现有使命集已经测禁绝了。。(图源:METR)

而在Claude Tag里,, ,,模子能给自己排后续的活,, ,,一个16小时的使命,, ,,可以被它自己续到几天、几周之后再接着干。。

这里需要注重的是,, ,,长使命能力,, ,,并非纯粹模子的收获。。

这一点,, ,,Anthropic在自己的工程博客里讲得很透彻。。

恒久运行的智能体最大的坎,, ,,是它只能分段干活,, ,,每开一个新会话都失忆,, ,,就像一个工程项目轮班倒,, ,,每个新来的工程师都不记得上一班干了啥。。

光靠上下文压缩(compaction)不敷,, ,,模子要么想一口吻把整个app写完,, ,,中途撑爆上下文;;要么看一眼有希望,, ,,就宣布「完工」。。

Anthropic的解法是给它配一套「班组交接」的机制:一个初始化智能体先搭好情形,, ,,写好进度文件和功效清单。。

后面每个编码智能体只干一件事,, ,,干完把进度提交到git、写清晰交接说明,, ,,再交给下一班。。

以是真正的转变是「模子+框架+工具链」的系统能力。。

Fable 5干的事,, ,,是把这套系统的上限,, ,,从小时级延伸到了天级。。

PR成了新的交付单位

虽然,, ,,关于通俗开发者,, ,,也先别急着把整个代码库交出去。。

一个准确的翻开方式,, ,,是先把那些低风险、界线清晰、有测试可验收的活,, ,,切成一个个使命交给智能体跑。。

在Anthropic那条先容Claude Tag的官方视频里,, ,,用法都是一些很日常的场景。。

Boris自己说,, ,,他平时用得随手得很。。谁报个bug,, ,,按钮偏了几像素,, ,,他一句「帮我修一下」就甩已往;;碰上个数据问题,, ,,扔给Tag先跑一遍就完事。。

而那些跑了好几天的会话,, ,,实质是一个恒久实验:Tag天天替他查数据,, ,,无意冒个bug就随手发个修复,, ,,PR自己就一个个提上来了。。

因此,, ,,这里有一个要害的使用分水岭,, ,,并非你敢不敢把活全交给AI,, ,,而是你会不会把使命切成AI能验收的颗粒度。。

给AI派活的最小单位,, ,,正在从一个函数,, ,,酿成一个PR。。

新的门槛

不是prompt

当AI能跑多日使命、能自己提PR,, ,,人的价值挪到哪去了??

Anthropic给的谜底是:工程师转向架构、产品判断和一连编排——并行管起多个智能体,, ,,给偏向,, ,,做那些真正决议「要造什么」的决议。。

但AI提上来的PR,, ,,终究要有人点下合并(merge),, ,,即把某个分支上的代码改动并进主代码库,, ,,相当于给这份代码盖章放行、正式接纳。。

这意味着,, ,,程序员最稀缺的能力,, ,,也在悄悄改变。。

已往你比谁更会写prompt、更会问问题;;往后你比谁更会写使命界线、测试标准、review清单和回滚方案。。

写代码的门槛在降,, ,,验收代码的门槛在升。。

下一个吃香的工种,, ,,可能是最会给智能体定验收标准的人。。

AI已经险些能把代码写完了。。

剩下的问题只有一个:它写的代码,, ,,你敢不敢认,, ,,会不会认。。

参考资料:

https://x.com/claudeai/status/2072725610061803522?s=20https://youtu.be/MhfnicQVkgY

https://www.anthropic.com/news/introducing-claude-tag

https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/

编辑:元宇

@张琪:闲娱乐官网下载ios,, ,,中国女球迷电梯偶遇C罗获3次拥抱
@张翠廷:高考倒计时5天
@李育泉:中方:维和职员清静禁止侵占

【网站地图】