快手AgentX:推荐系统最先自我迭代
机械之心宣布
已往十年,,,,,,推荐系统的主线一直是把「建模」和「工程」做到更强:特征更细,,,,,,模子更大,,,,,,序列更长,,,,,,天生式推荐和推荐大模子也在一直拓展系统界线。。。。但在工业推荐真正的日常迭代里,,,,,,最硬的瓶颈并不但在模子,,,,,,而在研爆发产方式自己。。。。
一个推荐战略从想法到上线,,,,,,往往要穿过数据剖析、方案设计、生产代码修改、实验设置、A/B 视察、指标归因和复盘沉淀。。。。这内里真正稀缺的不是「写一段代码」或「跑一次实验」,,,,,,而是一连提出高质量假设、判断实验成败原因、并把履历转化为下一轮更好的偏向。。。。
已往,,,,,,这条链路主要靠算法工程师手工推进,,,,,,立异效率很洪流平上被人力和个人履历线性限制。。。。
AgentX 要改变的正是这一点。。。??????焓 AgentX 团队宣布手艺报告《AgentX: Towards Agent-Driven Self-Iteration of Industrial Recommender Systems》,,,,,,提出并验证了一套面向工业推荐系统的 Agent 驱动研发闭环:让 Agent 不但是辅助写代码,,,,,,而是成为推荐迭代的执行主体,,,,,,一连天生方案、实现代码、上线实验、读取反馈,,,,,,并把每一次轨迹沉淀为下一轮进化的燃料。。。。
在快手 App 真实营业安排历程中,,,,,,AgentX 已经跑通「想法 — 代码 — 实验 — 归因 — 进化」的完整闭环。。。。3 个 AgentX worker 在主站推荐与生涯服务商业化场景中,,,,,,将 374 个实验想法推进为 10 个可宣布效果;;相较古板人工迭代,,,,,,单 worker 并发实验数提升 8 倍,,,,,,单位人力营业价值提升 3.7 倍,,,,,,并带来主站用户 App 消耗时长累计 +0.561%、生涯服务年化收入超 1 亿元的营业收益。。。。
AgentX 手艺报告:https://arxiv.org/abs/2606.26859v2
配景:推荐迭代的瓶颈,,,,,,正在从模子转向研发闭环
若是说 Scaling 解决的是「模子能不可更强」,,,,,,Reasoning 解决的是「模子能不可想清晰」,,,,,,那么 Agentic 真正要回覆的是「系统能不可把事情一连做成」。。。。对推荐系统而言,,,,,,这个问题尤其主要:推荐迭代历来不是一个单点推理使命,,,,,,而是一条横跨数据、代码、平台、实验、指标和营业判断的长链路。。。。
古板人工迭代至少有三个显着天花板:
吞吐受限于人:一个工程师通常只能串行推进少量实验,,,,,,每个想法都要手工完身剖析、开发、上线和复盘。。。。只要执行链路稳固,,,,,,增添人力只能带来线性提升。。。。履历难以沉淀成系统能力:许多失败实验并非没有价值,,,,,,它们袒露了营业界线、平台约束、特征缺口和战略风险。。。。但若是这些信息只停留在文档和个人影象中,,,,,,系统下一次仍然可能重复踩坑。。。。离线判断无法替换真适用户反馈。。。和萍鱿低匙钪沼呕氖窍呱嫌没形陀的康摹。。。一个方案离线看起来合理,,,,,,不代表线上一定有用;;真正可靠的奖励信号只能来自清静、可控、可归因的 A/B 实验。。。。
因此,,,,,,AgentX 的目的不是做一个更智慧的代码助手,,,,,,而是重构推荐研发的生产函数:把工程师从大宗重复执行中释放出来,,,,,,把人力集中到目的设定、要害审核和高阶判断上;;把执行、验证和履历沉淀交给 Agent 辖档同续推进。。。。
AgentX 怎么做??????把推荐研发拆成可执行、可验证、可进化的闭环
AgentX 将一次完整的推荐实验拆解为 Brainstorm Agent、Developing Agent、Evaluation Agent 和 Harness Evolution。。。。前三个阶段认真把一个想法推到真实线上效果,,,,,,第四个阶段认真让 Agent 系统从历史轨迹中变得更强。。。。
Brainstorm Agent:把模糊目的酿成可落地方案
真实营业输入往往不是完整需求,,,,,,可能只是「提升寓目时长」「改善冷启」「优化某类用户转化」。。。。若是任由模子自由施展,,,,,,很容易产出依赖不保存特征、触碰过失链路、或重复历史失败偏向的「漂亮想法」。。。。Brainstorm Agent 会综合历史实验、系统架构、数据剖析和外部论文研究,,,,,,把目的收敛成少量有优先级、有证据、有界线的候选方案。。。。每个方案都要说明目的指标、实现位置、所需信号、预期机制、风险和验证方式。。。。
Developing Agent:让代码天生真正进入生产语境
在工业代码库里,,,,,,语法准确远远不敷。。。。字段看起来合理但现实不保存,,,,,,战略写完却没有注册到准确行列,,,,,,实验开关没有默认关闭,,,,,,都会让线上实验失真。。。。Developing Agent 通过客栈知识库、特征 schema 盘问、DSL 检查、C++ 语法检查、dryrun 验证等工具,,,,,,把代码天生约束在真实客栈清静台规则内。。。。在模子研究侧,,,,,,它还支持论文复现、??????橄诤涂缏畚慕峁棺楹,,,,,,并通过确定性日志剖析、专家投票和因果链归因包管结论可信。。。。
Evaluation Agent:把线上 A/B 酿成系统的真实奖励
AgentX 不把离线指标或模子自评看成最终谜底。。。。Evaluation Agent 认真清静安排、流量分桶、参数冲突检查、指标读取和 guardrail veto,,,,,,阻止局部收益牺牲用户体验或营业清静。。。。更要害的是,,,,,,它会把乐成和失败都资产化:乐成实验成为后续方案的 playbook,,,,,,失败实验沉淀为反例、约束和剪枝规则。。。。
Harness Evolution:让 Agent 自己修正事情方式
AgentX 的自进化来自 SGPO(Semantic-Gradient-based Prompt Optimization)。。。。它不直接优化某个推荐战略,,,,,,而是从历史执行轨迹中找出 Agent 事情方式的缺陷:是否遗漏营业约束,,,,,,是否证据缺乏,,,,,,是否交付字段不完整,,,,,,是否重复犯同类代码过失。。。。随后,,,,,,SGPO 将这些诊断转化为子 Agent 的局部 harness 更新,,,,,,并通过旧版与新版在统一批 replay 使命上的配对评估决议是否接纳。。。。
这才是 AgentX 最要害的区别:它不是把人工流程简朴自动化一遍,,,,,,而是把每次执行都酿成系统能力增添的一部分。。。。
实验效果: 374 个想法,,,,,,10 个可宣布效果
AgentX 的焦点验证来自快手 App 的真实安排。。。。3 个 AgentX worker 并行运行在主站推荐和生涯服务两个生产场景,,,,,,完整纪录 idea pass、code-and-launch、positive evaluation 等节点。。。。
整体漏斗如下:374 个实验想法进入系统;;106 个通过方案审核,,,,,,idea pass rate 为 28.34%;;100 个完成代码实现与上线,,,,,,code-and-launch rate 为 94.3%;;10 个获得正向评估并抵达可宣布标准,,,,,,positive evaluation rate 为 9.9%。。。。
从营业线看,,,,,,主站推荐 361 个想法爆发 8 个可宣布效果;;生涯服务 13 个想法爆发 2 个可宣布效果。。。。最终,,,,,,这些实验带来了真实营业收益:主站推荐用户 App 消耗时长累计提升 +0.561%;;生涯服务为快手平台孝顺年化超 1 亿元人民币收入。。。。
更主要的是生产效率被重新界说了。。。。古板人工流程中,,,,,,工程师通常串行推进实验;;AgentX 将方案天生、编码、上线和监控拆成并行流水线,,,,,,使差别想法可以同时处在差别阶段。。。。单个 AgentX worker 平均维持约 12 个并发实验,,,,,,而古板工程师约为 1.5 个,,,,,,并发能力提升 8 倍;;单 worker 每周产出 1.1 个可宣布效果,,,,,,是人工方式的 13.8 倍;;单位人力孝顺的累计 App 时长收益抵达人工的 3.7 倍。。。。
在窗口内,,,,,,AgentX 还展示出显着的自我加速:周并发实验数从 15 增至 60,,,,,,idea 通过率从 15% 提升到 45%,,,,,,每周可宣布效果从 2 个提升到 5 个。。。。随着手艺沉淀、失败模式积累和 dryrun 模板成熟,,,,,,系统不但是跑得更快,,,,,,也在更快地扫除无效偏向、把资源集中到更可能乐成的实验上。。。。
从战略迭代到模子研究:统一个闭环可以迁徙
AgentX 的价值不止在线上战略实验,,,,,,在模子侧研究也有响应拓展:系统可以自动阅读近期推荐论文,,,,,,在统一代码库上复现要领,,,,,,基于 KuaiRand、Taobao、Amazon、ML-1M 等果真数据集评估效果,,,,,,再从体现较好的模子中抽取互补??????,,,,,,举行跨论文结构组合与新架构探索。。。。
在自力模子研究实验中,,,,,,AgentX 跑通了从论文复现、??????樽楹稀⒗胂咂拦馈⒃谙卟馐缘叫计郎蟮耐暾绰贰。。。其中抵达宣布级别的模子在快手 App 直播时长指标上带来 +0.865% 收益。。。。
这说明AgentX 不是某个营业场景下的剧本荟萃,,,,,,而是一套可迁徙的自动研发范式:只要问题能够被组织成「提出假设 — 实现方案 — 获得反馈 — 沉淀履历」的闭环,,,,,,AgentX 就有时机把它刷新成批量化、自进化的研发流程。。。。
案例剖析:PCV 增强精排分的两轮闭环优化
我们进一步展示一个 PCV(Post-Consumption Value,,,,,,消耗后价值)增强精排分的真实案例。。。。目的是在坚持真实曝光和用户体验护栏稳固的条件下提升用户寓目时长。。。。PCV 信号来自分享、珍藏、重播等消耗后行为,,,,,,能够反映内容的恒久价值;;但它也有自然风险,,,,,,由于低质或噱头内容同样可能引发部分消耗后行为。。。。
第一轮中,,,,,,Brainstorm Agent 选择直接引入 PCV boosting;;Developing Agent 将着实现为带实验开关保;さ某朔ù蚍止剑;Evaluation Agent 通过线上 A/B 发明,,,,,,该方案偏向上略有收益,,,,,,但统计显著性缺乏,,,,,,并陪同部分人群和多样性指标风险。。。。
要害在于,,,,,,AgentX 没有把这次效果简朴归为「失败」。。。。系统把它转化为下一轮输入:直接提升高 PCV 内容可能放大噪声,,,,,,因此第二轮引入质量门控、用户活跃度自顺应权重和时长导向底分。。。。最终方案取得用户寓目时长 +0.071%、真实曝光 +0.118%,,,,,,同时用户体验护栏坚持稳固。。。。
这个案例说明,,,,,,AgentX 的能力不在于一次性给出完善谜底,,,,,,而在于把真实反馈酿成下一轮更强的假设。。。。推荐系统中最有价值的履历,,,,,,往往就藏在这些「第一轮不敷好」的实验里。。。。
总结与展望
AgentX 用真实营业闭环回覆了推荐系统自动研发中最要害的三个问题。。。。
推荐算法迭代能不可由 Agent 执行??????可以。。。。但条件是 Agent 不可停留在文本天生或代码补全层面,,,,,,而必需进入真实生产链路,,,,,,明确系统知识、遵守工程约束,,,,,,并接受线上 A/B 的磨练。。。。Agent 爆发的履历能不可复利??????可以。。。。通过实验知识库、失败资产化和 SGPO 自进化,,,,,,AgentX 将每次执行轨迹转化为后续方案天生、代码实现和 harness 优化的数据泉源。。。。Agentic 推荐研发能不可爆发真实营业收益??????已经可以。。。。真实安排中,,,,,,AgentX 带来了 8 倍并发能力、3.7 倍单位人力营业价值、主站 App 时长 +0.561% 和生涯服务年化超 1 亿元收益。。。。
下一阶段,,,,,,推荐研发的分工会爆发转变:一层工程师与 Agent 系统协同,,,,,,面向营业目的推进战略和模子迭代;;另一层工程师一连进化 Agent 框架、工具链和基础模子能力。。。。每一次实验爆发的轨迹数据,,,,,,都会同时服务于短期营业优化和恒久智能生长。。。。
当想法天生、代码实现、线上评估和履历沉淀都可以被规模;⒈栈坊⒖裳橹さ刈远葱,,,,,,推荐系统迭代就不再只是「增添人力」的线性增添,,,,,,而会进入「履历、算力与智能配合复利」的新阶段。。。。
AgentX 的生产实践批注,,,,,,自进化、批量化、Agent 驱动的工业推荐研发已经不是设想,,,,,,而是正在真实营业中释放价值的新生产方式。。。。
文章点评
未盘问到任何数据!
揭晓谈论
◎接待加入讨论,,,,,,请在这里揭晓您的看法、交流您的看法。。。。