快手AgentX:推è系统最先自我è¿ä»£
机械之心宣布
已往å年,,,,,推è系统的主线一直是把「建模ã€å’Œã€Œå·¥ç¨‹ã€åšåˆ°æ›´å¼ºï¼šç‰¹å¾æ›´ç»†ï¼Œï¼Œï¼Œï¼Œï¼Œæ¨¡å更大,,,,,åºåˆ—æ›´é•¿ï¼Œï¼Œï¼Œï¼Œï¼Œå¤©ç”Ÿå¼æŽ¨è和推è大模å也在一直拓展系统界线。。。但在工业推è真æ£çš„æ—¥å¸¸è¿ä»£é‡Œï¼Œï¼Œï¼Œï¼Œï¼Œæœ€ç¡¬çš„瓶颈并ä¸ä½†åœ¨æ¨¡åï¼Œï¼Œï¼Œï¼Œï¼Œè€Œåœ¨ç ”çˆ†å‘产方å¼è‡ªå·±ã€‚。。
ä¸€ä¸ªæŽ¨èæˆ˜ç•¥ä»Žæƒ³æ³•到上线,,,,,往往è¦ç©¿è¿‡æ•°æ®å‰–æžã€æ–¹æ¡ˆè®¾è®¡ã€ç”Ÿäº§ä»£ç 修改ã€å®žéªŒè®¾ç½®ã€A/B è§†å¯Ÿã€æŒ‡æ ‡å½’å› å’Œå¤ç›˜æ²‰æ·€ã€‚。。这内里真æ£ç¨€ç¼ºçš„䏿˜¯ã€Œå†™ä¸€æ®µä»£ç ã€æˆ–「跑一次实验ã€ï¼Œï¼Œï¼Œï¼Œï¼Œè€Œæ˜¯ä¸€è¿žæå‡ºé«˜è´¨é‡å‡è®¾ã€åˆ¤æ–实验æˆè´¥åŽŸå› ã€å¹¶æŠŠå±¥åŽ†è½¬åŒ–ä¸ºä¸‹ä¸€è½®æ›´å¥½çš„åå‘。。。
已往,,,,,这æ¡é“¾è·¯ä¸»è¦é 算法工程师手工推进,,,,,立异效率很洪æµå¹³ä¸Šè¢«äººåŠ›å’Œä¸ªäººå±¥åŽ†çº¿æ€§é™åˆ¶ã€‚。。
AgentX è¦æ”¹å˜çš„æ£æ˜¯è¿™ä¸€ç‚¹ã€‚ã€‚ï¼Ÿï¼Ÿï¼Ÿï¼Ÿï¼Ÿç„“ AgentX 团队宣布手艺报告《AgentX: Towards Agent-Driven Self-Iteration of Industrial Recommender Systems》,,,,,æå‡ºå¹¶éªŒè¯äº†ä¸€å¥—é¢å‘工业推è系统的 Agent é©±åŠ¨ç ”å‘é—环:让 Agent ä¸ä½†æ˜¯è¾…助写代ç ,,,,,而是æˆä¸ºæŽ¨èè¿ä»£çš„æ‰§è¡Œä¸»ä½“,,,,,一连天生方案ã€å®žçް代ç ã€ä¸Šçº¿å®žéªŒã€è¯»å–å馈,,,,,并把æ¯ä¸€æ¬¡è½¨è¿¹æ²‰æ·€ä¸ºä¸‹ä¸€è½®è¿›åŒ–的燃料。。。
在快手 App 真实è¥ä¸šå®‰æŽ’历程ä¸ï¼Œï¼Œï¼Œï¼Œï¼ŒAgentX å·²ç»è·‘通「想法 — 代ç — 实验 — å½’å› â€” 进化ã€çš„完整é—环。。。3 个 AgentX worker 在主站推è与生涯æœåŠ¡å•†ä¸šåŒ–åœºæ™¯ä¸ï¼Œï¼Œï¼Œï¼Œï¼Œå°† 374 个实验想法推进为 10 个å¯å®£å¸ƒæ•ˆæžœï¼›ï¼›ï¼›ç›¸è¾ƒå¤æ¿äººå·¥è¿ä»£ï¼Œï¼Œï¼Œï¼Œï¼Œå• worker å¹¶å‘实验数æå‡ 8 å€ï¼Œï¼Œï¼Œï¼Œï¼Œå•ä½äººåŠ›è¥ä¸šä»·å€¼æå‡ 3.7 å€ï¼Œï¼Œï¼Œï¼Œï¼Œå¹¶å¸¦æ¥ä¸»ç«™ç”¨æˆ· App 消耗时长累计 +0.561%ã€ç”Ÿæ¶¯æœåŠ¡å¹´åŒ–æ”¶å…¥è¶… 1 亿元的è¥ä¸šæ”¶ç›Šã€‚。。
AgentX 手艺报告:https://arxiv.org/abs/2606.26859v2
é…æ™¯ï¼šæŽ¨èè¿ä»£çš„瓶颈,,,,,æ£åœ¨ä»Žæ¨¡å转å‘ç ”å‘é—环
若是说 Scaling 解决的是「模å能ä¸å¯æ›´å¼ºã€ï¼Œï¼Œï¼Œï¼Œï¼ŒReasoning 解决的是「模å能ä¸å¯æƒ³æ¸…æ™°ã€ï¼Œï¼Œï¼Œï¼Œï¼Œé‚£ä¹ˆ Agentic 真æ£è¦å›žè¦†çš„æ˜¯ã€Œç³»ç»Ÿèƒ½ä¸å¯æŠŠäº‹æƒ…ä¸€è¿žåšæˆã€ã€‚。。对推è系统而言,,,,,这个问题尤其主è¦ï¼šæŽ¨èè¿ä»£åކæ¥ä¸æ˜¯ä¸€ä¸ªå•点推ç†ä½¿å‘½ï¼Œï¼Œï¼Œï¼Œï¼Œè€Œæ˜¯ä¸€æ¡æ¨ªè·¨æ•°æ®ã€ä»£ç ã€å¹³å°ã€å®žéªŒã€æŒ‡æ ‡å’Œè¥ä¸šåˆ¤æ–的长链路。。。
夿¿äººå·¥è¿ä»£è‡³å°‘有三个显ç€å¤©èбæ¿ï¼š
åžåå—é™äºŽäººï¼šä¸€ä¸ªå·¥ç¨‹å¸ˆé€šå¸¸åªèƒ½ä¸²è¡ŒæŽ¨è¿›å°‘é‡å®žéªŒï¼Œï¼Œï¼Œï¼Œï¼Œæ¯ä¸ªæƒ³æ³•éƒ½è¦æ‰‹å·¥å®Œèº«å‰–æžã€å¼€å‘ã€ä¸Šçº¿å’Œå¤ç›˜ã€‚。。åªè¦æ‰§è¡Œé“¾è·¯ç¨³å›ºï¼Œï¼Œï¼Œï¼Œï¼Œå¢žæ·»äººåŠ›åªèƒ½å¸¦æ¥çº¿æ€§æå‡ã€‚。。履历难以沉淀æˆç³»ç»Ÿèƒ½åŠ›ï¼šè®¸å¤šå¤±è´¥å®žéªŒå¹¶éžæ²¡æœ‰ä»·å€¼ï¼Œï¼Œï¼Œï¼Œï¼Œå®ƒä»¬è¢’露了è¥ä¸šç•Œçº¿ã€å¹³å°çº¦æŸã€ç‰¹å¾ç¼ºå£å’Œæˆ˜ç•¥é£Žé™©ã€‚。。但若是这些信æ¯åªåœç•™åœ¨æ–‡æ¡£å’Œä¸ªäººå½±è±¡ä¸ï¼Œï¼Œï¼Œï¼Œï¼Œç³»ç»Ÿä¸‹ä¸€æ¬¡ä»ç„¶å¯èƒ½é‡å¤è¸©å‘ã€‚ã€‚ã€‚ç¦»çº¿åˆ¤æ–æ— 法替æ¢çœŸé€‚用户å。。。和è鱿低匙钪沼呕氖çªå‘±å«Œæ²¡å½¢é™€çš„康。。。一个方案离线看起æ¥åˆç†ï¼Œï¼Œï¼Œï¼Œï¼Œä¸ä»£è¡¨çº¿ä¸Šä¸€å®šæœ‰ç”¨ï¼›ï¼›ï¼›çœŸæ£å¯é 的奖励信å·åªèƒ½æ¥è‡ªæ¸…é™ã€å¯æŽ§ã€å¯å½’å› çš„ A/B 实验。。。
å› æ¤ï¼Œï¼Œï¼Œï¼Œï¼ŒAgentX çš„ç›®çš„ä¸æ˜¯åšä¸€ä¸ªæ›´æ™ºæ…§çš„代ç åŠ©æ‰‹ï¼Œï¼Œï¼Œï¼Œï¼Œè€Œæ˜¯é‡æž„推èç ”å‘的生产函数:把工程师从大宗é‡å¤æ‰§è¡Œä¸é‡Šæ”¾å‡ºæ¥ï¼Œï¼Œï¼Œï¼Œï¼ŒæŠŠäººåЛ集ä¸åˆ°ç›®çš„设定ã€è¦å®³å®¡æ ¸å’Œé«˜é˜¶åˆ¤æ–上;;;把执行ã€éªŒè¯å’Œå±¥åŽ†æ²‰æ·€äº¤ç»™ Agent è¾–æ¡£åŒç»æŽ¨è¿›ã€‚。。
AgentX 怎么åšï¼Ÿï¼Ÿï¼Ÿï¼Ÿï¼ŸæŠŠæŽ¨èç ”å‘æ‹†æˆå¯æ‰§è¡Œã€å¯éªŒè¯ã€å¯è¿›åŒ–çš„é—环
AgentX 将一次完整的推è实验拆解为 Brainstorm Agentã€Developing Agentã€Evaluation Agent å’Œ Harness Evolution。。。å‰ä¸‰ä¸ªé˜¶æ®µè®¤çœŸæŠŠä¸€ä¸ªæƒ³æ³•推到真实线上效果,,,,,第四个阶段认真让 Agent 系统从历å²è½¨è¿¹ä¸å˜å¾—更强。。。
Brainstorm Agent:把模糊目的酿æˆå¯è½åœ°æ–¹æ¡ˆ
真实è¥ä¸šè¾“入往往䏿˜¯å®Œæ•´éœ€æ±‚,,,,,å¯èƒ½åªæ˜¯ã€Œæå‡å¯“目时长ã€ã€Œæ”¹å–„冷å¯ã€ã€Œä¼˜åŒ–æŸç±»ç”¨æˆ·è½¬åŒ–ã€ã€‚。。若是任由模å自由施展,,,,,很容易产出ä¾èµ–ä¸ä¿å˜ç‰¹å¾ã€è§¦ç¢°è¿‡å¤±é“¾è·¯ã€æˆ–é‡å¤åކå²å¤±è´¥åå‘的「漂亮想法ã€ã€‚。。Brainstorm Agent 会综åˆåކå²å®žéªŒã€ç³»ç»Ÿæž¶æž„ã€æ•°æ®å‰–æžå’Œå¤–éƒ¨è®ºæ–‡ç ”ç©¶ï¼Œï¼Œï¼Œï¼Œï¼ŒæŠŠç›®çš„æ”¶æ•›æˆå°‘釿œ‰ä¼˜å…ˆçº§ã€æœ‰è¯æ®ã€æœ‰ç•Œçº¿çš„候选方案。。。æ¯ä¸ªæ–¹æ¡ˆéƒ½è¦è¯´æ˜Žç›®çš„æŒ‡æ ‡ã€å®žçްä½ç½®ã€æ‰€éœ€ä¿¡å·ã€é¢„期机制ã€é£Žé™©å’ŒéªŒè¯æ–¹å¼ã€‚。。
Developing Agent:让代ç 天生真æ£è¿›å…¥ç”Ÿäº§è¯å¢ƒ
在工业代ç åº“é‡Œï¼Œï¼Œï¼Œï¼Œï¼Œè¯æ³•å‡†ç¡®è¿œè¿œä¸æ•·ã€‚ã€‚ã€‚å—æ®µçœ‹èµ·æ¥åˆç†ä½†çŽ°å®žä¸ä¿å˜ï¼Œï¼Œï¼Œï¼Œï¼Œæˆ˜ç•¥å†™å®Œå´æ²¡æœ‰æ³¨å†Œåˆ°å‡†ç¡®è¡Œåˆ—,,,,,实验开关没有默认关é—,,,,,都会让线上实验失真。。。Developing Agent é€šè¿‡å®¢æ ˆçŸ¥è¯†åº“ã€ç‰¹å¾ schema 盘问ã€DSL 检查ã€C++ è¯æ³•检查ã€dryrun 验è¯ç‰å·¥å…·ï¼Œï¼Œï¼Œï¼Œï¼ŒæŠŠä»£ç 天生约æŸåœ¨çœŸå®žå®¢æ ˆæ¸…é™å°è§„则内。。。在模åç ”ç©¶ä¾§ï¼Œï¼Œï¼Œï¼Œï¼Œå®ƒè¿˜æ”¯æŒè®ºæ–‡å¤çްã€ï¼Ÿï¼Ÿï¼Ÿï¼Ÿï¼Ÿæ©„诤涂ç¼ç•𿅕峿£ºæ¥¹ï¼Œï¼Œï¼Œï¼Œï¼Œå¹¶é€šè¿‡ç¡®å®šæ€§æ—¥å¿—剖æžã€ä¸“å®¶æŠ•ç¥¨å’Œå› æžœé“¾å½’å› åŒ…ç®¡ç»“è®ºå¯ä¿¡ã€‚。。
Evaluation Agent:把线上 A/B é…¿æˆç³»ç»Ÿçš„真实奖励
AgentX ä¸æŠŠç¦»çº¿æŒ‡æ ‡æˆ–æ¨¡åè‡ªè¯„çœ‹æˆæœ€ç»ˆè°œåº•。。。Evaluation Agent 认真清é™å®‰æŽ’ã€æµé‡åˆ†æ¡¶ã€å‚æ•°å†²çªæ£€æŸ¥ã€æŒ‡æ ‡è¯»å–å’Œ guardrail veto,,,,,阻æ¢å±€éƒ¨æ”¶ç›Šç‰ºç‰²ç”¨æˆ·ä½“验或è¥ä¸šæ¸…é™ã€‚。。更è¦å®³çš„æ˜¯ï¼Œï¼Œï¼Œï¼Œï¼Œå®ƒä¼šæŠŠä¹æˆå’Œå¤±è´¥éƒ½èµ„äº§åŒ–ï¼šä¹æˆå®žéªŒæˆä¸ºåŽç»æ–¹æ¡ˆçš„ playbook,,,,,失败实验沉淀为å例ã€çº¦æŸå’Œå‰ªæžè§„则。。。
Harness Evolution:让 Agent 自己修æ£äº‹æƒ…æ–¹å¼
AgentX 的自进化æ¥è‡ª SGPO(Semantic-Gradient-based Prompt Optimization)。。。它ä¸ç›´æŽ¥ä¼˜åŒ–æŸä¸ªæŽ¨èæˆ˜ç•¥ï¼Œï¼Œï¼Œï¼Œï¼Œè€Œæ˜¯ä»ŽåŽ†å²æ‰§è¡Œè½¨è¿¹ä¸æ‰¾å‡º Agent 事情方å¼çš„缺陷:是å¦é—æ¼è¥ä¸šçº¦æŸï¼Œï¼Œï¼Œï¼Œï¼Œæ˜¯å¦è¯æ®ç¼ºä¹ï¼Œï¼Œï¼Œï¼Œï¼Œæ˜¯å¦äº¤ä»˜å—段ä¸å®Œæ•´ï¼Œï¼Œï¼Œï¼Œï¼Œæ˜¯å¦é‡å¤çНåŒç±»ä»£ç 过失。。。éšåŽï¼Œï¼Œï¼Œï¼Œï¼ŒSGPO 将这些诊æ–转化为å Agent 的局部 harness 更新,,,,,并通过旧版与新版在统一批 replay 使命上的é…å¯¹è¯„ä¼°å†³è®®æ˜¯å¦æŽ¥çº³ã€‚ã€‚ã€‚
è¿™æ‰æ˜¯ AgentX 最è¦å®³çš„åŒºåˆ«ï¼šå®ƒä¸æ˜¯æŠŠäººå·¥æµç¨‹ç®€æœ´è‡ªåŠ¨åŒ–ä¸€éï¼Œï¼Œï¼Œï¼Œï¼Œè€Œæ˜¯æŠŠæ¯æ¬¡æ‰§è¡Œéƒ½é…¿æˆç³»ç»Ÿèƒ½åŠ›å¢žæ·»çš„ä¸€éƒ¨åˆ†ã€‚ã€‚ã€‚
实验效果: 374 个想法,,,,,10 个å¯å®£å¸ƒæ•ˆæžœ
AgentX çš„ç„¦ç‚¹éªŒè¯æ¥è‡ªå¿«æ‰‹ App 的真实安排。。。3 个 AgentX worker 并行è¿è¡Œåœ¨ä¸»ç«™æŽ¨è和生涯æœåŠ¡ä¸¤ä¸ªç”Ÿäº§åœºæ™¯ï¼Œï¼Œï¼Œï¼Œï¼Œå®Œæ•´çºªå½• idea passã€code-and-launchã€positive evaluation ç‰èŠ‚ç‚¹ã€‚ã€‚ã€‚
æ•´ä½“æ¼æ–—如下:374 个实验想法进入系统;;;106 ä¸ªé€šè¿‡æ–¹æ¡ˆå®¡æ ¸ï¼Œï¼Œï¼Œï¼Œï¼Œidea pass rate 为 28.34%;;;100 个完æˆä»£ç 实现与上线,,,,,code-and-launch rate 为 94.3%;;;10 个获得æ£å‘评估并抵达å¯å®£å¸ƒæ ‡å‡†ï¼Œï¼Œï¼Œï¼Œï¼Œpositive evaluation rate 为 9.9%。。。
从è¥ä¸šçº¿çœ‹ï¼Œï¼Œï¼Œï¼Œï¼Œä¸»ç«™æŽ¨è 361 ä¸ªæƒ³æ³•çˆ†å‘ 8 个å¯å®£å¸ƒæ•ˆæžœï¼›ï¼›ï¼›ç”Ÿæ¶¯æœåŠ¡ 13 ä¸ªæƒ³æ³•çˆ†å‘ 2 个å¯å®£å¸ƒæ•ˆæžœã€‚。。最终,,,,,这些实验带æ¥äº†çœŸå®žè¥ä¸šæ”¶ç›Šï¼šä¸»ç«™æŽ¨è用户 App 消耗时长累计æå‡ +0.561%;;;生涯æœåŠ¡ä¸ºå¿«æ‰‹å¹³å°å顺年化超 1 äº¿å…ƒäººæ°‘å¸æ”¶å…¥ã€‚。。
更主è¦çš„æ˜¯ç”Ÿäº§æ•ˆçŽ‡è¢«é‡æ–°ç•Œè¯´äº†ã€‚ã€‚ã€‚å¤æ¿äººå·¥æµç¨‹ä¸ï¼Œï¼Œï¼Œï¼Œï¼Œå·¥ç¨‹å¸ˆé€šå¸¸ä¸²è¡ŒæŽ¨è¿›å®žéªŒï¼›ï¼›ï¼›AgentX 将方案天生ã€ç¼–ç ã€ä¸Šçº¿å’Œç›‘控拆æˆå¹¶è¡Œæµæ°´çº¿ï¼Œï¼Œï¼Œï¼Œï¼Œä½¿å·®åˆ«æƒ³æ³•å¯ä»¥åŒæ—¶å¤„在差别阶段。。。å•个 AgentX worker å¹³å‡ç»´æŒçº¦ 12 个并å‘å®žéªŒï¼Œï¼Œï¼Œï¼Œï¼Œè€Œå¤æ¿å·¥ç¨‹å¸ˆçº¦ä¸º 1.5 个,,,,,并å‘能力æå‡ 8 å€ï¼›ï¼›ï¼›å• worker æ¯å‘¨äº§å‡º 1.1 个å¯å®£å¸ƒæ•ˆæžœï¼Œï¼Œï¼Œï¼Œï¼Œæ˜¯äººå·¥æ–¹å¼çš„ 13.8 å€ï¼›ï¼›ï¼›å•ä½äººåŠ›å顺的累计 App 时长收益抵达人工的 3.7 å€ã€‚。。
在窗å£å†…,,,,,AgentX 还展示出显ç€çš„è‡ªæˆ‘åŠ é€Ÿï¼šå‘¨å¹¶å‘实验数从 15 增至 60,,,,,idea 通过率从 15% æå‡åˆ° 45%,,,,,æ¯å‘¨å¯å®£å¸ƒæ•ˆæžœä»Ž 2 个æå‡åˆ° 5 个。。。éšç€æ‰‹è‰ºæ²‰æ·€ã€å¤±è´¥æ¨¡å¼ç§¯ç´¯å’Œ dryrun æ¨¡æ¿æˆç†Ÿï¼Œï¼Œï¼Œï¼Œï¼Œç³»ç»Ÿä¸ä½†æ˜¯è·‘å¾—æ›´å¿«ï¼Œï¼Œï¼Œï¼Œï¼Œä¹Ÿåœ¨æ›´å¿«åœ°æ‰«é™¤æ— æ•ˆåå‘ã€æŠŠèµ„æºé›†ä¸åˆ°æ›´å¯èƒ½ä¹æˆçš„实验上。。。
从战略è¿ä»£åˆ°æ¨¡åç ”ç©¶ï¼šç»Ÿä¸€ä¸ªé—环å¯ä»¥è¿å¾™
AgentX çš„ä»·å€¼ä¸æ¢åœ¨çº¿ä¸Šæˆ˜ç•¥å®žéªŒï¼Œï¼Œï¼Œï¼Œï¼Œåœ¨æ¨¡åä¾§ç ”ç©¶ä¹Ÿæœ‰å“应拓展:系统å¯ä»¥è‡ªåŠ¨é˜…è¯»è¿‘æœŸæŽ¨è论文,,,,,在统一代ç 库上å¤çްè¦é¢†ï¼Œï¼Œï¼Œï¼Œï¼ŒåŸºäºŽ KuaiRandã€Taobaoã€Amazonã€ML-1M ç‰æžœçœŸæ•°æ®é›†è¯„估效果,,,,,å†ä»Žä½“现较好的模å䏿нå–互补?????,,,,,举行跨论文结构组åˆä¸Žæ–°æž¶æž„探索。。。
在自力模åç ”ç©¶å®žéªŒä¸ï¼Œï¼Œï¼Œï¼Œï¼ŒAgentX 跑通了从论文å¤çްã€ï¼Ÿï¼Ÿï¼Ÿï¼Ÿï¼Ÿæ¨½æ¥¹ç¨€â’—胂咂拦馈⒃谙åŸé¦ç¼˜å«è®¡éƒŽèŸ®è€æš¾ç»°ã€‚ã€‚ã€‚å…¶ä¸æŠµè¾¾å®£å¸ƒçº§åˆ«çš„æ¨¡å在快手 App ç›´æ’æ—¶é•¿æŒ‡æ ‡ä¸Šå¸¦æ¥ +0.865% 收益。。。
这说明AgentX 䏿˜¯æŸä¸ªè¥ä¸šåœºæ™¯ä¸‹çš„剧本èŸèƒï¼Œï¼Œï¼Œï¼Œï¼Œè€Œæ˜¯ä¸€å¥—å¯è¿å¾™çš„è‡ªåŠ¨ç ”å‘范å¼ï¼šåªè¦é—®é¢˜èƒ½å¤Ÿè¢«ç»„织æˆã€Œæå‡ºå‡è®¾ — 实现方案 — 获得å馈 — 沉淀履历ã€çš„é—环,,,,,AgentX å°±æœ‰æ—¶æœºæŠŠå®ƒåˆ·æ–°æˆæ‰¹é‡åŒ–ã€è‡ªè¿›åŒ–çš„ç ”å‘æµç¨‹ã€‚。。
案例剖æžï¼šPCV 增强精排分的两轮é—环优化
我们进一æ¥å±•示一个 PCV(Post-Consumption Value,,,,,消耗åŽä»·å€¼ï¼‰å¢žå¼ºç²¾æŽ’åˆ†çš„çœŸå®žæ¡ˆä¾‹ã€‚ã€‚ã€‚ç›®çš„æ˜¯åœ¨åšæŒçœŸå®žæ›å…‰å’Œç”¨æˆ·ä½“验护æ 稳固的æ¡ä»¶ä¸‹æå‡ç”¨æˆ·å¯“目时长。。。PCV ä¿¡å·æ¥è‡ªåˆ†äº«ã€çè—ã€é‡æ’ç‰æ¶ˆè€—åŽè¡Œä¸ºï¼Œï¼Œï¼Œï¼Œï¼Œèƒ½å¤Ÿåæ˜ å†…å®¹çš„æ’ä¹…ä»·å€¼ï¼›ï¼›ï¼›ä½†å®ƒä¹Ÿæœ‰è‡ªç„¶é£Žé™©ï¼Œï¼Œï¼Œï¼Œï¼Œç”±äºŽä½Žè´¨æˆ–å™±å¤´å†…å®¹åŒæ ·å¯èƒ½å¼•å‘部分消耗åŽè¡Œä¸ºã€‚。。
第一轮ä¸ï¼Œï¼Œï¼Œï¼Œï¼ŒBrainstorm Agent 选择直接引入 PCV boosting;;;Developing Agent å°†ç€å®žçŽ°ä¸ºå¸¦å®žéªŒå¼€å…³ï¼›ï¼›ï¼›ã•æŸæœ”Ã¹èšæ¢ï¼›ï¼›ï¼›Evaluation Agent 通过线上 A/B 呿˜Žï¼Œï¼Œï¼Œï¼Œï¼Œè¯¥æ–¹æ¡ˆåå‘上略有收益,,,,,但统计显著性缺ä¹ï¼Œï¼Œï¼Œï¼Œï¼Œå¹¶é™ªåŒéƒ¨åˆ†äººç¾¤å’Œå¤šæ ·æ€§æŒ‡æ ‡é£Žé™©ã€‚。。
è¦å®³åœ¨äºŽï¼Œï¼Œï¼Œï¼Œï¼ŒAgentX 没有把这次效果简朴归为「失败ã€ã€‚。。系统把它转化为下一轮输入:直接æå‡é«˜ PCV 内容å¯èƒ½æ”¾å¤§å™ªå£°ï¼Œï¼Œï¼Œï¼Œï¼Œå› æ¤ç¬¬äºŒè½®å¼•入质é‡é—¨æŽ§ã€ç”¨æˆ·æ´»è·ƒåº¦è‡ªé¡ºåº”æƒé‡å’Œæ—¶é•¿å¯¼å‘底分。。。最终方案å–得用户寓目时长 +0.071%ã€çœŸå®žæ›å…‰ +0.118%ï¼Œï¼Œï¼Œï¼Œï¼ŒåŒæ—¶ç”¨æˆ·ä½“验护æ åšæŒç¨³å›ºã€‚。。
这个案例说明,,,,,AgentX 的能力ä¸åœ¨äºŽä¸€æ¬¡æ€§ç»™å‡ºå®Œå–„谜底,,,,,而在于把真实å馈酿æˆä¸‹ä¸€è½®æ›´å¼ºçš„å‡è®¾ã€‚。。推èç³»ç»Ÿä¸æœ€æœ‰ä»·å€¼çš„履历,,,,,往往就è—åœ¨è¿™äº›ã€Œç¬¬ä¸€è½®ä¸æ•·å¥½ã€çš„实验里。。。
总结与展望
AgentX 用真实è¥ä¸šé—环回覆了推èç³»ç»Ÿè‡ªåŠ¨ç ”å‘䏿œ€è¦å®³çš„三个问题。。。
推è算法è¿ä»£èƒ½ä¸å¯ç”± Agent 执行?????å¯ä»¥ã€‚。。但æ¡ä»¶æ˜¯ Agent ä¸å¯åœç•™åœ¨æ–‡æœ¬å¤©ç”Ÿæˆ–代ç 补全层é¢ï¼Œï¼Œï¼Œï¼Œï¼Œè€Œå¿…需进入真实生产链路,,,,,明确系统知识ã€éµå®ˆå·¥ç¨‹çº¦æŸï¼Œï¼Œï¼Œï¼Œï¼Œå¹¶æŽ¥å—线上 A/B 的磨练。。。Agent 爆å‘的履历能ä¸å¯å¤åˆ©ï¼Ÿï¼Ÿï¼Ÿï¼Ÿï¼Ÿå¯ä»¥ã€‚。。通过实验知识库ã€å¤±è´¥èµ„产化和 SGPO 自进化,,,,,AgentX å°†æ¯æ¬¡æ‰§è¡Œè½¨è¿¹è½¬åŒ–为åŽç»æ–¹æ¡ˆå¤©ç”Ÿã€ä»£ç 实现和 harness ä¼˜åŒ–çš„æ•°æ®æ³‰æºã€‚。。Agentic 推èç ”å‘能ä¸å¯çˆ†å‘真实è¥ä¸šæ”¶ç›Šï¼Ÿï¼Ÿï¼Ÿï¼Ÿï¼Ÿå·²ç»å¯ä»¥ã€‚。。真实安排ä¸ï¼Œï¼Œï¼Œï¼Œï¼ŒAgentX 带æ¥äº† 8 å€å¹¶å‘能力ã€3.7 å€å•ä½äººåŠ›è¥ä¸šä»·å€¼ã€ä¸»ç«™ App æ—¶é•¿ +0.561% 和生涯æœåŠ¡å¹´åŒ–è¶… 1 亿元收益。。。
下一阶段,,,,,推èç ”å‘的分工会爆å‘转å˜ï¼šä¸€å±‚工程师与 Agent 系统ååŒï¼Œï¼Œï¼Œï¼Œï¼Œé¢å‘è¥ä¸šç›®çš„æŽ¨è¿›æˆ˜ç•¥å’Œæ¨¡åè¿ä»£ï¼›ï¼›ï¼›å¦ä¸€å±‚工程师一连进化 Agent 框架ã€å·¥å…·é“¾å’ŒåŸºç¡€æ¨¡å能力。。。æ¯ä¸€æ¬¡å®žéªŒçˆ†å‘的轨迹数æ®ï¼Œï¼Œï¼Œï¼Œï¼Œéƒ½ä¼šåŒæ—¶æœåŠ¡äºŽçŸæœŸè¥ä¸šä¼˜åŒ–å’Œæ’久智能生长。。。
当想法天生ã€ä»£ç 实现ã€çº¿ä¸Šè¯„估和履历沉淀都å¯ä»¥è¢«è§„ï¼›ï¼›ï¼›â’ˆæ ˆåŠâ’–裳橹ã•刈远葱,,,,,推è系统è¿ä»£å°±ä¸å†åªæ˜¯ã€Œå¢žæ·»äººåŠ›ã€çš„线性增添,,,,,而会进入「履历ã€ç®—力与智能é…åˆå¤åˆ©ã€çš„æ–°é˜¶æ®µã€‚。。
AgentX çš„ç”Ÿäº§å®žè·µæ‰¹æ³¨ï¼Œï¼Œï¼Œï¼Œï¼Œè‡ªè¿›åŒ–ã€æ‰¹é‡åŒ–ã€Agent 驱动的工业推èç ”å‘å·²ç»ä¸æ˜¯è®¾æƒ³ï¼Œï¼Œï¼Œï¼Œï¼Œè€Œæ˜¯æ£åœ¨çœŸå®žè¥ä¸šä¸é‡Šæ”¾ä»·å€¼çš„æ–°ç”Ÿäº§æ–¹å¼ã€‚。。
@蔡韦志:kok电竞官网手机,,,,,克罗地亚足çƒä¸ºä½•这么强@徿¯“。。。何谖奕嘶å«2500公里攻击俄炼油厂
@å¼ åŽŸæ¾ï¼šâ€œäººå·¥æ™ºèƒ½+â€èµ°å‘æ™ºèƒ½ç»æµŽæ–°å½¢æ€