凯时AG

泉æºï¼šå‘¨é”¡çŽ®ï¼šæ²¡æœ‰äººä¼šç†æ—¥æœ¬è²å¾‹å®¾ä½œè€…: 黄志伟:

从模å­åˆ°Harness,,,,,,AI Agent的下åŠåœºè¯¥æ€Žæ ·è¯„测清é™???

关于 AI 清é™çš„大部分讨论,,,,,,æ’久以æ¥éƒ½é›†ä¸­åœ¨æ¨¡å­è‡ªå·±ã€‚ 。。ã€‚ã€‚æ¨¡å­æ˜¯å¦å¯¹é½???是å¦å®¹æ˜“被 jailbreak???是å¦ä¼šæ‹’ç»å±é™©è¯·æ±‚???这些问题虽然主è¦,,,,,,但在今天,,,,,,它们已ç»ä¸æ˜¯å”¯ä¸€ã€ç”šè‡³ä¸å†æ˜¯æœ€ç„¦ç‚¹çš„问题。 。。。。

真正被安排的 agent,,,,,ï¼Œå¹¶ä¸æ˜¯è£¸æ¨¡å­ã€‚ 。。。。无论是 Claude Code 自动æäº¤ PR,,,,,,Codex ä¿®å¤ issue,,,,,,照旧能够直接æ“作资金的客æœåŠ©æ‰‹,,,,,,它们都è¿è¡Œåœ¨ä¸€ä¸ª execution harness 之中。 。。。。Harness 决议了模å­èƒ½æŒªç”¨å“ªäº›å·¥å…·ã€èƒ½ä¼šè§å“ªäº›èµ„æºã€ä¿¡æ¯æ€Žæ ·åœ¨å·®åˆ«å­ agent 之间æµåЍã€ä½•时终止执行,,,,,,以åŠç³»ç»Ÿå¦‚那里置过失æ¢å¤ã€‚ 。。。。模å­åªæ˜¯æå‡ºè¡ŒåЍ,,,,,,真正决议行为界线的是 harness。 。。。。

è¿™æ„味ç€,,,,,,许多真正å±é™©çš„失败,,,,,,已ç»ä¸å†çˆ†å‘在“最终回覆â€è¿™ä¸€å±‚,,,,,,而是爆å‘在执行历程自己。 。。。。一个看似“对é½ä¼˜å¼‚â€çš„æ¨¡å­,,,,,,若是被放进æƒé™ç•Œçº¿æ¾æ•£çš„ harness 中,,,,,,ä¾ç„¶å¯èƒ½æ‚„æ‚„æ‰§è¡Œè¶Šæƒæ“作。 。。。。而åªè¯„测最终谜底的 benchmark,,,,,,往往会把这ç§ç³»ç»Ÿåˆ¤æ–­ä¸ºâ€œä¹æˆå®Œæˆä½¿å‘½â€ã€‚ 。。。。

近期,,,,,,Claw-Eval å’Œ ClawsBench ç­‰äº‹æƒ…å·²ç»æœ€å…ˆå°† agent è¯„æµ‹ä»Žé™æ€é—®ç­”推进到真实执行情形,,,,,,关注系统是å¦èƒ½å¤Ÿå¦„æƒ³ã€æŒªç”¨å·¥å…·ã€ä¼šè§èµ„æºå¹¶å®Œæˆç”¨æˆ·ç›®çš„。 。。。。但焦点缺å£ä¾ç„¶ä¿å­˜ï¼šè¿™äº›è¯„测大多ä»ä»¥ä½¿å‘½å®Œæˆåº¦ä¸ºä¸­å¿ƒ,,,,,,能够告诉我们使命是å¦å®Œæˆ,,,,,,å´å¾ˆéš¾åˆ¤æ–­ä½¿å‘½æ˜¯å¦è¢«æ¸…é™åœ°å®Œæˆã€‚ 。。。。

一些近期基于 Claw 类设置的清é™å®¡è®¡æœ€å…ˆå…³æ³¨å·¥å…·ä½¿ç”¨æˆ–æœ€ç»ˆè¾“å‡ºæ¸…é™æ€§,,,,,,但完整执行轨迹和系统级 harness 清é™ä»ç„¶ç¼ºä¹æ¸…晰界说。 。。。。一个 harness å¯èƒ½è¿”回准确效果,,,,,,å´åœ¨åŽ†ç¨‹ä¸­ä¼šè§å—é™èµ„æºã€æŒªç”¨æœªæŽˆæƒå·¥å…·ã€åœ¨ agent ä¹‹é—´æ³„éœ²æ•æ„Ÿä¸Šä¸‹æ–‡,,,,,,或触å‘凌驾用户æ„图的副作用。 。。。。

在多 agent 系统中,,,,,,这一问题越å‘è¦å®³ã€‚ 。。。。角色分工ã€ä½¿å‘½äº¤æŽ¥ã€å…±äº«ä¸Šä¸‹æ–‡å’Œ agent 间通讯都会扩大清é™è¢’露é¢ã€‚ 。。。。;痪浠八,,,,,,我们一直在对 AI 系统中“最容易看到的一层â€ä¸¾è¡Œæ¸…陿 ¡å‡†,,,,,,å´å¿½ç•¥äº†çœŸæ­£å†³è®® agent 行为界线的执行系统。 。。。。

å…‹æ—¥,,,,,,加州大学圣塔芭芭拉分校(UCSB)等机构的一项新事情æå‡ºäº†HarnessAudit,,,,,,正是希望解决这个问题。 。。。。

论文问题:Auditing Agent Harness Safety网站:harvestaudit.github.io论文:arxiv.org/abs/2605.14271代ç å’Œæ•°æ®é›†ï¼šgithub.com/eric-ai-lab/HarnessAudit

HarnessAudit 概览。 。。。。(a) HarnessAudit 笼罩八个真实天下领域,,,,,,用于构建带有现实约æŸçš„æ¸…é™è¯„测使命。 。。。。(b) Agent 在完æˆä½¿å‘½æ—¶,,,,,,需è¦å±¥åŽ†å¦„æƒ³ã€æ£€ç´¢ã€å·¥å…·æŒªç”¨ã€å®¡æŸ¥å’Œé€šè®¯ç­‰æ–¹æ³•,,,,,,并与外部资æºå’ŒåŠ¨æ€æƒ…形交互。 。。。。(c) 展示了在 OpenClaw 设置下,,,,,,基于完整执行轨迹审计获得的模å­ä½“现,,,,,,评测维度包括界线åˆè§„æ€§ã€æ‰§è¡Œå¿ å®žæ€§å’Œç³»ç»Ÿç¨³å›ºæ€§ã€‚ 。。。。

HarnessAudit是一个针对完整执行轨迹(trajectory)举行审计的清é™è¯„测框架,,,,,,而ä¸ä½†ä»…关注最终输出。 。。。。

åŒæ—¶,,,,,,该团队还构建了HarnessAudit-Bench,,,,,,在 8 个真实天下领域上的 210 个使命中,,,,,,对 agent harness 的行为举行系统化审计。 。。。。这些领域包括金èžã€ç”µå•†ã€åŒ»ç–—ã€åŠžå…¬å作ã€ç¤¾äº¤äº’åŠ¨ã€æ—¥å¸¸ç”Ÿæ¶¯ã€æ‰§æ³•åˆè§„以åŠè½¯ä»¶å·¥ç¨‹ã€‚ 。。。。

该团队评测了 10 ä¸ªå‰æ²¿ agent harness,,,,,,包括 Anthropic çš„ Claude Codeã€OpenAI çš„ Codex,,,,,ï¼Œä»¥åŠ OpenClaw 等系统。 。。。。

他们的焦点看法很简朴:Agent 的风险,,,,,,ä¸åœ¨æœ€ç»ˆè°œåº•,,,,,,而在它为了获得这个谜底,,,,,,事实åšäº†ä»€ä¹ˆã€‚ 。。。。

审计检查什么

HarnessAudit 会在æ¯ä¸€æ¡æ‰§è¡Œè½¨è¿¹ä¸Šè”åˆè¯„估三个属性。 。。。。

界线åˆè§„性。 。。。。æ¯ä¸€æ¬¡å·¥å…·æŒªç”¨ã€èµ„æºä¼šè§å’Œ agent 间通讯,,,,,,都必需切åˆé¢„先声明的æƒé™æˆ˜ç•¥å’Œä¿¡æ¯æµæˆ˜ç•¥ã€‚ 。。。。执行忠实性。 。。。。Agent ä¸ä½†è¦å®Œæˆç›®çš„,,,,,,还必需通过åˆç†ä¸”被授æƒçš„中心方法完æˆä½¿å‘½,,,,,,ä¸å¯ç§è‡ªæ›¿æ¢å·¥å…·ã€æ“作凌驾规模的资æº,,,,,,或执行比用户授æƒè§„模更大的行动。 。。。。扰动下的稳固性。 。。。。上述两类清é™å±žæ€§è¿˜å¿…需能ç»å—真实压力场景,,,,,,例如间接æé†’注入ã€ç›®çš„形貌模糊ã€å·¥å…·æŒªç”¨è¿‡å¤±ç­‰ã€‚ 。。。。

åªæœ‰åŒæ—¶é€šè¿‡è¿™ä¸‰é¡¹æ£€æŸ¥,,,,,,一æ¡è½¨è¿¹æ‰ä¼šè¢«è§†ä¸ºæ¸…é™ã€‚ 。。。。该团队体现:「最终谜底是å¦å‡†ç¡®ä¼šè¢«å•独报告,,,,,,这是有æ„设计的,,,,,,由于我们想视察“使命完æˆâ€å’Œâ€œæ¸…陿‰§è¡Œâ€çš„纷歧致究竟有多频ä»ã€‚ 。。。。ã€

效果是,,,,,,很频ä»,,,,,,它们ç»å¸¸çº·æ­§è‡´ã€‚ 。。。。

焦点效果表说明晰三件事。 。。。。

第一,,,,,,得分最高的系统,,,,,,并纷歧定是使命完æˆèƒ½åŠ›æœ€å¼ºçš„ç³»ç»Ÿã€‚ 。。。。

在 OpenClaw 设置下,,,,,,Claude Opus 4.6 的使命完æˆçŽ‡é«˜äºŽ Gemini 3.1 Pro,,,,,,但总体清é™å¾—分å而更低,,,,,,由于它在执行历程中跨越了更多清é™ç•Œçº¿ã€‚ 。。。。能力与清é™å¹¶ä¸æ˜¯ç»Ÿä¸€æ¡è½´,,,,,,而目今系统现实上正在用一ç§äº¤æµå¦ä¸€ç§,,,,,ï¼Œåªæ˜¯å·²å¾€å¾ˆå°‘有人真正去æƒè¡¡è¿™ç§ trade-off。 。。。。

第二,,,,,,三类界线åˆè§„æ€§å¹¶ä¸æ˜¯åŒæ ·éš¾é¢˜ã€‚ 。。。。

工具选择自己通常问题ä¸å¤§,,,,,,大大都 harness 都能选对工具。 。。。。真正的失败更多爆å‘在工具选择之åŽ,,,,,,并且集中在两个更详细的阶段,,,,,,åŽé¢ä¼šè¿›ä¸€æ­¥è®¨è®ºã€‚ 。。。。

第三,,,,,,原生 harness 的设计既å¯èƒ½æå‡æ¸…é™,,,,,,也å¯èƒ½æ”¾å¤§é£Žé™©ã€‚ 。。。。

åœ¨ç›¸åŒ Claude 模å­ä¸‹,,,,,,Claude Code 相比 OpenClaw åŒæ—¶æå‡äº†ä½¿å‘½å®ŒæˆçŽ‡å’Œæ¸…é™æ€§ã€‚ 。。。。而 Codex 虽然æé«˜äº†å®Œæˆçއ,,,,,,å´é™ä½Žäº†æ¸…陿€§,,,,,,由于 GPT-5.4 在原生情形下会执行更多行动,,,,,,更长的执行轨迹也因此积累了更多è¿è§„行为。 。。。。

Harness 的设计,,,,,,实质上决议了 agent 能够被“清é™å®‰æŽ’â€çš„上é™,,,,,,而差别厂商在这些设计上的差别ç€å®žå¾ˆæ˜¯å¤§ã€‚ 。。。。

è¿è§„集中在那里

第一个集中点是资æºä¼šè§ã€‚ 。。。。

系统挪用了准确的工具,,,,,,但æ“作了过失的工具,,,,,,例如会è§äº† agent æƒé™è§„模外的文件ã€ç›˜é—®äº†ç”¨æˆ·ç›®çš„æ—è¾¹ä½†æœªè¢«æŽˆæƒçš„纪录,,,,,,或对战略榨å–çš„èµ„æºæå€¡ API 挪用。 。。。。也就是说,,,,,,工具选择是对的,,,,,,但工具绑定是错的。 。。。。在大大都设置中,,,,,,资æºä¼šè§åˆè§„性显ç€ä½ŽäºŽå·¥å…·ä½¿ç”¨åˆè§„性。 。。。。

第二个集中点是agent é—´çš„ä¿¡æ¯æµã€‚ 。。。。

在多 agent harness 中,,,,,,新闻路由通常是对的,,,,,ï¼Œå³æ–°é—»ä¼šå‘给准确的 agent。 。。。。但问题在于新闻里æºå¸¦äº†ä»€ä¹ˆã€‚ 。。ã€‚ã€‚å­ agent 往往会收到凌驾其使命所需的上下文;;中心组件会在使命竣事åŽç»§ç»­ä¿å­˜æ•感信æ¯ï¼›;一个从 agent ä¼ ç»™å¦ä¸€ä¸ª agent 的摘è¦,,,,,,也å¯èƒ½æ‚„悄泄露其背åŽçš„原始数æ®ã€‚ 。。。。

å• agent 与多 agent 的比照让这一点越å‘详细。 。。。。

åœ¨å• agent 设置中,,,,,,工具åˆè§„性和资æºåˆè§„性都高于 0.85。 。。。。但一旦切æ¢åˆ°å¤š agent 设置,,,,,,工具åˆè§„性下é™åˆ° 0.64,,,,,,资æºåˆè§„性下é™åˆ° 0.63,,,,,ï¼Œè€Œä¿¡æ¯æµåˆè§„性首次æˆä¸ºå¯è§é—®é¢˜,,,,,,仅为 0.58。 。。。。 这说明,,,,,,å作自己会扩大清é™è¢’露é¢,,,,,,而这ç§é£Žé™©æ˜¯å• agent benchmark 很难看到的。 。。。。

尚有几个值得关注的å¾è±¡ã€‚ 。。。。

故障是普éä¿å­˜çš„,,,,,,并éžå±€éƒ¨æ€§çš„。 。。ã€‚ã€‚åœ¨æµ‹è¯•çš„æ‰€æœ‰æ¸…é™æ¡†æž¶ä¸­,,,,,,æ¯ä¸ªä½¿å‘½å‡Œé©¾ 50% 的署ç†éƒ½è‡³å°‘ä¿å­˜ä¸€é¡¹æ¸…é™è¿è§„,,,,,,而在 OpenClaw 中,,,,,,这一比例高达 72%。 。。ã€‚ã€‚æ•…éšœæ¨¡å¼æ˜¯ç³»ç»Ÿæ€§çš„。 。。。。你ä¸å¯ä»…仅加固一个组件就能完善。 。。。。

è¿è§„行为会éšç€è½¨è¿¹é•¿åº¦çš„增添而累积。 。。。。更长的è¿è¡Œè·ç¦»ä¸ä½†é€ŸçŽ‡æ›´æ…¢,,,,,ï¼Œå¹¶ä¸”æ¸…é™æ€§ä¹Ÿæ›´ä½Žã€‚ 。。。。éšç€è¯¥é¢†åŸŸå‘更长航程的自主航行生长,,,,,ï¼Œè¿™æ¡æ›²çº¿å°±æˆä¸ºäº†è®¾è®¡éš¾é¢˜ã€‚ 。。。。

差别领域的风险状æ€å„ä¸ç›¸åŒã€‚ 。。。。金èžå’ŒåŠžå…¬ä½¿å‘½çš„å¤±è´¥ä¸»è¦åœ¨äºŽèµ„æºä¼šè§ï¼›;日常生涯和电å­å•†åŠ¡çš„å¤±è´¥ä¸»è¦åœ¨äºŽä¿¡æ¯æµï¼›;软件工程的失败主è¦åœ¨äºŽå·¥å…·ä½¿ç”¨ã€‚ 。。。。这对生产团队的å¯ç¤ºæ˜¯,,,,,ï¼Œå‡†ç¡®çš„æ¸…é™æŽ§åˆ¶æ­¥ä¼å–决于署ç†çš„用途。 。。。。

扰动稳固性普é较差。 。。。。间接æé†’注入在所有测试设置中å‡å¯¼è‡´æ€§èƒ½ä¸‹é™å¹…度最大,,,,,,稳固性得分在 0.15 至 0.22 之间。 。。。。在清æ´ä½¿å‘½ä¸­çœ‹èµ·æ¥å°šå¯æŽ¥å—的模å­è®¾è®¡,,,,,ï¼Œåœ¨åæŠ—性输入下会失效。 。。。。

为什么这件事现在很主è¦

多智能体 harness å·²ç»ä¸å†åªæ˜¯ä¸€ä¸ªç ”究问题。 。。。。它正在æˆä¸ºæœªæ¥å二个月内险些所有严肃 agent 产å“的基础架构:

ç¼–ç  agent å·²ç»æ˜¯å¤šæ™ºèƒ½ç³»ä¸€åˆ‡,,,,,ï¼ŒåŒ…æ‹¬å¦„æƒ³å™¨ã€æ£€ç´¢å™¨ã€æ‰§è¡Œå™¨å’Œå®¡æŸ¥å™¨ã€‚ 。。。。é¢å‘用户的助手也正在酿æˆå¤šæ™ºèƒ½ç³»ä¸€åˆ‡,,,,,,包括分诊ã€ä¸“å®¶???椤⑸洞砗蜕蠹啤 。。。。è¿ç»´ç±» agent 险些自然需è¦å¤šæ™ºèƒ½ä½“,,,,,,由于一旦你接触多个系统,,,,,,实质上就在举行ååŒã€‚ 。。。。

æ¯ä¸€æ¬¡äº¤æŽ¥,,,,,,都是信æ¯å¯èƒ½æµå‘ä¸åº”去的地方的风险点。 。。ã€‚ã€‚åœ¨å• agent 系统中,,,,,,信任界线是 agent 的工具挪用。 。。。。而在多 agent 系统中,,,,,,信任界线酿æˆäº† message bus。 。。。。是的,,,,,,我们正在构建 message bus,,,,,ï¼Œå´æ²¡æœ‰çœŸæ­£æŠŠå®ƒçœ‹æˆ message bus æ¥çœ‹å¾…。 。。。。

未æ¥è¯¥æ€Žä¹ˆåŠž???

è¦è§£å†³è¿™ä¸ªé—®é¢˜,,,,,,è¦å®³ä¸ä½†æ˜¯è®©æ¨¡å­æ›´å¼º,,,,,ï¼Œè€Œæ˜¯é‡æ–°è®¾è®¡ harness 自己。 。。。。

第一,,,,,,agent 之间ä¸å¯é»˜è®¤å…±äº«å®Œæ•´ä¸Šä¸‹æ–‡ã€‚ 。。。。æ¯ä¸€æ¬¡ä¿¡æ¯è½¬è¾¾éƒ½åº”该有清晰界线:哪些内容å¯ä»¥ä¼ ã€ä¼ ç»™è°ã€èƒ½ä¿å­˜å¤šä¹…。 。。。。现在许多 harness 为了利便,,,,,,直接把完整上下文交给下一个 agent,,,,,ï¼Œä½†è¿™ä¹Ÿæ­£æ˜¯æ•æ„Ÿä¿¡æ¯æ³„露最常è§çš„æ³‰æºã€‚ 。。。。

第二,,,,,,清é™è¯„测ä¸å¯åªçœ‹æœ€ç»ˆè°œåº•,,,,,,而è¦å›žåˆ°å®Œæ•´æ‰§è¡Œè½¨è¿¹ã€‚ 。。。。一个 agent 纵然给出了准确效果,,,,,,也å¯èƒ½åœ¨åŽ†ç¨‹ä¸­ä¼šè§äº†ä¸åº”会è§çš„资æº,,,,,,挪用了ä¸åº”挪用的工具,,,,,ï¼Œæˆ–æŠŠæ•æ„Ÿä¿¡æ¯ä¼ ç»™äº†ä¸åº”知é“的组件。 。。。。因此,,,,,,真正的清é™å®¡è®¡éœ€è¦é€æ­¥æ£€æŸ¥æ¯ä¸€æ¬¡å·¥å…·æŒªç”¨ã€èµ„æºä¼šè§å’Œ agent 间通讯。 。。。。

第三,,,,,,多 agent ç³»ç»Ÿéœ€è¦æ˜Žç¡®çš„ need-to-know 机制。 。。。。æ¯ä¸ªå­ agent åªåº”该获得完æˆç›®ä»Šä½¿å‘½æ‰€å¿…需的信æ¯,,,,,ï¼Œè€Œä¸æ˜¯é»˜è®¤ç»§ç»­æ‰€æœ‰ä¸Šä¸‹æ–‡ã€‚ 。。ã€‚ã€‚æ›´ç†æƒ³çš„设计是,,,,,ï¼Œå­ agent 先声明自己需è¦ä»€ä¹ˆä¿¡æ¯,,,,,,å†ç”± harness 或 message bus 判断是å¦å…许转达。 。。。。

@è¢ä¸­å¤©ï¼š米兰体育app体育,,,,,,男å­åž‚çº¶æ—¶å‘æ˜Žå©´å„¿æººæ°´ 连忙救起
@林佑è:多图直击轰炸机编队跨昼夜航行训练
@韩慈瑄:普京:俄罗斯从未拒ç»ä¸Žæ¬§æ´²ä¸¾è¡Œå¯¹è¯

ã€ç½‘站地图】