凯时AG

泉æºï¼šç”·å­èº«ä½“ä¸é€‚å路边摇椅清é™åŽ»ä¸–ä½œè€…ï¼š æŽä½³å’Œï¼š

从模å­åˆ°Harness,,,,AI Agent的下åŠåœºè¯¥æ€Žæ ·è¯„测清é™????

关于 AI 清é™çš„大部分讨论,,,,æ’久以æ¥éƒ½é›†ä¸­åœ¨æ¨¡å­è‡ªå·±。。。ã€‚ã€‚æ¨¡å­æ˜¯å¦å¯¹é½????是å¦å®¹æ˜“被 jailbreak????是å¦ä¼šæ‹’ç»å±é™©è¯·æ±‚????这些问题虽然主è¦ï¼Œ,,,但在今天,,,,它们已ç»ä¸æ˜¯å”¯ä¸€ã€ç”šè‡³ä¸å†æ˜¯æœ€ç„¦ç‚¹çš„问题。。。。。

真正被安排的 agent,,ï¼Œï¼Œå¹¶ä¸æ˜¯è£¸æ¨¡å­。。。。。无论是 Claude Code 自动æäº¤ PR,,,,Codex ä¿®å¤ issue,,,,照旧能够直接æ“作资金的客æœåŠ©æ‰‹ï¼Œ,,,它们都è¿è¡Œåœ¨ä¸€ä¸ª execution harness 之中。。。。。Harness 决议了模å­èƒ½æŒªç”¨å“ªäº›å·¥å…·ã€èƒ½ä¼šè§å“ªäº›èµ„æºã€ä¿¡æ¯æ€Žæ ·åœ¨å·®åˆ«å­ agent 之间æµåЍã€ä½•时终止执行,,,,以åŠç³»ç»Ÿå¦‚那里置过失æ¢å¤。。。。。模å­åªæ˜¯æå‡ºè¡ŒåŠ¨ï¼Œ,,,真正决议行为界线的是 harness。。。。。

è¿™æ„味ç€ï¼Œ,,,许多真正å±é™©çš„失败,,,,已ç»ä¸å†çˆ†å‘在“最终回覆â€è¿™ä¸€å±‚,,,,而是爆å‘在执行历程自己。。。。。一个看似“对é½ä¼˜å¼‚â€çš„æ¨¡å­ï¼Œ,,,若是被放进æƒé™ç•Œçº¿æ¾æ•£çš„ harness 中,,,,ä¾ç„¶å¯èƒ½æ‚„æ‚„æ‰§è¡Œè¶Šæƒæ“作。。。。。而åªè¯„测最终谜底的 benchmark,,,,往往会把这ç§ç³»ç»Ÿåˆ¤æ–­ä¸ºâ€œä¹æˆå®Œæˆä½¿å‘½â€。。。。。

近期,,,,Claw-Eval å’Œ ClawsBench ç­‰äº‹æƒ…å·²ç»æœ€å…ˆå°† agent è¯„æµ‹ä»Žé™æ€é—®ç­”推进到真实执行情形,,,,关注系统是å¦èƒ½å¤Ÿå¦„æƒ³ã€æŒªç”¨å·¥å…·ã€ä¼šè§èµ„æºå¹¶å®Œæˆç”¨æˆ·ç›®çš„。。。。。但焦点缺å£ä¾ç„¶ä¿å­˜ï¼šè¿™äº›è¯„测大多ä»ä»¥ä½¿å‘½å®Œæˆåº¦ä¸ºä¸­å¿ƒï¼Œ,,,能够告诉我们使命是å¦å®Œæˆï¼Œ,,,å´å¾ˆéš¾åˆ¤æ–­ä½¿å‘½æ˜¯å¦è¢«æ¸…é™åœ°å®Œæˆ。。。。。

一些近期基于 Claw 类设置的清é™å®¡è®¡æœ€å…ˆå…³æ³¨å·¥å…·ä½¿ç”¨æˆ–æœ€ç»ˆè¾“å‡ºæ¸…é™æ€§ï¼Œ,,,但完整执行轨迹和系统级 harness 清é™ä»ç„¶ç¼ºä¹æ¸…晰界说。。。。。一个 harness å¯èƒ½è¿”回准确效果,,,,å´åœ¨åŽ†ç¨‹ä¸­ä¼šè§å—é™èµ„æºã€æŒªç”¨æœªæŽˆæƒå·¥å…·ã€åœ¨ agent ä¹‹é—´æ³„éœ²æ•æ„Ÿä¸Šä¸‹æ–‡ï¼Œ,,,或触å‘凌驾用户æ„图的副作用。。。。。

在多 agent 系统中,,,,这一问题越å‘è¦å®³。。。。。角色分工ã€ä½¿å‘½äº¤æŽ¥ã€å…±äº«ä¸Šä¸‹æ–‡å’Œ agent 间通讯都会扩大清é™è¢’露é¢。。。。;;痪浠八担,,,我们一直在对 AI 系统中“最容易看到的一层â€ä¸¾è¡Œæ¸…陿 ¡å‡†ï¼Œ,,,å´å¿½ç•¥äº†çœŸæ­£å†³è®® agent 行为界线的执行系统。。。。。

克日,,,,加州大学圣塔芭芭拉分校(UCSB)等机构的一项新事情æå‡ºäº†HarnessAudit,,,,正是希望解决这个问题。。。。。

论文问题:Auditing Agent Harness Safety网站:harvestaudit.github.io论文:arxiv.org/abs/2605.14271代ç å’Œæ•°æ®é›†ï¼šgithub.com/eric-ai-lab/HarnessAudit

HarnessAudit 概览。。。。。(a) HarnessAudit 笼罩八个真实天下领域,,,,用于构建带有现实约æŸçš„æ¸…é™è¯„测使命。。。。。(b) Agent 在完æˆä½¿å‘½æ—¶ï¼Œ,,,需è¦å±¥åŽ†å¦„æƒ³ã€æ£€ç´¢ã€å·¥å…·æŒªç”¨ã€å®¡æŸ¥å’Œé€šè®¯ç­‰æ–¹æ³•,,,,并与外部资æºå’ŒåŠ¨æ€æƒ…形交互。。。。。(c) 展示了在 OpenClaw 设置下,,,,基于完整执行轨迹审计获得的模å­ä½“现,,,,评测维度包括界线åˆè§„æ€§ã€æ‰§è¡Œå¿ å®žæ€§å’Œç³»ç»Ÿç¨³å›ºæ€§。。。。。

HarnessAudit是一个针对完整执行轨迹(trajectory)举行审计的清é™è¯„测框架,,,,而ä¸ä½†ä»…关注最终输出。。。。。

åŒæ—¶ï¼Œ,,,该团队还构建了HarnessAudit-Bench,,,,在 8 个真实天下领域上的 210 个使命中,,,,对 agent harness 的行为举行系统化审计。。。。。这些领域包括金èžã€ç”µå•†ã€åŒ»ç–—ã€åŠžå…¬å作ã€ç¤¾äº¤äº’åŠ¨ã€æ—¥å¸¸ç”Ÿæ¶¯ã€æ‰§æ³•åˆè§„以åŠè½¯ä»¶å·¥ç¨‹。。。。。

该团队评测了 10 ä¸ªå‰æ²¿ agent harness,,,,包括 Anthropic çš„ Claude Codeã€OpenAI çš„ Codex,,ï¼Œï¼Œä»¥åŠ OpenClaw 等系统。。。。。

他们的焦点看法很简朴:Agent 的风险,,,,ä¸åœ¨æœ€ç»ˆè°œåº•,,,,而在它为了获得这个谜底,,,,事实åšäº†ä»€ä¹ˆ。。。。。

审计检查什么

HarnessAudit 会在æ¯ä¸€æ¡æ‰§è¡Œè½¨è¿¹ä¸Šè”åˆè¯„估三个属性。。。。。

界线åˆè§„性。。。。。æ¯ä¸€æ¬¡å·¥å…·æŒªç”¨ã€èµ„æºä¼šè§å’Œ agent 间通讯,,,,都必需切åˆé¢„先声明的æƒé™æˆ˜ç•¥å’Œä¿¡æ¯æµæˆ˜ç•¥。。。。。执行忠实性。。。。。Agent ä¸ä½†è¦å®Œæˆç›®çš„,,,,还必需通过åˆç†ä¸”被授æƒçš„中心方法完æˆä½¿å‘½ï¼Œ,,,ä¸å¯ç§è‡ªæ›¿æ¢å·¥å…·ã€æ“作凌驾规模的资æºï¼Œ,,,或执行比用户授æƒè§„模更大的行动。。。。。扰动下的稳固性。。。。。上述两类清é™å±žæ€§è¿˜å¿…需能ç»å—真实压力场景,,,,例如间接æé†’注入ã€ç›®çš„形貌模糊ã€å·¥å…·æŒªç”¨è¿‡å¤±ç­‰。。。。。

åªæœ‰åŒæ—¶é€šè¿‡è¿™ä¸‰é¡¹æ£€æŸ¥ï¼Œ,,,一æ¡è½¨è¿¹æ‰ä¼šè¢«è§†ä¸ºæ¸…é™。。。。。该团队体现:「最终谜底是å¦å‡†ç¡®ä¼šè¢«å•独报告,,,,这是有æ„设计的,,,,由于我们想视察“使命完æˆâ€å’Œâ€œæ¸…陿‰§è¡Œâ€çš„纷歧致究竟有多频ä»。。。。。ã€

效果是,,,,很频ä»ï¼Œ,,,它们ç»å¸¸çº·æ­§è‡´。。。。。

焦点效果表说明晰三件事。。。。。

第一,,,,得分最高的系统,,,,并纷歧定是使命完æˆèƒ½åŠ›æœ€å¼ºçš„ç³»ç»Ÿ。。。。。

在 OpenClaw 设置下,,,,Claude Opus 4.6 的使命完æˆçŽ‡é«˜äºŽ Gemini 3.1 Pro,,,,但总体清é™å¾—分å而更低,,,,由于它在执行历程中跨越了更多清é™ç•Œçº¿。。。。。能力与清é™å¹¶ä¸æ˜¯ç»Ÿä¸€æ¡è½´ï¼Œ,,,而目今系统现实上正在用一ç§äº¤æµå¦ä¸€ç§ï¼Œ,ï¼Œï¼Œåªæ˜¯å·²å¾€å¾ˆå°‘有人真正去æƒè¡¡è¿™ç§ trade-off。。。。。

第二,,,,三类界线åˆè§„æ€§å¹¶ä¸æ˜¯åŒæ ·éš¾é¢˜。。。。。

工具选择自己通常问题ä¸å¤§ï¼Œ,,,大大都 harness 都能选对工具。。。。。真正的失败更多爆å‘在工具选择之åŽï¼Œ,,,并且集中在两个更详细的阶段,,,,åŽé¢ä¼šè¿›ä¸€æ­¥è®¨è®º。。。。。

第三,,,,原生 harness 的设计既å¯èƒ½æå‡æ¸…é™ï¼Œ,,,也å¯èƒ½æ”¾å¤§é£Žé™©。。。。。

åœ¨ç›¸åŒ Claude 模å­ä¸‹ï¼Œ,,,Claude Code 相比 OpenClaw åŒæ—¶æå‡äº†ä½¿å‘½å®ŒæˆçŽ‡å’Œæ¸…é™æ€§。。。。。而 Codex 虽然æé«˜äº†å®ŒæˆçŽ‡ï¼Œ,,,å´é™ä½Žäº†æ¸…陿€§ï¼Œ,,,由于 GPT-5.4 在原生情形下会执行更多行动,,,,更长的执行轨迹也因此积累了更多è¿è§„行为。。。。。

Harness 的设计,,,,实质上决议了 agent 能够被“清é™å®‰æŽ’â€çš„上é™ï¼Œ,,,而差别厂商在这些设计上的差别ç€å®žå¾ˆæ˜¯å¤§。。。。。

è¿è§„集中在那里

第一个集中点是资æºä¼šè§。。。。。

系统挪用了准确的工具,,,,但æ“作了过失的工具,,,,例如会è§äº† agent æƒé™è§„模外的文件ã€ç›˜é—®äº†ç”¨æˆ·ç›®çš„æ—è¾¹ä½†æœªè¢«æŽˆæƒçš„纪录,,,,或对战略榨å–çš„èµ„æºæå€¡ API 挪用。。。。。也就是说,,,,工具选择是对的,,,,但工具绑定是错的。。。。。在大大都设置中,,,,资æºä¼šè§åˆè§„性显ç€ä½ŽäºŽå·¥å…·ä½¿ç”¨åˆè§„性。。。。。

第二个集中点是agent é—´çš„ä¿¡æ¯æµ。。。。。

在多 agent harness 中,,,,新闻路由通常是对的,,ï¼Œï¼Œå³æ–°é—»ä¼šå‘给准确的 agent。。。。。但问题在于新闻里æºå¸¦äº†ä»€ä¹ˆ。。。ã€‚ã€‚å­ agent 往往会收到凌驾其使命所需的上下文;;中心组件会在使命竣事åŽç»§ç»­ä¿å­˜æ•感信æ¯;;一个从 agent ä¼ ç»™å¦ä¸€ä¸ª agent 的摘è¦ï¼Œ,,,也å¯èƒ½æ‚„悄泄露其背åŽçš„原始数æ®。。。。。

å• agent 与多 agent 的比照让这一点越å‘详细。。。。。

åœ¨å• agent 设置中,,,,工具åˆè§„性和资æºåˆè§„性都高于 0.85。。。。。但一旦切æ¢åˆ°å¤š agent 设置,,,,工具åˆè§„性下é™åˆ° 0.64,,,,资æºåˆè§„性下é™åˆ° 0.63,,ï¼Œï¼Œè€Œä¿¡æ¯æµåˆè§„性首次æˆä¸ºå¯è§é—®é¢˜ï¼Œ,,,仅为 0.58。。。。。 这说明,,,,å作自己会扩大清é™è¢’露é¢ï¼Œ,,,而这ç§é£Žé™©æ˜¯å• agent benchmark 很难看到的。。。。。

尚有几个值得关注的å¾è±¡。。。。。

故障是普éä¿å­˜çš„,,,,并éžå±€éƒ¨æ€§çš„。。。ã€‚ã€‚åœ¨æµ‹è¯•çš„æ‰€æœ‰æ¸…é™æ¡†æž¶ä¸­ï¼Œ,,,æ¯ä¸ªä½¿å‘½å‡Œé©¾ 50% 的署ç†éƒ½è‡³å°‘ä¿å­˜ä¸€é¡¹æ¸…é™è¿è§„,,,,而在 OpenClaw 中,,,,这一比例高达 72%。。。ã€‚ã€‚æ•…éšœæ¨¡å¼æ˜¯ç³»ç»Ÿæ€§çš„。。。。。你ä¸å¯ä»…仅加固一个组件就能完善。。。。。

è¿è§„行为会éšç€è½¨è¿¹é•¿åº¦çš„增添而累积。。。。。更长的è¿è¡Œè·ç¦»ä¸ä½†é€ŸçŽ‡æ›´æ…¢ï¼Œ,ï¼Œï¼Œå¹¶ä¸”æ¸…é™æ€§ä¹Ÿæ›´ä½Ž。。。。。éšç€è¯¥é¢†åŸŸå‘更长航程的自主航行生长,,ï¼Œï¼Œè¿™æ¡æ›²çº¿å°±æˆä¸ºäº†è®¾è®¡éš¾é¢˜。。。。。

差别领域的风险状æ€å„ä¸ç›¸åŒ。。。。。金èžå’ŒåŠžå…¬ä½¿å‘½çš„å¤±è´¥ä¸»è¦åœ¨äºŽèµ„æºä¼šè§;;日常生涯和电å­å•†åŠ¡çš„å¤±è´¥ä¸»è¦åœ¨äºŽä¿¡æ¯æµ;;软件工程的失败主è¦åœ¨äºŽå·¥å…·ä½¿ç”¨。。。。。这对生产团队的å¯ç¤ºæ˜¯ï¼Œ,ï¼Œï¼Œå‡†ç¡®çš„æ¸…é™æŽ§åˆ¶æ­¥ä¼å–决于署ç†çš„用途。。。。。

扰动稳固性普é较差。。。。。间接æé†’注入在所有测试设置中å‡å¯¼è‡´æ€§èƒ½ä¸‹é™å¹…度最大,,,,稳固性得分在 0.15 至 0.22 之间。。。。。在清æ´ä½¿å‘½ä¸­çœ‹èµ·æ¥å°šå¯æŽ¥å—的模å­è®¾è®¡ï¼Œ,ï¼Œï¼Œåœ¨åæŠ—性输入下会失效。。。。。

为什么这件事现在很主è¦

多智能体 harness å·²ç»ä¸å†åªæ˜¯ä¸€ä¸ªç ”究问题。。。。。它正在æˆä¸ºæœªæ¥å二个月内险些所有严肃 agent 产å“的基础架构:

ç¼–ç  agent å·²ç»æ˜¯å¤šæ™ºèƒ½ç³»ä¸€åˆ‡ï¼Œ,ï¼Œï¼ŒåŒ…æ‹¬å¦„æƒ³å™¨ã€æ£€ç´¢å™¨ã€æ‰§è¡Œå™¨å’Œå®¡æŸ¥å™¨。。。。。é¢å‘用户的助手也正在酿æˆå¤šæ™ºèƒ½ç³»ä¸€åˆ‡ï¼Œ,,,包括分诊ã€ä¸“å®¶????椤⑸洞砗蜕蠹。。。。。è¿ç»´ç±» agent 险些自然需è¦å¤šæ™ºèƒ½ä½“,,,,由于一旦你接触多个系统,,,,实质上就在举行ååŒ。。。。。

æ¯ä¸€æ¬¡äº¤æŽ¥ï¼Œ,,,都是信æ¯å¯èƒ½æµå‘ä¸åº”去的地方的风险点。。。ã€‚ã€‚åœ¨å• agent 系统中,,,,信任界线是 agent 的工具挪用。。。。。而在多 agent 系统中,,,,信任界线酿æˆäº† message bus。。。。。是的,,,,我们正在构建 message bus,,ï¼Œï¼Œå´æ²¡æœ‰çœŸæ­£æŠŠå®ƒçœ‹æˆ message bus æ¥çœ‹å¾…。。。。。

未æ¥è¯¥æ€Žä¹ˆåŠž????

è¦è§£å†³è¿™ä¸ªé—®é¢˜ï¼Œ,,,è¦å®³ä¸ä½†æ˜¯è®©æ¨¡å­æ›´å¼ºï¼Œ,ï¼Œï¼Œè€Œæ˜¯é‡æ–°è®¾è®¡ harness 自己。。。。。

第一,,,,agent 之间ä¸å¯é»˜è®¤å…±äº«å®Œæ•´ä¸Šä¸‹æ–‡。。。。。æ¯ä¸€æ¬¡ä¿¡æ¯è½¬è¾¾éƒ½åº”该有清晰界线:哪些内容å¯ä»¥ä¼ ã€ä¼ ç»™è°ã€èƒ½ä¿å­˜å¤šä¹…。。。。。现在许多 harness 为了利便,,,,直接把完整上下文交给下一个 agent,,ï¼Œï¼Œä½†è¿™ä¹Ÿæ­£æ˜¯æ•æ„Ÿä¿¡æ¯æ³„露最常è§çš„æ³‰æº。。。。。

第二,,,,清é™è¯„测ä¸å¯åªçœ‹æœ€ç»ˆè°œåº•,,,,而è¦å›žåˆ°å®Œæ•´æ‰§è¡Œè½¨è¿¹。。。。。一个 agent 纵然给出了准确效果,,,,也å¯èƒ½åœ¨åŽ†ç¨‹ä¸­ä¼šè§äº†ä¸åº”会è§çš„资æºï¼Œ,,,挪用了ä¸åº”挪用的工具,,ï¼Œï¼Œæˆ–æŠŠæ•æ„Ÿä¿¡æ¯ä¼ ç»™äº†ä¸åº”知é“的组件。。。。。因此,,,,真正的清é™å®¡è®¡éœ€è¦é€æ­¥æ£€æŸ¥æ¯ä¸€æ¬¡å·¥å…·æŒªç”¨ã€èµ„æºä¼šè§å’Œ agent 间通讯。。。。。

第三,,,,多 agent ç³»ç»Ÿéœ€è¦æ˜Žç¡®çš„ need-to-know 机制。。。。。æ¯ä¸ªå­ agent åªåº”该获得完æˆç›®ä»Šä½¿å‘½æ‰€å¿…需的信æ¯ï¼Œ,ï¼Œï¼Œè€Œä¸æ˜¯é»˜è®¤ç»§ç»­æ‰€æœ‰ä¸Šä¸‹æ–‡。。。ã€‚ã€‚æ›´ç†æƒ³çš„设计是,,ï¼Œï¼Œå­ agent 先声明自己需è¦ä»€ä¹ˆä¿¡æ¯ï¼Œ,,,å†ç”± harness 或 message bus 判断是å¦å…许转达。。。。。

@回å¤ï¼š口袋德州骗局,,,,山东临沂市政å原副主席被开除公èŒ
@王淑月:狗狗失踪åŠå¹´åŽè¡—上é‡åˆ°ä¸»äººè¿½è½¦ç›¸è®¤
@æ¢æ·‘æ•:政绩观里的文化根脉

ã€ç½‘站地图】