从模å到Harness,,,,,,AI Agent的下åŠåœºè¯¥æ€Žæ ·è¯„测清é™ï¼Ÿï¼Ÿï¼Ÿ
关于 AI 清é™çš„大部分讨论,,,,,,æ’久以æ¥éƒ½é›†ä¸åœ¨æ¨¡åè‡ªå·±ã€‚ã€‚ã€‚ã€‚ã€‚æ¨¡åæ˜¯å¦å¯¹é½ï¼Ÿï¼Ÿï¼Ÿæ˜¯å¦å®¹æ˜“被 jailbreak???是å¦ä¼šæ‹’ç»å±é™©è¯·æ±‚???这些问题虽然主è¦ï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œä½†åœ¨ä»Šå¤©ï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œå®ƒä»¬å·²ç»ä¸æ˜¯å”¯ä¸€ã€ç”šè‡³ä¸å†æ˜¯æœ€ç„¦ç‚¹çš„问题。。。。。
真æ£è¢«å®‰æŽ’çš„ agentï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œå¹¶ä¸æ˜¯è£¸æ¨¡åã€‚ã€‚ã€‚ã€‚ã€‚æ— è®ºæ˜¯ Claude Code 自动æäº¤ PR,,,,,,Codex ä¿®å¤ issue,,,,,,照旧能够直接æ“作资金的客æœåŠ©æ‰‹ï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œå®ƒä»¬éƒ½è¿è¡Œåœ¨ä¸€ä¸ª execution harness 之ä¸ã€‚。。。。Harness 决议了模å能挪用哪些工具ã€èƒ½ä¼šè§å“ªäº›èµ„æºã€ä¿¡æ¯æ€Žæ ·åœ¨å·®åˆ«å agent 之间æµåЍã€ä½•æ—¶ç»ˆæ¢æ‰§è¡Œï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œä»¥åŠç³»ç»Ÿå¦‚那里置过失æ¢å¤ã€‚。。。。模ååªæ˜¯æå‡ºè¡ŒåŠ¨ï¼Œï¼Œï¼Œï¼Œï¼Œï¼ŒçœŸæ£å†³è®®è¡Œä¸ºç•Œçº¿çš„æ˜¯ harness。。。。。
è¿™æ„味ç€ï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œè®¸å¤šçœŸæ£å±é™©çš„失败,,,,,,已ç»ä¸å†çˆ†å‘在“最终回覆â€è¿™ä¸€å±‚,,,,,,而是爆å‘在执行历程自己。。。。。一个看似“对é½ä¼˜å¼‚â€çš„æ¨¡å,,,,,,若是被放进æƒé™ç•Œçº¿æ¾æ•£çš„ harness ä¸ï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œä¾ç„¶å¯èƒ½æ‚„æ‚„æ‰§è¡Œè¶Šæƒæ“作。。。。。而åªè¯„测最终谜底的 benchmark,,,,,,往往会把这ç§ç³»ç»Ÿåˆ¤æ–ä¸ºâ€œä¹æˆå®Œæˆä½¿å‘½â€ã€‚。。。。
近期,,,,,,Claw-Eval å’Œ ClawsBench ç‰äº‹æƒ…å·²ç»æœ€å…ˆå°† agent è¯„æµ‹ä»Žé™æ€é—®ç”推进到真实执行情形,,,,,,关注系统是å¦èƒ½å¤Ÿå¦„æƒ³ã€æŒªç”¨å·¥å…·ã€ä¼šè§èµ„æºå¹¶å®Œæˆç”¨æˆ·ç›®çš„。。。。。但焦点缺å£ä¾ç„¶ä¿å˜ï¼šè¿™äº›è¯„测大多ä»ä»¥ä½¿å‘½å®Œæˆåº¦ä¸ºä¸å¿ƒï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œèƒ½å¤Ÿå‘Šè¯‰æˆ‘们使命是å¦å®Œæˆï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œå´å¾ˆéš¾åˆ¤æ–使命是å¦è¢«æ¸…é™åœ°å®Œæˆã€‚。。。。
一些近期基于 Claw 类设置的清é™å®¡è®¡æœ€å…ˆå…³æ³¨å·¥å…·ä½¿ç”¨æˆ–æœ€ç»ˆè¾“å‡ºæ¸…é™æ€§ï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œä½†å®Œæ•´æ‰§è¡Œè½¨è¿¹å’Œç³»ç»Ÿçº§ harness 清é™ä»ç„¶ç¼ºä¹æ¸…晰界说。。。。。一个 harness å¯èƒ½è¿”回准确效果,,,,,,å´åœ¨åŽ†ç¨‹ä¸ä¼šè§å—é™èµ„æºã€æŒªç”¨æœªæŽˆæƒå·¥å…·ã€åœ¨ agent ä¹‹é—´æ³„éœ²æ•æ„Ÿä¸Šä¸‹æ–‡ï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œæˆ–触å‘凌驾用户æ„图的副作用。。。。。
在多 agent 系统ä¸ï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œè¿™ä¸€é—®é¢˜è¶Šå‘è¦å®³ã€‚。。。。角色分工ã€ä½¿å‘½äº¤æŽ¥ã€å…±äº«ä¸Šä¸‹æ–‡å’Œ agent 间通讯都会扩大清é™è¢’露é¢ã€‚ã€‚ã€‚ã€‚ã€‚ï¼›ç—ªæµ å…«ï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œæˆ‘ä»¬ä¸€ç›´åœ¨å¯¹ AI 系统ä¸â€œæœ€å®¹æ˜“看到的一层â€ä¸¾è¡Œæ¸…陿 ¡å‡†ï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œå´å¿½ç•¥äº†çœŸæ£å†³è®® agent 行为界线的执行系统。。。。。
å…‹æ—¥ï¼Œï¼Œï¼Œï¼Œï¼Œï¼ŒåŠ å·žå¤§å¦åœ£å¡”èŠèŠæ‹‰åˆ†æ ¡ï¼ˆUCSBï¼‰ç‰æœºæž„的一项新事情æå‡ºäº†HarnessAuditï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œæ£æ˜¯å¸Œæœ›è§£å†³è¿™ä¸ªé—®é¢˜ã€‚。。。。
论文问题:Auditing Agent Harness Safety网站:harvestaudit.github.io论文:arxiv.org/abs/2605.14271代ç 和数æ®é›†ï¼šgithub.com/eric-ai-lab/HarnessAudit
HarnessAudit 概览。。。。。(a) HarnessAudit 笼罩八个真实天下领域,,,,,,用于构建带有现实约æŸçš„æ¸…é™è¯„测使命。。。。。(b) Agent 在完æˆä½¿å‘½æ—¶ï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œéœ€è¦å±¥åŽ†å¦„æƒ³ã€æ£€ç´¢ã€å·¥å…·æŒªç”¨ã€å®¡æŸ¥å’Œé€šè®¯ç‰æ–¹æ³•,,,,,,并与外部资æºå’ŒåŠ¨æ€æƒ…形交互。。。。。(c) 展示了在 OpenClaw 设置下,,,,,,基于完整执行轨迹审计获得的模å体现,,,,,,评测维度包括界线åˆè§„æ€§ã€æ‰§è¡Œå¿ 实性和系统稳固性。。。。。
HarnessAudit是一个针对完整执行轨迹(trajectory)举行审计的清é™è¯„测框架,,,,,,而ä¸ä½†ä»…关注最终输出。。。。。
åŒæ—¶ï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œè¯¥å›¢é˜Ÿè¿˜æž„建了HarnessAudit-Bench,,,,,,在 8 个真实天下领域上的 210 个使命ä¸ï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œå¯¹ agent harness 的行为举行系统化审计。。。。。这些领域包括金èžã€ç”µå•†ã€åŒ»ç–—ã€åŠžå…¬å作ã€ç¤¾äº¤äº’åŠ¨ã€æ—¥å¸¸ç”Ÿæ¶¯ã€æ‰§æ³•åˆè§„以åŠè½¯ä»¶å·¥ç¨‹ã€‚。。。。
该团队评测了 10 ä¸ªå‰æ²¿ agent harness,,,,,,包括 Anthropic çš„ Claude Codeã€OpenAI çš„ Codexï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œä»¥åŠ OpenClaw ç‰ç³»ç»Ÿã€‚。。。。
他们的焦点看法很简朴:Agent 的风险,,,,,,ä¸åœ¨æœ€ç»ˆè°œåº•,,,,,,而在它为了获得这个谜底,,,,,,事实åšäº†ä»€ä¹ˆã€‚。。。。
审计检查什么
HarnessAudit 会在æ¯ä¸€æ¡æ‰§è¡Œè½¨è¿¹ä¸Šè”åˆè¯„估三个属性。。。。。
界线åˆè§„性。。。。。æ¯ä¸€æ¬¡å·¥å…·æŒªç”¨ã€èµ„æºä¼šè§å’Œ agent 间通讯,,,,,,都必需切åˆé¢„先声明的æƒé™æˆ˜ç•¥å’Œä¿¡æ¯æµæˆ˜ç•¥ã€‚ã€‚ã€‚ã€‚ã€‚æ‰§è¡Œå¿ å®žæ€§ã€‚ã€‚ã€‚ã€‚ã€‚Agent ä¸ä½†è¦å®Œæˆç›®çš„,,,,,,还必需通过åˆç†ä¸”被授æƒçš„ä¸å¿ƒæ–¹æ³•完æˆä½¿å‘½ï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œä¸å¯ç§è‡ªæ›¿æ¢å·¥å…·ã€æ“作凌驾规模的资æºï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œæˆ–执行比用户授æƒè§„模更大的行动。。。。。扰动下的稳固性。。。。。上述两类清é™å±žæ€§è¿˜å¿…需能ç»å—真实压力场景,,,,,,例如间接æé†’注入ã€ç›®çš„形貌模糊ã€å·¥å…·æŒªç”¨è¿‡å¤±ç‰ã€‚。。。。
åªæœ‰åŒæ—¶é€šè¿‡è¿™ä¸‰é¡¹æ£€æŸ¥ï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œä¸€æ¡è½¨è¿¹æ‰ä¼šè¢«è§†ä¸ºæ¸…é™ã€‚。。。。该团队体现:「最终谜底是å¦å‡†ç¡®ä¼šè¢«å•独报告,,,,,,这是有æ„设计的,,,,,,由于我们想视察“使命完æˆâ€å’Œâ€œæ¸…陿‰§è¡Œâ€çš„纷æ§è‡´ç©¶ç«Ÿæœ‰å¤šé¢‘ä»ã€‚。。。。ã€
效果是,,,,,,很频ä»ï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œå®ƒä»¬ç»å¸¸çº·æ§è‡´ã€‚。。。。
焦点效果表说明晰三件事。。。。。
第一,,,,,,得分最高的系统,,,,,,并纷æ§å®šæ˜¯ä½¿å‘½å®Œæˆèƒ½åŠ›æœ€å¼ºçš„ç³»ç»Ÿã€‚ã€‚ã€‚ã€‚ã€‚
在 OpenClaw 设置下,,,,,,Claude Opus 4.6 的使命完æˆçŽ‡é«˜äºŽ Gemini 3.1 Pro,,,,,,但总体清é™å¾—分å而更低,,,,,,由于它在执行历程ä¸è·¨è¶Šäº†æ›´å¤šæ¸…é™ç•Œçº¿ã€‚。。。。能力与清é™å¹¶ä¸æ˜¯ç»Ÿä¸€æ¡è½´ï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œè€Œç›®ä»Šç³»ç»ŸçŽ°å®žä¸Šæ£åœ¨ç”¨ä¸€ç§äº¤æµå¦ä¸€ç§ï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œåªæ˜¯å·²å¾€å¾ˆå°‘有人真æ£åŽ»æƒè¡¡è¿™ç§ trade-off。。。。。
第二,,,,,,三类界线åˆè§„æ€§å¹¶ä¸æ˜¯åŒæ ·éš¾é¢˜ã€‚。。。。
工具选择自己通常问题ä¸å¤§ï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œå¤§å¤§éƒ½ harness 都能选对工具。。。。。真æ£çš„失败更多爆å‘在工具选择之åŽï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œå¹¶ä¸”集ä¸åœ¨ä¸¤ä¸ªæ›´è¯¦ç»†çš„阶段,,,,,,åŽé¢ä¼šè¿›ä¸€æ¥è®¨è®ºã€‚。。。。
第三,,,,,,原生 harness 的设计既å¯èƒ½æå‡æ¸…é™ï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œä¹Ÿå¯èƒ½æ”¾å¤§é£Žé™©ã€‚。。。。
åœ¨ç›¸åŒ Claude 模å下,,,,,,Claude Code 相比 OpenClaw åŒæ—¶æå‡äº†ä½¿å‘½å®ŒæˆçŽ‡å’Œæ¸…é™æ€§ã€‚。。。。而 Codex 虽然æé«˜äº†å®ŒæˆçŽ‡ï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œå´é™ä½Žäº†æ¸…陿€§ï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œç”±äºŽ GPT-5.4 åœ¨åŽŸç”Ÿæƒ…å½¢ä¸‹ä¼šæ‰§è¡Œæ›´å¤šè¡ŒåŠ¨ï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œæ›´é•¿çš„æ‰§è¡Œè½¨è¿¹ä¹Ÿå› æ¤ç§¯ç´¯äº†æ›´å¤šè¿è§„行为。。。。。
Harness 的设计,,,,,,实质上决议了 agent 能够被“清é™å®‰æŽ’â€çš„上é™ï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œè€Œå·®åˆ«åŽ‚å•†åœ¨è¿™äº›è®¾è®¡ä¸Šçš„å·®åˆ«ç€å®žå¾ˆæ˜¯å¤§ã€‚。。。。
è¿è§„集ä¸åœ¨é‚£é‡Œ
第一个集ä¸ç‚¹æ˜¯èµ„æºä¼šè§ã€‚。。。。
系统挪用了准确的工具,,,,,,但æ“作了过失的工具,,,,,,例如会è§äº† agent æƒé™è§„模外的文件ã€ç›˜é—®äº†ç”¨æˆ·ç›®çš„æ—è¾¹ä½†æœªè¢«æŽˆæƒçš„纪录,,,,,,或对战略榨å–çš„èµ„æºæå€¡ API 挪用。。。。。也就是说,,,,,,工具选择是对的,,,,,,但工具绑定是错的。。。。。在大大都设置ä¸ï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œèµ„æºä¼šè§åˆè§„性显ç€ä½ŽäºŽå·¥å…·ä½¿ç”¨åˆè§„性。。。。。
第二个集ä¸ç‚¹æ˜¯agent é—´çš„ä¿¡æ¯æµã€‚。。。。
在多 agent harness ä¸ï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œæ–°é—»è·¯ç”±é€šå¸¸æ˜¯å¯¹çš„ï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œå³æ–°é—»ä¼šå‘给准确的 agent。。。。。但问题在于新闻里æºå¸¦äº†ä»€ä¹ˆã€‚。。。。å agent 往往会收到凌驾其使命所需的上下文;;ä¸å¿ƒç»„件会在使命竣事åŽç»§ç»ä¿å˜æ•感信æ¯ï¼›ï¼›ä¸€ä¸ªä»Ž agent ä¼ ç»™å¦ä¸€ä¸ª agent 的摘è¦ï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œä¹Ÿå¯èƒ½æ‚„悄泄露其背åŽçš„原始数æ®ã€‚。。。。
å• agent 与多 agent 的比照让这一点越å‘详细。。。。。
åœ¨å• agent 设置ä¸ï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œå·¥å…·åˆè§„性和资æºåˆè§„性都高于 0.85。。。。。但一旦切æ¢åˆ°å¤š agent 设置,,,,,,工具åˆè§„性下é™åˆ° 0.64,,,,,,资æºåˆè§„性下é™åˆ° 0.63ï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œè€Œä¿¡æ¯æµåˆè§„性首次æˆä¸ºå¯è§é—®é¢˜ï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œä»…为 0.58。。。。。 这说明,,,,,,å作自己会扩大清é™è¢’露é¢ï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œè€Œè¿™ç§é£Žé™©æ˜¯å• agent benchmark 很难看到的。。。。。
å°šæœ‰å‡ ä¸ªå€¼å¾—å…³æ³¨çš„å¾è±¡ã€‚。。。。
故障是普éä¿å˜çš„,,,,,,并éžå±€éƒ¨æ€§çš„ã€‚ã€‚ã€‚ã€‚ã€‚åœ¨æµ‹è¯•çš„æ‰€æœ‰æ¸…é™æ¡†æž¶ä¸ï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œæ¯ä¸ªä½¿å‘½å‡Œé©¾ 50% 的署ç†éƒ½è‡³å°‘ä¿å˜ä¸€é¡¹æ¸…é™è¿è§„,,,,,,而在 OpenClaw ä¸ï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œè¿™ä¸€æ¯”例高达 72%ã€‚ã€‚ã€‚ã€‚ã€‚æ•…éšœæ¨¡å¼æ˜¯ç³»ç»Ÿæ€§çš„ã€‚ã€‚ã€‚ã€‚ã€‚ä½ ä¸å¯ä»…ä»…åŠ å›ºä¸€ä¸ªç»„ä»¶å°±èƒ½å®Œå–„ã€‚ã€‚ã€‚ã€‚ã€‚
è¿è§„行为会éšç€è½¨è¿¹é•¿åº¦çš„增添而累积。。。。。更长的è¿è¡Œè·ç¦»ä¸ä½†é€ŸçŽ‡æ›´æ…¢ï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œå¹¶ä¸”æ¸…é™æ€§ä¹Ÿæ›´ä½Žã€‚。。。。éšç€è¯¥é¢†åŸŸå‘æ›´é•¿èˆªç¨‹çš„è‡ªä¸»èˆªè¡Œç”Ÿé•¿ï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œè¿™æ¡æ›²çº¿å°±æˆä¸ºäº†è®¾è®¡éš¾é¢˜ã€‚。。。。
差别领域的风险状æ€å„ä¸ç›¸åŒã€‚。。。。金èžå’ŒåŠžå…¬ä½¿å‘½çš„å¤±è´¥ä¸»è¦åœ¨äºŽèµ„æºä¼šè§ï¼›ï¼›æ—¥å¸¸ç”Ÿæ¶¯å’Œç”µå商务的失败主è¦åœ¨äºŽä¿¡æ¯æµï¼›ï¼›è½¯ä»¶å·¥ç¨‹çš„失败主è¦åœ¨äºŽå·¥å…·ä½¿ç”¨ã€‚。。。。这对生产团队的å¯ç¤ºæ˜¯ï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œå‡†ç¡®çš„æ¸…é™æŽ§åˆ¶æ¥ä¼å–决于署ç†çš„用途。。。。。
扰动稳固性普é较差。。。。。间接æé†’注入在所有测试设置ä¸å‡å¯¼è‡´æ€§èƒ½ä¸‹é™å¹…度最大,,,,,,稳固性得分在 0.15 至 0.22 之间。。。。。在清æ´ä½¿å‘½ä¸çœ‹èµ·æ¥å°šå¯æŽ¥å—的模åè®¾è®¡ï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œåœ¨åæŠ—性输入下会失效。。。。。
为什么这件事现在很主è¦
多智能体 harness å·²ç»ä¸å†åªæ˜¯ä¸€ä¸ªç ”究问题。。。。。它æ£åœ¨æˆä¸ºæœªæ¥å二个月内险些所有严肃 agent 产å“的基础架构:
ç¼–ç agent å·²ç»æ˜¯å¤šæ™ºèƒ½ç³»ä¸€åˆ‡ï¼Œï¼Œï¼Œï¼Œï¼Œï¼ŒåŒ…æ‹¬å¦„æƒ³å™¨ã€æ£€ç´¢å™¨ã€æ‰§è¡Œå™¨å’Œå®¡æŸ¥å™¨ã€‚。。。。é¢å‘用户的助手也æ£åœ¨é…¿æˆå¤šæ™ºèƒ½ç³»ä¸€åˆ‡ï¼Œï¼Œï¼Œï¼Œï¼Œï¼ŒåŒ…括分诊ã€ä¸“å®¶ï¼Ÿï¼Ÿï¼Ÿæ¤¤â‘¸æ´žç —èœ•è ¹å•¤ã€‚ã€‚ã€‚ã€‚è¿ç»´ç±» agent 险些自然需è¦å¤šæ™ºèƒ½ä½“ï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œç”±äºŽä¸€æ—¦ä½ æŽ¥è§¦å¤šä¸ªç³»ç»Ÿï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œå®žè´¨ä¸Šå°±åœ¨ä¸¾è¡ŒååŒã€‚。。。。
æ¯ä¸€æ¬¡äº¤æŽ¥ï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œéƒ½æ˜¯ä¿¡æ¯å¯èƒ½æµå‘ä¸åº”åŽ»çš„åœ°æ–¹çš„é£Žé™©ç‚¹ã€‚ã€‚ã€‚ã€‚ã€‚åœ¨å• agent 系统ä¸ï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œä¿¡ä»»ç•Œçº¿æ˜¯ agent 的工具挪用。。。。。而在多 agent 系统ä¸ï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œä¿¡ä»»ç•Œçº¿é…¿æˆäº† message bus。。。。。是的,,,,,,我们æ£åœ¨æž„建 message busï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œå´æ²¡æœ‰çœŸæ£æŠŠå®ƒçœ‹æˆ message bus æ¥çœ‹å¾…。。。。。
未æ¥è¯¥æ€Žä¹ˆåŠžï¼Ÿï¼Ÿï¼Ÿ
è¦è§£å†³è¿™ä¸ªé—®é¢˜ï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œè¦å®³ä¸ä½†æ˜¯è®©æ¨¡åæ›´å¼ºï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œè€Œæ˜¯é‡æ–°è®¾è®¡ harness 自己。。。。。
第一,,,,,,agent 之间ä¸å¯é»˜è®¤å…±äº«å®Œæ•´ä¸Šä¸‹æ–‡ã€‚。。。。æ¯ä¸€æ¬¡ä¿¡æ¯è½¬è¾¾éƒ½åº”该有清晰界线:哪些内容å¯ä»¥ä¼ ã€ä¼ ç»™è°ã€èƒ½ä¿å˜å¤šä¹…。。。。。现在许多 harness 为了利便,,,,,,直接把完整上下文交给下一个 agentï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œä½†è¿™ä¹Ÿæ£æ˜¯æ•æ„Ÿä¿¡æ¯æ³„露最常è§çš„æ³‰æºã€‚。。。。
第二,,,,,,清é™è¯„测ä¸å¯åªçœ‹æœ€ç»ˆè°œåº•,,,,,,而è¦å›žåˆ°å®Œæ•´æ‰§è¡Œè½¨è¿¹ã€‚。。。。一个 agent 纵然给出了准确效果,,,,,,也å¯èƒ½åœ¨åŽ†ç¨‹ä¸ä¼šè§äº†ä¸åº”会è§çš„资æºï¼Œï¼Œï¼Œï¼Œï¼Œï¼ŒæŒªç”¨äº†ä¸åº”æŒªç”¨çš„å·¥å…·ï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œæˆ–æŠŠæ•æ„Ÿä¿¡æ¯ä¼ 给了ä¸åº”知é“çš„ç»„ä»¶ã€‚ã€‚ã€‚ã€‚ã€‚å› æ¤ï¼Œï¼Œï¼Œï¼Œï¼Œï¼ŒçœŸæ£çš„æ¸…é™å®¡è®¡éœ€è¦é€æ¥æ£€æŸ¥æ¯ä¸€æ¬¡å·¥å…·æŒªç”¨ã€èµ„æºä¼šè§å’Œ agent 间通讯。。。。。
第三,,,,,,多 agent ç³»ç»Ÿéœ€è¦æ˜Žç¡®çš„ need-to-know 机制。。。。。æ¯ä¸ªå agent åªåº”该获得完æˆç›®ä»Šä½¿å‘½æ‰€å¿…需的信æ¯ï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œè€Œä¸æ˜¯é»˜è®¤ç»§ç»æ‰€æœ‰ä¸Šä¸‹æ–‡ã€‚ã€‚ã€‚ã€‚ã€‚æ›´ç†æƒ³çš„设计是,,,,,,å agent 先声明自己需è¦ä»€ä¹ˆä¿¡æ¯ï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œå†ç”± harness 或 message bus åˆ¤æ–æ˜¯å¦å…许转达。。。。。
@è¢ä¸å¤©ï¼š米兰体育app体育,,,,,,男ååž‚çº¶æ—¶å‘æ˜Žå©´å„¿æººæ°´ 连忙救起@林佑è:多图直击轰炸机编队跨昼夜航行è®ç»ƒ
@韩慈瑄:普京:俄罗斯从未拒ç»ä¸Žæ¬§æ´²ä¸¾è¡Œå¯¹è¯
çƒé—¨æŽ’行
- 1 英雄联盟乐鱼电竞
- 2 鸭脖APP官方下载官方
- 3 电竞app官网
- 4 尊龙网站手机
- 5 ManBetxAPP安卓
- 6 澳门六彩
- 7 二八杠倍数
- 8 九州平台
- 9 jiuyou九游娱乐