凯时AG

宣布于2026-06-17 08:23:35来自安卓免费版 v4.397 ·

关注

热门Harness项目OpenSquilla：拯救烧token烧到绝望的Agent们，，，，估值1亿

作者｜黄小艺邮箱｜ huangxiaoyi@pingwest.com

对 AI 创业公司而言，，，，token 毛利账单已经酿成生死线。。

这笔账算的是：一家公司挪用模子花掉的 token 本钱，，，，最终能从用户身上赚回几多收入。。

好比，，，，一个 Agent 产品为了完成一次使命，，，，模子挪用本钱是 1 元。。若是它最终只能从用户那里赚回 1.15 元，，，，token 毛利就是 15%。。据硅星人相识，，，，对 AI 应用公司来说，，，，token 毛利基本要做到 30% 以上，，，，商业模式才有可能进入可循环状态。。

已往一年，，，，模子厂商一直降价，，，，把 token 单价往下打。。但对 Agent 公司来说，，，，单价只是本钱的一部分。。它们真正要自己控制的，，，，是一次使命究竟要烧掉几多 token。。

这也是 Harness 最先变得主要的原因之一。。

Agent 比谈天机械人更费 token。。它要妄想使命、挪用工具、检索网页、读取文件、治理影象、选择 Skill，，，，最后再把效果整理出来。。同样一个用户请求，，，，背后可能跑十几步，，，，每一步都在消耗 token。。

OpenSquilla 想做的，，，，就是把这套运行历程里的 token 铺张率降下来。。

OpenSquilla 是一个开源 Agent Harness 框架（https://github.com/opensquilla/opensquilla）。。它在 Agent 应用和模子之间加了一层运行中枢。。简朴来说，，，，这里有至少四个主要的环节：第一层，，，，决议调哪个模子，，，，第二层，，，，决议喂进去几多上下文，，，，第三层决议多个 Skill 怎么编排，，，，第四层贯串所有，，，，一直让前三层越用越准，，，，形成某种自我进化的机制，，，，让这些能力最终内化进Harness里。。

这层 Harness 认真的事情很直接：让 Agent 少花不应花的 token，，，，同时让它越用越懂用户，，，，最终可以拯救那些烧token停不下来，，，，越烧越亏，，，，甚至就要烧到休业的Agent产品们。。

硅星人相识到，，，，OpenSquilla 由上；；；；；啥萍加邢薰究。。凭证多个果真报道，，，，首创人王云鹤曾任华为大模子认真人，，，，恒久研究模子压缩和高效盘算；；；；；CTO 韩凯是原同厂实验室首席研究员。。最新新闻显示，，，，基元律动建设仅几个月后，，，，已完成首轮融资，，，，估值高达1亿美元。。

自Anthropic等头部公司提出并带火Harness看法后，，，，真正将自己界说为Harness公司的创业公司事实上并没有泛起大批量高估值融资潮，，，，这样看来，，，，基元律动的融资是一个代表性的案例。。

OpenSquilla的信息显示，，，，它最近在Github上的受接待水平很高，，，，同时又完成高估值的融资。。关于这样的热门新项目，，，，我们很好奇Harness 层事实能把 Agent 的本钱和能力进化做到什么水平？？？？

近期，，，，我们也去和OpenSquilla的韩凯聊了聊，，，，实验弄清晰他们的产品事实怎样设计，，，，为何可以资助Agent产品们实现对token账单更好的控制。。以下是关于这个产品和项目的完整拆解。。

第一层：智能路由就是token管家

已往做 Agent，，，，许多团队默认会先选一个主力模子。。

最简朴的做法，，，，是绑定一个旗舰模子。。效果稳固，，，，开发也省事。。问题是，，，，一旦 Agent 最先进入真实使命，，，，这个方案很快会变贵。。

由于 Agent 的一次使命里，，，，并不是每一步都需要最强模子。。

重大推理、代码天生、长文剖析，，，，确实需要强模子。。但分类、摘要、名堂整理、工具效果洗濯、上下文压缩，，，，这些行动纷歧定需要。。许多 Agent 账单高，，，，不是由于使命自己都很难，，，，而是每一步都用了统一档模子。。

这也是现在 Agent 创业公司最尴尬的地方：用户不懂模子，，，，也不应懂模子。。让用户在一排模子里自己挑，，，，实质上是产品把自己的事情甩了出去。。

我们问韩凯，，，，OpenSquilla 为什么把模子路由放在第一层。。

他的回覆是，，，，模子正在酿成一组能力和价钱都差别的 SKU。。差别模子的强项、价钱、延迟、上下文长度都纷歧样。。Agent 若是恒久只绑定一个模子，，，，就很难同时做到效果和本钱可控。。

OpenSquilla 的做法，，，，是在使命进入大模子之前，，，，先用外地路由模子判断使命重漂后。。它会凭证语义、要害词、语言、上下文长度、对话轮次等特征，，，，把使命分成差别品级，，，，再匹配差别模子。。

这件事的焦点，，，，不止是“省一点钱”。。

它把 token 本钱从事后结算，，，，酿成了挪用前决议。。已往 Agent 公司月尾才知道自己烧了几多钱；；；；；OpenSquilla 想让每一次挪用爆发之前，，，，系统先判断这一步该花几多钱。。

据团队提供的数据，，，，OpenSquilla 的智能路由和 OpenRouter 相比，，，，路由精度高 4.4 个百分点，，，，本钱低 75%；；；；；和 Anthropic Opus 4.7 跑同类使命相比，，，，精度基本持平，，，，成内情差约 9 倍。。

同样是智能路由，，，，OpenSquilla和 OpenRouter 的区别在于，，，，它们解决的不是统一层问题。。

OpenRouter 是云端 API 网关。。用户把 prompt 发已往，，，，它再从几十个模子里挑一个转发。。它的底层也有判断，，，，但更偏向在已知模子荟萃里按本钱/速率做选择，，，，或者在统一模子的差别提供商之间调理，，，，默认逻辑是通用的：它服务的是所有开发者，，，，不会随着某一个 Agent 的真实使用反馈自动变智慧。。

而OpenSquilla 的路由长在 Harness 里，，，，实质上是一个外地集成树模子，，，，它看的是这个 Agent 恒久怎么干活：哪些使命乐成了，，，，哪些失败了，，，，哪些地方烧 token，，，，哪些模子性价比更高，，，，这些信号会回流到路由里，，，，继续逊。。

韩凯的判断是，，，，Agent 公司不可只等模子厂商降价。。模子厂商决议 token 单价，，，，Agent 公司自己决议每个使命怎么花 token。。

这就是 Harness 的第一层价值：把模子挪用管起来。。

第二层，，，，上下文治理：Agent 烧掉的，，，，许多是不应读的

模子选错，，，，是一类铺张。。上下文塞太多，，，，是另一类铺张。。

许多 Agent 系统为了省事，，，，会把 Skill 形貌、工具说明、历史影象、网页内容、中心方法，，，，一起塞进 prompt。。这样做开发最快，，，，本钱最高。。

模子每挪用一次，，，，都要重新读一遍这些工具。。哪怕目今使命只用得上其中一小段，，，，剩下的 token 也照样计费。。

这在谈天机械人里还没那么显着。。谈天机械人通常是一问一答，，，，上下文相对短。。Agent 纷歧样。。它会一连妄想、挪用工具、检索网页、读文件、天生中心效果，，，，再把这些效果带到下一步。。上下文会越滚越大。。

我们问韩凯，，，，OpenSquilla 详细怎么镌汰这部分铺张。。

他的回覆是，，，，Harness 要先判断“目今使命究竟需要什么”，，，，而不是默认把所有工具交给模子。。

以是 OpenSquilla 会按需加载 Skill。。一次使命只注入可能用到的 Skill，，，，不把几十个 Skill 的说明所有塞进去。。影象也是一样，，，，不是把历史对话整段搬进 prompt，，，，而是从外地数据库里检索相关片断。。

工具效果也会先处理。。网页检索返回的 HTML 里，，，，有标签、样式、导航栏、广告和重复内容。。OpenSquilla 会先裁掉这些内容，，，，再交给模子。。

这件事听起来像工程细节，，，，但对 Agent 公司就是账单问题。。

用户不知道 prompt 里塞了什么，，，，也不知道一次工具挪用返回了几多无关文本。。他只会看到产品好欠好用，，，，价钱贵不贵。。中心这些铺张，，，，最后都会落到 Agent 公司的毛利里。。

据团队提供的数据，，，，OpenSquilla的上下文治理可以特殊带来约 20% 到 50% 的本钱降低。。

韩凯的意思很直接：模子看到的每一个 token，，，，都应该和目今使命有关。。用不到的 Skill，，，，不加载。。无关的影象，，，，不召回。。重复的网页内容，，，，不进入上下文。。

第三层，，，，MetaSkill：Skill 变多以后，，，，用户反而更累了

上下文裁剪解决的是别让模子读太多无关信息。。但 Agent 跑重大使命时，，，，尚有另一层问题：Skill 怎样被准确选择、组合和挪用。。

Agent 圈已往一年很盛行 Skill。。

一个 Skill 可以明确成一套可复用能力：怎么搜资料、怎么写稿、怎么处理表格、怎么挪用某个工具。。理论上，，，，Skill 越多，，，，Agent 越强。。

但真实使用里会泛起另一个问题：Skill 多到一定水平，，，，用户最先不知道该怎么用。。

一个重大使命，，，，可能需要多个 Skill 配合。。好比写一篇文章，，，，要先查资料，，，，再核事实，，，，再学习气概，，，，再写初稿，，，，再审校。。每一步都有 Skill，，，，但谁来决议先后顺序？？？？谁来决议哪个 Skill 该用、哪个不应用？？？？

许多时间，，，，用户只能自己当项目司理。。

这也是韩凯谈到 OpenSquilla 的 MetaSkill 时最强调的一点：Skill 不应该只是一堆模板。。真正难的，，，，是让 Agent 自己把 Skill 组织起来。。

在 OpenSquilla里，，，，一旦触发MetaSkill，，，，用户说一个目的，，，，AI就会拆方法、选 Skill组合、安排依赖关系，，，，确定是分步处理，，，，照旧并行处理。。一个目的，，，，多个方法，，，，多个Skill，，，，每个方法和skill的组合，，，，独享一段上下文。。

这里的行业问题是，，，，Agent 的能力正在从“单个模子聪不智慧”，，，，转向“多个能力能不可被组织起来”。。

模子、工具、影象、Skill 都在增添。。用户不可能明确每一个组件，，，，更不可能每次都手动编排。。Agent 产品若是还让用户自己选模子、选 Skill、排流程，，，，就会卡在专业用户手里，，，，很难酿成通俗人能用的产品。。

MetaSkill 想把这层重漂后藏起来，，，，让用户只需要讲目的。。Harness 认真判断路径。。

韩凯的判断是，，，，Skill 未来不会只是用户手写的一份提醒词，，，，而会酿成可检索、可组合、可复盘、可更新的系统能力。。

这也是 OpenSquilla 所谓“可进化”的地方。。

第四层，，，，可进化：把 Context 训进 Harness

若是用一句话概括OpenSquilla 的可进化，，，，那就是：让 Harness 学会用户的上下文。。

许多用户用 Agent 都有一个配合体验：第一次让它做使命，，，，往往要改好几轮。。结构差池，，，，语气差池，，，，名堂差池，，，，重点差池。。用户一直增补：“不要这样”“按这个名堂”“这里保存”“下次记着”。。

问题在于，，，，Agent往往是，，，，知道错了，，，，下次还敢。。这意味着用户每次都在重新指导它，，，，履历没有沉淀下来。。

MetaSkill则是想要把这些历程留下来。。当一个使命往返改了三次，，，，最后用户知足了，，，，OpenSquilla 会回看这段历程：用户补了哪些条件，，，，纠正了哪些误差，，，，最终认可了什么效果。。然后把这些信息沉淀进 Skill 或事情流里。。

下次遇到类似使命，，，，Agent 不必从零最先。。

智能路由也是统一套逻辑。。前面讲到，，，，它不是一张静态规则表，，，，而是一个可以凭证使命反馈继续更新的参数化模子。。MetaSkill 学用户怎么做事，，，，路由学使命怎么花钱。。

这也是 OpenSquilla 对 Harness 的判断。。由于用户输入进来，，，，Harness 先接住，，，，做完编排、组织、调理，，，，再交给模子。。模子输出之后，，，，也需要 Harness 做后处理、分发和执行，，，，以是，，，，Harness 是离 Context 最近的地方，，，，也最应该学习 Context。。

这件事对 Agent 公司也很主要。。用户少纠正一次，，，，系统就少跑一轮。。少跑一轮，，，，就是少烧一轮 token。。用户以为它越来越懂自己，，，，也更愿意继续用下去。。

以是OpenSquilla 的自进化，，，，最后照旧回到账单和留存。。

已往许多人把 Harness 明确成模子外面那层工程壳：接工具、管会话、做清静、调 API。。OpenSquilla 的判断更激进一点。。

它押注的是：Agent 真正进入商业化后，，，，中心这层 Harness 会酿成最要害的位置。。

模子提供能力，，，，应用界说场景。。Harness 决议这套能力能施展的上限，，，，和本钱能压到的下限。。

而这会形成新的商业动态平衡。。

点个“爱心”，，，，再走吧

@苗冠勋：2025世界杯平台，，，，作甚“小满”
@姜妙菱：女生高考竣事想去打工给爸爸换手机
@赖乃倩：只清积水不刷桶蚊子是灭不完的

热门排行

1 世界杯门户
2 金利来官方网
3 188hg
4 银河掌控中文
5 365bet线上足球
6 球探推荐app苹果
7 金花游戏
8 新葡萄娱乐场798
9 世界杯在哪买球啊

【网站地图】