凯时AG

2026-06-15 00:46:28 设为首页 | 加入珍藏

大模子离别做题家时代

2026-06-15 00:46:28 宣布泉源：游戏猎人作者：刘舜坚浏览：3561次

文 | 浪潮不癫

梁文锋是个很有意思的人。。。。。。他不热衷融资、不搞团建、不社交，，，，，，公司不到200人，，，，，，下昼六七点下班，，，，，，在中国科技圈简直是一股清流。。。。。。

昨天看了晚点的稿子，，，，，，写DeepSeek在V4宣布前夕的状态，，，，，，有许多让浪哥印象深刻、且深有同感的细节。。。。。。

好比，，，，，，deepseek不加班，，，，，，由于梁文锋以为，，，，，，一个人天天能高质量输出的时间，，，，，，很难凌驾 6~8 小时，，，，，，加班疲劳会让判断力下降，，，，，，反而铺张算力资源；；；；；再好比，，，，，，梁文峰在事情中只做少数事情，，，，，，但要做得详尽、做到极致。。。。。。

依然让人心生钦佩。。。。。。

但看稿子也能感受到，，，，，，deepseek现在到了一个玄妙的转折点了：焦点研究员陆续出走，，，，，，期权价值不明，，，，，，Agent偏向的产品司理刚最先招，，，，，，编程工具还没影。。。。。。

这家一经靠极致效率和开源碾压全场的公司发明，，，，，，仅仅专注提升大语言模子的智能上限，，，，，，已经不敷了。。。。。。

这不怪deepseek，，，，，，而是行业已经转向。。。。。。

已往两年，，，，，，大模子领域的做事逻辑特殊像高考，，，，，，跑分就是分数线，，，，，，Benchmark就是科场，，，，，，谁的分数高谁就是状元。。。。。。

但现在，，，，，，OpenAI在搞Agent，，，，，，Anthropic在搞Claude Code，，，，，，Google在搞多模态，，，，，，所有头部玩家都在回覆统一个问题：模子怎么真正帮人把活干完？？？

这就像一个高考状元发明，，，，，，用人单位的面试官翻了翻你的效果单，，，，，，点颔首说"不错"，，，，，，然后问你：“能不可自力完成一个项目？？？能不可做好团队协作？？？遇到没见过的问题你怎么办？？？”

大模子离别做题家时代了。。。。。。

职场的要求纷歧样了

要明确新的竞争究竟比什么，，，，，，有一个现成的鲜活案例。。。。。。

3月31日，，，，，，Anthropic的明星产品Claude Code，，，，，，闹出了代码泄露的大乌龙，，，，，，酿成了真正open的AI了。。。。。。

吃瓜群众扒完代码之后，，，，，，发明Claude比各人想象的还更厉害，，，，，，专业剖析有许多，，，，，，就不细说了，，，，，，划重点就是一句话：Claude真正的竞争力，，，，，，远不止模子自己。。。。。。

模子虽然照旧焦点，，，，，，没有Claude强盛的推理能力，，，，，，什么系统都白搭。。。。。。但光有模子，，，，，，就像光有一个智商160的天才，，，，，，你把他丢到一个生疏的工地上，，，，，，没有图纸、没有工具、没有清静规范，，，，，，他照样干不可活。。。。。。

Claude Code那51万行代码干的事情，，，，，，就是给这个做题家设置上打工人需要的能力。。。。。。简朴看几个例子就明确——

省钱的能力。。。。。。每次挪用API都是真金白银，，，，，，Claude Code把System Prompt切成“稳固的部分”和“经常变的部分”，，，，，，稳固的部分缓存起来重复用，，，，，，变的部分才重新天生。。。。。。这个Benchmark不会考，，，，，，但降本有多主要，，，，，，打工人都知道。。。。。。

知道什么时间该问人的能力。。。。。。Claude Code搞了一套四层递进的清静机制——设置白名单、工具自检、一个专门判断“这条下令危不危险”的小模子、最后才是弹窗问用户。。。。。。这就像一个靠谱的新员工，，，，，，拿禁绝的事不会闷头干，，，，，，但也不会事事都去问向导，，，，，，绝大大都情形自己就处理了。。。。。。这个Benchmark虽然也不会考，，，，，，但它直接决议了用户敢不敢把真实的代码客栈交给AI。。。。。。

记性好的能力。。。。。。对话一长，，，，，，模子就会“忘事”。。。。。。Claude Code的方案不是硬塞一个向量数据库，，，，，，而是把对话历史压缩成一份结构化的摘要——目的是什么、做了哪些决议、代码改了那里——保存外地文件里。。。。。。简朴，，，，，，但有用。。。。。。就像每个人天天都写事情文档，，，，，，第二天各人翻一翻就能接着干。。。。。。

这些工具没有一项是“模子更智慧、考分更好”就能解决的，，，，，，它们解决的是另一个层面的问题：怎么让一个智慧的模子在真实天下里稳固、高效、清静、可一连地干活。。。。。。

这也意味着，，，，，，大模子同砚走出学校、进入职场，，，，，，别人对你的要求就变了。。。。。。

好马也要配好鞍

科技圈向来善于发明种种黑话，，，，，，这么大的转折点，，，，，，黑话肯定少不了。。。。。。

最新很火的一个，，，，，，就是跟这有关的，，，，，，叫Harness Engineering。。。。。。

Harness这个词，，，，，，原来是马具的意思——套在马身上，，，，，，不是为了约束它，，，，，，而是为了让马的实力凭证你要的偏向释放出来。。。。。。

用在AI这儿，，，，，，意思就是：模子是那匹马，，，，，，Harness是那套缰绳、马鞍和偏向盘。。。。。。

这个看法怎么出圈，，，，，，浪哥特意去考古一下，，，，，，发明有两个要害节点。。。。。。

第一个是2026年2月5日，，，，，，在工程界的江湖职位很高的一位老兄，，，，，，Terraform的作者Mitchell Hashimoto，，，，，，写了篇文章讲自己从拒绝到拥抱AI的心路历程，，，，，，其中提了一条焦点原则：

任何时间你发明Agent犯了错，，，，，，就花时间设计一个方案，，，，，，确保它永远不再犯同样的错。。。。。。

听着像空话对吧？？？但你仔细品品，，，，，，它的潜台词是：竞争力不在模子里，，，，，，在你怎么驯服模子的那套系统里。。。。。。模子会犯错，，，，，，这是天性；；；；；但你的系统能不可把每一次犯错酿成永世性的刷新，，，，，，这是手艺。。。。。。

第二个要害节点更早一些。。。。。。1月5日，，，，，，Google DeepMind的工程师Philipp Schmid发了一篇博客，，，，，，甩出一句引起行业大讨论的话：

“The Harness is the Dataset.（Harness自己就是数据集）”

这话的杀伤力在哪？？？

说白了就是：好的Harness能纪录下模子在真实使命中的完整轨迹——它看到了什么信息、做了什么判断、在哪一步翻了车、最后怎么修睦的。。。。。。这些轨迹，，，，，，反过来就是训练下一代模子最有价值的燃料。。。。。。

也就是说，，，，，，谁先把Harness跑通，，，，，，谁就率先启动了一个数据飞轮——系统越好，，，，，，数据越好，，，，，，模子越好，，，，，，系统又更好。。。。。。

大模子和它周围的驾驭系统，，，，，，不再是两件事，，，，，，而是一个共生体。。。。。。

接待来到真实的天下

所谓AI一日，，，，，，人世一年。。。。。；；；；Ｗ房创竽Ｗ佣潭陶饧改，，，，，，着实走过了三个阶段：

2022到2024年，，，，，，各人琢磨的是怎么问——Prompt Engineering，，，，，，写好提醒词，，，，，，把模子的能力哄出来。。。。。。

2025年，，，，，，进化到给什么上下文——Context Engineering，，，，，，把对的信息在对的时间塞给模子。。。。。。

到了2026年，，，，，，竞争升级到怎么搭整套系统——Harness Engineering，，，，，，从工具挪用、影象治理、本钱控制到清静防护，，，，，，通盘思量。。。。。。

竞争颗粒度在一步步变大：从一句话，，，，，，到一段信息，，，，，，到一整套系统。。。。。。

这趋势已经是共识了。。。。。。

几个月前，，，，，，MiniMax首创人闫俊杰在罗永浩的播客访谈里，，，，，，重复讲一个判断：模子能力正在趋同。。。。。。中国公司用美国1/50的资源，，，，，，就能做到95%的性能。。。。。。5%的差别虽然保存，，，，，，但它已经不是决议输赢的变量了。。。。。。

这几天，，，，，，MiniMax交出上市后的首份财报，，，，，，闫俊杰给了几个新的判断Ｆ驵程领域会最先泛起L4–L5级别的智能，，，，，，从“工具”走向“同事级”协作；；；；；办公领域接下来一年，，，，，，会复刻去年编程领域的前进速率；；；；；多模特会走向“直出可交付”的中长内容，，，，，，甚至泛起靠近实时输出的形态。。。。。。

每一个都指向更系统的能力，，，，，，更周全的要求，，，，，，更可靠的执行，，，，，，而不再是简朴的模子参数和跑分。。。。。。

回到deepseek。。。。。。

晚点稿子里，，，，，，有一段话特殊主要：即将宣布的 V4，，，，，，或许率仍是开源最强模子，，，，，，但很难是碾压级的强。。。。。。由于现在差别场景的差别开发者和用户对 “强” 的标准和体感已越来越多元。。。。。。

有个很好的参照例子，，，，，，就是跟V4同样预计在4月宣布的腾讯混元新模子。。。。。。凭证以往的剧本，，，，，，这又该是一轮“谁的分数高”的跑分大战，，，，，，混元的分数，，，，，，预计也会被deepseek摁地上摩擦。。。。。。

有意思的是，，，，，，在离别做题家的新语境下，，，，，，混元的压力反而没那么大了，，，，，，由于比的不再是两张考卷的分数，，，，，，而是两套系统在真实场景里，，，，，，谁更能把活干完。。。。。。之前晚点说，，，，，，姚顺雨上任后，，，，，，明确要求混元团队“不以打榜为导向”——也是意识到考试分数已经没那么主要的，，，，，，更主要的是，，，，，，做一个更适配腾讯的大模子。。。。。。

但对deepseek来说，，，，，，这也意味着一个学霸，，，，，，不可再继续呆在象牙塔里笃志研究了，，，，，，你得走到更大的系统里，，，，，，去顺应新的游戏规则了——

你智慧虽然好，，，，，，但能不可用好工具、能不可跟同事做好协作、能不可在重大系统里找到自己的位置、犯了错能不可自我修正……这些在科场里基础不考的工具，，，，，，反而决议了你能否成事，，，，，，职业生涯能否走得更远。。。。。。

接待来到这个真实的天下，，，，，，deepseek同砚，，，，，，祝你好运。。。。。。

每到周末，，，，，，这里便格外热闹——家长们带着孩子弯腰锄地、采摘蔬菜，，，，，，老人们三三两两坐在田埂上晒太阳谈天，，，，，，欢声笑语在田垄间回荡。。。。。。这片占地10亩的共享菜园，，，，，，正以一种全新的方式，，，，，，毗连起都会的田园神往与墟落的资源盘活。。。。。。

责任编辑：孙俊纬校对：曾丽芬

今日热门

相关推荐

【网站地图】