凯时AG

泉源:文班苦战39分钟砍下32分作者: 陈竣杰:

大模子离别做题家时代

文 | 浪潮不癫

梁文锋是个很有意思的人。。他不热衷融资、不搞团建、不社交,, ,公司不到200人,, ,下昼六七点下班,, ,在中国科技圈简直是一股清流。。

昨天看了晚点的稿子,, ,写DeepSeek在V4宣布前夕的状态,, ,有许多让浪哥印象深刻、且深有同感的细节。。

好比,, ,deepseek不加班,, ,由于梁文锋以为,, ,一个人天天能高质量输出的时间,, ,很难凌驾 6~8 小时,, ,加班疲劳会让判断力下降,, ,反而铺张算力资源;;;;;再好比,, ,梁文峰在事情中只做少数事情,, ,但要做得详尽、做到极致。。

依然让人心生钦佩。。

但看稿子也能感受到,, ,deepseek现在到了一个玄妙的转折点了:焦点研究员陆续出走,, ,期权价值不明,, ,Agent偏向的产品司理刚最先招,, ,编程工具还没影。。

这家一经靠极致效率和开源碾压全场的公司发明,, ,仅仅专注提升大语言模子的智能上限,, ,已经不敷了。。

这不怪deepseek,, ,而是行业已经转向。。

已往两年,, ,大模子领域的做事逻辑特殊像高考,, ,跑分就是分数线,, ,Benchmark就是考。。, ,谁的分数高谁就是状元。。

但现在,, ,OpenAI在搞Agent,, ,Anthropic在搞Claude Code,, ,Google在搞多模态,, ,所有头部玩家都在回覆统一个问题:模子怎么真正帮人把活干完??

这就像一个高考状元发明,, ,用人单位的面试官翻了翻你的效果单,, ,点颔首说"不错",, ,然后问你:“能不可自力完成一个项目??能不可做好团队协作??遇到没见过的问题你怎么办??”

大模子离别做题家时代了。。

职场的要求纷歧样了

要明确新的竞争究竟比什么,, ,有一个现成的鲜活案例。。

3月31日,, ,Anthropic的明星产品Claude Code,, ,闹出了代码泄露的大乌龙,, ,酿成了真正open的AI了。。

吃瓜群众扒完代码之后,, ,发明Claude比各人想象的还更厉害,, ,专业剖析有许多,, ,就不细说了,, ,划重点就是一句话:Claude真正的竞争力,, ,远不止模子自己。。

模子虽然照旧焦点,, ,没有Claude强盛的推理能力,, ,什么系统都白搭。。但光有模子,, ,就像光有一个智商160的天才,, ,你把他丢到一个生疏的工地上,, ,没有图纸、没有工具、没有清静规范,, ,他照样干不可活。。

Claude Code那51万行代码干的事情,, ,就是给这个做题家设置上打工人需要的能力。。简朴看几个例子就明确——

省钱的能力。。每次挪用API都是真金白银,, ,Claude Code把System Prompt切成“稳固的部分”和“经常变的部分”,, ,稳固的部分缓存起来重复用,, ,变的部分才重新天生。。这个Benchmark不会考,, ,但降本有多主要,, ,打工人都知道。。

知道什么时间该问人的能力。。Claude Code搞了一套四层递进的清静机制——设置白名单、工具自检、一个专门判断“这条下令危不危险”的小模子、最后才是弹窗问用户。。这就像一个靠谱的新员工,, ,拿禁绝的事不会闷头干,, ,但也不会事事都去问向导,, ,绝大大都情形自己就处理了。。这个Benchmark虽然也不会考,, ,但它直接决议了用户敢不敢把真实的代码客栈交给AI。。

记性好的能力。。对话一长,, ,模子就会“忘事”。。Claude Code的方案不是硬塞一个向量数据库,, ,而是把对话历史压缩成一份结构化的摘要——目的是什么、做了哪些决议、代码改了那里——保存外地文件里。。简朴,, ,但有用。。就像每个人天天都写事情文档,, ,第二天各人翻一翻就能接着干。。

这些工具没有一项是“模子更智慧、考分更好”就能解决的,, ,它们解决的是另一个层面的问题:怎么让一个智慧的模子在真实天下里稳固、高效、清静、可一连地干活。。

这也意味着,, ,大模子同砚走出学校、进入职。。, ,别人对你的要求就变了。。

好马也要配好鞍

科技圈向来善于发明种种黑话,, ,这么大的转折点,, ,黑话肯定少不了。。

最新很火的一个,, ,就是跟这有关的,, ,叫Harness Engineering。。

Harness这个词,, ,原来是马具的意思——套在马身上,, ,不是为了约束它,, ,而是为了让马的实力凭证你要的偏向释放出来。。

用在AI这儿,, ,意思就是:模子是那匹马,, ,Harness是那套缰绳、马鞍和偏向盘。。

这个看法怎么出圈,, ,浪哥特意去考古一下,, ,发明有两个要害节点。。

第一个是2026年2月5日,, ,在工程界的江湖职位很高的一位老兄,, ,Terraform的作者Mitchell Hashimoto,, ,写了篇文章讲自己从拒绝到拥抱AI的心路历程,, ,其中提了一条焦点原则:

任何时间你发明Agent犯了错,, ,就花时间设计一个方案,, ,确保它永远不再犯同样的错。。

听着像空话对吧??但你仔细品品,, ,它的潜台词是:竞争力不在模子里,, ,在你怎么驯服模子的那套系统里。。 模子会犯错,, ,这是天性;;;;;但你的系统能不可把每一次犯错酿成永世性的刷新,, ,这是手艺。。

第二个要害节点更早一些。。1月5日,, ,Google DeepMind的工程师Philipp Schmid发了一篇博客,, ,甩出一句引起行业大讨论的话:

“The Harness is the Dataset.(Harness自己就是数据集)”

这话的杀伤力在哪??

说白了就是:好的Harness能纪录下模子在真实使命中的完整轨迹——它看到了什么信息、做了什么判断、在哪一步翻了车、最后怎么修睦的。。这些轨迹,, ,反过来就是训练下一代模子最有价值的燃料。。

也就是说,, ,谁先把Harness跑通,, ,谁就率先启动了一个数据飞轮——系统越好,, ,数据越好,, ,模子越好,, ,系统又更好。。

大模子和它周围的驾驭系统,, ,不再是两件事,, ,而是一个共生体。。

接待来到真实的天下

所谓AI一日,, ,人世一年。。;;;W房创竽W佣潭陶饧改辏, ,着实走过了三个阶段:

2022到2024年,, ,各人琢磨的是怎么问——Prompt Engineering,, ,写好提醒词,, ,把模子的能力哄出来。。

2025年,, ,进化到给什么上下文——Context Engineering,, ,把对的信息在对的时间塞给模子。。

到了2026年,, ,竞争升级到怎么搭整套系统——Harness Engineering,, ,从工具挪用、影象治理、本钱控制到清静防护,, ,通盘思量。。

竞争颗粒度在一步步变大:从一句话,, ,到一段信息,, ,到一整套系统。。

这趋势已经是共识了。。

几个月前,, ,MiniMax首创人闫俊杰在罗永浩的播客访谈里,, ,重复讲一个判断:模子能力正在趋同。。中国公司用美国1/50的资源,, ,就能做到95%的性能。。5%的差别虽然保存,, ,但它已经不是决议输赢的变量了。。

这几天,, ,MiniMax交出上市后的首份财报,, ,闫俊杰给了几个新的判断F驵程领域会最先泛起L4–L5级别的智能,, ,从“工具”走向“同事级”协作;;;;;办公领域接下来一年,, ,会复刻去年编程领域的前进速率;;;;;多模特会走向“直出可交付”的中长内容,, ,甚至泛起靠近实时输出的形态。。

每一个都指向更系统的能力,, ,更周全的要求,, ,更可靠的执行,, ,而不再是简朴的模子参数和跑分。。

回到deepseek。。

晚点稿子里,, ,有一段话特殊主要:即将宣布的 V4,, ,或许率仍是开源最强模子,, ,但很难是碾压级的强。。由于现在差别场景的差别开发者和用户对 “强” 的标准和体感已越来越多元。。

有个很好的参照例子,, ,就是跟V4同样预计在4月宣布的腾讯混元新模子。。凭证以往的剧本,, ,这又该是一轮“谁的分数高”的跑分大战,, ,混元的分数,, ,预计也会被deepseek摁地上摩擦。。

有意思的是,, ,在离别做题家的新语境下,, ,混元的压力反而没那么大了,, ,由于比的不再是两张考卷的分数,, ,而是两套系统在真实场景里,, ,谁更能把活干完。。之前晚点说,, ,姚顺雨上任后,, ,明确要求混元团队“不以打榜为导向”——也是意识到考试分数已经没那么主要的,, ,更主要的是,, ,做一个更适配腾讯的大模子。。

但对deepseek来说,, ,这也意味着一个学霸,, ,不可再继续呆在象牙塔里笃志研究了,, ,你得走到更大的系统里,, ,去顺应新的游戏规则了——

你智慧虽然好,, ,但能不可用好工具、能不可跟同事做好协作、能不可在重大系统里找到自己的位置、犯了错能不可自我修正……这些在科场里基础不考的工具,, ,反而决议了你能否成事,, ,职业生涯能否走得更远。。

接待来到这个真实的天下,, ,deepseek同砚,, ,祝你好运。。

@陈俊吟:XXXX4K,, ,本周我国多领域硬核效果刷屏
@赖嘉鸿:关咏荷笑起来好妖冶
@柯佩如:《耀眼》“定晴信武”冰箱吻名时势

热门排行

【网站地图】