凯时AG

环球热门新闻资讯
2026-06-17 10:54:31
首页 > 新闻 > 时政要闻 > 正文

大模子离别做题家时代

文 | 浪潮不癫

梁文锋是个很有意思的人 。。他不热衷融资、不搞团建、不社交,,公司不到200人,,下昼六七点下班,,在中国科技圈简直是一股清流 。。

昨天看了晚点的稿子,,写DeepSeek在V4宣布前夕的状态,,有许多让浪哥印象深刻、且深有同感的细节 。。

好比,,deepseek不加班,,由于梁文锋以为,,一个人天天能高质量输出的时间,,很难凌驾 6~8 小时,,加班疲劳会让判断力下降,,反而铺张算力资源;;;;;再好比,,梁文峰在事情中只做少数事情,,但要做得详尽、做到极致 。。

依然让人心生钦佩 。。

但看稿子也能感受到,,deepseek现在到了一个玄妙的转折点了:焦点研究员陆续出走,,期权价值不明,,Agent偏向的产品司理刚最先招,,编程工具还没影 。。

这家一经靠极致效率和开源碾压全场的公司发明,,仅仅专注提升大语言模子的智能上限,,已经不敷了 。。

这不怪deepseek,,而是行业已经转向 。。

已往两年,,大模子领域的做事逻辑特殊像高考,,跑分就是分数线,,Benchmark就是科场,,谁的分数高谁就是状元 。。

但现在,,OpenAI在搞Agent,,Anthropic在搞Claude Code,,Google在搞多模态,,所有头部玩家都在回覆统一个问题:模子怎么真正帮人把活干完?????

这就像一个高考状元发明,,用人单位的面试官翻了翻你的效果单,,点颔首说"不错",,然后问你:“能不可自力完成一个项目?????能不可做好团队协作?????遇到没见过的问题你怎么办?????”

大模子离别做题家时代了 。。

职场的要求纷歧样了

要明确新的竞争究竟比什么,,有一个现成的鲜活案例 。。

3月31日,,Anthropic的明星产品Claude Code,,闹出了代码泄露的大乌龙,,酿成了真正open的AI了 。。

吃瓜群众扒完代码之后,,发明Claude比各人想象的还更厉害,,专业剖析有许多,,就不细说了,,划重点就是一句话:Claude真正的竞争力,,远不止模子自己 。。

模子虽然照旧焦点,,没有Claude强盛的推理能力,,什么系统都白搭 。。但光有模子,,就像光有一个智商160的天才,,你把他丢到一个生疏的工地上,,没有图纸、没有工具、没有清静规范,,他照样干不可活 。。

Claude Code那51万行代码干的事情,,就是给这个做题家设置上打工人需要的能力 。。简朴看几个例子就明确——

省钱的能力 。。每次挪用API都是真金白银,,Claude Code把System Prompt切成“稳固的部分”和“经常变的部分”,,稳固的部分缓存起来重复用,,变的部分才重新天生 。。这个Benchmark不会考,,但降本有多主要,,打工人都知道 。。

知道什么时间该问人的能力 。。Claude Code搞了一套四层递进的清静机制——设置白名单、工具自检、一个专门判断“这条下令危不危险”的小模子、最后才是弹窗问用户 。。这就像一个靠谱的新员工,,拿禁绝的事不会闷头干,,但也不会事事都去问向导,,绝大大都情形自己就处理了 。。这个Benchmark虽然也不会考,,但它直接决议了用户敢不敢把真实的代码客栈交给AI 。。

记性好的能力 。。对话一长,,模子就会“忘事” 。。Claude Code的方案不是硬塞一个向量数据库,,而是把对话历史压缩成一份结构化的摘要——目的是什么、做了哪些决议、代码改了那里——保存外地文件里 。。简朴,,但有用 。。就像每个人天天都写事情文档,,第二天各人翻一翻就能接着干 。。

这些工具没有一项是“模子更智慧、考分更好”就能解决的,,它们解决的是另一个层面的问题:怎么让一个智慧的模子在真实天下里稳固、高效、清静、可一连地干活 。。

这也意味着,,大模子同砚走出学校、进入职场,,别人对你的要求就变了 。。

好马也要配好鞍

科技圈向来善于发明种种黑话,,这么大的转折点,,黑话肯定少不了 。。

最新很火的一个,,就是跟这有关的,,叫Harness Engineering 。。

Harness这个词,,原来是马具的意思——套在马身上,,不是为了约束它,,而是为了让马的实力凭证你要的偏向释放出来 。。

用在AI这儿,,意思就是:模子是那匹马,,Harness是那套缰绳、马鞍和偏向盘 。。

这个看法怎么出圈,,浪哥特意去考古一下,,发明有两个要害节点 。。

第一个是2026年2月5日,,在工程界的江湖职位很高的一位老兄,,Terraform的作者Mitchell Hashimoto,,写了篇文章讲自己从拒绝到拥抱AI的心路历程,,其中提了一条焦点原则:

任何时间你发明Agent犯了错,,就花时间设计一个方案,,确保它永远不再犯同样的错 。。

听着像空话对吧?????但你仔细品品,,它的潜台词是:竞争力不在模子里,,在你怎么驯服模子的那套系统里 。。 模子会犯错,,这是天性;;;;;但你的系统能不可把每一次犯错酿成永世性的刷新,,这是手艺 。。

第二个要害节点更早一些 。。1月5日,,Google DeepMind的工程师Philipp Schmid发了一篇博客,,甩出一句引起行业大讨论的话:

“The Harness is the Dataset.(Harness自己就是数据集)”

这话的杀伤力在哪?????

说白了就是:好的Harness能纪录下模子在真实使命中的完整轨迹——它看到了什么信息、做了什么判断、在哪一步翻了车、最后怎么修睦的 。。这些轨迹,,反过来就是训练下一代模子最有价值的燃料 。。

也就是说,,谁先把Harness跑通,,谁就率先启动了一个数据飞轮——系统越好,,数据越好,,模子越好,,系统又更好 。。

大模子和它周围的驾驭系统,,不再是两件事,,而是一个共生体 。。

接待来到真实的天下

所谓AI一日,,人世一年 。。;;;W房创竽W佣潭陶饧改,,着实走过了三个阶段:

2022到2024年,,各人琢磨的是怎么问——Prompt Engineering,,写好提醒词,,把模子的能力哄出来 。。

2025年,,进化到给什么上下文——Context Engineering,,把对的信息在对的时间塞给模子 。。

到了2026年,,竞争升级到怎么搭整套系统——Harness Engineering,,从工具挪用、影象治理、本钱控制到清静防护,,通盘思量 。。

竞争颗粒度在一步步变大:从一句话,,到一段信息,,到一整套系统 。。

这趋势已经是共识了 。。

几个月前,,MiniMax首创人闫俊杰在罗永浩的播客访谈里,,重复讲一个判断:模子能力正在趋同 。。中国公司用美国1/50的资源,,就能做到95%的性能 。。5%的差别虽然保存,,但它已经不是决议输赢的变量了 。。

这几天,,MiniMax交出上市后的首份财报,,闫俊杰给了几个新的判断F驵程领域会最先泛起L4–L5级别的智能,,从“工具”走向“同事级”协作;;;;;办公领域接下来一年,,会复刻去年编程领域的前进速率;;;;;多模特会走向“直出可交付”的中长内容,,甚至泛起靠近实时输出的形态 。。

每一个都指向更系统的能力,,更周全的要求,,更可靠的执行,,而不再是简朴的模子参数和跑分 。。

回到deepseek 。。

晚点稿子里,,有一段话特殊主要:即将宣布的 V4,,或许率仍是开源最强模子,,但很难是碾压级的强 。。由于现在差别场景的差别开发者和用户对 “强” 的标准和体感已越来越多元 。。

有个很好的参照例子,,就是跟V4同样预计在4月宣布的腾讯混元新模子 。。凭证以往的剧本,,这又该是一轮“谁的分数高”的跑分大战,,混元的分数,,预计也会被deepseek摁地上摩擦 。。

有意思的是,,在离别做题家的新语境下,,混元的压力反而没那么大了,,由于比的不再是两张考卷的分数,,而是两套系统在真实场景里,,谁更能把活干完 。。之前晚点说,,姚顺雨上任后,,明确要求混元团队“不以打榜为导向”——也是意识到考试分数已经没那么主要的,,更主要的是,,做一个更适配腾讯的大模子 。。

但对deepseek来说,,这也意味着一个学霸,,不可再继续呆在象牙塔里笃志研究了,,你得走到更大的系统里,,去顺应新的游戏规则了——

你智慧虽然好,,但能不可用好工具、能不可跟同事做好协作、能不可在重大系统里找到自己的位置、犯了错能不可自我修正……这些在科场里基础不考的工具,,反而决议了你能否成事,,职业生涯能否走得更远 。。

接待来到这个真实的天下,,deepseek同砚,,祝你好运 。。

关于商家宣传的功效,,黄医生体现,,呼吸道吸入烟雾只会伤肺、加重肺燥、刺激气道,,不保存“润肺”作用;;;;;祛湿、散寒是中医外治(艾灸、热敷、泡脚)的作用,,吸入烟雾无法实现体内祛湿排寒,,且古板中医治疗要领中并无吸入疗法;;;;;黄晓寒说,,现代医学没有“血管垃圾”这一正规看法,,烟雾中的有害物质反而会损伤血管内皮、影响血脂代谢,,只会危险血管,,绝无整理作用 。。

责任编辑:林嘉宜

【网站地图】