大模子离别做题家时代
文 | 浪潮不癫
梁文锋是个很有意思的人。。他不热衷融资、不搞团建、不社交,,,,公司不到200人,,,,下昼六七点下班,,,,在中国科技圈简直是一股清流。。
昨天看了晚点的稿子,,,,写DeepSeek在V4宣布前夕的状态,,,,有许多让浪哥印象深刻、且深有同感的细节。。
好比,,,,deepseek不加班,,,,由于梁文锋以为,,,,一个人天天能高质量输出的时间,,,,很难凌驾 6~8 小时,,,,加班疲劳会让判断力下降,,,,反而铺张算力资源;;;;;;再好比,,,,梁文峰在事情中只做少数事情,,,,但要做得详尽、做到极致。。
依然让人心生钦佩。。
但看稿子也能感受到,,,,deepseek现在到了一个玄妙的转折点了:焦点研究员陆续出走,,,,期权价值不明,,,,Agent偏向的产品司理刚最先招,,,,编程工具还没影。。
这家一经靠极致效率和开源碾压全场的公司发明,,,,仅仅专注提升大语言模子的智能上限,,,,已经不敷了。。
这不怪deepseek,,,,而是行业已经转向。。
已往两年,,,,大模子领域的做事逻辑特殊像高考,,,,跑分就是分数线,,,,Benchmark就是科场,,,,谁的分数高谁就是状元。。
但现在,,,,OpenAI在搞Agent,,,,Anthropic在搞Claude Code,,,,Google在搞多模态,,,,所有头部玩家都在回覆统一个问题:模子怎么真正帮人把活干完???
这就像一个高考状元发明,,,,用人单位的面试官翻了翻你的效果单,,,,点颔首说"不错",,,,然后问你:“能不可自力完成一个项目???能不可做好团队协作???遇到没见过的问题你怎么办???”
大模子离别做题家时代了。。
职场的要求纷歧样了
要明确新的竞争究竟比什么,,,,有一个现成的鲜活案例。。
3月31日,,,,Anthropic的明星产品Claude Code,,,,闹出了代码泄露的大乌龙,,,,酿成了真正open的AI了。。
吃瓜群众扒完代码之后,,,,发明Claude比各人想象的还更厉害,,,,专业剖析有许多,,,,就不细说了,,,,划重点就是一句话:Claude真正的竞争力,,,,远不止模子自己。。
模子虽然照旧焦点,,,,没有Claude强盛的推理能力,,,,什么系统都白搭。。但光有模子,,,,就像光有一个智商160的天才,,,,你把他丢到一个生疏的工地上,,,,没有图纸、没有工具、没有清静规范,,,,他照样干不可活。。
Claude Code那51万行代码干的事情,,,,就是给这个做题家设置上打工人需要的能力。。简朴看几个例子就明确——
省钱的能力。。每次挪用API都是真金白银,,,,Claude Code把System Prompt切成“稳固的部分”和“经常变的部分”,,,,稳固的部分缓存起来重复用,,,,变的部分才重新天生。。这个Benchmark不会考,,,,但降本有多主要,,,,打工人都知道。。
知道什么时间该问人的能力。。Claude Code搞了一套四层递进的清静机制——设置白名单、工具自检、一个专门判断“这条下令危不危险”的小模子、最后才是弹窗问用户。。这就像一个靠谱的新员工,,,,拿禁绝的事不会闷头干,,,,但也不会事事都去问向导,,,,绝大大都情形自己就处理了。。这个Benchmark虽然也不会考,,,,但它直接决议了用户敢不敢把真实的代码客栈交给AI。。
记性好的能力。。对话一长,,,,模子就会“忘事”。。Claude Code的方案不是硬塞一个向量数据库,,,,而是把对话历史压缩成一份结构化的摘要——目的是什么、做了哪些决议、代码改了那里——保存外地文件里。。简朴,,,,但有用。。就像每个人天天都写事情文档,,,,第二天各人翻一翻就能接着干。。
这些工具没有一项是“模子更智慧、考分更好”就能解决的,,,,它们解决的是另一个层面的问题:怎么让一个智慧的模子在真实天下里稳固、高效、清静、可一连地干活。。
这也意味着,,,,大模子同砚走出学校、进入职场,,,,别人对你的要求就变了。。
好马也要配好鞍
科技圈向来善于发明种种黑话,,,,这么大的转折点,,,,黑话肯定少不了。。
最新很火的一个,,,,就是跟这有关的,,,,叫Harness Engineering。。
Harness这个词,,,,原来是马具的意思——套在马身上,,,,不是为了约束它,,,,而是为了让马的实力凭证你要的偏向释放出来。。
用在AI这儿,,,,意思就是:模子是那匹马,,,,Harness是那套缰绳、马鞍和偏向盘。。
这个看法怎么出圈,,,,浪哥特意去考古一下,,,,发明有两个要害节点。。
第一个是2026年2月5日,,,,在工程界的江湖职位很高的一位老兄,,,,Terraform的作者Mitchell Hashimoto,,,,写了篇文章讲自己从拒绝到拥抱AI的心路历程,,,,其中提了一条焦点原则:
任何时间你发明Agent犯了错,,,,就花时间设计一个方案,,,,确保它永远不再犯同样的错。。
听着像空话对吧???但你仔细品品,,,,它的潜台词是:竞争力不在模子里,,,,在你怎么驯服模子的那套系统里。。 模子会犯错,,,,这是天性;;;;;;但你的系统能不可把每一次犯错酿成永世性的刷新,,,,这是手艺。。
第二个要害节点更早一些。。1月5日,,,,Google DeepMind的工程师Philipp Schmid发了一篇博客,,,,甩出一句引起行业大讨论的话:
“The Harness is the Dataset.(Harness自己就是数据集)”
这话的杀伤力在哪???
说白了就是:好的Harness能纪录下模子在真实使命中的完整轨迹——它看到了什么信息、做了什么判断、在哪一步翻了车、最后怎么修睦的。。这些轨迹,,,,反过来就是训练下一代模子最有价值的燃料。。
也就是说,,,,谁先把Harness跑通,,,,谁就率先启动了一个数据飞轮——系统越好,,,,数据越好,,,,模子越好,,,,系统又更好。。
大模子和它周围的驾驭系统,,,,不再是两件事,,,,而是一个共生体。。
接待来到真实的天下
所谓AI一日,,,,人世一年。;;;;;W房创竽W佣潭陶饧改,,,,着实走过了三个阶段:
2022到2024年,,,,各人琢磨的是怎么问——Prompt Engineering,,,,写好提醒词,,,,把模子的能力哄出来。。
2025年,,,,进化到给什么上下文——Context Engineering,,,,把对的信息在对的时间塞给模子。。
到了2026年,,,,竞争升级到怎么搭整套系统——Harness Engineering,,,,从工具挪用、影象治理、本钱控制到清静防护,,,,通盘思量。。
竞争颗粒度在一步步变大:从一句话,,,,到一段信息,,,,到一整套系统。。
这趋势已经是共识了。。
几个月前,,,,MiniMax首创人闫俊杰在罗永浩的播客访谈里,,,,重复讲一个判断:模子能力正在趋同。。中国公司用美国1/50的资源,,,,就能做到95%的性能。。5%的差别虽然保存,,,,但它已经不是决议输赢的变量了。。
这几天,,,,MiniMax交出上市后的首份财报,,,,闫俊杰给了几个新的判断F驵程领域会最先泛起L4–L5级别的智能,,,,从“工具”走向“同事级”协作;;;;;;办公领域接下来一年,,,,会复刻去年编程领域的前进速率;;;;;;多模特会走向“直出可交付”的中长内容,,,,甚至泛起靠近实时输出的形态。。
每一个都指向更系统的能力,,,,更周全的要求,,,,更可靠的执行,,,,而不再是简朴的模子参数和跑分。。
回到deepseek。。
晚点稿子里,,,,有一段话特殊主要:即将宣布的 V4,,,,或许率仍是开源最强模子,,,,但很难是碾压级的强。。由于现在差别场景的差别开发者和用户对 “强” 的标准和体感已越来越多元。。
有个很好的参照例子,,,,就是跟V4同样预计在4月宣布的腾讯混元新模子。。凭证以往的剧本,,,,这又该是一轮“谁的分数高”的跑分大战,,,,混元的分数,,,,预计也会被deepseek摁地上摩擦。。
有意思的是,,,,在离别做题家的新语境下,,,,混元的压力反而没那么大了,,,,由于比的不再是两张考卷的分数,,,,而是两套系统在真实场景里,,,,谁更能把活干完。。之前晚点说,,,,姚顺雨上任后,,,,明确要求混元团队“不以打榜为导向”——也是意识到考试分数已经没那么主要的,,,,更主要的是,,,,做一个更适配腾讯的大模子。。
但对deepseek来说,,,,这也意味着一个学霸,,,,不可再继续呆在象牙塔里笃志研究了,,,,你得走到更大的系统里,,,,去顺应新的游戏规则了——
你智慧虽然好,,,,但能不可用好工具、能不可跟同事做好协作、能不可在重大系统里找到自己的位置、犯了错能不可自我修正……这些在科场里基础不考的工具,,,,反而决议了你能否成事,,,,职业生涯能否走得更远。。
接待来到这个真实的天下,,,,deepseek同砚,,,,祝你好运。。
@洪名桦:91n免费处女在线观看视频,,,,一座小县城怎样让杂技“坐地生金”@张芷勇:郑丽文拍桌怒骂赖清德半小时
@黄治英:美国4-1巴拉圭迎开门红
热门排行
- 1 久久28
- 2 婷婷久久
- 3 久久ar6
- 4 45番列车游戏手游下载
- 5 成人AA
- 6 黄 色 软 件下载
- 7 久久大香蕉
- 8 羞羞视频在线观看
- 9 xxx视频软件