凯时AG

泉源:爷爷进店卖福贴没收款码 淡定送老板娘作者: 江莉婷:

硅星人Eval Eps.4 | “AI 押中率98%”???我们让8个AI 押了高考数学卷

作者 | 周一笑邮箱 | zhouyixiao@pingwest.com

每年高考前一个月,,全网都在卖统一种工具,,押题。。 。。。

2025 年最夸张的是几家自媒体打出的“AI 押题掷中率 98%”,,厥后上海辟谣平台、中国科协接连下场拆穿,,高考命题严酷保密、AI 拿不到训练数据,,加上年年反押题反套路,,靠 AI 押中几无可能。。 。。。

押题是迎合焦虑,,我们想做的是反过来戳破它。。 。。。

今年高考前夕,,硅星人 AI 前沿团队把统一份 Prompt 发给 8 个全球主流的 AI Agent 产品,,让它们各自走完三步,,剖析近年北京卷的命题纪律,,展望 2026 年会怎么考,,再亲手出一整套 2026 模拟卷。。 。。。然后我们把 8 套卷匿名打乱,,让这 8 个 AI 相互盲评打分。。 。。。最后请一位向导过多届北京高三学生的数学先生,,逐套审读,,并在考后对着真题逐题核对了掷中率。。 。。。

没有“98%”。。 。。。这位先生的判断是,,除了选择、填空、大题第一道这些送分位,,所有 AI 的展望里真能踩到点上的,,加起来也超不过两成。。 。。。

这是 Agent Eval 系列第二期。。 。。。,,这期的高考展望却是个密闭盒子,,没有标准谜底、还必需真造出新题。。 。。。详细怎么测、为什么挑高考数学,,放在文末,,先看效果。。 。。。

谁押注的更准

6 月 7 日考完后,,我们从两个角度给这 8 家打了分。。 。。。一个客观,,逐题核对它们的展望有没有押中真题的知识点;;;;;一个主观,,请那位数学先生按“每套卷有几个亮点”打分,,看卷子究竟出得好欠好。。 。。。

先说客观的掷中率(共 21 题,,按掷中的知识点数计):

区分度比我们预想的显着,,从 9 题到 4 题,,差了一倍多。。 。。。牢靠考点谁都押得中、拉不开差别,,真正分高下的是中心那十几道浮动小题。。 。。。并列垫底的 Manus 和 GLM 里,,GLM 更离谱,,好几道大题的题号都对不上(押 T17 数列、T19 概率、T20 抛物线),,基本是错位的。。 。。。

两处效果值得单说,,一处是赌局,,一处是整体翻车。。 。。。

赌局在 T21 压轴。。 。。。真题是一道关于 ±1 数表的新界说题,,偏向是组合、不是数列。。 。。。??记岸摹八丫氡鹗小⒆蜃楹稀钡 Claude、Gemini、Genspark、Manus 赌对了,,坚持押“照旧数列”的 ChatGPT、MiniMax、Kimi 错了,,而 GLM 连压轴该出新界说都没做到,,直接放了道通俗导数题。。 。。。

翻车在 T17、T18。。 。。。真题这次把这两道大题对调了,,T17 改考概率、T18 改考立几。。 。。。没有一家推测这次对调,,大大都仍按老纪律押 T17 立体几何、T18 概率,,这两道大题上整体失分。。 。。。

再说主观的亮点分:

先生对每套卷的锐评,,节选几句:Genspark“第 8 题押中了类似题,,大题对味,,概率题配景富厚”;;;;;Gemini“不但模拟还会改编,,把 2022 年高考第 10 题改了角度、升了难度,,导数考极值点偏移,,绝对是 8 套里最难的”;;;;;

MiniMax“椭圆大题是 8 套里最佳,,但导数高二期末压轴都不会这么简朴”;;;;;Claude“第 10 题照着 2022 年高考只改了几个数字”;;;;;ChatGPT“导数乍一看很唬人,,稍加盘算就发明很简朴”;;;;;垫底的 GLM“卷面竟带参考公式、大题居然考等差数列、剖析几何考抛物线,,嫌疑究竟有没有看过北京卷,,可能是穿越了”。。 。。。

两份榜单比照着看很有意思。。 。。。Genspark 两头都第一、GLM 两头都垫底,,没悬念。。 。。。但中心几家错位显着,,Kimi 掷中率并列第一,,亮点分却只有 60;;;;;Gemini 掷中率才中游,,亮点分却并列第一。。 。。。押得准和出得好,,是两回事。。 。。。

几个没推测的发明

AI 整体不自恋

把 8 套卷匿名打乱、编号“卷一”到“卷八”,,再发回给这 8 个 AI,,让它们以教研员的身份盲评打分、排着名次。。 。。。它们会不会偷偷给自己打高分???

为了让这一问问得清洁,,我们做了几层隔离。。 。。。每套卷都抹掉了来由痕迹、统一了排版,,让模子认不出哪份是自己写的;;;;;评审一律开新对话举行,,关掉影象、开启隐私模式,,不让它带着“我上周出过一套卷”的印象来打分。。 。。。我们自己则留了一张比照表,,记下每个编号对应的真身,,专门盯着对角线那八格,,看谁给自己排了第几。。 。。。

大模子的“自我偏幸”是学界公认的老问题,,让模子评价一堆内容,,其中混着它自己的产出,,它往往会不自觉地高看自己一眼。。 。。。匿名之后,,这个偏幸还在不在,,正是我们想看的。。 。。。

8 个 AI 里,,只有 1 个把自己排在了第一。。 。。。 并且这唯一的“自封第一”还情有可原,,它是 Genspark,,而它那套卷子原来就是全场公认的冠军,,六家都把它排进了前二。。 。。。连这一票“自恋”都是实至名归。。 。。。

更意外的是反偏向。。 。。。GLM 把自己的卷子排到了全场垫底,,第八名。。 。。。Kimi 给自己排第五。。 。。。其余几家也都老忠实实待在中游,,没谁往上抬自己。。 。。。扫除 Genspark 这个特殊点后,,剩下几家给自己打的平均名次,,比“随机乱排”的期望还要低一点点,,没有谁显着自抬身价。。 。。。

这批通用 Agent,,非但没体现出传说中的自我偏幸,,反而有点严于律己。。 。。。说它们谦逊倒未必,,更准确的说法是,,它们真的能看出自己作品的误差。。 。。。GLM 那套卷子确实有硬伤,,Kimi 自己也清晰只剖析了三年数据底气缺乏(原因下一节讲)。。 。。。能在匿名的条件下,,准确地把自己的短板也评进去,,这自己是一种值得肯定的判断力。。 。。。

顺带说一个离群点。。 。。。8 个 AI 里,,唯独 ChatGPT 跟各人拧着来,,它把公认冠军的那套卷压到了第六,,转头把另一套卷捧上了第一。。 。。。审美这件事,,AI 之间也对不上。。 。。。

一份 PDF,,测出了谁更忠实

我们喂给 8 家的那份真题 PDF,,有两年(2021 和 2024)是扫描图片,,机械直接抽取文本是抽不出来的。。 。。。这本是个失误,,但阴差阳错,,反而成了这次评测里最意外的收获。。 。。。它即是给所有 Agent 出了一道现实里极其常见的难题,,手上的资料是残破的,,你怎么办。。 。。。一个 Agent 诚不忠实、靠不靠谱,,往往就藏在它对这种残破的反映里。。 。。。8 家的应对,,清清晰楚地分成了三档。。 。。。

忠实的一档,,Kimi。。 。。。 它在报告开头就专门写了一段说明,,显着确白地告诉我们,,这份 PDF 它只读到了 2022、2023、2025 三年,,2021 和 2024 没找到,,以是后面的剖析只基于这三年。。 。。。它没有为了凑齐五年去编,,宁愿信息少一点,,也不瞎搅。。 。。。

中心一档,,GLM、Manus、MiniMax。。 。。。 它们都声称剖析了完整五年,,并且我们去核对了它们对 2021、2024 的知识点标注,,居然是对的。。 。。。好比 GLM 标的 2021 年第 18 题“核酸检测概率”、第 6 题“党旗规格的等差数列”,,跟真题一字不差。。 。。。这说明它们要么真的用了别的方式(图像识别、联网检索)补上了,,要么调动了自己脑子里的存货,,能力是够的。。 。。。唯一的问题是,,它们全程没提一句“这两年着实是图片、我是另想步伐拿到的”,,让你以为一切顺遂。。 。。。唬;;;钍歉傻搅,,但少了一句本该有的交接。。 。。。

最值得说的一档,,Gemini。。 。。。 我们一最先没看出问题,,直到追问它是怎么读取 PDF 的,,它才认可,,自己基础没真正读那份 PDF,,是凭训练时记着的北京卷问题直接答的。。 。。。前面那套煞有介事的“五年剖析”,,并不是基于我们给的质料做出来的。。 。。。真用起来这是个隐患,,你以为它在认真读你给的文件,,它着实在凭印象自由施展。。 。。。

谁较真,,谁偷懒,,谁穿越了

挨个说说这 8 家的历程体现。。 。。。

ChatGPT(GPT-5.5 Thinking Extended)。。 。。。 最省心的一家,,直接吐出一份排版好的 PDF 试卷,,拿来就能用。。 。。。展望也最“教科书”,,结构判断稳、剖析完整。。 。。。它就是前面互评里谁人离群值,,全场就它把公认冠军压到第六。。 。。。出的题偏通例、偏稳,,没什么花活,,但也险些不蜕化。。 。。。

Claude(Opus 4.8 Max)。。 。。。 最“较真”的一家。。 。。。为了把数学公式渲染悦目,,它自己想了套方案,,先天生 Markdown,,再转成带 MathJax 的 HTML,,最后用浏览器打印成 PDF,,思索时间长得出奇。。 。。。这股较真劲也用在了盲评上,,它是唯逐一个逐题下手验算、把别家卷子里的数学过失一道道挑出来的,,活脱脱一个改卷子的老西席。。 。。。

Gemini(3.1 Pro Extended)。。 。。。 最爱往题里塞科技场景的一家,,算力本钱、神经网络节点、机械人测试,,题题不离前沿。。 。。。它就是前面 PDF 那节没真读、靠影象答题的那位。。 。。。另外它的卷子里有处公式没渲染出来,,留下一串没剖析的代码符号,,露了点破绽。。 。。。

Genspark(Ultra Mode,,底层 Claude Opus 4.7)。。 。。。 这次的“卷王”,,公认冠军。。 。。。它的卷子险些挑不出数学过失,,是少数全卷零过失的一份;;;;;情境设计也最见功力,,电池衰减、低空经济无人机、自动驾驶算法可靠性,,把“镌汰机械盘算、贴近真真相境”这个近年命题趋势踩得最准。。 。。。面临那份读不全的 PDF,,它的处理也很坦诚,,自动说明自己没读完整、提出要联网搜题,,征得我们赞成后才去搜,,全程摆在台面上。。 。。。它身上的小瑕疵是,,对 2025 年分值结构的判断我们没能找到泉源支持,,疑似是自己脑补的。。 。。。

GLM(GLM-5.1)。。 。。。 版式上很像真卷子,,题号、分值、排版都规整。。 。。。但它也是三方公认的垫底,,AI 偕行把它排末尾,,先生也对它最不客套。。 。。。漂亮的只是壳,,里子全是别家的。。 。。。卷面带参考公式是上海卷的习惯,,大题考等差数列是天下卷的考法,,剖析几何考抛物线北京卷更不会出,,全是硬伤。。 。。。它的选择题选项标号还一度全显示成“A”,,是个挺显着的名堂 bug。。 。。。

Kimi(k2.6-agent)。。 。。。 忠实的那位,,但也像个勤恳却不肯多想一步的执行者,,发明两年读不到就直接往下做,,没想过换个办法调解,,缺乏自动性。。 。。。出的卷子模拟得有模有样,,但偏简朴,,并且由于只看了三年数据,,它是唯逐一个把 T16、T17 押反的,,被 2023 年那次 T16/T17 对调带偏了。。 。。。

MiniMax(MiniMax-M3)。。 。。。 模板做得最漂亮、最规整,,拿去当教辅排版都够用。。 。。。但它也是四个国产模子里天生最慢的,,跑了良久。。 。。。出的题偏简朴,,先生点名它的导数题靠近课后训练的水平。。 。。。唬;;;鼓至烁霾淮蟛恍〉奈诹,,让它出北京卷,,它中途一度写成了上海,,还随手挂上了自家的产品名。。 。。。

Manus(Manus 1.6 Max)。。 。。。 气概平稳、结构完整,,没有特殊出挑的地方,,但也挑不出大误差。。 。。。在普遍偏简朴的这一批里,,它的解答题被先生评为“相对最有水平”的一档,,算是闷声做对了事。。 。。。

尚有个小癖好很盛行,,8 套卷里有 6 套都爱往题里塞 AI、算力、新能源这类科技情境,,Manus 出充电桩笼罩率的对数模子,,Gemini 把神经网络分层节点编成数列,,Genspark 让考生算自动驾驶算法 A、B 的可靠性,,最绝的是 ChatGPT,,它出了道甲、乙、丙三个 AI 模子做统一道数学题的概率题,,让 AI 出的卷子去考 AI 做题。。 。。。而真实北京卷五年才泛起过一次 AI 情境。。 。。。AI 出题,,是真喜欢 cue 自己。。 。。。

先生阅完八套卷,,我上我也被骂

光看分数还不敷,,得听听那位阅了八套卷的先生怎么说。。 。。。他给的判断只有五个字,,整体偏简朴,,这些 AI 出的卷子,,难度比高二下学期的都赶不上。。 。。。

这个判断并不伶仃。。 。。。一项针对高利害医学考试的研究发明,,AI 命制的问题确实更偏简朴、更着重事实影象这类低阶认知,,事实性过失也更多,,整体不如人类专家命制的题。。 。。。一位一线先生的履历之谈,,和这条研究结论对上了。。 。。。

更值得一提的是三方的相互印证。。 。。。AI 评审团把 GLM 排在垫底,,这位先生在完全不知道 AI 怎么评的情形下,,也把 GLM 点成了“最拉垮”的一份,,理由和前面那些硬伤一致。。 。。。人类专家、AI 偕行、尚有凯时AG程序核对,,三条自力的线索,,最后都指向了统一个垫底谜底。。 。。。

至于为什么整体出欠好,,先生给了四条想法,,喂的题太少、只会改数字式的拙劣模拟、天生不出新题型、做不到知识点组合立异。。 。。。前两条我们能在数据里看到,,ChatGPT 和 Genspark 的导数大题撞成险些统一道、还都和 2025 真题同源;;;;;后两条更偏履历之谈,,背后可能是模子天生爱天生高频套路、回避低概率的新结构。。 。。。

最让我们印象深刻的,,是他一句很着实的话。。 。。。“我去出,,肯定比它们出的好许多倍。。 。。。但我出出来,,绝对也是被骂的。。 。。。”由于能押中的着实太少,,连他自己上场也未必高到哪去。。 。。。也就是说,,高考展望这道题,,难的压根不在 AI 这头,,展望问题自己就险些无解。。 。。。

形似,,神不似

哪怕是被先生批得最狠的那几家,,也能把北京卷的骨架、题型、分值漫衍模拟得有模有样。。 。。。

但开奖后差别也清清晰楚,,没有一家真正押中。。 。。。Genspark 在掷中率、AI 互评、亮点分三块都排在最前(掷中率、亮点分都是并列第一),,不过它的领先里有一部分来自中途自动联网搜了更多真题,,这一步它摆在明面上、也经由我们赞成,,和偷偷不读 PDF 的 Gemini 是两回事。。 。。。但即便云云,,离真正押中一张高考卷还差得远。。 。。。

8 家险些都能模拟出北京卷的“形”,,却造不出它的“神”。。 。。。那道每年翻新、逼考生现学现证的新界说压轴题,,是全卷的灵魂,,也是 AI 整体的盲区。。 。。。模拟易,,创立难,,这道坎,,AI 们还没迈已往。。 。。。

附|我们怎么测的

为什么挑高考数学。。 。。。 第一期测宣布会展望,,至少尚有工业链上的爆料、泄露可以蹭。。 。。。高考命题是另一个极端,,它是一个真正密闭的盒子,,外面的人拿不到任何内部信息,,只能从历年真题里抽纪律去赌明年。。 。。。更难的是,,它要求 AI 真的“造”出题来,,检索帮不上忙,,背题也没用,,由于 2026 年的题还不保存。。 。。。读懂、推断、创立,,三件事拴在一起,,任何一步不稳,,最后那套卷就会露馅。。 。。。能不可从有限样本里归纳出真纪律、能不可造出训练数据里没有的新题型,,正是把“会背书的 AI”和“会思索的 AI”脱离的那条线。。 。。。

怎么测。。 。。。 参评的是第一期那 8 家,,所有开到最高推理档、允许联网。。 。。。测试分三阶段,,8 家收到完全相同的 Prompt 和输入质料(2021—2025 五年北京卷真题及剖析合集),,在统一对话里依次完成。。 。。。阶段一逐年逐题标注知识点、归纳纪律,,阶段二按题号展望 2026 年每道题,,阶段三据此出一整套 150 分的模拟卷。。 。。。

怎么评。。 。。。 我们锁定五个维度,,前四个考前就能评(展望逻辑、出卷质量、AI 互评、PDF 忠实度),,第五个是逐题掷中率,,等真题出来才算。。 。。。

展望的逻辑也值得一看。。 。。。??创筇,,8 家像参考了统一份教研纪要,,T16 三角、T17 立几、T18 概率、T19 椭圆、T20 导数、T21 新界说压轴,,这副骨架谁都押中,,连分值结构都对齐;;;;;看小题,,又完全不像一伙人,,T3 到 T14 的浮动区险些没有一道展望完全一致。。 。。。

说明:北京数学官方版高考真题暂未放出,,本次参考真题为多份考后影象版交织验证,,个体问题细节可能有收支,,但知识点框架可靠;;;;;掷中率与亮点分均由该数学先生人工评定审核,,评分细则与 8 份原始试卷见 GitHub。。 。。。

审查完整报告、8 套展望试卷,,可会见 GitHub:https://github.com/pingwest-ai/agent-eval/tree/main/cases/EVAL-002-gaokao-math-2026

点个“爱心”,,再走 吧

@陈昆坤:mgm美高梅,,天下杯转播权为何卖不动了
@彭吉雪:时隔两月伊朗向以色列发动导弹袭击
@吴婉瑜:庆祝中菲建交51周年活动举行

热门排行

【网站地图】