A

金沙手机娱乐

软件大。。167.66KB 更新时间：2026-06-16 22:27:22 软件语言：简体中文运行情形：Android/ios/winall/win7/win10/win11

安卓软件适用工具热门APP 高速下载

连忙下载高速下载

软件先容

金沙手机娱乐使用指南

第一步：导入文件

翻开软件，，，，，，点击"?添加金沙手机娱乐"按钮，，，，，，从电脑中选择《金沙手机娱乐》文件，，，，，，或直接将其拖拽至软件界面中。。

第二步：设置剖析

软件会自动识别并剖析导入的文件，，，，，，您可凭证界面提醒选择所需的生涯路径或下载名堂。。

第三步：最先下载

确认无误后，，，，，，点击"最先下载/处理"按钮。。期待进度条读取完毕，，，，，，即可在设定的文件夹中审查下载好的正版文件。。

硅星人Eval Eps.4 | “AI 押中率98%”？？？？？？我们让8个AI 押了高考数学卷，，，，，，金沙手机娱乐

作者｜周一笑邮箱｜ zhouyixiao@pingwest.com

每年高考前一个月，，，，，，全网都在卖统一种工具，，，，，，押题。。

2025 年最夸张的是几家自媒体打出的“AI 押题掷中率 98%”，，，，，，厥后上海辟谣平台、中国科协接连下场拆穿，，，，，，高考命题严酷保密、AI 拿不到训练数据，，，，，，加上年年反押题反套路，，，，，，靠 AI 押中几无可能。。

押题是迎合焦虑，，，，，，我们想做的是反过来戳破它。。

今年高考前夕，，，，，，硅星人 AI 前沿团队把统一份 Prompt 发给 8 个全球主流的 AI Agent 产品，，，，，，让它们各自走完三步，，，，，，剖析近年北京卷的命题纪律，，，，，，展望 2026 年会怎么考，，，，，，再亲手出一整套 2026 模拟卷。。然后我们把 8 套卷匿名打乱，，，，，，让这 8 个 AI 相互盲评打分。。最后请一位向导过多届北京高三学生的数学先生，，，，，，逐套审读，，，，，，并在考后对着真题逐题核对了掷中率。。

没有“98%”。。这位先生的判断是，，，，，，除了选择、填空、大题第一道这些送分位，，，，，，所有 AI 的展望里真能踩到点上的，，，，，，加起来也超不过两成。。

这是 Agent Eval 系列第二期。。，，，，，，这期的高考展望却是个密闭盒子，，，，，，没有标准谜底、还必需真造出新题。。详细怎么测、为什么挑高考数学，，，，，，放在文末，，，，，，先看效果。。

谁押注的更准

6 月 7 日考完后，，，，，，我们从两个角度给这 8 家打了分。。一个客观，，，，，，逐题核对它们的展望有没有押中真题的知识点；；；；一个主观，，，，，，请那位数学先生按“每套卷有几个亮点”打分，，，，，，看卷子究竟出得好欠好。。

先说客观的掷中率（共 21 题，，，，，，按掷中的知识点数计）：

区分度比我们预想的显着，，，，，，从 9 题到 4 题，，，，，，差了一倍多。。牢靠考点谁都押得中、拉不开差别，，，，，，真正分高下的是中心那十几道浮动小题。。并列垫底的 Manus 和 GLM 里，，，，，，GLM 更离谱，，，，，，好几道大题的题号都对不上（押 T17 数列、T19 概率、T20 抛物线），，，，，，基本是错位的。。

两处效果值得单说，，，，，，一处是赌局，，，，，，一处是整体翻车。。

赌局在 T21 压轴。。真题是一道关于 ±1 数表的新界说题，，，，，，偏向是组合、不是数列。？？？？？？记岸摹八丫氡鹗小⒆蜃楹稀钡 Claude、Gemini、Genspark、Manus 赌对了，，，，，，坚持押“照旧数列”的 ChatGPT、MiniMax、Kimi 错了，，，，，，而 GLM 连压轴该出新界说都没做到，，，，，，直接放了道通俗导数题。。

翻车在 T17、T18。。真题这次把这两道大题对调了，，，，，，T17 改考概率、T18 改考立几。。没有一家推测这次对调，，，，，，大大都仍按老纪律押 T17 立体几何、T18 概率，，，，，，这两道大题上整体失分。。

再说主观的亮点分：

先生对每套卷的锐评，，，，，，节选几句：Genspark“第 8 题押中了类似题，，，，，，大题对味，，，，，，概率题配景富厚”；；；；Gemini“不但模拟还会改编，，，，，，把 2022 年高考第 10 题改了角度、升了难度，，，，，，导数考极值点偏移，，，，，，绝对是 8 套里最难的”；；；；

MiniMax“椭圆大题是 8 套里最佳，，，，，，但导数高二期末压轴都不会这么简朴”；；；；Claude“第 10 题照着 2022 年高考只改了几个数字”；；；；ChatGPT“导数乍一看很唬人，，，，，，稍加盘算就发明很简朴”；；；；垫底的 GLM“卷面竟带参考公式、大题居然考等差数列、剖析几何考抛物线，，，，，，嫌疑究竟有没有看过北京卷，，，，，，可能是穿越了”。。

两份榜单比照着看很有意思。。Genspark 两头都第一、GLM 两头都垫底，，，，，，没悬念。。但中心几家错位显着，，，，，，Kimi 掷中率并列第一，，，，，，亮点分却只有 60；；；；Gemini 掷中率才中游，，，，，，亮点分却并列第一。。押得准和出得好，，，，，，是两回事。。

几个没推测的发明

AI 整体不自恋

把 8 套卷匿名打乱、编号“卷一”到“卷八”，，，，，，再发回给这 8 个 AI，，，，，，让它们以教研员的身份盲评打分、排着名次。。它们会不会偷偷给自己打高分？？？？？？

为了让这一问问得清洁，，，，，，我们做了几层隔离。。每套卷都抹掉了来由痕迹、统一了排版，，，，，，让模子认不出哪份是自己写的；；；；评审一律开新对话举行，，，，，，关掉影象、开启隐私模式，，，，，，不让它带着“我上周出过一套卷”的印象来打分。。我们自己则留了一张比照表，，，，，，记下每个编号对应的真身，，，，，，专门盯着对角线那八格，，，，，，看谁给自己排了第几。。

大模子的“自我偏幸”是学界公认的老问题，，，，，，让模子评价一堆内容，，，，，，其中混着它自己的产出，，，，，，它往往会不自觉地高看自己一眼。。匿名之后，，，，，，这个偏幸还在不在，，，，，，正是我们想看的。。

8 个 AI 里，，，，，，只有 1 个把自己排在了第一。。并且这唯一的“自封第一”还情有可原，，，，，，它是 Genspark，，，，，，而它那套卷子原来就是全场公认的冠军，，，，，，六家都把它排进了前二。。连这一票“自恋”都是实至名归。。

更意外的是反偏向。。GLM 把自己的卷子排到了全场垫底，，，，，，第八名。。Kimi 给自己排第五。。其余几家也都老忠实实待在中游，，，，，，没谁往上抬自己。。扫除 Genspark 这个特殊点后，，，，，，剩下几家给自己打的平均名次，，，，，，比“随机乱排”的期望还要低一点点，，，，，，没有谁显着自抬身价。。

这批通用 Agent，，，，，，非但没体现出传说中的自我偏幸，，，，，，反而有点严于律己。。说它们谦逊倒未必，，，，，，更准确的说法是，，，，，，它们真的能看出自己作品的误差。。GLM 那套卷子确实有硬伤，，，，，，Kimi 自己也清晰只剖析了三年数据底气缺乏（原因下一节讲）。。能在匿名的条件下，，，，，，准确地把自己的短板也评进去，，，，，，这自己是一种值得肯定的判断力。。

顺带说一个离群点。。8 个 AI 里，，，，，，唯独 ChatGPT 跟各人拧着来，，，，，，它把公认冠军的那套卷压到了第六，，，，，，转头把另一套卷捧上了第一。。审美这件事，，，，，，AI 之间也对不上。。

一份 PDF，，，，，，测出了谁更忠实

我们喂给 8 家的那份真题 PDF，，，，，，有两年（2021 和 2024）是扫描图片，，，，，，机械直接抽取文本是抽不出来的。。这本是个失误，，，，，，但阴差阳错，，，，，，反而成了这次评测里最意外的收获。。它即是给所有 Agent 出了一道现实里极其常见的难题，，，，，，手上的资料是残破的，，，，，，你怎么办。。一个 Agent 诚不忠实、靠不靠谱，，，，，，往往就藏在它对这种残破的反映里。。8 家的应对，，，，，，清清晰楚地分成了三档。。

忠实的一档，，，，，，Kimi。。它在报告开头就专门写了一段说明，，，，，，显着确白地告诉我们，，，，，，这份 PDF 它只读到了 2022、2023、2025 三年，，，，，，2021 和 2024 没找到，，，，，，以是后面的剖析只基于这三年。。它没有为了凑齐五年去编，，，，，，宁愿信息少一点，，，，，，也不瞎搅。。

中心一档，，，，，，GLM、Manus、MiniMax。。它们都声称剖析了完整五年，，，，，，并且我们去核对了它们对 2021、2024 的知识点标注，，，，，，居然是对的。。好比 GLM 标的 2021 年第 18 题“核酸检测概率”、第 6 题“党旗规格的等差数列”，，，，，，跟真题一字不差。。这说明它们要么真的用了别的方式（图像识别、联网检索）补上了，，，，，，要么调动了自己脑子里的存货，，，，，，能力是够的。。唯一的问题是，，，，，，它们全程没提一句“这两年着实是图片、我是另想步伐拿到的”，，，，，，让你以为一切顺遂。；；；；钍歉傻搅，，，，，，但少了一句本该有的交接。。

最值得说的一档，，，，，，Gemini。。我们一最先没看出问题，，，，，，直到追问它是怎么读取 PDF 的，，，，，，它才认可，，，，，，自己基础没真正读那份 PDF，，，，，，是凭训练时记着的北京卷问题直接答的。。前面那套煞有介事的“五年剖析”，，，，，，并不是基于我们给的质料做出来的。。真用起来这是个隐患，，，，，，你以为它在认真读你给的文件，，，，，，它着实在凭印象自由施展。。

谁较真，，，，，，谁偷懒，，，，，，谁穿越了

挨个说说这 8 家的历程体现。。

ChatGPT（GPT-5.5 Thinking Extended）。。最省心的一家，，，，，，直接吐出一份排版好的 PDF 试卷，，，，，，拿来就能用。。展望也最“教科书”，，，，，，结构判断稳、剖析完整。。它就是前面互评里谁人离群值，，，，，，全场就它把公认冠军压到第六。。出的题偏通例、偏稳，，，，，，没什么花活，，，，，，但也险些不蜕化。。

Claude（Opus 4.8 Max）。。最“较真”的一家。。为了把数学公式渲染悦目，，，，，，它自己想了套方案，，，，，，先天生 Markdown，，，，，，再转成带 MathJax 的 HTML，，，，，，最后用浏览器打印成 PDF，，，，，，思索时间长得出奇。。这股较真劲也用在了盲评上，，，，，，它是唯逐一个逐题下手验算、把别家卷子里的数学过失一道道挑出来的，，，，，，活脱脱一个改卷子的老西席。。

Gemini（3.1 Pro Extended）。。最爱往题里塞科技场景的一家，，，，，，算力本钱、神经网络节点、机械人测试，，，，，，题题不离前沿。。它就是前面 PDF 那节没真读、靠影象答题的那位。。另外它的卷子里有处公式没渲染出来，，，，，，留下一串没剖析的代码符号，，，，，，露了点破绽。。

Genspark（Ultra Mode，，，，，，底层 Claude Opus 4.7）。。这次的“卷王”，，，，，，公认冠军。。它的卷子险些挑不出数学过失，，，，，，是少数全卷零过失的一份；；；；情境设计也最见功力，，，，，，电池衰减、低空经济无人机、自动驾驶算法可靠性，，，，，，把“镌汰机械盘算、贴近真真相境”这个近年命题趋势踩得最准。。面临那份读不全的 PDF，，，，，，它的处理也很坦诚，，，，，，自动说明自己没读完整、提出要联网搜题，，，，，，征得我们赞成后才去搜，，，，，，全程摆在台面上。。它身上的小瑕疵是，，，，，，对 2025 年分值结构的判断我们没能找到泉源支持，，，，，，疑似是自己脑补的。。

GLM（GLM-5.1）。。版式上很像真卷子，，，，，，题号、分值、排版都规整。。但它也是三方公认的垫底，，，，，，AI 偕行把它排末尾，，，，，，先生也对它最不客套。。漂亮的只是壳，，，，，，里子全是别家的。。卷面带参考公式是上海卷的习惯，，，，，，大题考等差数列是天下卷的考法，，，，，，剖析几何考抛物线北京卷更不会出，，，，，，全是硬伤。。它的选择题选项标号还一度全显示成“A”，，，，，，是个挺显着的名堂 bug。。

Kimi（k2.6-agent）。。忠实的那位，，，，，，但也像个勤恳却不肯多想一步的执行者，，，，，，发明两年读不到就直接往下做，，，，，，没想过换个办法调解，，，，，，缺乏自动性。。出的卷子模拟得有模有样，，，，，，但偏简朴，，，，，，并且由于只看了三年数据，，，，，，它是唯逐一个把 T16、T17 押反的，，，，，，被 2023 年那次 T16/T17 对调带偏了。。

MiniMax（MiniMax-M3）。。模板做得最漂亮、最规整，，，，，，拿去当教辅排版都够用。。但它也是四个国产模子里天生最慢的，，，，，，跑了良久。。出的题偏简朴，，，，，，先生点名它的导数题靠近课后训练的水平。；；；；鼓至烁霾淮蟛恍〉奈诹，，，，，，让它出北京卷，，，，，，它中途一度写成了上海，，，，，，还随手挂上了自家的产品名。。

Manus（Manus 1.6 Max）。。气概平稳、结构完整，，，，，，没有特殊出挑的地方，，，，，，但也挑不出大误差。。在普遍偏简朴的这一批里，，，，，，它的解答题被先生评为“相对最有水平”的一档，，，，，，算是闷声做对了事。。

尚有个小癖好很盛行，，，，，，8 套卷里有 6 套都爱往题里塞 AI、算力、新能源这类科技情境，，，，，，Manus 出充电桩笼罩率的对数模子，，，，，，Gemini 把神经网络分层节点编成数列，，，，，，Genspark 让考生算自动驾驶算法 A、B 的可靠性，，，，，，最绝的是 ChatGPT，，，，，，它出了道甲、乙、丙三个 AI 模子做统一道数学题的概率题，，，，，，让 AI 出的卷子去考 AI 做题。。而真实北京卷五年才泛起过一次 AI 情境。。AI 出题，，，，，，是真喜欢 cue 自己。。

先生阅完八套卷，，，，，，我上我也被骂

光看分数还不敷，，，，，，得听听那位阅了八套卷的先生怎么说。。他给的判断只有五个字，，，，，，整体偏简朴，，，，，，这些 AI 出的卷子，，，，，，难度比高二下学期的都赶不上。。

这个判断并不伶仃。。一项针对高利害医学考试的研究发明，，，，，，AI 命制的问题确实更偏简朴、更着重事实影象这类低阶认知，，，，，，事实性过失也更多，，，，，，整体不如人类专家命制的题。。一位一线先生的履历之谈，，，，，，和这条研究结论对上了。。

更值得一提的是三方的相互印证。。AI 评审团把 GLM 排在垫底，，，，，，这位先生在完全不知道 AI 怎么评的情形下，，，，，，也把 GLM 点成了“最拉垮”的一份，，，，，，理由和前面那些硬伤一致。。人类专家、AI 偕行、尚有凯时AG程序核对，，，，，，三条自力的线索，，，，，，最后都指向了统一个垫底谜底。。

至于为什么整体出欠好，，，，，，先生给了四条想法，，，，，，喂的题太少、只会改数字式的拙劣模拟、天生不出新题型、做不到知识点组合立异。。前两条我们能在数据里看到，，，，，，ChatGPT 和 Genspark 的导数大题撞成险些统一道、还都和 2025 真题同源；；；；后两条更偏履历之谈，，，，，，背后可能是模子天生爱天生高频套路、回避低概率的新结构。。

最让我们印象深刻的，，，，，，是他一句很着实的话。。“我去出，，，，，，肯定比它们出的好许多倍。。但我出出来，，，，，，绝对也是被骂的。。”由于能押中的着实太少，，，，，，连他自己上场也未必高到哪去。。也就是说，，，，，，高考展望这道题，，，，，，难的压根不在 AI 这头，，，，，，展望问题自己就险些无解。。

形似，，，，，，神不似

哪怕是被先生批得最狠的那几家，，，，，，也能把北京卷的骨架、题型、分值漫衍模拟得有模有样。。

但开奖后差别也清清晰楚，，，，，，没有一家真正押中。。Genspark 在掷中率、AI 互评、亮点分三块都排在最前（掷中率、亮点分都是并列第一），，，，，，不过它的领先里有一部分来自中途自动联网搜了更多真题，，，，，，这一步它摆在明面上、也经由我们赞成，，，，，，和偷偷不读 PDF 的 Gemini 是两回事。。但即便云云，，，，，，离真正押中一张高考卷还差得远。。

8 家险些都能模拟出北京卷的“形”，，，，，，却造不出它的“神”。。那道每年翻新、逼考生现学现证的新界说压轴题，，，，，，是全卷的灵魂，，，，，，也是 AI 整体的盲区。。模拟易，，，，，，创立难，，，，，，这道坎，，，，，，AI 们还没迈已往。。

附｜我们怎么测的

为什么挑高考数学。。第一期测宣布会展望，，，，，，至少尚有工业链上的爆料、泄露可以蹭。。高考命题是另一个极端，，，，，，它是一个真正密闭的盒子，，，，，，外面的人拿不到任何内部信息，，，，，，只能从历年真题里抽纪律去赌明年。。更难的是，，，，，，它要求 AI 真的“造”出题来，，，，，，检索帮不上忙，，，，，，背题也没用，，，，，，由于 2026 年的题还不保存。。读懂、推断、创立，，，，，，三件事拴在一起，，，，，，任何一步不稳，，，，，，最后那套卷就会露馅。。能不可从有限样本里归纳出真纪律、能不可造出训练数据里没有的新题型，，，，，，正是把“会背书的 AI”和“会思索的 AI”脱离的那条线。。

怎么测。。参评的是第一期那 8 家，，，，，，所有开到最高推理档、允许联网。。测试分三阶段，，，，，，8 家收到完全相同的 Prompt 和输入质料（2021—2025 五年北京卷真题及剖析合集），，，，，，在统一对话里依次完成。。阶段一逐年逐题标注知识点、归纳纪律，，，，，，阶段二按题号展望 2026 年每道题，，，，，，阶段三据此出一整套 150 分的模拟卷。。

怎么评。。我们锁定五个维度，，，，，，前四个考前就能评（展望逻辑、出卷质量、AI 互评、PDF 忠实度），，，，，，第五个是逐题掷中率，，，，，，等真题出来才算。。

展望的逻辑也值得一看。？？？？？？创筇，，，，，，8 家像参考了统一份教研纪要，，，，，，T16 三角、T17 立几、T18 概率、T19 椭圆、T20 导数、T21 新界说压轴，，，，，，这副骨架谁都押中，，，，，，连分值结构都对齐；；；；看小题，，，，，，又完全不像一伙人，，，，，，T3 到 T14 的浮动区险些没有一道展望完全一致。。

说明：北京数学官方版高考真题暂未放出，，，，，，本次参考真题为多份考后影象版交织验证，，，，，，个体问题细节可能有收支，，，，，，但知识点框架可靠；；；；掷中率与亮点分均由该数学先生人工评定审核，，，，，，评分细则与 8 份原始试卷见 GitHub。。

审查完整报告、8 套展望试卷，，，，，，可会见 GitHub：https://github.com/pingwest-ai/agent-eval/tree/main/cases/EVAL-002-gaokao-math-2026

点个“爱心”，，，，，，再走吧

软件截图

软件信息

软件名称	金沙手机娱乐
软件版本	v5.48
软件巨细	2.87GB
软件分类	工具软件
运行平台	Android/ios/winall/win7/win10/win11
软件授权	免费版

装置教程

1、翻开软件，，，，，，点击"?添加金沙手机娱乐"按钮，，，，，，从电脑中选择《金沙手机娱乐》文件，，，，，，或直接将其拖拽至软件界面中。。

2、软件会自动识别并剖析导入的文件，，，，，，您可凭证界面提醒选择所需的生涯路径或下载名堂。。

3、确认无误后，，，，，，点击"最先下载/处理"按钮。。期待进度条读取完毕，，，，，，即可在设定的文件夹中审查下载好的正版文件。。

凯时AG

金沙手机娱乐

软件先容

金沙手机娱乐使用指南

第一步：导入文件

第二步：设置剖析

第三步：最先下载

软件截图

软件信息

装置教程

相关推荐

热门下载

推荐专题

外部信息