凯时AG

2026-06-15 14:32:50 设为首页 | 加入珍藏

砍掉自力编码器:Gemma 4 12B推翻多模态"拼接设计"

2026-06-15 14:32:50 宣布 泉源:网易游戏 作者:徐毓俊 浏览:2684次

文 | AI唱反调

一个 12B模子,,,,, ,凭什么让26B MoE主要????

2026年6月4日,,,,, ,Google宣布Gemma 4 12B。 。官方定位很榨取:介于E4B与26B MoE之间的中端型号,,,,, ,能跑16GB条记本,,,,, ,Apache 2.0开源。 。

DeepMind科学家Michael Tschannen的推文泄露了另一层意图。 。"已往几年我的研究重点是统一跨模态的模子和训练范式。 。今天宣布的Gemma 4 12B,,,,, ,直接处理原始文本、图像和音频输入。 。"

要害词是"直接"。 。"支持""融合"都禁绝,,,,, ,只有一个词能概括:直接。 。

绝大大都科技自媒体只盯着16G条记本、开源免费两个噱头,,,,, ,完全无视这次宣布真正倾覆多模态行业的底层架构刷新。 。这也是12B能威胁26B MoE的焦点密码。 。

大都报道把"无编码器"解读为减法:用35M轻量嵌入替换数百兆的ViT,,,,, ,显存从15GB压到9GB,,,,, ,恰恰塞进消耗级条记本。 。这个解读没错,,,,, ,但遗漏了更底层的工具。 。

若仅以降低显存为目的,,,,, ,Google完万能通过量化蒸馏刷新现有26B MoE,,,,, ,没须要从零重构整套多模态架构。 。Gemma 4 12B是重新设计的,,,,, ,它要做的不是把模子做小,,,,, ,而是让原始音画无损直通LLM。 。

古板多模态的巴别塔逆境:编码器翻译必定消耗信息

已往三年,,,,, ,主流多模态模子,,,,, ,LLaVA、GPT-4V、甚至Gemma 4 26B,,,,, ,实质上都是拼接怪。 。内部结构大同小异:

ViT编码器(通常12-24层)把图像切成patch,,,,, ,提取特征向量;;Conformer或Whisper编码器把声波转成梅尔频谱,,,,, ,提取声学特征。 。然后两者划分经由对齐层,,,,, ,投影到LLM的文本向量空间。 。最后,,,,, ,语言模子才最先处理这些被转换过的信息。 。

这个架构能事情,,,,, ,但有一个结构性缺陷:信息在抵达LLM之前,,,,, ,已经由至少一次压缩和转换。 。 ViT输出的是高维特征向量,,,,, ,原始像素已经不保存;;Conformer输出的是声学特征体现,,,,, ,原始声波已经不保存。 。LLM拿到的是经由压缩提炼的高层特征,,,,, ,丧失大宗原始画面的空间细节和音频的时序纹理。 。

三种模态的优化目的也相互割裂。 。ViT学图像分类,,,,, ,Conformer学语音识别,,,,, ,LLM学文本展望。 。拼接时需要用特殊训练弥合差别,,,,, ,"学了看图忘了语言"的灾难性遗忘重复泛起。 。

编码器自己没做错什么。 。错的是"必需分层转译"的架构规则。 。压缩转换一旦爆发,,,,, ,信息消耗就不可逆。 。

Gemma 4 12B没妄想修这条管道,,,,, ,它直接把管道拆了。 。

视觉扬弃了古板ViT编码器,,,,, ,改用35M轻量嵌入模???椤 。单次矩阵乘法 + 2D坐标嵌入 + 归一化,,,,, ,图像块直接映射到与文本Token相同的向量空间,,,,, ,然后进入Transformer主干的注重力盘算。 。提取特征酿成了直接投影。 。

音频更彻底。 。彻底移除音频编码器,,,,, ,原始音频信号直接投影到文本Token的向量空间。 。不做频谱转换,,,,, ,不做声学特征提取,,,,, ,原始声波直接进模子。 。

古板架构是"划分处理再拼接",,,,, ,Gemma 4 12B是"混淆Token序列统一处理"。 。图像Token、音频Token、文本Token按顺序排列,,,,, ,进入统一的Transformer主干后,,,,, ,由统一套注重力机制处理,,,,, ,共享主干网络的权重和推理逻辑。 。

投影层自己因模态特征而异。 。视觉需2D坐标嵌入,,,,, ,音频需时序切片。 。但进入主干后,,,,, ,三种模态的表征空间和盘算逻辑完全统一。 。

这就是Tschannen说的"统一"。 。功效层面的"支持多模态"太浅了。 。架构层面的"所有模态共享统一套表征空间"才是。 。

实测迫近 26B MoE:架构效率正在改写游戏规则

atomic.chat的实测数据很能说明问题:RTX 4090上,,,,, ,12B天生8.9k Token的物理模拟代码,,,,, ,显存仅9GB,,,,, ,性能迫近26B MoE的15GB设置。 。二者参数差别高达140亿,,,,, ,12B用不到一半的显存,,,,, ,跑出了旗舰模子超半数的速率,,,,, ,代码天生质量、物理逻辑推理能力险些无差别。 。

过往大厂内卷思绪永远是堆MoE、堆参数目抬升性能,,,,, ,而Gemma 4 12B证实:优化架构同样能追平旗舰效果,,,,, ,直接摇动"靠堆参数取胜"的行业惯性研发思绪。 。这才是26B级大模子蹊径倍感主要的泉源。 。

显存大幅缩减,,,,, ,无编码器设计是主要因素之一。 。没有自力编码器的特殊内存开销,,,,, ,也没有编码器与主干之间的特征对齐消耗。 。但性能迫近26B是多重优化配相助用的效果,,,,, ,训练数据配比、架构效率提升都有孝顺,,,,, ,不可简单归因。 。

真正的信号在于:Gemma 4 12B证实晰"无编码器统一架构"在中等规模模子上的量产可行性。 。

这个验证完成以后,,,,, ,事情最先往几个偏向传导。 。

LoRA等轻量微调要领可以直接作用于Transformer主干,,,,, ,理论上能同步优化全模态回路。 。不再需要划分维护编码器和主干,,,,, ,不再需要为对齐问题头疼。 。详细微调效果还得等自力验证,,,,, ,Google自己也没宣布官方消融实验。 。

硬件门槛的转变卦直观。 。多模态推理从"双路事情站"降到了"单张消耗级显卡",,,,, ,9GB显存跑原生多模态,,,,, ,这个门槛直接决议了它能不可进入通俗开发者的事情流。 。

生态层面也有想象空间。 。统一嵌入空间在架构理论上预留了扩展接口,,,,, ,新增模态理论上只需定制专属投影层即可接入主干。 。但"可接入"和"可用"是两回事,,,,, ,配套的训练数据、使命设计和专项调优缺一不可。 。"零本钱新增模态"是幻觉,,,,, ,"架构层面的可能性"才是准确的形貌。 。

界线与分水岭:架构领先不即是万能,,,,, ,但偏向已经确立

必需忠实交接:Gemma 4 12B面临凌驾三步的重大串联使命、多工具联动场景,,,,, ,仍会泛起妄想幻觉、路径偏移的问题。 。这不算否认它的理由,,,,, ,只说明它正处于从"能对话"到"能做事"的过渡期。 。

早期智能手机的触屏也不敷迅速,,,,, ,但偏向已经确立。 。无编码器统一架构的验证已经完成,,,,, ,剩下的工程优化只是时间问题。 。

Gemma 4 12B的宣布很容易被淹没在"又发了一个模子"的信息噪音中。 。但把视线从参数表移开,,,,, ,看向架构图,,,,, ,会看到一个清晰的信号:

多模态AI的研发逻辑,,,,, ,正在从"为每种模态设计专用转换器再拼接",,,,, ,转向"所有模态共享统一套注重力机制"。 。

12B参数不是重点。 。它证实晰,,,,, ,多模态的"大一统"不需要靠堆模???槭迪,,,,, ,统一体现空间就够了。 。

未来两年,,,,, ,当业界回首2026年的多模态希望时,,,,, ,Gemma 4 26B的基准分数会被遗忘,,,,, ,Gemma 4 12B的架构选择会被重复引用。 。它是第一个在中等规模、可商用、可外地安排的模子上,,,,, ,验证了"无编码器统一架构"的量产可行性。 。

26B 打赢了当下的性能战,,,,, ,12B 改写了未来多模态的底层规则。 。

胡志强的祖辈是浙江永康乡下的铁匠。 。永康被称为“五金之都”,,,,, ,打铁是许多人祖传的营生。 。

责任编辑:陈嘉勋    校对:陈文军

今日热门

  1. 外洋华裔青少年“学中文·讲故事” 在桂体验中华文化魅力
  2. 5月26日人民币对美元中心价报6.8288 上调30个基点
  3. 华泰制药旗下一款集采药品保存严重缺陷,,,,, ,被暂停生产
  4. 菲律宾南部强震已造成32人殒命
  5. 香港“中华文化节2026”启幕 舞剧《白蛇》同步上演
  6. 铭刻百年工运历史 谱写广州工运华章
  7. 2026年六五情形日国家主场活动在广州举行
  8. 一习话·追光的你丨“向每一位辛勤支付的奋斗者致敬”
  9. “鞠萍姐姐”,,,,, ,今日正式退休,,,,, ,网友:我的童年结业了
  10. 2026长江经济带龙舟约请赛开赛 近40支步队在赣挥桨竞渡

相关推荐

【网站地图】