砍掉自力编码器:Gemma 4 12B推翻多模态"拼接设计"
文 | AI唱反调
一个 12B模子,,凭什么让26B MoE主要??????
2026年6月4日,,Google宣布Gemma 4 12B。。。。官方定位很榨取:介于E4B与26B MoE之间的中端型号,,能跑16GB条记本,,Apache 2.0开源。。。。
DeepMind科学家Michael Tschannen的推文泄露了另一层意图。。。。"已往几年我的研究重点是统一跨模态的模子和训练范式。。。。今天宣布的Gemma 4 12B,,直接处理原始文本、图像和音频输入。。。。"
要害词是"直接"。。。。"支持""融合"都禁绝,,只有一个词能概括:直接。。。。
绝大大都科技自媒体只盯着16G条记本、开源免费两个噱头,,完全无视这次宣布真正倾覆多模态行业的底层架构刷新。。。。这也是12B能威胁26B MoE的焦点密码。。。。
大都报道把"无编码器"解读为减法:用35M轻量嵌入替换数百兆的ViT,,显存从15GB压到9GB,,恰恰塞进消耗级条记本。。。。这个解读没错,,但遗漏了更底层的工具。。。。
若仅以降低显存为目的,,Google完万能通过量化蒸馏刷新现有26B MoE,,没须要从零重构整套多模态架构。。。。Gemma 4 12B是重新设计的,,它要做的不是把模子做小,,而是让原始音画无损直通LLM。。。。
古板多模态的巴别塔逆境:编码器翻译必定消耗信息
已往三年,,主流多模态模子,,LLaVA、GPT-4V、甚至Gemma 4 26B,,实质上都是拼接怪。。。。内部结构大同小异:
ViT编码器(通常12-24层)把图像切成patch,,提取特征向量;;;Conformer或Whisper编码器把声波转成梅尔频谱,,提取声学特征。。。。然后两者划分经由对齐层,,投影到LLM的文本向量空间。。。。最后,,语言模子才最先处理这些被转换过的信息。。。。
这个架构能事情,,但有一个结构性缺陷:信息在抵达LLM之前,,已经由至少一次压缩和转换。。。。 ViT输出的是高维特征向量,,原始像素已经不保存;;;Conformer输出的是声学特征体现,,原始声波已经不保存。。。。LLM拿到的是经由压缩提炼的高层特征,,丧失大宗原始画面的空间细节和音频的时序纹理。。。。
三种模态的优化目的也相互割裂。。。。ViT学图像分类,,Conformer学语音识别,,LLM学文本展望。。。。拼接时需要用特殊训练弥合差别,,"学了看图忘了语言"的灾难性遗忘重复泛起。。。。
编码器自己没做错什么。。。。错的是"必需分层转译"的架构规则。。。。压缩转换一旦爆发,,信息消耗就不可逆。。。。
Gemma 4 12B没妄想修这条管道,,它直接把管道拆了。。。。
视觉扬弃了古板ViT编码器,,改用35M轻量嵌入??????。。。。单次矩阵乘法 + 2D坐标嵌入 + 归一化,,图像块直接映射到与文本Token相同的向量空间,,然后进入Transformer主干的注重力盘算。。。。提取特征酿成了直接投影。。。。
音频更彻底。。。。彻底移除音频编码器,,原始音频信号直接投影到文本Token的向量空间。。。。不做频谱转换,,不做声学特征提取,,原始声波直接进模子。。。。
古板架构是"划分处理再拼接",,Gemma 4 12B是"混淆Token序列统一处理"。。。。图像Token、音频Token、文本Token按顺序排列,,进入统一的Transformer主干后,,由统一套注重力机制处理,,共享主干网络的权重和推理逻辑。。。。
投影层自己因模态特征而异。。。。视觉需2D坐标嵌入,,音频需时序切片。。。。但进入主干后,,三种模态的表征空间和盘算逻辑完全统一。。。。
这就是Tschannen说的"统一"。。。。功效层面的"支持多模态"太浅了。。。。架构层面的"所有模态共享统一套表征空间"才是。。。。
实测迫近 26B MoE:架构效率正在改写游戏规则
atomic.chat的实测数据很能说明问题:RTX 4090上,,12B天生8.9k Token的物理模拟代码,,显存仅9GB,,性能迫近26B MoE的15GB设置。。。。二者参数差别高达140亿,,12B用不到一半的显存,,跑出了旗舰模子超半数的速率,,代码天生质量、物理逻辑推理能力险些无差别。。。。
过往大厂内卷思绪永远是堆MoE、堆参数目抬升性能,,而Gemma 4 12B证实:优化架构同样能追平旗舰效果,,直接摇动"靠堆参数取胜"的行业惯性研发思绪。。。。这才是26B级大模子蹊径倍感主要的泉源。。。。
显存大幅缩减,,无编码器设计是主要因素之一。。。。没有自力编码器的特殊内存开销,,也没有编码器与主干之间的特征对齐消耗。。。。但性能迫近26B是多重优化配相助用的效果,,训练数据配比、架构效率提升都有孝顺,,不可简单归因。。。。
真正的信号在于:Gemma 4 12B证实晰"无编码器统一架构"在中等规模模子上的量产可行性。。。。
这个验证完成以后,,事情最先往几个偏向传导。。。。
LoRA等轻量微调要领可以直接作用于Transformer主干,,理论上能同步优化全模态回路。。。。不再需要划分维护编码器和主干,,不再需要为对齐问题头疼。。。。详细微调效果还得等自力验证,,Google自己也没宣布官方消融实验。。。。
硬件门槛的转变卦直观。。。。多模态推理从"双路事情站"降到了"单张消耗级显卡",,9GB显存跑原生多模态,,这个门槛直接决议了它能不可进入通俗开发者的事情流。。。。
生态层面也有想象空间。。。。统一嵌入空间在架构理论上预留了扩展接口,,新增模态理论上只需定制专属投影层即可接入主干。。。。但"可接入"和"可用"是两回事,,配套的训练数据、使命设计和专项调优缺一不可。。。。"零本钱新增模态"是幻觉,,"架构层面的可能性"才是准确的形貌。。。。
界线与分水岭:架构领先不即是万能,,但偏向已经确立
必需忠实交接:Gemma 4 12B面临凌驾三步的重大串联使命、多工具联动场景,,仍会泛起妄想幻觉、路径偏移的问题。。。。这不算否认它的理由,,只说明它正处于从"能对话"到"能做事"的过渡期。。。。
早期智能手机的触屏也不敷迅速,,但偏向已经确立。。。。无编码器统一架构的验证已经完成,,剩下的工程优化只是时间问题。。。。
Gemma 4 12B的宣布很容易被淹没在"又发了一个模子"的信息噪音中。。。。但把视线从参数表移开,,看向架构图,,会看到一个清晰的信号:
多模态AI的研发逻辑,,正在从"为每种模态设计专用转换器再拼接",,转向"所有模态共享统一套注重力机制"。。。。
12B参数不是重点。。。。它证实晰,,多模态的"大一统"不需要靠堆??????槭迪,,统一体现空间就够了。。。。
未来两年,,当业界回首2026年的多模态希望时,,Gemma 4 26B的基准分数会被遗忘,,Gemma 4 12B的架构选择会被重复引用。。。。它是第一个在中等规模、可商用、可外地安排的模子上,,验证了"无编码器统一架构"的量产可行性。。。。
26B 打赢了当下的性能战,,12B 改写了未来多模态的底层规则。。。。
@杨舒紫:17c.com白丝喷水 自视频,,高三最后一次??????季砦灿锟纯蘅忌@谢懿富:被制裁的菲防长曾钻后厨躲中国记者
@杜晓雨:女子清猫砂遭爱猫突袭 颅部3级损伤
热门排行
- 1 十八禁 摸下载
- 2 小马拉大车免费版播放时间
- 3 91日韩欧美
- 4 自w的视频
- 5 2026精品一区二区三
- 6 朋友的妈妈:爱欲之日免费看
- 7 jizz一直
- 8 欧美金8天国
- 9 丝瓜视频在线观看