智工具作者 陈骏达编辑 漠影
智工具6月11日报道,,,,,本周,,,,,智象未来(HiDream.ai)推出了其最新商用国界像天生模子HiDream-O1-Image-1.5,,,,,并在全球着名AI模子评测平台Artificial Analysis上拿下总榜第三、海内第一的效果。。
这一模子的ELO得分凌驾了Google Nano Banana 2、NVIDIA Cosmos3-Super-Text2Image和字节跳动的Seedream 4.0等海内外大厂的主流图像天生模子,,,,,和GPT-Image 1.5也仅有一分之差。。
按厂商排名来看,,,,,智象未来已经是全球第二、海内第一的生图模子玩家了。。
HiDream-O1-Image-1.5使用的是一套名为“原生全模态”的新架构,,,,,此前已在开源模子HiDream-O1-Image上获得验证。。在该架构中,,,,,图像像素、文本Token、视频体素等模态信号,,,,,从模子底层就被映射进统一个共享空间,,,,,用一套统一的Transformer来明确和天生。。
但榜单和手艺细节之外,,,,,我们更想知道的谜底是:这一模子现适用起来感受事实怎样,,,,,把它和外洋顶流拉到统一个擂台上真刀真枪比一场,,,,,谁能赢?????
现在,,,,,HiDream-O1-Image-1.5已在智象未来的HiHarness平台上线,,,,,支持在线体验与API挪用。。智工具第一时间对其举行了实测。。跑完十几个案例后,,,,,我们也有了起源感受:国爆发图模子的可用性,,,,,正在迅速迫近外洋顶流。。
HiDream-O1-Image-1.5体验链接:
https://vivago.ai/
https://hiharness.ai/
开源模子HiDream-O1-Image下载地点:
GitHub:https://github.com/HiDream-ai/HiDream-O1-Image
Huggingface:https://huggingface.co/HiDream-ai/HiDream-O1-Image
一、三大场景综合实测,,,,,文字渲染、画面细节体现精彩
能否准确渲染文字,,,,,一直是图像天生领域的痛点,,,,,也是许多在实测中最容易“翻车”的重灾区。。凯时AG实测也从这类使命最先。。
首个测试案例是相对简朴的海报设计,,,,,内容是一部太空主题影戏的竖版宣传海报。。HiDream-O1-Image-1.5是轻松过关,,,,,它在海报中接纳了三种差别的字体,,,,,文字渲染准确,,,,,字体的选择和设计也与画面主题契合,,,,,没有违和感。。
HiDream-O1-Image-1.5的中文渲染能力也不错。。我们让它给某个海内音乐节设计一张海报。。这个使命的难点在于,,,,,文字内容有多个信息层级,,,,,包括主问题、副问题、阵容列表、时间所在、票价和票务平台。。这些内容不可混在一起,,,,,必需有巨细比照、区域划分。。
最终,,,,,HiDream-O1-Image-1.5准确地天生了我们要求的内容,,,,,竖版文字的渲染也没有泛起过失,,,,,信息泛起清晰,,,,,中式水墨画的气概与音乐节的主题契合。。
最后,,,,,我们还测试了一个高难度的案例:特定气概的高密度文字渲染。。我们要求HiDream-O1-Image-1.5天生一本旧诗集中的某一个页面,,,,,内容是英国诗人的华兹沃斯的I Wondered Lonely as a Cloud。。
在提供完整诗歌内容后,,,,,HiDream-O1-Image-1.5险些完善地渲染了这首诗歌的绝大部分内容,,,,,仅有极个体单词泛起了小过失。。同时,,,,,它也明确了提醒词中“旧诗集”的气概要求,,,,,图中的诗集页面略微泛黄,,,,,边角尚有些岁月留下的痕迹。。
生图模子的另一大问题就是真实性。。许多模子天生的效果一眼看上去就有AI味,,,,,较量突出的问题包括油腻感很强、构图和人物等元素不切合事实等。。
HiDream-O1-Image-1.5在“忙碌后厨”这一场景的还原上做得不错。。这张图包括厨具、原质料以及多位厨师。。这几大主体的质感都很利落,,,,,特殊是中心厨师眼前那团火焰,,,,,颇具现场感。。
再来看细节,,,,,砧板上的三文鱼纹理、金属碗里食材的堆叠条理都较量真实,,,,,这些属于画面“边角料”的细节并没有被HiDream-O1-Image-1.5忽略,,,,,而是保存了清晰的物理形态。。
画面中,,,,,构图和人物行动也基本合理,,,,,左右两侧的厨师在备菜,,,,,中心的厨师在烹饪,,,,,配景里尚有忙碌的帮厨,,,,,整个场景很是切合现实的商业厨房运作逻辑。。
在另一个案例中,,,,,我们让HiDream-O1-Image-1.5天生一张日本陌头的照片。。这张图整体气氛营造较量到位,,,,,雨夜、霓虹灯牌、柏油路面反光都获得真实的泛起,,,,,远景的清晰与配景的景深虚化处理得也很好。。
不过,,,,,美中缺乏的是,,,,,图里有一个“穿帮”的小细节:那辆玄色出租车行驶的偏向错了,,,,,在日本车应该是靠左行驶的。。
最后,,,,,一款生图模子要在真实生产场景施展作用,,,,,还需具备对多种差别气概、设计要求的明确力。。我们让HiDream-O1-Image-1.5集中实验了意大利老影戏气概、1940年月老照片气概、拼贴画这三种截然差别的气概。。
首个案例中,,,,,模子乐成明确了“意大利老影戏气概”的焦点要素,,,,,色调切合气概要求,,,,,画面内容包括了意大利常见的卵石路、地中海海景等细节,,,,,画面中人物的样貌有种胶片影戏捕获到的自然感,,,,,在气概化与写实度之间找到了较好的平衡。。
在下方使命中,,,,,HiDream-O1-Image-1.5乐成模拟了20世纪三四十年月美国农场家庭合影的气概,,,,,人物的心情、衣着带有谁人年月特有的气概,,,,,我们在提醒词中要求的模拟照片老化的效果也获得了还原,,,,,可以看到照片的边角有些缺失和泛黄。。
最后,,,,,在这一拼贴气概图像天生的使命中,,,,,HiDream-O1-Image-1.5回复了手工撕纸的质感、旧纸张的肌理以及金属部件的光泽感,,,,,材质比照富有攻击力。。中心的花卉与符号元素狼籍有致,,,,,很好地转达了“想象力与算法碰撞”的主题。。
这几个案例跑下来,,,,,可以感受到HiDream-O1-Image-1.5在文字渲染上体现扎实,,,,,多层级中文排版也能准确泛起;;;;;;画面真实感强,,,,,细节经得起推敲。。虽然偶有小Bug,,,,,但整体可用性很高,,,,,很适合需要高效出图的海报、摄影、艺术创作等真实生产场景。。
二、分镜、UI、气概化,,,,,三款主流生图模子同台PK,,,,,谁更好用?????
我们也将HiDream-O1-Image-1.5与几款目今最盛行的生图模子举行了比照实测,,,,,选择的实测玩法包括最近较量盛行的分镜天生、UI设计、气概化等等。。
先看分镜天生。。这类使命要求模子同时处理多格画面的构图逻辑、序号标注、画面一连性以及统一的气概质感,,,,,是对模子综合明确力的集中磨练。。我们以“深夜便当店”的6格分镜稿为统一测试题,,,,,划分输入HiDream-O1-Image-1.5与Google Nano Banana 2、OpenAI GPT-Image 2中。。
Nano Banana 2的天生速率是其中最快的,,,,,不过它忽视了我们提醒词中关于实拍质感的气概要求,,,,,天生的分镜图是漫画风的。。
HiDream-O1-Image-1.5也很快给出了天生效果。。HiDream-O1-Image-1.5做得较为不错的是角色的一致性。。图中人物在分镜2和5中的样貌、衣着基本一致。。同时,,,,,便当店场景的还原也较为切合事实。。
不过,,,,,在天生“从冰柜里拿一瓶黑咖啡”的分镜3时,,,,,HiDream-O1-Image-1.5天生的咖啡罐有些过大,,,,,算是一个小的瑕疵,,,,,但在后续的分镜中咖啡罐的比例被精准的调解了过来。。
GPT-Image 2是最后一个给出天生效果的模子。。在细节还原度方面,,,,,GPT-Image 2做得十分真实,,,,,分镜3中罐装咖啡的排布、咖啡罐上的字样和冷凝水等细节都凭证提醒词的要求回复了,,,,,整体处理得很自然,,,,,基本没有AI天生痕迹。。
在UI设计类使命中,,,,,我们让三款模子给一个iPad应用设计一个上岸页面。。HiDream-O1-Image-1.5在设计中接纳了清洁、现代的气概,,,,,视觉滋扰较量少,,,,,重点集中在焦点功效上。。
而GPT-Image 2接纳了经典的卡片气概,,,,,在浅蓝色配景的中央放置了一个带大圆角的白色卡片,,,,,较量规范。。同时,,,,,它还用蓝色高亮了交互文本。。
Nano Banana 2的天生效果是这三张图中最不像UI样板设计的图片,,,,,它包括了情形配景,,,,,更像是用来做展示的效果图。。不过,,,,,在焦点的UI页面方面,,,,,它的体现照旧较量中规中矩的。。
凯时AG最后一个比照实测使命是气概化。。GPT-Image 2较好地还原了商业摄影与复古胶片两种气概,,,,,但在笼统几何风的处理上仍不敷彻底。。
Nano Banana 2在商业摄影气概上体现不错,,,,,自动泛起出咖啡冒出的热气,,,,,画面更具吸引力。。然而,,,,,其胶片气概与商业摄影之间差别不显着,,,,,缺乏区分度。。在笼统几何风方面虽做了一定调解,,,,,但整体的几何感仍不敷到位。。
最后看看HiDream-O1-Image-1.5。。它在左侧的商业摄影气概上做得不错,,,,,清晰度和光影都切合要求。。而在中心的复古胶片质感方面,,,,,画面有一种胶片的颗粒感,,,,,色彩偏移的选择也较量切合胶片风的特点。。而在笼统几何气概中,,,,,HiDream-O1-Image-1.5的处理较量大胆,,,,,凭证提醒词要求放弃了物理写实。。在三个模子中,,,,,它的体现最切合提醒词的要求。。
从实测效果来看,,,,,三款模子各有所长。。Nano Banana 2在天生速率上有优势,,,,,GPT-Image 2 在细节真实度方面体现突出。。而HiDream-O1-Image-1.5在多项使命中展现了不错的综合能力,,,,,无论是角色一致性、设计气概的审美,,,,,照旧气概化使命中跨越三种气概的把控能力,,,,,均体现精彩。。
可以说,,,,,HiDream-O1-Image-1.5在不少实测案例中已经展现出了比肩以致优于头部闭源生图模子的体现。。
三、实现真正“原生全模态”,,,,,1个月内一连三次迭代
HiDream-O1-Image-1.5事实是怎样实现上述天生效果的?????谜底就藏在底层架构上。。
古板文生图模子通常接纳“文本编码器+VAE+DiT/扩散模子”的模????榛肪,,,,,其形态更像一棵一直分叉生长的树:文本有自己的tokenizer,,,,,图像和视频有各自的encoder/decoder,,,,,音频、行动、空间关系也往往沿着差别路径被处理,,,,,模????橹湫枰啻巫恍畔。。
在文字麋集排版、UI页面、多主体天生、多参考图控制、多分镜叙事等重大使命中,,,,,这种架构更容易带来细节消耗、语义错位和结构不稳固。。
HiDream-O1系列走的是“原生全模态”蹊径。。所谓原生全模态,,,,,并不是先划分训练各模态模子再拼接,,,,,而是从架构设计之初就让文本、图像、视频、音频等多种模态共享统一套表征系统,,,,,在模子底层实现融合。。
详细到HiDream-O1-Image系列模子,,,,,它去掉了古板生图流程中的VAE和自力文本编码器,,,,,将图像像素、文本Token、视频体素以及音频、行动、空间关系等原始信号映射进统一个共享Token空间,,,,,与统一套UiT(像素级统一的 Unified Transformer) 交互,,,,,在统一表征系统中完成明确、天生和推理。。
UiT此前在智象未来的开源模子HiDream-O1-Image已经获得接纳,,,,,以后,,,,,智象未来也在快速迭代。。今年5月,,,,,智象未来宣布了接纳同款架构的HiDream-O1-Image-Pro,,,,,而本月登场的HiDream-O1-Image-1.5则是这一架构在商用领域的进一步验证。。
新一代生图架构从研究到开源再到商用落地,,,,,往往需要履历漫长的周期,,,,,而智象未来的UiT架构率先在开源社区和商业产品两条线上同时跑通,,,,,并在1个月左右的时间内一连推出三款接纳这一架构的模子。。
这种高频迭代自己就是一个值得关注的信号,,,,,反映出UiT架构自己具备优异的可扩展性和工程友好性,,,,,能够支持起从实验探索到生产安排的快速跨越。。
结语:生图模子加速走向原生统一架构
有越来越多的生图模子,,,,,正从拼接式的架构走向原生统一。。一旦这条路径周全走通,,,,,模子本就能像明确并天生自然语言内容那样,,,,,更好地处理视觉天生使命。。
智象未来在这一架构内的快速迭代,,,,,已经起源证实晰这个底座的可扩展性。。随着模子规模、训练数据和工程能力的一连进化,,,,,我们有理由相信,,,,,UiT所代表的手艺范式,,,,,有可能成为下一代视觉天生模子的主流架构之一。。
2024年回国后,,,,,周海媚建设奶茶品牌——“极萃东方茉莉”,,,,,已在广西开设了32家门店。。她还建设了高品级生产车间,,,,,陆续开发茉莉花纯露、精油、护手霜、身体乳等系列产品,,,,,推出日化品牌——“茉莉说”,,,,,并通过跨境电商等渠道,,,,,把茉莉花香氛产品销售到了30多个国家和地区。。