虎科技
业界资讯 手机产品 数码产品 移动互联 软件产品 智能汽车 生活家电 关于我们 热点资讯

阿里智能引擎团队突破AI生图速度极限:2步生成2K高清图,5秒即现四张佳作

2026-01-30来源:天脉网编辑:瑞雪

在AI图像生成领域,扩散模型因其出色的生成效果备受关注,但传统模型生成速度慢的问题一直困扰着用户。如今,阿里智能引擎团队带来了一项重大突破——仅需5秒,就能生成4张2K级高清大图,将图像生成效率提升到了全新高度。

针对Qwen最新开源模型,该团队实现了SOTA压缩水平的巨大飞跃,将原本需要80 - 100步前向计算才能完成的图像生成,骤降至仅需2步,速度整整提升了40倍。以往像Qwen - Image生成一张图片需要近一分钟,现在眨眼间就能完成,大大节省了用户的时间。

这一成果的背后,是团队对传统蒸馏方案的深入研究和创新改进。早期的轨迹蒸馏方案,如Progressive Distillation和Consistency Distillation,主要思想是让蒸馏后的学生模型(student model)模仿原模型(teacher model)在多步生成的路径。但在实践中,这类方法在低迭代步数下难以实现高质量生成,生成的图像模糊,尤其是对于一些细节部分,如文字、人物五官等,因占比低而学习不充分,导致学生模型的细节出现明显扭曲。这是因为轨迹蒸馏直接对学生模型的生成样本做约束,对所有图像patch一视同仁,没有突出细节部分的重要性。

为了解决这一问题,团队将目光投向了基于概率空间的蒸馏方案。近期,这类方案在较少步数场景(4 - 8步)取得了巨大成功,其中DMD2算法最具影响力。DMD2将约束从样本空间转换到了概率空间,其Loss设计为典型的Reverse - KL蒸馏Loss。这种设计有一个显著特性:当学生模型生成的图片不符合真实图片分布时,Loss会爆炸。因此,DMD2算法的本质是让学生模型自己生成图片,然后由教师模型指导哪里不对,而不是直接告诉学生模型应该模仿什么。这种设计显著提升了生成图片的细节性和合理性,成为当下扩散步数蒸馏的主要策略。

然而,Reverse - KL也存在一些问题,如mode - collapse和分布过于锐化,具体表现为多样性降低、饱和度增加、形体增加等,在2步蒸馏的设定下这些问题尤为突出。为了缓解分布退化问题,团队使用PCM蒸馏进行模型热启动,给模型一个更合理的初始化。实验表明,热启动后的模型的形体扭曲问题得到明显改善。

虽然DMD2极大提升了方案的普适性,但它也有局限,即学生模型永远学习教师模型的生成分布,无法超越教师模型。同时,由于loss设计的问题,DMD2蒸馏在高质量细节纹理(如苔藓、动物毛发等)上生成的效果往往不尽如人意。为了增强2步学生模型在细节上的表现能力,团队引入了对抗学习(GAN)来进一步提升监督效果。

GAN的Loss包括生成Loss和判别Loss,生成Loss是让生成图骗过判别器,判别Loss是区分真假图。简单来说,对抗训练一方面需要判别器尽可能判定学生模型生成的图片为假,另一方面需要学生模型尽可能欺骗判别器。为了提升对抗训练的稳定性和效果,团队做了多项改进,如采用真实数据混合策略,按固定比例混合高质量真实数据和教师生成图,提升泛化度和训练稳定性;引入额外的DINO模型作为特征提取器,提供更鲁棒的特征表示;增加对抗训练在loss中的占比。经实验验证,增加对抗训练后,学生模型的画面质感和细节表现发生显著提升。

目前,团队已将相应的Checkpoint发布至HuggingFace和ModelScope平台,开发者可下载体验。同时,该模型已经集成到呜哩AI平台上,支持调用。尽管在大多数场景下Wuli - Qwen - Image - Turbo能够和原模型比肩,但在一些复杂场景下,受限于去噪步数,仍存在可改进空间。团队表示,在后续的版本中将会持续发布速度更快、效果更好的生成模型,并迭代更多扩散加速技术,开源模型权重。

小米汽车新一代SU7 Max热管理系统升级,24小时耐力挑战狂飙4264km
IT之家 1 月 30 日消息,今天下午,小米汽车官微发文称,小米汽车 24 小时耐力挑战中,新一代小米 SU7 Max的电池温度全程稳控在高效安全工作区间以内,散热表现十分出色。 根据介绍,新一代小米 S…

2026-01-30

iPhone Air与17如何选?REDMI Turbo 5谁更值?BT.2020色域有何亮点?
这一设计采用了5级钛金属边框,比iPhone 17的铝金属边框更高级。 从配置来看,虽然REDMI Turbo 5标准版和Max版同内存版本在价格上仅有200元差别,却带来了足以区分用户群体的核心体验差异,这…

2026-01-30

家电ETF广发(560880)1月30日开盘微涨,重仓股涨跌不一格力美的领跌
来源:新浪基金∞工作室 1月30日,家电ETF广发(560880)开盘涨0.18%,报1.657元。家电ETF广发(560880)重仓股方面,格力电器开盘跌0.08%,美的集团跌0.36%,三花智控涨0.04…

2026-01-30

苹果M6 MacBook Pro或2026年底登场,M5系列节奏与策略引市场关注
而至于苹果M5Pro和 M5 Max这两款芯片,目前尚无明确的发布时间,外界预计这两款芯片将与M5Ultra一同在2026年上半年正式亮相。结合上文M6 MacBook Pro系列的登场时间,这是苹果第二…

2026-01-30