虎科技
业界资讯 手机产品 数码产品 移动互联 软件产品 智能汽车 生活家电 关于我们 热点资讯

英伟达PiD图像生成技术亮相:消费级显卡秒级解码高分辨率图像

2026-05-27来源:快讯编辑:瑞雪

英伟达团队近日宣布推出一项名为PiD(Pixel Diffusion Decoder,像素扩散解码器)的图像生成技术,该技术能够在消费级显卡上实现超高分辨率图像的快速生成与放大。实验数据显示,在单张RTX 5090显卡上,PiD可将512×512分辨率的图像潜变量直接解码并放大至2048×2048像素,峰值显存占用仅为13GB,处理时间不足1秒;若使用GB200 GPU,最快仅需210毫秒。

传统高分辨率图像生成流程通常分为两步:首先在潜在空间生成低分辨率图像,再通过解码器恢复为清晰图像。潜在空间是模型对原始图像进行压缩后的数值表示,虽保留了主体结构与语义信息,但舍弃了大量像素级细节,从而降低了计算成本。然而,传统解码器主要承担“复原”任务,面对百万像素级图像时,其速度与质量均存在显著瓶颈。

PiD的创新之处在于将潜在解码重新定义为条件式像素扩散过程,并将解码与上采样整合至同一生成模块中。这一设计使模型能够在输出阶段主动补足纹理、结构及局部细节。条件式像素扩散通过参考额外输入(如低分辨率图像或语义信息)来约束生成结果,而非完全随机生成,从而提升了可控性与生成质量。

技术实现层面,PiD基于PixelDiT架构构建,并引入轻量级ControlNet风格适配器。该适配器将含噪的潜在表示注入模型,并通过与西格玛相关的门控机制,根据噪声强度动态调整对潜在信息的依赖程度。为进一步优化推理速度,研究团队采用DMD2蒸馏技术,将推理步数压缩至4步,同时配合早停机制,在保证输出质量的前提下显著降低延迟。

PiD的另一大优势是其通用性。该技术不仅支持传统VAE(变分自编码器)生成的潜变量,还可兼容RAE(重建自编码器)路线常用的语义潜变量,如SigLIP和DINOv2。这一特性使其能够适配多种图像生成框架,拓展了应用场景。

与级联式扩散超分方案相比,PiD在端到端延迟上表现优异,最高可提升5.9倍(约6倍),同时视觉保真度更优。实验结果表明,PiD在保持细节丰富度的同时,有效减少了生成过程中的伪影与模糊现象,为高分辨率图像生成领域提供了新的解决方案。

苹果iOS 27 Siri大升级:变身“AI秘书” 推出独立应用集成Gemini模型
此外,苹果还在测试全新的系统级搜索入口,用户从屏幕顶部中央下滑即可呼出“搜索或提问”栏,实现文字与语音的双重输入。这意味着,新版 Siri的底层推理能力将由 Gemini 提供支持,从而在复杂任务处理、上下…

2026-05-27

华为发布“韬(τ)定律”:后摩尔时代,中国芯片突围的新坐标?
然后这事儿就全网刷屏了,人民日报都出了专门报道,说它是"中国在全球半导体领域首次提出的指导原则"。 说白了,后摩尔时代大家都意识到光卷纳米数不够用了,各家其实都在往类似的方向摸,但关键是此前没有人专门把它提…

2026-05-27

西伯利亚MC05耳夹式耳机:自然调音+骨声纹降噪,舒适佩戴畅享音乐
西伯利亚MC05耳夹式耳机采用耳夹式设计,单耳机重量约为5.1g;耳机搭载10.8mm三磁振膜发声单元,支持LDAC高清音频解码,通过QQ音乐·臻品音质认证,带来更好的音频体验。 为全面了解该耳机的实际表…

2026-05-27

石头科技外观设计专利获授权,研发投入大增,筑牢智能家居创新基石
这不仅反映了其在技术研发上的深厚实力,也为未来的产品创新奠定了基础。 作为清洁电器行业的领军企业,石头科技始终将技术创新作为发展的核心驱动力。此次吸尘器主机外观设计专利的获得,不仅丰富了公司的专利储备,也为后…

2026-05-27