虎科技
业界资讯 手机产品 数码产品 移动互联 软件产品 智能汽车 生活家电 关于我们

英伟达推出“超级缝合体”PoE GAN,输入文字草图语义图都能生成逼真照片

2021-12-13来源:量子位编辑:

继 GauGAN2 之后,英伟达推出了一个 GAN 的“超级缝合体”——PoE GAN。PoE GAN 可以接受多种模态的输入,文字描述、图像分割、草图、风格都可以转化为图片。

而且它可以同时接受以上几种输入模态的任意两种组合,这便是 PoE 的含义。

所谓 PoE 是 Hinton 在 2002 年提出的“专家乘积”(product of experts)概念,每个专家(单独模型)被定义为输入空间上的一个概率模型。

而每种单独的输入模态都是合成图像必须满足的约束条件,因此满足所有约束的一组图像是满足每个约束集合的交集。

假设每种约束的联合条件概率分布都服从高斯分布,就用单条件概率分布的乘积来表述交集的分布。

在此条件下,为了使乘积分布在一个区域具有高密度,每个单独的分布需要在该区域具有高密度,从而满足每个约束。而 PoE GAN 的重点是如何将每种输入混合在一起。

PoE GAN 的设计

PoE GAN 的生成器使用全局 PoE-Net 将不同类型输入的变化混合起来。

我们将每个模态输入编码为特征向量,然后使用 PoE 汇总到全局 PoE-Net 中。解码器不仅使用全局 PoE-Net 的输出,还直接连接分割和草图编码器,以此来输出图像。

全局 PoE-Net 的结构如下,这里使用一个潜在的特征矢量 z0 作为样本使用 PoE,然后由 MLP 处理以输出特征向量 w。

在鉴别器部分,作者提出了一种多模态投影鉴别器,将投影鉴别器推广到处理多个条件输入。与计算图像嵌入和条件嵌入之间单个内积的标准投影鉴别器不同,这里要计算每个输入模态的内积,并将其相加以获得最终损失。

随意变换输入的 GAN

PoE 可以在单模态输入、多模态输入甚至无输入时生成图片。

当使用单个输入模态进行测试时,PoE-GAN 的表现优于之前专门为该模态设计的 SOTA 方法。

例如在分割输入模态中,PoE-GAN 优于此前的 SPADE 和 OASIS。

在文本输入模态中,PoE-GAN 优于文本到图像模型 DF-GAN、DM-GAN+CL。

当以模式的任意子集为条件时,PoE-GAN 可以生成不同的输出图像。下面展示了 PoE-GAN 的随机样本,条件是两种模式(文本 + 分割、文本 + 草图、分割 + 草图)在景观图像数据集上。

PoE-GAN 甚至还能没有输入,此时 PoE-GAN 就会成为一个无条件的生成模型。以下是 PoE-GAN 无条件生成的样本。

团队介绍

论文通讯作者是英伟达著名工程师刘洺堉,他的研究重点是深度生成模型及其应用。英伟达 Canvas 和 GauGAN 等有趣的产品均出自他手。

论文一作是黄勋,北京航空航天大学本科毕业,康奈尔大学博士,现在在英伟达工作。

论文地址:

https://arxiv.org/abs/2112.05130

PoE:

https://www.cs.toronto.edu/~hinton/absps/icann-99.pdf

投影鉴别器:

https://arxiv.org/abs/1802.05637


《多任务处理需求增长,学生笔记本电脑配置建议》
随着大学生学习与生活场景的深度数字化,“多窗口并行” 已成为常态:自习室里,一边用腾讯会议听专业课,一边开 OneNote 记笔记,后台还挂着微信接收社团通知;写论文时,知网文献、Excel 数据、PDF 阅读器同时运行;

2025-09-16

抖音电商助农数据发布:全年累计销售农特产品102亿单
9月11日,抖音电商发布《2025丰收节抖音电商农产品消费白皮书》(下称“白皮书”),展现过去一年平台农特产品销售情况、大众消费趋势及农货商家经营情况。数据显示,2024年9月至2025年9月,平台累计销售农特产品102亿

2025-09-12

首轮融资快速落地,追觅汽车全球化进程提速
继官宣选址德国建厂后,追觅汽车再获融资支持。资本与国际的双重支持,让其全球化战略进入加速实施阶段。9月12日,距官宣刚两周,追觅汽车已完成首轮融资,或成为最快实现首轮融资的造车企业。目前追觅汽车正在毗邻

2025-09-12