虎科技
业界资讯 手机产品 数码产品 移动互联 软件产品 智能汽车 生活家电 关于我们 热点资讯

字节Seed团队新论文:DanceOPD破解AI生图多能力融合难题

2026-07-02来源:天脉网编辑:瑞雪

在今年的火山引擎FORCE原动力大会上,字节跳动再次展示了其在图像与视频生成领域的创新实力,推出了图像端模型Seedream 5.0 Pro和视频端模型Seedance 2.5。Seedream 5.0 Pro实现了交互式精准编辑,能够将画面拆分为多个图层,直接生成可编辑的分层设计图;而Seedance 2.5则首次亮相,支持单段原生时长达到30秒,并能同时参考50个素材进行创作。

回顾过去一年多的发展,字节跳动的图像与视频生成模型几乎每月都在更新。其中,2025年9月发布的Seedream 4.0是一个重要里程碑,它首次将“按文字生成图片”和“修改已有图片”两种功能整合到同一个模型中。然而,这种整合并非易事,模型在增加新功能时,往往会牺牲原有功能的表现,导致整体性能下降。

为了解决这一问题,字节跳动Seed团队联合新加坡国立大学等高校,在大会第二天于arXiv上发表了一篇名为DanceOPD的论文。该论文提出了一种新的方法,旨在在不影响原有能力的前提下,不断为模型添加新功能。这一研究不仅具有学术价值,更与用户实际行为紧密相关。在字节的AI创作工具即梦中,用户通常需要连续进行多种操作,如生成图片、修改背景、更换风格等。理想情况下,这些操作应由同一个模型完成,但现实中每增加一种编辑功能,要么需要增加专用模型,要么会降低文生图的质量。

DanceOPD提供了一种新的解决方案:将训练好的“编辑专家”模型作为“冻结老师”,通过蒸馏技术将其能力迁移到主模型中,且仅更新少量轻量参数,而不改变主模型的基础结构。这种方法被称为“增量加能力”,使得字节的模型能够持续更新,同时保持原有功能的稳定性。

传统方法如重训或权重融合存在明显风险,即新功能提升的同时,老功能可能受损。论文中的实测结果显示,采用权重融合方法时,文生图分数基本保留,但图片编辑能力几乎丧失。而DanceOPD的硬路由蒸馏方法则能够在不损害现有能力的情况下,添加新的编辑功能,显著降低了迭代成本和失败概率。

DanceOPD还解决了两个具体问题:一是将CFG(无分类器引导)作为能力场吸收进权重,节省了每次推理时的额外计算,对于处理海量C端请求的即梦产品而言,这意味着显著的成本降低;二是Seedream 5.0的精致纹理和SeedEdit的“非编辑区域保持不动”功能,在DanceOPD框架中分别对应“写实场吸收”和“保留型局部编辑场”,均得到了有效支持。

尽管论文尚未明确说明这套机制已应用于哪一版Seedream模型,且目前仍处于研究阶段,但其瞄准的问题、使用的底座模型(如计划支持的SD3.5、Z-Image等开源流匹配模型)与字节的产品路线高度一致。

要理解DanceOPD的创新之处,需先了解当前主流生图模型的工作原理。这些模型通常采用流匹配技术,将“从随机噪声生成清晰图片”的过程分解为无数微小位移,每个位移由一个“速度场”指导。然而,当模型需要同时支持文生图、局部编辑和全局改写等多种功能时,这些速度场往往会相互干扰,导致生成结果模糊不清。论文将这种现象称为“capability identity”,即能力的身份缺失。

DanceOPD通过三招解决了这一问题。第一招是“硬路由”,即每个训练样本只对应一个能力场,避免多个能力场的平均化导致能力模糊。第二招是“on-policy”,即在学生模型实际生成轨迹上选择教学点,而非在老师模型或数据中的现成状态上教学。第三招是选择低噪声点进行单点对齐,使用均方误差(MSE)进行简单对齐,避免了复杂奖励模型或对抗判别器的使用。实验结果显示,这种方法在图像编辑评测和文生图评测中均取得了显著优于基线的效果。

尽管DanceOPD的官方代码尚未公开,且论文中使用的Seedream、SeedEdit教师模型也不开源,但其核心机制——硬路由加on-policy——已通过简单的二维玩具实验得到了验证。实验结果显示,与软融合方法相比,DanceOPD能够更干净地保留两种能力,目标分布的平均偏差显著降低。

对于字节跳动这样的将多能力生图模型应用于产品的公司而言,DanceOPD的研究价值不言而喻。它不仅为工程上解决能力互相拖累的问题提供了干净利落的答案,也为AI生成图片的直接修改提供了高效路径。

豆包转向B端:低价策略入局AI coding,能否在竞争中突围?
这次,它不仅仅是发布了一个更会写代码的新模型,是在组织和资源层面,把AI商业化的重心往B端推。字节做过一组实验,在不同模型和框架下,AI生成代码的功能正确率普遍超过80%,但到了UI、可靠性、可维护性这些真…

2026-07-02

科大讯飞P30 5G领衔,多款热门学习机功能性能大比拼,助您选对学习好帮手
科大讯飞P30 5G是一款专为学生设计的智能学习机,配备大屏护眼显示和强大的AI学习功能。科大讯飞P30 5G凭借其强大的AI学习助手和丰富的学习资源,尤其适合需要个性化学习方案的学生。其他品牌虽然在硬件配…

2026-07-02

阿维塔斩获L3自动驾驶测试牌照,稳步推进多场景实测与高阶智驾落地
未来,品牌将持续投身国内L3自动驾驶从技术研发到商业化落地的开创性探索,逐一攻克高阶智驾落地过程中的技术瓶颈、合规难题与场景应用痛点,以硬核技术实力助力国内自动驾驶产业规范化、高质量发展,持续引领中国智能电动…

2026-07-01

苹果iPhone 18 Pro测试图曝光:酒红色未量产,樱桃红成最终选择且配更窄灵动岛
IT之家 7 月 1 日消息,消息源 @earlyappleleaks 昨日(6 月 30 日)在 X平台发布推文,再次分享了从塔塔电子流出的文件,展示了旧爆料中的“勃艮第 / 酒红色”(bergundy)…

2026-07-01

小米集团“小米辟谣”官微上线,搭建权威渠道助力清朗网络环境建设
6月30日,小米集团宣布,其官方辟谣阵地“小米辟谣”在中央网信办违法和不良信息举报中心的指导下正式上线,并同步开通了官方微博账号。 “小米辟谣”官方微博在首条动态中表示,感谢社会各界和广大米粉长期以来对小米集…

2026-07-01

万亿美元如何挥霍?马斯克花钱模拟器走红:买空NVIDIA显卡仅是零头
这些听起来遥不可及的消费,在一万亿美元面前几乎不值一提,一整年Steam游戏仅占全部资产的0.000142%,买下NVIDIA所有游戏显卡产能也只占0.7%。 它其实已不再是花钱的问题,而是这笔钱最终会流向…

2026-07-01