虎科技
业界资讯 手机产品 数码产品 移动互联 软件产品 智能汽车 生活家电 关于我们 热点资讯

字节开源视频新框架Bernini:多模态规划+Diffusion渲染,AI视频编辑精准可控再升级

2026-06-02来源:天脉网编辑:瑞雪

在视频生成领域,创作者们长期面临一个棘手难题:模型难以精准理解人类意图。当用户要求将晴天画面转为雪景时,系统可能仅在画面上机械添加雪花;尝试将动画嵌入商场LED屏时,又会出现边界扭曲、透视错乱等问题。这种"听懂话却做不对事"的困境,正在被字节跳动商业化技术团队推出的开源框架Bernini打破。

这个采用"先理解后生成"策略的创新框架,通过多模态大模型与扩散模型的分工协作,实现了视频生成与编辑的精准控制。其核心架构包含两大模块:基于多模态大模型的规划器(MLLM-based planner)负责解析文本指令、分析源素材并规划目标画面,扩散变换器渲染器(DiT-based renderer)则将语义规划转化为高质量视频。这种分工模式使系统能同时处理参考生成、视频编辑等复杂任务,在保持帧间一致性的同时实现风格迁移、主体替换等精细操作。

在天气变换测试中,系统展现了对环境要素的深度理解能力。当用户指令将城市航拍从晴天转为雨天时,模型不仅调整了天空色调,还同步修改了路面反光、建筑湿润度等细节,使天气变化自然融入原始场景。更令人印象深刻的是三维空间处理能力——在视角编辑任务中,系统能准确把握场景深度关系,确保镜头移动时建筑轮廓符合透视原理,避免出现结构扭曲。

针对视频编辑中的动作连贯性难题,研发团队设计了专门的解决方案。在棕熊视频测试中,系统在保持环境光照和镜头关系稳定的前提下,成功实现了从静卧到起舞的动作转换。这种突破得益于渲染器对源视频VAE特征的巧妙运用,既能保留非编辑区域细节,又能确保主体动作自然嵌入原有画面。测试数据显示,在复杂动作编辑场景中,系统能将主体变形率降低至3%以下,动作断裂现象减少92%。

参考素材处理能力是该系统的另一大亮点。在材质替换测试中,系统能根据布料、金属等参考图,精准修改盘子表面纹理,并确保材质特征随物体移动保持稳定。风格迁移功能支持跨维度视觉转换,可将水墨、赛博朋克等不同风格特征完整迁移至动态视频,同时保留原始主体运动轨迹。特别值得关注的是图像植入功能,当测试人员将油画图片嵌入街头招牌时,系统自动处理了光照反射、边缘融合等细节,使植入画面与实拍场景浑然一体。

技术实现层面,研发团队创新性地引入Segment-Aware 3D Rotary Positional Embedding(SA-3D RoPE)机制。该技术通过为不同视觉片段添加唯一标识符,有效解决了多参考素材混合处理时的时空坐标混淆问题。在自建的Arena评测体系中,Bernini框架在视频一致性、语义理解准确度等核心指标上,已达到国际主流闭源模型水平,部分场景表现甚至更优。

目前,Bernini-R版本已开源,完整包含MLLM Planner的升级版本正在进行代码整理,预计近期开放下载。这个允许创作者使用自有素材进行视频生成的系统,正在重新定义AI辅助创作的边界——从被动响应指令到主动理解创作意图,从生成单帧美图到打造连贯视觉叙事,技术进步正在让视频创作摆脱"开盲盒"式的随机性,向着精准可控的方向稳步迈进。

实测6天揭秘!米家巨省电大1.5匹空调:制冷制热低耗高效还静音
在后面我们会通过整整6天不停歇的实际测试,来向大家全面展示米家空调巨省电1.5匹的制热、制冷功耗以及噪音表现。 我们实测了一台 2021 年购入的大1.5匹老款新一级能效空调,在25平米的客厅使用5小时,几…

2026-06-02

宇树科技单款人形机器人累计下线近1.1万台,IPO拟募42亿加速发展
IT之家 6 月 2 日消息,2 日(今天)下午,Unitree 宇树官方公众号发文宣布:截至 2026 年 5月,宇树单款人形机器人累计生产下线约 11000 台。该数量为一款双足人形的数量,不含其他型号…

2026-06-02

谷歌Pixel Watch 5智能手表原型现身,竟由潜水员在加勒比海意外发现
IT之家 6 月 2 日消息,消息源 @DuvalMagic 昨日(6 月 1 日)在 X 平台发布推文,分享了一组照片,展示了谷歌 PixelWatch 5 智能手表原型。 本次原型曝光多少存在魔幻色彩,…

2026-06-02

谷歌安卓17 Beta 4.1更新:修复状态栏、飞行模式等多项高频使用问题
IT之家 6 月 2 日消息,谷歌今天(6 月 2 日)面向符合条件的 Pixel 设备,推送安卓 17 Beta 4.1 更新,重点修复状态栏信号显示、飞行模式开关同步、外接显示器黑屏、蓝牙音频无声和助听器…

2026-06-02

天玑9500旗舰芯加持!蓝厂vivo大折叠新机或6月下旬登场 配置亮点多
上月初,曾有数码博主曝光过一款搭载联发科天玑9500处理器的大折叠新机的工程样机的核心配置信息,虽然当时爆料博主并未透露这款工程样机来自哪个品牌,但是不少业内人士和网友推测,该机很可能就是传闻中的vivo X…

2026-06-02

2026年潮流之选:OPPO Reno16小屏直屏轻薄机,影像续航性价比全拉满
如果你正在寻找一款2026年值得买的小屏直屏旗舰,预算在3000元左右,既看重潮流外观和轻薄手感,又希望拥有顶级影像可玩性和持久续航,同时还能流畅游戏,那么OPPO Reno16无疑是当前市场上最值得你重点…

2026-06-02

英伟达推出5500亿参数Nemotron 3 Ultra,助力企业智能体高效低成本运行
这类智能体能够协助团队分析复杂数据、统筹工作任务,并优化网络安全及企业整体运营流程。 Palantir 则把 Nemotron模型接入其前线部署工程师(AI FDE)人工智能平台,实现复杂任务自主执行;同时…

2026-06-01