虎科技
业界资讯 手机产品 数码产品 移动互联 软件产品 智能汽车 生活家电 关于我们 热点资讯

多模态模型Vidu1.5突破,Scaling Law迎来新拐点?

2025-02-17来源:ITBEAR编辑:瑞雪

在自然语言处理领域,一个引人瞩目的现象正在显现:传统的通过增加模型规模和数据量来提升性能的Scaling Law似乎已逼近瓶颈。业界开始担忧,单纯依赖这种策略或许已难以带来显著的性能飞跃,低精度训练和推理正使得模型性能提升的边际效益逐渐递减。然而,在自然语言处理遭遇挑战的同时,多模态模型领域却似乎尚未触及这一限制。

多模态数据,涵盖图像、视频、音频等多种类型,因其信息丰富度、处理方法和应用领域的复杂性,难以达到大规模训练的标准。因此,Scaling Law在多模态领域尚未得到充分验证。但这一现状即将发生改变。清华系大模型公司生数科技最新发布的Vidu 1.5,正引领多模态领域迈向新的发展阶段。

Vidu 1.5通过持续的规模扩展(Scaling Up),已达到了一个关键的“奇点”时刻,涌现出了强大的“上下文能力”。这一能力使模型能够理解并记忆输入的多主体信息,展现出对复杂主体更为精准的控制。无论是细节丰富的角色还是复杂的物体,仅需上传不同角度的三张图片,Vidu 1.5便能确保单主体形象的高度一致。

Vidu 1.5的突破不仅限于单主体控制,还实现了多主体之间的一致性。用户能够上传包含人物角色、道具物体、环境背景等多种元素的图像,Vidu能够将这些元素无缝融合,实现自然交互。这一能力标志着多模态模型在主体一致性方面取得了重大进展。

Vidu在主体一致性方面的成就,不仅得益于Scaling Law的发挥,更源于其采用的无微调、大一统的技术架构方案。当前主流的视频模型为实现一致性,大多采用在预训练基础上针对单个任务进行微调的LoRA方案。而Vidu的底层模型则跳出了这一框架,做出了开拓性的改变。这一改变与生数科技一贯坚持的通用性理念相契合,通过统一的底层模型技术架构,无需单独进行数据收集、标注和微调,仅需1到3张图即可输出高质量视频。

回顾大语言模型的发展历程,从GPT-2到GPT-3.5的质变,同样实现了从预训练+特定任务微调向统一框架的突破。Vidu 1.5的推出,标志着多模态大模型正经历着类似于GPT-3.5的时刻。这一突破不仅体现在技术上,更在于设计理念上的革新。

生数科技CTO鲍凡表示,公司不会盲目追随Sora等已有模型的路线,而是从一开始就瞄准通用多模态大模型的目标,进行自主研发。从全球首个基于Diffusion的Transformer架构U-ViT的发布,到首次实现用统一架构处理泛化任务,生数科技不仅拥有先发优势,更具备持续突破的能力。Vidu与业界其他视频生成模型相比,已形成明显的技术代差。

在主体一致性这一难题上,Vidu取得了显著成果。鲍凡比喻道,这就像制造一台好的发动机,虽然知道其重要性,但实现起来却异常艰难。包括Sora在内的国内外视频模型,在主体一致性方面均未取得突破。而Vidu则从上线之初就主打解决一致性问题,并逐步拓展到对单主体整体形象的控制,直至最新版本的Vidu 1.5,已能够实现对单主体不同视角的高度精准控制,并攻破多主体控制的难题。

Vidu的技术方案与业界主流存在显著差异。其他家仍局限于预训练+LoRA微调的方案,存在数据构造繁琐、训练时间长、易过拟合、无法捕捉细节等缺点。而生数则通过统一的底层模型技术架构,无需单独进行数据收集、标注和微调,仅需少量图片即可输出高质量视频。这一架构的统一性不仅体现在问题形式上,更体现在底层设计上,与Sora的DiT架构存在本质区别。

随着高质量数据的一同扩展,Vidu在底层视频生成模型上也观察到了类似于大语言模型的智能涌现现象。例如,Vidu 1.5能够融合不同主体,创造出全新的角色,这是之前未曾预料到的能力。其智能涌现还体现在上下文能力提升和记忆能力增强上,能够实现对视频中角色、道具、场景的统一控制。

Vidu在上下文能力方面的迭代节奏紧凑,从初期仅能参考单一主体的面部特征,到现在能参考多个主体,未来预期可以实现参考拍摄技巧、运镜、调度等更多因素。这一过程中,参考对象从具体到抽象,要求和难度逐渐提升。由于目前还没有针对视频模型上下文能力的开源解决方案,Vidu 1.5在这一领域形成了自己的技术壁垒。

雷军晒小米YU7前向碰撞测试实拍 展现硬核安全实力
快科技11月14日消息,就在刚刚雷军发布视频称:小米YU7前向碰撞测试实拍:包括正面100%重叠、50%重叠两个场景。 事实上,在这之前小米汽车官网已经发布了这个视频,而雷军又一次转发了这个信息,为的是让更多…

2025-11-15

iPhone 17系列中国市场激活量破千万 性能升级受消费者青睐
【环球网科技综合报道】11月14日消息,据科技博主@数码闲聊站披露,苹果 iPhone 17 系列本周在中国市场的激活量已突破1000万台,创下该系列上市以来的阶段性销量新高,印证了中国消费者对其产品升级的认…

2025-11-15

华为顶级旗舰价格大降,16GB+512GB直降2100元,为新机腾位
这段时间虽然登场了很多新旗舰,但阿维觉得挺遗憾的,因为绝大多数新旗舰都只是常规升级,单纯为了启用第五代骁龙8至尊版和天玑9500,在这种情况下,甚至就连小米17 Pro系列上并不算多大创新的背屏也成为了大家津…

2025-11-14

安谋科技发布“周易”X3 NPU IP,端侧AI性能飙升助力多领域落地
智东西11月14日消息,昨日,安谋科技正式发布了专为端侧大模型而生的最新一代NPUIP——“周易”X3,其能够与Arm架构CPU、GPU协同,组成基于Arm生态的异构算力解决方案。 新的“周易”X3 NP…

2025-11-14

联想明年再发力!moto razr折叠机与Y700平板将携骁龙8系新平台登场
【CNMO科技消息】11月14日,有数码博主爆料称,联想明年将继续迭代拯救者Y700平板和moto razr系列折叠手机。这两款产品将搭载第五代骁龙8至尊版和第五代骁龙8移动平台,其中,Y700平板屏幕比例为…

2025-11-14

华为Mate70 Air深度体验:打破常规,超大屏“Air”的另类演绎
可以确定,华为Mate70 Air的影像没有因为“Air”的定义做妥协,在同价位机型中是能打的,硬件配置方面也是这个思路。这也符合华为Mate70 Air的技术路径,虽然重量不可避免地来到208g,但是保…

2025-11-14

欧加9K级大电池定版试产,一加骁龙8系直屏新机测试,中端机竞争升级
IT之家 11 月 14 日消息,博主 @数码闲聊站 今天在微博透露,欧加的 9K 级别大电池现已定版试产。 博主表示,这块电池采用单块4.51V 单电芯设计,额定容量 32.59Wh,额定电池 8760m…

2025-11-14

联发科天玑8系芯片屠榜安卓次旗舰性能榜 性能能效双优成市场新宠
以榜单第一的真我Neo7 SE为例,通过与MTK联发科技的深度联合调校,该机在同价位段中展现出极为出色的游戏性能,搭配真我GT性能引擎,通过芯片级调校,实现了持久稳定的高帧率表现,同时能耗最高可降低7%,帧…

2025-11-14

真我neo 8新机曝光:8000mAh大电池+3D超声波指纹,2000元档性价比新选择
真我手机从2018年成立到现在,也是走过了7个年头,如今真我手机全球销量达到三亿,在全球范围内跻身手机圈的第一梯队,虽说份额还是差小米等品牌很多,可知名度已经起来了。在今年真我尝试冲击高端,发布的真我GT …

2025-11-14

第45周国内手机市场格局:苹果领跑,小米vivo紧随其后竞争激烈
据CNMO了解,截至11月2日,该系列在国内的激活数量已突破825万台,其中iPhone 17 Pro Max约395.7万台、iPhone17 Pro约246.2万台、标准版iPhone 17约172.8…

2025-11-14