阿里万相2.6视频生成模型来袭！多项功能升级，开启创作新体验-智能汽车-虎科技

阿里近日正式发布新一代视频生成模型——万相2.6系列，凭借音画同步、多镜头生成及角色扮演等创新功能，迅速成为行业焦点。该模型不仅被宣称是全球功能最全面的视频生成工具，更是国内首个支持角色扮演能力的视频模型，标志着国产AI技术在视觉创作领域迈入新阶段。

相较于前代万相2.5，新版本针对专业影视与图像创作场景进行了深度优化。其核心升级包括画质与音效的显著提升、指令响应能力的增强，以及单次生成视频时长延长至国内领先的15秒。更引人注目的是，新增的角色扮演与分镜控制功能，让用户能够通过文本指令实现复杂叙事视频的自动化生成。例如，用户上传一张数字人照片并输入分镜脚本后，模型可在几分钟内生成包含多场景切换、人物动作连贯的15秒剧情短片，且画面主体一致性较高，无明显逻辑漏洞。

在实际测试中，万相2.6展现了强大的场景适应能力。当输入“男生向女生表白”主题的脚本时，模型生成的视频不仅准确还原了递花、对视、拥抱等动作细节，人物嘴型与声音同步度也达到较高水平，尽管情绪表现仍略显机械，但已优于多数同类产品。而在角色扮演功能测试中，用户上传马斯克采访视频后，模型成功将其替换为女性数字分身，神态与姿态高度还原原角色，仅在声音保留男性特征方面存在细微偏差。模型对多人互动场景的处理也有所突破，例如在“赫敏飞奔拥抱哈利”的测试中，虽偶有角色替换误差，但整体动作流畅度与情感表达已接近真实拍摄效果。

技术层面，万相2.6通过多模态联合建模实现画面与声音的全维度一致性。其创新架构可同时解析视频中的主体情绪、姿态、视觉特征，以及音色、语速等声学信息，并在生成阶段将这些特征作为控制条件，确保单人或多人表演的连贯性。在分镜控制方面，模型通过高层语义理解技术，将文本脚本转化为具备叙事张力的专业级多镜头段落，即使在复杂场景切换中，也能保持主体、布局与环境氛围的统一建模。

目前，万相2.6已开放个人用户通过官网直接体验，企业用户则可通过阿里云百炼平台调用模型API。据透露，千问APP也将于近期集成该模型功能。从文生图、图像编辑到文生视频、图生视频，再到人声生视频与动作生成，万相模型家族现已覆盖超过10种视觉创作能力，持续刷新全球功能记录。此次升级不仅巩固了阿里在AI视频生成领域的领先地位，更为专业影视制作、短视频创作等领域提供了高效工具，推动行业向自动化、智能化方向加速演进。