虎科技
业界资讯 手机产品 数码产品 移动互联 软件产品 智能汽车 生活家电 关于我们 热点资讯

蚂蚁集团开源Ming-flash-omni 2.0:全模态能力升级,为多模态应用开发提供新引擎

2026-02-11来源:互联网编辑:瑞雪

蚂蚁集团近日宣布,其自主研发的全模态大模型Ming-flash-omni 2.0正式开源,为全球开发者提供了一套支持多模态交互的通用能力框架。该模型在视觉语言理解、语音生成控制及图像编辑等领域的多项基准测试中表现优异,部分指标甚至超越了专用模型,标志着全模态技术向实用化迈出关键一步。

作为业界首个实现音频全场景统一生成的模型,Ming-flash-omni 2.0突破了传统语音合成与音效处理的界限。通过自然语言指令,用户可同时操控语音、环境音效及背景音乐的生成,并精准调节音色、语速、语调等12项参数。模型在推理效率上达到3.1Hz的帧率,支持分钟级长音频的实时高保真输出,其零样本音色克隆技术更实现了无需训练即可复现特定声音的能力。

技术团队透露,该模型基于Ling-2.0架构(MoE,100B-A6B)构建,通过系统性优化实现了三大核心突破:视觉模块整合亿级细粒度数据,显著提升对复杂物体的识别精度;音频模块突破多轨生成限制,实现三要素同步合成;图像模块增强编辑稳定性,支持光影动态调整、场景智能替换等高级功能。在文物鉴定、工业检测等场景中,模型对细微特征的识别准确率较前代提升37%。

全模态技术的核心挑战在于平衡通用性与专业性。蚂蚁集团通过分阶段演进策略破解这一难题:早期版本构建多模态基础能力,中期版本验证规模效应,2.0版本则通过10倍级数据扩容与混合专家训练法,在保持开源模型开放性的同时,使文本生成、图像理解等任务达到行业顶尖水平。实测数据显示,其语音合成质量在MOS评分中达到4.8分(满分5分),接近人类发音水平。

开源社区已同步上线模型权重与推理代码,开发者可通过Hugging Face平台直接调用。蚂蚁百灵官方平台Ling Studio更提供在线体验入口,用户上传图片或音频后,可实时测试模型的人物姿态优化、一键修图、情绪语音生成等功能。某影视后期团队测试后表示,该模型将传统多软件协作的流程压缩至单一框架内,工作效率提升60%以上。

项目负责人指出,全模态架构的价值在于消除不同模态间的调用壁垒。通过统一的能力底座,开发者可避免重复训练视觉、语音等基础模块,大幅降低AI应用的开发成本。目前团队正攻关视频时序理解与长音频实时生成技术,未来计划完善工具链生态,推动全模态技术在智慧医疗、数字内容生产等领域的规模化落地。

iPhone 17 Pro Max实测:WiFi与5G续航大比拼,WiFi多撑约3小时
测试结果会因地点、信号环境和手机使用行为而变化。 无论如何,对搭载最新一代高通基带的苹果旗舰 Pro 系列 iPhone来说,这是一组很有参考价值的续航数据。 如果能用搭载苹果自研 C1X、C1 基带的 i…

2026-02-11

苹果CarPlay未来或迎升级:支持ChatGPT等第三方AI语音交互
这项新功能推出后,用户将能够在CarPlay中直接与ChatGPT、Claude或Gemini等AI助手进行语音对话。苹果不会允许用户替换CarPlay上的Siri按钮或唤醒词,用户需要手动打开他们偏好的聊天…

2026-02-11

Counterpoint报告:2025年全球手机存量格局生变 苹果三星领跑“2亿俱乐部”
目前全球已有八家智能手机厂商的活跃设备存量超过 2 亿台,这八大品牌合计占据了全球超过 80% 的活跃设备份额,呈现出强者愈强的竞争格局。 细分到厂商方面,在所有厂商中,苹果与三星展现出断层式的领先优势,是…

2026-02-11

德赛西威:依托技术优势拓展新领域,稳步前行未来前景光明
在汽车行业的快速变化中,德赛西威(SZ002920)正稳步前行,抓住市场机遇,展现出强大的创新能力。德赛西威的核心业务一直集中在汽车电子产品的销售上,但随着行业发展和消费者需求的变化,公司正在积极布局新产品和…

2026-02-11

谷歌Pixel 10a 2月18日海外发布:自研芯+全平机身,中高端市场新选择
今年的新机越来越丰富,而且类型众多,覆盖到不同场景使用,比如商务、电竞、影像、户外等,均拥有专属定位。部分品牌的确不以手机业务为主,但依然保持着更新手机,主要是考虑到后期发展,比如新技术、新功能、生态等方面,…

2026-02-11