虎科技
业界资讯 手机产品 数码产品 移动互联 软件产品 智能汽车 生活家电 关于我们 热点资讯

小米再推语音新模型:MiMo-V2.5-TTS与ASR补齐语音全链路,支持方言混说

2026-04-24来源:快讯编辑:瑞雪

小米技术团队在语音技术领域再推重磅成果。继MiMo-V2.5系列大模型开启公测后,团队于今日正式发布MiMo-V2.5-TTS语音合成系列与MiMo-V2.5-ASR语音识别模型,完成语音交互全链路技术布局。此次发布涵盖从声音生成到语音转写的完整解决方案,为智能设备语音交互能力带来显著提升。

TTS系列包含三款创新模型,形成差异化技术矩阵。基础版MiMo-V2.5-TTS内置20余种专业音色库,支持语速、音高、情感强度等参数实时调节,用户可通过自然语言指令实现"温柔劝导"或"严厉警告"等复杂语气表达。VoiceDesign模型突破传统音色生成范式,仅需输入"25岁女声,带江南口音"等文字描述,即可在3秒内合成全新音色,无需提供任何音频样本。旗舰版VoiceClone模型则展现高保真复刻能力,通过5秒参考音频即可精准捕捉声纹特征,同时保留对情感、语速等维度的控制权限,官方演示中成功复现了包含"阴阳怪气"等微妙情绪的语音样本。

作为技术底座的MiMo-V2.5-ASR模型采用开源策略,同步公开模型权重与训练代码。该模型专门针对真实场景优化,在方言识别方面支持吴语、粤语等8种中文方言,对中英文混杂、专业术语等复杂语料的转写准确率提升37%。通过引入多通道声源分离技术,模型在咖啡厅、地铁站等强噪音环境下仍能保持92%以上的识别率,并支持最多6人同时对话的实时转写。输出端创新采用结构化文本格式,自动添加逗号、句号等标点符号,转写结果可直接用于文档处理。

目前TTS系列已上线MiMo Studio开发平台,提供可视化调参界面与API接口。ASR模型代码与预训练权重同步登陆GitHub及HuggingFace模型库,支持PyTorch与TensorFlow双框架部署。技术文档显示,团队正在研发支持环境音效生成的AudioCraft模块,并计划通过上下文记忆机制提升多轮对话的连贯性,相关功能预计在第三季度进入内测阶段。

古尔曼爆料:苹果进军新领域,AI AirPods等6大新品蓄势待发
IT之家援引播客内容,古尔曼指出苹果正在积极拓展生态边界,主要包括可穿戴设备与智能家居两大核心赛道,其中 AI AirPods是现有耳机产品的延伸,但其余 5 款均代表苹果从未涉足的全新领域。 在智能家居…

2026-04-24

特斯拉Terafab牵手英特尔:台积电三星满单,英特尔成“无奈之选”?
4月24日,天风国际证券分析师郭明錤周五表示,特斯拉超级芯片工厂Terafab选择使用英特尔的14A制程工艺是因为没得选,因为两大芯片代工厂台积电和三星的产能都已被其他订单填满。 图1:特斯拉Terafab将…

2026-04-24

虹觅、花再、倍思耳夹式耳机大比拼!哪款才是你的通勤办公好搭子?
花再ZeroClip:这款耳机采用C形桥结构搭配 12° 夹角设计,能够更好地贴合耳廓曲线,兼顾佩戴稳定性与舒适度,日常活动时也不容易掉。虹觅 Clip Pro 在中端价位里称得上性价比优选,不仅音质表现…

2026-04-24