虎科技
业界资讯 手机产品 数码产品 移动互联 软件产品 智能汽车 生活家电 关于我们 热点资讯

小米MiMo大模型API降价99%揭秘:全链路优化驱动大模型普惠化

2026-06-02来源:快讯编辑:瑞雪

近日,小米宣布对其MiMo-V2.5系列API进行永久性价格调整,最高降幅达99%,这一举措在人工智能领域引发了广泛关注。小米此次降价的核心在于其Hybrid SWA+MoE+多模态复合架构的全面优化,使得推理成本大幅降低,为AI应用的普及提供了新的可能。

小米MiMo大模型团队通过系统性重构推理栈,包括KV Cache管理、分级缓存、前缀缓存树以及调度策略和Prefill/Decode链路,成功将KV Cache存储压缩至同级方案的约1/7。这一优化在长序列场景下尤为显著,推理成本大幅下降,为大规模AI应用提供了经济高效的解决方案。

在技术实现上,MiMo-V2.5系列模型采用了Hybrid SWA架构,其中SWA层占比高达6/7,计算量仅为全注意力机制的1/7。这种设计不仅减少了计算量,还显著降低了KV Cache的存储需求,使得长序列推理成本进一步降低。小米还通过双池分治、前缀缓存树重构和GCache三级缓存等优化措施,提升了KV Cache的命中率,进一步降低了推理成本。

小米MiMo大模型负责人罗福莉在社交平台X上详细解释了降价原因。她指出,输入(缓存命中)部分降幅高达99%,主要得益于推理框架对SWA分层键值缓存优化的支持。而输入(缓存未命中)和输出价格降低60%-80%,则是因为Hybrid SWA架构中SWA层的高占比,使得计算量大幅减少。罗福莉还强调,尽管API价格大幅下调,但小米的生产推理引擎仍能基本实现收支平衡。

在调度优化方面,小米开发了可动态扩展的无状态调度器LLM-Router,通过Redis中心化存储避免了单服务故障后的KV Cache调度回退现象,稳定保证了缓存命中率。同时,小米还引入了计算量感知优先调度策略,优先处理真实计算token数更少的请求,进一步降低了推理延迟。

Decode阶段的优化也是小米此次技术升级的重点。通过显存优化和MTP优化,小米成功提升了KV Cache的有效容量,使得GPU算力得到更充分的利用。MiMo-V2.5系列模型还原生支持3层MTP加速decode输出,进一步降低了智能体场景下的真实decode成本。

在多模态推理方面,MiMo-V2.5系列支持视觉、音频、视频跨模态理解。小米研究人员通过大量工程优化和稳定性修复,将Encoder吞吐提升至2倍,显著提高了多模态推理的效率。

一加新机来袭!Turbo 6X Pro本周或亮相,千元夯机配置亮点多
今年1月份,一加Turbo系列更新Turbo 6和Turbo 6V两款机型,现据最新消息,一加Turbo系列还有Turbo 6X Pro。如上图所见,爆料达人数码闲聊站称一加Turbo 6X Pro本周见,…

2026-06-02

英伟达推出NVIDIA Isaac GR00T开源人形机器人 助力通用物理智能研究新突破
此外,英伟达Isaac GR00T开发者平台还将支持被广泛使用的宇树G1人形机器人,相关的开发工作流预计很快将在GitHub和Hugging Face上开源。根据官方路线图,这款开源人形机器人参考设计将于2…

2026-06-01

华为MatePad Pro Max发布:普通版与悦享款齐登场,性能亮点引关注
IT之家 6 月 1 日消息,在今天的华为 nova 16 系列及全场景新品发布会,华为终端 BG CEO 何刚正式发布了一款平板的集大成之作—— MatePad Pro Max 专业生产力旗舰平板,搭载麒…

2026-06-01