小米MiMo大模型API降价99%揭秘：全链路优化驱动大模型普惠化-业界资讯-虎科技

近日，小米宣布对其MiMo-V2.5系列API进行永久性价格调整，最高降幅达99%，这一举措在人工智能领域引发了广泛关注。小米此次降价的核心在于其Hybrid SWA+MoE+多模态复合架构的全面优化，使得推理成本大幅降低，为AI应用的普及提供了新的可能。

小米MiMo大模型团队通过系统性重构推理栈，包括KV Cache管理、分级缓存、前缀缓存树以及调度策略和Prefill/Decode链路，成功将KV Cache存储压缩至同级方案的约1/7。这一优化在长序列场景下尤为显著，推理成本大幅下降，为大规模AI应用提供了经济高效的解决方案。

在技术实现上，MiMo-V2.5系列模型采用了Hybrid SWA架构，其中SWA层占比高达6/7，计算量仅为全注意力机制的1/7。这种设计不仅减少了计算量，还显著降低了KV Cache的存储需求，使得长序列推理成本进一步降低。小米还通过双池分治、前缀缓存树重构和GCache三级缓存等优化措施，提升了KV Cache的命中率，进一步降低了推理成本。

小米MiMo大模型负责人罗福莉在社交平台X上详细解释了降价原因。她指出，输入（缓存命中）部分降幅高达99%，主要得益于推理框架对SWA分层键值缓存优化的支持。而输入（缓存未命中）和输出价格降低60%-80%，则是因为Hybrid SWA架构中SWA层的高占比，使得计算量大幅减少。罗福莉还强调，尽管API价格大幅下调，但小米的生产推理引擎仍能基本实现收支平衡。

在调度优化方面，小米开发了可动态扩展的无状态调度器LLM-Router，通过Redis中心化存储避免了单服务故障后的KV Cache调度回退现象，稳定保证了缓存命中率。同时，小米还引入了计算量感知优先调度策略，优先处理真实计算token数更少的请求，进一步降低了推理延迟。

Decode阶段的优化也是小米此次技术升级的重点。通过显存优化和MTP优化，小米成功提升了KV Cache的有效容量，使得GPU算力得到更充分的利用。MiMo-V2.5系列模型还原生支持3层MTP加速decode输出，进一步降低了智能体场景下的真实decode成本。

在多模态推理方面，MiMo-V2.5系列支持视觉、音频、视频跨模态理解。小米研究人员通过大量工程优化和稳定性修复，将Encoder吞吐提升至2倍，显著提高了多模态推理的效率。