后摩智能倪晓林WISE2024演讲：NPU将如何重塑端边AI设备新时代？-移动互联-虎科技

近日，北京迎来了一场商业领域的盛事——36氪WISE2024商业之王大会。此次大会为期两天，吸引了众多业界精英和领军人物，共同探讨中国商业的新趋势和潜力。作为已经举办了十二届的商业盛会，WISE大会在时代变迁中持续见证着中国商业的坚韧与活力。

2024年，是一个充满变化与挑战的年份。与前十年相比，商业环境变得更加复杂，企业发展步伐放缓，更加注重稳健和理性。同时，这一年也是寻找新经济动力的重要时期，产业变革对各个主体的适应能力提出了更高要求。今年，WISE大会以“Hard But Right Thing（正确的事）”为主题，引发了与会者对当前商业环境下何为正确路径的深入思考和交流。

在大会的众多精彩演讲中，「后摩智能」副总裁倪晓林的分享尤为引人注目。他围绕AI与NPU的发展，探讨了边端侧AI算力需求的变化趋势，为听众带来了深刻见解。

倪晓林首先介绍了「后摩智能」作为一家基于存算一体的AI芯片公司的背景，并表示作为AI时代的参与者和见证者，深感荣幸。随后，他详细阐述了后摩智能对边端侧AI算力需求变化的看法。

他提到，随着AI 2.0时代的到来，云端模型和端边侧模型都在迅速发展。云端模型不断增大规模和参数，探索通用智能的边界；而端边侧则出现了更适合本地部署的模型，如7B、13B、30B等，这些模型更适合应用于各行各业，解决实际问题。端边侧AI具有个性化、低时延、数据隐私保护等优势，且每年全球新增智能设备数量高达数十亿台，市场前景广阔。

然而，端边侧AI的发展也面临着硬件方面的挑战。倪晓林指出，端侧硬件需要满足“三高三低”的要求，即高算力、高带宽、高精度、低功耗、低延时、低成本。CPU无法满足全部需求，而GPU虽然能满足部分要求，但其高成本和高功耗限制了端侧设备的普及。因此，专为本地大模型设计的NPU更适合边端侧使用。

针对边端设备对AI高带宽、低功耗的需求，传统的冯·诺伊曼架构已经难以应对。倪晓林表示，存储墙和功耗墙是当前企业面临的两大难题。为了突破这两大难题，后摩智能采用了存算一体的全新架构，实现了存储单元和计算单元的高度集成，大幅降低了功耗，增加了带宽。

后摩智能已经自研了两代存算一体芯片架构，并针对LLM类大模型进行了专项设计。其自研的IPU架构提供了高并行的浮点和整型算力，配套的软件工具链简单易用，兼容通用编程语言。后摩智能还推出了后摩鸿途®️H30和后摩漫界®️M30两款NPU芯片，充分展现了存算一体架构在算力和功耗方面的优势。

为了方便AI设备方案商及生产商快速部署，后摩智能不仅提供芯片，还提供多种标准化产品形态，如力谋®️LM30智能加速卡和力谋®️SM30计算模组等。这些产品可以让现有各类终端设备通过标准接口加装NPU，实现本地AI大模型的流畅运行。

倪晓林表示，随着AI技术的不断发展，越来越多的设备将成为AI大模型使能设备，如AI PC、汽车AI座舱、AI TV等。这些设备将成为更懂用户、更聪明、更高效的助理、秘书、司机等，为用户提供各种服务。后摩智能希望通过其AI芯片助力各行业实现快速升级。

倪晓林还透露，后摩智能将在2025年推出基于新一代“天璇”架构的最新款芯片，性能将再次大幅提升。这款芯片有望进一步加速端边设备部署大模型的进程。

在演讲的最后，倪晓林表示，他相信未来十年将是AI大模型的时代，NPU将重塑所有端边场景和设备。他期待与在座的AI企业和生态合作伙伴携手合作，共同推动现有设备以及未来新型设备流畅运行AI大模型，共创AI新时代。