智谱GLM-5.1高速版API发布：400 tokens每秒，国产大模型实现旗舰能力与低延迟并存-生活家电-虎科技

智谱近日宣布推出一款面向企业客户的高速版API——“GLM-5.1-highspeed”，该模型输出速度高达400 tokens/s，成为全球大模型厂商API中速度最快的产品之一。这一突破不仅刷新了行业纪录，更在国产大模型领域首次实现了旗舰级能力与低延迟的完美结合，打破了“高速即轻量”的传统认知。

GLM-5.1高速版的成功离不开智谱GLM团队与TileRT团队的深度合作。双方从推理引擎、调度系统到基础设施层面进行了系统性优化：在推理引擎层，针对模型架构特点重写核心路径，显著提升单卡吞吐能力；调度系统通过动态批处理、请求合并和KV缓存调度优化，有效降低高并发场景下的尾延迟；基础设施则围绕集群部署、网络链路和负载均衡展开协同优化，确保400 tokens/s的输出速度成为稳定可靠的生产级能力。

传统大模型推理速度受限于调度框架的设计。主流框架以算子为基本调度单元，每个算子需经历完整的“启动-计算-同步”流程，导致在单token、小batch场景下，调度开销被急剧放大。TileRT团队通过彻底重构推理流程，在编译期将整个计算图静态编排为常驻GPU的持久化引擎内核，实现了单卡内计算、异步IO与通信的微任务级拆解。这种设计使得推理过程仅需启动一次引擎内核，中间结果通过寄存器、共享内存和L2缓存直接传递，大幅减少了全局内存访问和主机调度开销。

在多卡协同方面，TileRT将NVIDIA SM单元的Warp特化思想扩展至8卡NVL拓扑结构。不同GPU根据计算密度和数据依赖关系执行差异化任务，形成高效的分工协作模式。这种架构突破了传统同构计算的局限，在保持低延迟的同时，充分释放了多卡集群的并行计算潜力。

目前，GLM-5.1高速版已面向智谱MaaS平台的部分企业客户开放服务，特别适用于AI编程、实时交互、商业决策和实时语音等对响应速度要求严苛的场景。该模型的推出标志着国产大模型在工程化落地方面取得重要进展，为企业级应用提供了更高效的技术解决方案。

OpenAI Codex六项更新来袭！手机远程操控锁屏Mac，开发效率再升级

Appshots功能支持用户将前台最上方的应用程序窗口发送到Codex中，当用户正在使用另一个应用程序时，可以同时按左右Command键，Codex会自动截取当前窗口上的可见图像、提取可见文本以及可见区域之…

2026-05-23

2026年Q1拉美智能手机市场：三星领跑，荣耀苹果成黑马，摩托罗拉下滑

今天和大家分享的是2026年Q1拉美地区智能手机出货量榜单，该季度总出货量为3480万台，同比增长约为3%，并且榜单前五名仅有摩托罗拉出现了同比下跌。和其他厂商相比，三星在该市场依旧遥遥领先，出货量比第二名的…

2026-05-23

联想IdeaPad Slim 3i 17IWC11登场，17英寸大屏办公本配置如何？

IT之家 5 月 22 日消息，联想现已在海外市场推出 IdeaPad Slim 3i 17IWC11 笔记本电脑，新品配备 17英寸大屏、英特尔 Wildcat Lake 平台，最高可升级至 32GB 内…

2026-05-23

英特尔Clearwater Forest“Xeon 6+”数据中心处理器投产，性能与能效双提升

IT之家援引博文介绍，英特尔 Clearwater Forest“Xeon 6+”数据中心处理器基于 Intel 18A 制程，面向 6G和边缘 AI 负载，整合 RbbonFET、PowerVia、Fo…

2026-05-23

极狐贝塔S3上市：换电92秒刷新纪录，纯电续航660公里起售5.98万

2026-05-23

小米电竞鼠标2深度评测：首发定制传感器，能否在外设圈掀起波澜？

做工细节出了某些地方以外整体还是比较优秀的，结构方面，小米电竞鼠标2这个骨架并没有承载微动或者是按键盖板，所以对按键手感提供的帮助不大，或者说是小米对于鼠标整体精度非常自信，左右按键实际上还是有些许手感偏差，…

2026-05-22

SpaceX“星舰”V3测试飞行取消，5月窗口期三次调整终终止发射

2026-05-22

vivo Y600 Turbo即将登场！5月25日预售，或套壳iQOO Z11配置引期待

如果对性能和续航都有稍高的需求，可以等等即将发布的vivo Y600 Turbo，当然也可以看看iQOO Z11。和华为畅享90Pro Max相比，两者最大的卖点就是超大电池和超长续航体验，从侧面说明了消费者…

2026-05-22