虎科技
业界资讯 手机产品 数码产品 移动互联 软件产品 智能汽车 生活家电 关于我们 热点资讯

NVIDIA推出KVTC技术:内存用量最高减20倍,AI硬件成本或大幅降低

2026-03-23来源:快讯编辑:瑞雪

大型语言模型(LLM)在处理长对话时,常因内存占用过高而面临性能瓶颈。NVIDIA研究人员近日提出一项名为KVTC(KV快取转换编码)的创新技术,通过高效压缩模型推理过程中的KV缓存,将内存需求最高降低20倍,同时无需修改现有模型架构。这一突破有望显著降低企业部署AI的硬件成本,并提升模型响应速度。

KV缓存是LLM的“短期记忆”,存储对话历史中的关键信息(Key和Value),使模型无需重复计算已处理内容。然而,随着对话长度增加,KV缓存可能膨胀至数GB,占用大量GPU内存,导致推理速度下降甚至系统卡顿。NVIDIA资深深度学习工程师Adrian Lancucki指出:“LLM推理的性能瓶颈通常不在计算能力,而在于GPU内存的有限性。传统方法需将闲置缓存转移至CPU或硬盘,但数据传输会引入额外延迟。”

KVTC技术借鉴JPEG图像压缩原理,通过“主成分分析、自适应量化、熵编码”三步流程,精准捕捉KV缓存中数据的高度相关性,剔除冗余信息。其“非侵入式”设计允许企业直接集成至现有系统,无需调整模型代码或参数。实验数据显示,在参数量从15亿至700亿的模型(如Llama 3系列、R1-Qwen 2.5)中,KVTC将内存压缩20倍后,模型准确率损失不足1%,而传统方法仅压缩5倍便会导致显著性能下降。

在H100 GPU的实测中,处理8000个Token的提示时,启用KVTC后模型首次响应时间从3秒缩短至380毫秒,提速达8倍。这一优势在编程助手、迭代式推理等长对话场景中尤为突出,而短对话场景因缓存规模较小,压缩效果相对有限。

NVIDIA计划将KVTC整合至Dynamo框架的KV块管理器,并兼容vLLM等主流开源推理引擎。业内分析认为,随着LLM对话长度持续增加,标准化压缩技术或将成为AI落地的关键基础设施,其普及程度可能类比于视频压缩技术对多媒体行业的影响。

一加15T来袭!全新ColorOS 16加持,流畅升级,小屏党期待已久的Dream Phone来了
快科技3月22日消息,一加15T将于3月24日正式发布,新机在屏幕、电池、快充及影像等核心配置上已提前公布。今日,一加中国区总裁李杰表示,一加15T将搭载全新的ColorOS 16系统,并支持5年4个大版本…

2026-03-23

OPPO Find N6全球开售获热捧,多国大使点赞,首销创折叠屏新纪录
IT之家 3 月 22 日消息,3 月 20 日,OPPO Find N6正式开启全球同步发售,上市初期便收获全球市场积极反馈。月 21 日,来自秘鲁、拉脱维亚、津巴布韦、萨摩亚、尼泊尔等国的驻华大使、参赞一…

2026-03-22

一加15T即将登场:骁龙8 Elite Gen5加持,影像续航全面升级
其他细节方面,一加15T采用金属中框、玻璃机身,支持3D超声波指纹,配备X轴马达,支持IP66/68/69/69K满级防水大满贯,整机重194g。官方介绍显示,一加 15T 标配 3.5 倍潜望长焦,还…

2026-03-22

巴克莱分析师爆料:折叠屏iPhone或12月出货 iPhone 18系列发布策略有新变化
来源:环球网【环球网科技综合报道】3月20日,据MacRumors报道,巴克莱银行分析师蒂姆·朗近期在研究报告中披露苹果新品相关传闻,涉及折叠屏iPhone及iPhone 18系列机型,引发行业关注,不过目…

2026-03-22

iOS微信8.0.70版本更新,近期这些实用新功能你体验了吗?
除了上述变化外,微信近期还在测试双击底部「微信」标签后,将未读消息进行汇总显示的功能,大家也可以自行尝试是否已开放。但至今已过去 5 年多时间,这样的版本跨度在主流应用中并不常见,相信有不少用户也在期待微信…

2026-03-22

华为畅享90 Pro Max即将登场:麒麟芯加持大电池,3月23日共赴新机之约
官方已预热新机多方面,比如麒麟芯片、巨鲸大电池、全新外观等方面,不愧是华为的新机,亮点明确,以自身核心技术为主,进一步突出新机优势。 新机外观已公布,屏幕设计与市场同步,熟悉的打孔+直屏设计,还有大R角+极…

2026-03-22

OPPO K15 Pro真机曝光!直屏金属中框+风扇加持 4月初登场引期待
月 21 日消息,博主 @数码闲聊站 今天在微博曝光 OPPO K15 Pro 手机的真机外观照片。 据博主介绍,该系列手机将全系标配直屏 +金属中框 +500 万双摄矩阵后摄模组 + 内置风扇,高配将搭载…

2026-03-22