扫码加入

  • 正文
  • 相关推荐
申请入驻 产业图谱

英伟达发布新技术,推理内存可降8倍

2小时前
189
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

NVIDIA 开发了一项新技术,可将大型语言模型 (LLM) 的推理内存占用降低至多 8 倍。

当地时间 2月12 日,NVIDIA 在线发布了其“动态内存稀疏化 (DMS)”技术。该技术压缩 LLM 在推理过程中生成和存储的键值缓存 (KV 缓存),从而在相同的计算和内存预算下实现更深入、更广泛的思考。

为了解决复杂问题,LLM 会生成更长的“思维链 (CoT)”标记。然而,随着标记数量的增加,KV 缓存会线性增长,消耗大量 GPU 内存。这使得内存访问而非计算成为瓶颈,从而导致延迟增加和并发用户数量受限等代价高昂的问题。

NVIDIA首席深度学习工程师Piotr Navrot强调:“问题不在于硬件的数量,而在于在相同的成本下,处理100个推理线程还是800个推理线程更划算。”

处理长上下文主要采用了两种方法。“滑动窗口”方法会根据预设规则不断清除旧的词元,这可能会导致重要信息的丢失,从而降低答案的准确性。

将不常用的键值缓存移动到速度较慢的内存可以节省内存,但会在重新加载数据时造成延迟。

DMS(动态内存管理系统)并非根据预定义的规则清除词元,而是让模型学习哪些词元应该保留,哪些词元应该丢弃。

值得注意的是,它无需从头开始重新训练现有的预训练模型。它利用注意力层中的一些神经元来学习如何指示每个词元应该保留还是丢弃。这使得内存管理能够在不显著改变现有模型结构的情况下实现。

这个过程仅需约 1000 个额外的训练步骤。研究人员表示,即使是像“Qone3-8B”这样的模型,也可以在单个 NVIDIA DGX“H100”服务器上使用 DMS 在几个小时内完成部署。

此外,DMS 与现有的标准内核和 FlashAttention 兼容,无需进行重大修改即可直接集成到现有的推理环境中。

DMS 的核心是“延迟驱逐”机制。它不会立即移除被认为不重要的标记,而是将其临时存储数百步,使模型有时间将必要的信息整合到当前上下文中。这在不丢失信息的情况下消除了内存冗余。

基于相同数量的键值缓存读取(可作为延迟的指标),DMS 在推理时间扩展过程中展现出比现有 LLM 更高的平均绝对性能。 (图片来源:arXiv)

研究人员将DMS应用于Qone-R1(基于DeepSearch R1的蒸馏模型)和Ramah 3.2,并评估了AIME 24(数学)、GPQA Diamond(科学)和LiveCodeBench(编程)等高难度基准测试。

结果表明,在相同的内存带宽条件下,Qone-R1 32B在AIME 24测试中取得了12分的提升。这得益于其通过压缩缓存生成更多思维标记的能力。

值得注意的是,在“大海捞针”测试中,应用DMS的模型优于现有模型,展现出更强的长文本上下文理解能力。

DMS在企业环境中的有效性也显而易见。在Qone-3-8B测试中,DMS在保持相同准确率的同时,吞吐量达到了现有模型的五倍。这意味着单个服务器每秒可以处理五倍的请求。

随着企业将人工智能的应用范围从简单的聊天机器人扩展到长期推理和自主代理系统,推理成本正成为一项关键挑战。NVIDIA 旨在通过 DMS 实现“推理时间扩展”。

该策略旨在以相同的成本探索更多路径并解决更复杂的问题。

NVIDIA 已将 DMS 发布到 KVPress 库中。

芯片说——知识星球欢迎您

相关推荐

登录即可解锁
  • 海量技术文章
  • 设计资源下载
  • 产业链客户资源
  • 写文章/发需求
立即登录