当地时间3月24日,谷歌推出名为TurboQuant的内存压缩算法,称可在不损失准确性的情况下,将大型语言模型运行时的关键部分——KV Cache(键值缓存)的内存占用减少为原有的1/6。消息发布后,存储芯片板块头部企业股价集体跳水,全球主要存储企业市值损失合计超6200亿元。
在3月27日举办的CFMS|MemoryS 2026上,阿里云千问大模型高级产品解决方案架构师李彬肯定了该技术在模型推理过程中的价值,但他同时也指出,考虑到模型上下文长度和模型自身参数等方面的飞速发展,AI对存储需求持续增长的大趋势不会改变。
李彬深入剖析了大模型应用从简单的对话助手向复杂Agent(智能体)转变的路径,并重点阐述了这一过程中存储技术面临的全新挑战与机遇。一个由全模态大模型驱动、7×24小时运行的智能体时代正在到来,存储技术正面临着前所未有的挑战,存储产业或将迎来由大模型驱动的结构性增长。
应用层演进:智能体全天候运行改写存力峰谷规律
AI应用的发展正经历着质的飞跃。最初,我们仅通过Chatbox(聊天框)与模型进行简单的问答;随后发展为Copilot(副驾驶)模式,辅助人类工作;而当前的最新趋势则是General Agent(通用智能体)的崛起。
作为通用智能体,“龙虾”不仅能进行任务规划,更具备了长期记忆和远程执行能力。李彬指出,这意味着AI不再局限于人类的“工作时间”,而是能够以7×24小时不间断地运行,无论是白天还是夜晚,都能通过远程调用工具自动完成任务。这种全天候的运行模式,彻底改变了传统AI应用的算力、存力的波峰波谷规律,使算力与存储负载由日间峰值转向全天候均衡分布,对存储系统整体利用率与运维的连续性提出了更高的要求。
技术层突破:参数增长和架构创新呼唤存储吞吐效率升级
在模型技术层面,Qwen大模型从最初的2T训练数据发展到如今的45T数据,参数量级的飞速增长伴随着架构创新,对存储吞吐效率的要求呈指数级上升。
李彬强调,MoE(混合专家模型)架构的广泛应用虽然在一定程度上降低了对算力的需求,但并未减少对存储的依赖,反而因为参数量向TB级甚至10TB级发展,对显存和存储提出了更高要求。为了应对这一挑战,行业正在探索KV Cache压缩技术。谷歌的研究指出,通过缓存压缩技术,推理过程中的KV Cache消耗可降至1/6,这为解决长上下文处理中的高显存占用问题提供了重要思路。
此外,针对端侧推理场景,还可以利用Flash存储辅助显存的技术,解决边缘设备显存有限、大模型无法完整加载的问题,从而在不牺牲推理性能的前提下,显著降低部署成本。该技术进一步打开了大模型在端侧落地的可能性。
全模态融合:视频理解与生成驱动存储需求爆发
李彬分析道,当下,模型已不再局限于纯文本交互,而是向包含图像、语音、视频的全模态方向发展。特别是在自动驾驶和具身智能领域,模型需要具备快速定位物体、理解复杂场景的能力。例如,模型不仅需要识别图像,还要通过逻辑推理找出图片中的不同之处。这种从“感知”到“认知”的跨越,使得原本沉睡的监控视频、用户相册、自动驾驶影像等历史沉睡数据因模型可解析而重获价值,带来海量非结构化视频数据的存储、索引与加速访问需求。
同时,AI生成的短视频、短剧等内容占比已极高,其生成过程本身产生海量高质量视频数据,后续还需配套存储、二次理解、检索与再编辑,形成“生成—存储—理解—再生成”正向循环,持续放大底层存储系统的容量与带宽压力。
作者丨赵晨编辑丨张心怡美编丨马利亚监制丨连晓东
146
