当前,在各大AI大模型激烈竞争的浪潮下,大模型参数正在呈指数级激增、上下文长度直指百万Token。IDC预计,2025年全球数据量将逼近175ZB大关。庞大的数据量让传统存算一体架构“紧耦合”的固有瓶颈日益凸显,数据存储与计算资源捆绑配置,要么“大马拉小车”造成资源闲置,要么难以应对峰值负载,成为了企业数字化转型的核心难题。
在此背景下,存算分离技术迎来产业化与规模化的双重爆发,不仅破解了困扰行业多年的“内存墙”难题,更重构了算力基础设施的配置逻辑。
打破“捆绑” 重构算力配置逻辑
“过去我们的算力资源配置,就像买手机必须捆绑固定套餐,不管用不用得上,都得全额付费。”业内人士向记者表示,在传统存算一体架构下,数据存储与计算单元紧密绑定,企业为应对业务峰值,往往需要按最高负载配置硬件,导致非峰值时段资源利用率不足,运维成本居高不下。
传统存算架构的弊端
存算分离的核心正是打破这种捆绑关系,实现存储与计算的“物理解耦、逻辑协同”,也就是将数据存储功能与计算功能从物理设备层面拆分,通过高速网络实现存储资源池与计算资源池的独立部署、弹性调度,改变传统紧耦合架构中存储与计算绑定扩容的固有模式。
这种架构革新的核心价值,在于破解传统架构下三大核心痛点:一是资源浪费,避免算力闲置而存储不足或存储冗余而算力短缺的失衡问题;二是扩展受限,传统紧耦合架构扩容需整体升级设备,难以适配PB级、EB级数据增长需求;三是安全隐患,数据与算力绑定存储,易导致数据泄露、故障传导等风险。
分离之后的存储层可根据数据量按需扩容,轻松承载EB级海量数据;计算层依托Serverless等架构,随业务负载弹性伸缩,用完即释放,避免资源浪费;再借助智能IP广域网(AI WAN)、CXL等技术,保障跨节点数据传输的低延迟与高可靠。
从技术逻辑来看,存算分离的落地需三大核心支撑:一是高速网络传输,RDMA(远程直接内存访问)、硅光互连等技术的成熟应用,将存储与计算节点间的传输延迟压缩至微秒级,为资源解耦提供基础;二是弹性资源调度,软件定义存储技术的普及,实现存储资源的动态分配与按需扩容,适配不同场景的算力需求波动;三是高可靠冗余机制,通过分布式架构与创新EC冗余技术,在降低存储冗余成本的同时,保障数据可靠性。这三大支撑技术在2025年的全面成熟,推动了存算分离从高端场景向通用领域渗透。
中国电子企业协会电子信息产融合作工作委员会成员绿算技术高级副总裁黄飞表示,存算分离并非要取代此前火爆的存算一体技术,而是形成互补共生的格局。存算分离聚焦数据中心级、广域级的大规模资源调度,适合AI大模型训推、大数据分析等场景;存算一体则侧重端侧、边缘侧的本地化高效计算,比如车载终端、智能摄像头等设备,两者共同构成“端云协同”的算力基础设施体系。
破解行业长期痛点 持续拓展应用领域
当前,存算分离技术在核心介质、网络传输、调度算法等领域实现多项关键突破,推动技术从实验室走向规模化商用。
在技术层面,存算分离领域最显著的突破是摆脱对专用硬件的依赖,通过全栈软件优化实现通用硬件的高性能适配,破解长期以来“高性能必高成本”的行业痛点。
例如,京东云发布的云海AI存储解决方案,通过软件栈深度调优、支持超低冗余EC存储、支持全场景统一存储和存算分离技术,而这项存算分离技术可以将计算和存储解耦独立,存算资源独立调度,提高资源利用率和系统可靠性的同时,降低存储成本。
据了解,云海AI存储的存算分离技术架构,可以实现低至1.1x副本的冗余EC存储,节省整体基础设施成本30%以上。
绿算技术推出为G3级(Nvidia ICMS)定制的存算分离架构平台GP7000系列产品,该系列产品采用以太网闪存簇(EBOF)设计,单系统配备24个PCIe 5.0 NVMe U.2盘位,通过双主控板实现冗余。单机提供7000万IOPS、300GB/s带宽与20μs级延迟,性能较传统存储服务器提升17倍。整机功耗<900W,每GB/s带宽功耗仅3.1W,满足AI工厂的5倍能效目标,支持BlueField-3/4 DPU与Spectrum-X交换机,通过NVMe-oF/RoCEv2/GDS协议实现GPU直连。
高速网络传输技术的优化,是存算分离低延迟落地的核心保障。RDMA(远程直接内存访问)网络技术的深度优化,消除了数据在计算节点与存储节点间的搬运延迟,京东云、华为等企业的方案均已实现该技术的成熟应用。
在人工智能与大模型训推领域,生成式AI与大模型的规模化应用对算力与数据访问效率提出更高要求,存算分离技术通过“数据就地计算、算力动态调度”的核心特性,有效解决了传统架构下数据频繁搬运导致的训推效率低、成本高的问题,成为AI基础设施的核心支撑技术。
华为近期发布的TaurusDB是其新一代云原生数据库,主打“商业数据库的性能与可靠性,开源数据库的灵活与开放”。其基于自研的DFV分布式存储,采用计算与存储分离架构,完全兼容MySQL生态,让客户应用平滑迁移,同时通过计算存储分离机制,显著减少资源冗余,提升整体效率。
阿里达摩院基于分布式智能存储系统构建大模型训练数据中心,可支撑千亿参数大模型的高效训练。其核心逻辑正是存算分离,通过存储与计算资源的弹性调度,避免了传统架构下的资源浪费与数据搬运延迟,成为大模型研发过程中的重要技术支撑。
在金融科技领域,金融行业对数据安全性、业务连续性及实时性要求更高,存算分离技术凭借其高可用、弹性扩展及合规适配特性,在银行、证券等细分领域得到广泛落地,有效解决了传统架构下资源利用率低、节点重建效率低、业务抖动等痛点。
微众银行作为国内首家数字银行,2025年基于TDSQL数据库推出存算分离“Diskless架构”,应对数据规模从不到10PB激增至110PB以上、服务器数量增至2万台的业务挑战。该架构通过服务器去本地盘化、计算无状态化改造,将存储资源集中为远程存储池,计算节点仅保留CPU与内存,实现资源弹性分配。
京东云表示,某股份制银行通过部署京东云云海分布式存储系统,快速打通存力卡点,存储资源利用率提升3倍,综合成本降低50%。
行业发展面临挑战 “存算分离”前景光明
尽管存算分离在2025年取得显著进展,但行业发展仍面临不少挑战。记者采访了解到,技术层面,超远距离存算拉远场景下的算效优化、多协议兼容与异构资源调度的复杂度等问题,仍增加了企业迁移与运维成本;产业层面,行业标准不统一导致方案碎片化,跨厂商协同难度较大,产业链上下游技术适配成本偏高;安全层面,多节点协同场景下的全链路防护仍需加强,跨区域、跨行业数据传输的合规管控难度不小。
不过,行业对存算分离的未来充满信心。绿算技术预测,2026—2030年,存算分离将进入技术深度融合、产业生态成熟、应用场景泛化的新阶段。技术上,存算分离将与存算一体、云边协同等技术深度融合,CXL、AI WAN等技术的持续迭代将进一步优化远距离存算协同效能;产业上,行业标准将逐步统一,跨厂商协同成本将显著降低;应用上,存算分离将从互联网、金融向医疗、教育、工业制造等传统行业深度渗透;安全上,AI驱动的智能防护技术将广泛应用,推动数据要素安全流通。
随着技术创新的持续加码与生态体系的不断完善,存算分离将成为未来数字基础设施的核心架构模式,为全球数字经济高质量发展注入新动力,推动人工智能、大数据等新兴技术规模化应用。
作者丨许子皓编辑丨张心怡美编丨马利亚监制丨赵晨
232