2025年11月13日,安谋科技(中国)有限公司在上海正式发布新一代NPU IP——“周易”X3。

图 | “周易”X3 NPU IP新品亮点;来源:安谋科技
作为“All in AI”产品战略下的首款重磅产品,“周易”X3基于专为大模型而生的最新DSP+DSA架构,在算力、能效、带宽等关键指标上实现显著突破:提供8-80 FP8 TFLOPS可配置算力,单核心带宽高达256GB/s,CNN模型性能提升30%-50%,AIGC大模型能力较上一代提升10倍。Prefill阶段算力利用率达72%,在自研解压硬件WDC加持下,Decode阶段有效带宽利用率超100%。
在这一系列性能提升的背后,是安谋科技基于对技术与市场趋势的深度研判所构建的差异化战略。
从技术层面看,"周易"X3通过DSP+DSA融合架构实现了灵活性与效率的平衡,通过多精度融合计算体系打通了从FP16到W2A8的渐进式量化路径,借助极致的"数据本地化"存储架构突破了传统冯·诺依曼架构的能效瓶颈。
从市场层面看,公司采取"重点突破、梯度覆盖"的策略,既把握汽车电子这一当前最具付费意愿的高价值市场,又通过模块化架构设计满足从AIoT到基础设施的多元化算力需求,更以"架构均衡"理念为未来算法演进预留充足空间。
这种技术前瞻性与市场务实性的紧密结合,使得"周易"X3不仅在硬件参数上实现跨越式提升,更在商业落地上构建了可持续的竞争优势。
在发布会后记者与安谋科技技术团队的进一步沟通中,安谋科技产品总监鲍敏祺与高级产品经理叶斌的洞察,为我们理解“周易”X3一系列技术决策背后的底层逻辑提供了关键线索。

图 | 与非网专访安谋科技产品总监鲍敏祺;来源:安谋科技
异构计算将走向何方?
在技术专访中,安谋科技产品总监鲍敏祺深入阐释了异构计算的发展路径。“当前我们关注的异构计算,主要体现在系统层面,即CPU、NPU与GPU的协同工作。这种架构旨在应对AI任务中NPU不擅长的前后处理环节,其核心挑战在于构建一个能高效调度不同架构的统一软件框架。”
“而未来,异构将进一步深入到单个NPU内部,形成'算力异构'。”鲍敏祺补充道,“通过在NPU内集成不同性能和特性的计算单元,可以在追求大算力的同时,兼顾如大模型所需的灵活性。这种内部异构若由单一软件栈调度将非常高效;反之,若采用多个独立NPU则会因软件栈冗余和数据搬运导致能效折损。”
这种“算力异构”理念在“周易”X3的DSP+DSA融合架构中得到充分体现。鲍敏祺分析了纯DSA架构的局限:“纯DSA采用硬件固化流水线,执行效率高,但极度缺乏灵活性。一旦算法流程发生变化(例如KV Cache的访问模式从'一二三四五'变为'一三五四'),原有硬件设计就无法适应。”
DSP的引入正是为了高效处理那些虽只占AI总计算量不到20%、但通用性强的计算任务。“如果缺乏DSP这样的可编程单元作为补充,许多本应由NPU处理的灵活计算就不得不回退到CPU(某些产品方案中用RISC-V CPU承担此类负载)。这会大量消耗主CPU资源,违背了NPU作为独立异构算力的设计初衷。”
精度路线如何选择?
在量化精度方面,“周易”X3支持int4/int8/int16/int32/fp4/fp8/fp16/bf16/fp32多精度融合计算,并前瞻性布局W4A8与W2A8技术路径。
对此,鲍敏祺指出:“当前手机带宽限制(约16-32GB/s)与用户对实时响应的期待,共同构成了推动更低比特量化的行业动力。我们观察到Hugging Face等平台已出现W3A16等模型,预计明年起主流厂商将加速这一趋势。”
对于精度选择策略,鲍敏祺提出了重要观点:“技术选型上应优先保障'可用性',例如为便于快速部署可倾向选用FP8浮点运算,而非执着于INT8能效却牺牲迭代敏捷性。更重要的是,大模型是需实时演进的Agent,其'智能感'依赖于快速部署与持续更新,这与传统CNN的迭代模式有本质不同。”
这一思路得到了安谋科技高级产品经理叶斌的印证:“我们调研过某国际大厂的芯片,其NPU利用率在20%-30%,远高于其他品牌。原因在于其几年前就已部署FP16浮点NPU,大大降低了部署门槛。国内厂商NPU利用率低,正是因为使用门槛太高,而该国际大厂提供了一个成功的参考案例。”
针对W2A8的具体落地前景,鲍敏祺表示:“W2A8是支撑7B等模型在手机等端侧设备落地的关键技术路径。虽然W2量化的具体落地时间仍受制于算法优化与工具链成熟度,但端侧算力与带宽的硬约束决定了这是必然发展方向。我们将持续与芯片厂商、算法公司协同推进,确保低比特量化在提升性能的同时始终满足可用性要求。”

图 | 与非网专访安谋科技高级产品经理叶斌;来源:安谋科技
如何突破存储能效瓶颈?
在存储架构设计上,“周易”X3采用了极致的“数据本地化”策略。
对此,鲍敏祺详细解释道:“我们采用的并非存内计算,其核心设计哲学是极致的'数据本地化'。与英伟达GPGPU依赖大容量缓存和外部DDR的方案不同,我们通过精细规划L1/L2/L3多级存储,力求让数据在最靠近计算单元的层级(尤其是L1)完成处理,最大限度减少数据搬运,从而直接提升能效。”
这种设计虽然增加了软件在变量生命周期管理上的复杂度,但鲍敏祺认为这是在经典冯·诺依曼架构下突破能效瓶颈的必由之路:“因为工艺决定了约80%的能效上限,剩余20%的优化空间则完全依赖于如何最小化数据访问的带宽与功耗,而数据本地化正是实现这一目标最有效的架构策略。”
在具体实现上,“周易”X3的存储架构从X2的Global Memory升级为L2 Memory。
对此,鲍敏透露:“事实上,现在的架构上,同一层既有Global Memory,也有 L2 Cache。其中,Global Memory主要负责存储输入特征图等规模较大的数据流,而 L2 Cache则用于处理各个计算块之间的权重共享与临时数据交互。这种专业化分工不仅提升了带宽利用效率,更重要的是通过存储结构的优化实现了数据调度效率的整体提升。”
软件生态如何构建?
“周易”X3搭载的Compass AI软件平台已实现Parser、量化工具等核心组件的开源。
叶斌强调:“我们始终在积极推进开源与开放两大战略。在开源方面,我们的Parser和量化工具均已开放,其中量化工具的开源实现目前在行业中尤为领先。我们之所以坚持推进量化开源,是因为看到无论CNN还是大模型时代,模型调优(如W4A8、W4A16等配置)都高度依赖量化技术,而这一环节往往工作量巨大,开源能切实帮助开发者降低工作量。”
在开放层面,叶斌补充道:“我们致力于打破工具链黑盒化的现状。与许多封闭式工具链不同,我们的平台支持中间结果的灵活导出与可视化,开发者能够清晰查看IR结构、精度变化及性能数据,实现全流程透明分析与调试。”
此外,平台还支持自定义算子开发。鲍敏祺举例说明道:“当一个客户发现,他的模型结构中的'矩阵乘'和紧随其后的'激活函数'可以合并执行时,这个组合在计算图上就会形成一个全新的、自定义的算子。这个新算子并非标准框架所有,而是为了极致性能或特定模型结构而诞生的。我们就必须提供这种自定义能力,让客户能够将这些独特的计算模式定义成一个高效的、整体的新算子。”
叶斌补充了这项能力的另一重要价值:“保护客户的核心知识产权。我们有一些实际案例,客户使用自定义算子功能来封装其自研的独家算法。这样,他们既能在我们的硬件上获得高性能,又无需向任何第三方(包括我们)透露其算法的具体实现细节。”
市场破局之路何在?
“周易”X3精准定位四大核心市场:基础设施、智能汽车、移动终端、智能物联网。
鲍敏祺从市场需求角度深入分析道:“从当前市场来看,AI算力真正能让用户买单的主要还是在车载领域,大家会愿意为更高算力的芯片支付溢价。而在AI PC和端侧大模型领域,NPU并未被有效应用。”
对于汽车电子这一重点市场,鲍敏祺分享了具体观察:“当前车载芯片市场主要由地平线与英伟达两大厂商主导。在技术路线上,我们并非刻意追求独特,而是紧跟产业主流趋势。例如在量化方案上,我们参照英伟达的同类技术进行适配开发,这种策略更容易获得保守稳健的车企客户认可。”
他进一步指出,“车企在技术选型上普遍倾向于跟随行业领军者。正如结构化稀疏等技术,虽然实际价值尚待验证,但因其得到英伟达采用就获得车企青睐。”
另外,面对当前整体市场70%客户持观望态度的市场现状,鲍敏祺提出了明确的破局思路:“当前市场存在两个明确的算力参考基准:在AI PC领域,微软通过Windows系统定义的45TOPS已成为行业事实标准;在机器人领域,英伟达Orin芯片提供的100TOPS算力则被视为入门级配置。”
然而,他强调单纯跟随这些标准往往会使企业陷入被动。“因此,我们正积极引导部分前瞻性客户实施差异化策略——在关键领域适当超前布局,以在技术窗口期建立竞争优势,避免在产业成熟时陷入完全被动的局面。” 鲍敏祺如是说。
在当前热门的机器人市场方面,尽管“周易”X3当前方案总算力为80 FP8 TFLOPS,但鲍敏祺解释说:“您提到的算力问题需要从两个层面来看:首先,80 FP8 TFLOPS的算力基准是基于当前工艺和频率(1-1.25GHz)的保守估算,若采用更先进的工艺,频率可提升至1.4-1.5GHz,算力将相应增加。更重要的是,我们的NPU采用模块化架构设计,单个计算集群提供80 FP8 TFLOPS算力,通过多集群组合可实现算力线性扩展(如双集群即达160T)。”
在这个问题上,叶斌从有明确需求的30%客户的角度上补充道:“这30%需求明确的客户,核心在于他们面对的市场和客户群体本身是清晰的。他们的决策逻辑直接而务实——基于当前可见的市场需求进行布局。在此基础上,我们进一步帮助这些客户构建具备韧性的技术架构,这意味着即便未来市场出现波动或技术方向发生调整,他们依然能够快速适应,持续把握市场机遇。”
如何应对算法不确定性?
面对VLA、世界模型等前沿算法的不确定性,鲍敏祺分享了“周易”X3的“架构均衡”策略:“在应对VLA、世界模型等前沿算法的不确定性时,我们采取的是'架构均衡'策略。虽然这些模型的底层核心仍是Transformer类计算,但其技术路径和商业落地时间远未收敛——从Meta调整技术路线到车企提出的'VLA without L'等概念都可看出这一点。”
“因此,‘周易’X3 NPU的设计不会激进地押注某个特定方向,而是在算力配比、存储带宽等关键参数上选择相对适中的平衡点。”鲍敏祺解释道。
这种策略能力来源于双轮驱动:“一方面持续追踪顶级学术论文,分析新兴算法中的计算模式变化,预判未来工作负载;另一方面深度研究英伟达等领先企业的芯片架构,解读其带宽配比等设计决策背后的逻辑。通过交叉验证学术前沿与产业实践的趋势一致性,我们能够确保NPU架构设计既不过度超前也不落后。学术研究通常领先产业落地3-5年,这为我们提供了足够的时间窗口来构建既稳健又具备前瞻性的计算平台。”
写在最后
“周易”X3的发布标志着安谋科技在端侧AI计算领域进入了新的发展阶段。从系统级异构到芯片内核深度融合,从定点计算优先到浮点运算优先,从封闭工具链到开源开放生态,展现了安谋科技对AI技术发展趋势的深刻洞察和前瞻布局。
在软硬协同、开放生态的双重驱动下,“周易”X3有望成为推动端侧智能规模化部署的关键引擎,为千行百业的智能化转型提供坚实的算力基石。
来源: 与非网,作者: 夏珍,原文链接: https://www.eefocus.com/article/1921366.html
902
