真正的人工智能革命,是计算基础设施的一次重构。出品 | 张通社
近两年,从Groq、Cerebras等新一代AI芯片公司,到MatX等探索推理计算结构的新玩家,一批公司开始尝试跳出传统GPU路径,重新思考推理时代的基础设施形态。越来越多的人开始意识到:AI需要的,或许不只是更大的GPU,而是一种全新的计算方式。
但与围绕AI推理效率展开优化不同,上海中紫星技术有限公司(简称“中紫星”)选择将目光进一步延伸至神经网络本身的执行机制。
当Groq、Cerebras、MatX等海外的非GPU架构开始被市场接纳,中紫星也在沿着这个方向试图走得更远。
中紫星成立于2025年。其创始团队来自多伦多“人工智能之父”Geoffrey Hinton创办的Vector Institute,长期深耕人工智能、EDA与芯片架构领域。在持续观察神经网络演化趋势的过程中,他们逐渐形成了一个判断:AI的发展正在越来越接近神经系统本身,而传统GPU本质上仍然是为通用计算设计的架构。
基于这一思考,中紫星研发出了NEU(Neural Execution Unit,神经执行单元)架构。与传统计算体系将神经网络视为需要执行的软件模型不同,NEU第一次尝试将其视为可直接在硬件中映射并执行的连接结构。在他们看来,神经网络不应再被翻译为指令序列,而应作为计算机本身的执行结构存在。GPU是在运行神经网络,而NEU试图让神经网络成为计算机本身。
截至目前,中紫星已完成芯片的设计和仿真以及软件体系建设,并计划于2026年第四季度启动首颗芯片试流片。
站在AI产业从训练时代迈向推理时代的关键节点,中紫星正在尝试回答一个更加根本的问题:
如果GPU并不是AI时代的最终形态,那么下一代计算机究竟应该如何执行神经网络?
近期,张通社独家对话中紫星创始人翟四通。以下为访谈实录。
PART 01为什么GPU不再是AI的终局
张通社:听闻你们颠覆性地设计了NEU这套全新的AI计算架构,让我们迫不及待地想要探究一番,但首先还是从你的经历开始谈起?
翟四通:我本科毕业于上海交通大学电子与计算机工程专业,之后在美国德州农工大学攻读计算机工程硕士。硕士期间,我开始研发EDA底层组件,也就是芯片设计过程中使用的工业软件。从那时开始,我的工作一直围绕芯片、EDA和计算系统展开。毕业后,我参与了国内EDA工具的研发与产业化工作,随后加入海思,主导自主EDA体系建设。那段经历让我对芯片设计、工具链和计算架构形成了比较深刻和系统的理解。
后来,我来到多伦多大学攻读博士,并加入了由“人工智能之父”Geoffrey Hinton创办的Vector Institute。也是在那里,我第一次开始认真思考一个问题:
如果神经网络正在成为未来计算的主体,那么我们今天使用的计算机,真的是为神经网络设计的吗?
张通社:为什么会产生这样的想法?
翟四通:因为我们发现,AI的发展方向正在越来越接近神经系统本身。从CNN到Transformer,再到MoE和稀疏激活,整个行业的发展轨迹都在不断强化神经网络内部的连接关系、数据流动方式以及协同机制。换句话说,AI的发展本质上是连接主义的胜利。
但与此同时,我们发现承载这一切的底层计算平台却没有发生根本变化。
今天支撑整个AI产业的GPU,本质上仍然是一种通用计算架构。它最初并不是为神经网络设计的,而是因为具备强大的并行计算能力,恰好成为了深度学习时代最合适的工具。
但随着大模型进入推理阶段,一些更深层的问题开始暴露出来。
张通社:比如哪些问题?
翟四通:很多人认为AI的核心问题是算力不足,但实际上,今天最先进的大模型面临的问题已经不仅仅是算力。内存带宽、通信开销、功耗、尾延迟,以及数据在系统中的流动效率,正在成为新的核心约束。尤其是在自动驾驶、机器人等物理智能场景里,系统需要的不只是高性能,更需要稳定、低延迟和确定性的执行能力。
这些挑战背后其实指向同一个问题:神经网络正在快速演化,但计算机仍然停留在过去的执行逻辑之中。
张通社:所以你们认为GPU不再是AI的终局?
翟四通:是的。
从那时开始,我们想的就不再是如何优化GPU。而是一个更底层的问题:
更适合神经网络的计算架构是什么?
NEU,就是我们给出的答案。
PART 02NEU:让神经网络成为计算机
张通社:很多AI芯片公司都在谈性能提升、算力优化,但你们所强调却是NEU在重新定义AI计算。它到底改变了什么?
翟四通:如果用一句话概括:
GPU是在运行神经网络,而NEU试图让神经网络成为计算机本身。
过去几十年,无论是CPU还是GPU,本质上都属于同一种计算范式。程序员先把问题写成代码,编译成指令,然后硬件按照指令一步一步执行。整个计算机工业建立在这种“指令式计算”之上。
但神经网络其实不是传统意义上的程序,它更像一种连接结构。一个大模型之所以具备能力,并不是因为它拥有某段程序代码,而是因为数以万亿计的参数形成了特定的连接关系。从某种意义上说,神经网络本身就是一种结构化存在。
如果这样看待AI,那么一个新的问题就出现了:为什么我们一定要先把神经网络翻译成指令,再交给GPU执行?为什么不能让神经网络本身直接成为计算机的执行结构?
这正是NEU诞生的出发点。
张通社:所以你们认为神经网络和传统程序有本质区别?
翟四通:是的。
传统软件更像是一份说明书,计算机需要逐条阅读和执行。
而神经网络更像是一张复杂的连接网络,真正重要的不是某条指令,而是整体连接关系。
在生物大脑里,智能并不是由某条指令产生的,而是来自神经元之间的大规模协同连接。
我们认为,神经网络也是如此。因此NEU从设计之初,就没有沿用传统CPU和GPU的设计思路。我们不再把神经网络视为需要执行的软件模型,而是把它视为一种可以直接映射到硬件中的执行结构。
模型本身,就是执行逻辑。
张通社:这种思路和GPU最大的区别是什么?
图1. GPU中的神经网络指令形式 vs. NEU中的神经网络数据流形式
图2. 基于空间数据流的NEU微架构阵列示意图
翟四通:GPU本质上是一种通用计算平台。它需要先把神经网络拆解成大量计算任务,再通过共享内存、指令调度和并行执行系统去完成计算。这个过程非常强大,也非常灵活。但它并不是为神经网络而生。从底层来看,本质上是在用通用计算模拟神经网络。
NEU则完全不同。我们采用神经拓扑驱动、分布式局部执行和空间展开的执行方式。神经网络不再需要被翻译成海量指令。它会直接映射到硬件结构之中。计算过程不再依赖复杂的调度系统,而是按照神经网络自身的连接关系自然流动。
换句话说,GPU关心的是“下一条指令是什么”,而NEU关心的是“下一个神经元连接到哪里”。这是两种完全不同的执行逻辑。
张通社:听起来NEU的设计思想和逻辑结构有着本质的不同,像是重构某种东西。
翟四通:也许是的。
我们认为,AI的发展最终会推动计算机本身发生变化。
过去几十年,计算机的核心任务是运行程序。
未来,计算机的核心任务可能是运行神经网络。
当这个变化真正发生时,很多我们今天习以为常的软件抽象层、硬件组织方式,甚至整个计算体系,都有可能被重新定义。
而NEU所做的,就是从底层开始探索这种新的可能性。
PART 03推理时代,正在呼唤新的计算架构
张通社:从技术角度来看,NEU确实是一种完全不同的执行方式。但投资人和客户最关心的问题可能是:为什么是现在?为什么过去没有出现这样的架构?
翟四通:过去AI产业的核心任务是训练。
训练时代有一个非常明确的目标:把模型做得更大。那个阶段最重要的是通用性和规模化能力。GPU恰好是最适合那个时代的产品。所以过去十几年,整个AI产业几乎都围绕GPU展开。
但今天情况已经发生变化。驱动整个产业发展的核心力量,正在从训练转向推理。越来越多模型开始进入真实世界。用户每天都在和AI交互,机器人开始进入工厂,自动驾驶开始进入道路。AI第一次开始承担持续运行的任务。
这个时候,用户关心的就不再只是峰值算力,而是整个系统的运行效率。
张通社:这种变化具体体现在哪些方面?
翟四通:最直接的变化,就是评价体系变了。过去大家讨论的是TOPS和FLOPS,但今天真正部署大模型的人,很少再关心这些数字。
他们更关心的是:每秒能够产生多少Token;每瓦能够产生多少Token;首字延迟是多少;部署成本是多少;最终每个Token要花多少钱。
这些指标背后反映的是一个事实:焦点正在从“计算问题”变成“经济问题”。大家开始关心推理经济学。
张通社:似乎模型厂商也越来越重视这方面?
翟四通:没错。
如果你去看DeepSeek公开发布的技术报告,会发现他们用了很大篇幅讨论推理经济学。他们指出,随着上下文越来越长,真正限制大模型发展的已经不再是单纯的计算能力,而是内存系统、KV Cache、通信和整体系统效率。为了突破这些限制,整个行业正在出现各种新的探索。
例如Mooncake架构,把预填充和解码拆开;例如DualPipe流水线调度;例如最近很受关注的Attention-FFN分离架构。
这些创新表面上看是软件优化,但它们其实都在说明同一件事情:
AI正在倒逼计算架构发生变化。
张通社:所以你认为MatX、Groq这些公司的出现,也属于这个趋势?
翟四通:我认为是的。
虽然大家选择的路线不同,但本质上都在回答同一个问题:当推理成为主角之后,GPU是否仍然是最优解?
Groq在追求确定性和低延迟推理;MatX在重新思考推理基础设施;Cerebras则在探索全新的数据流组织方式。
这些公司共同证明了一件事情:GPU之外,正在出现新的计算形态。
我们不仅关注如何提升推理效率,我们更关注神经网络本身应该如何被执行。
张通社:那么NEU现实的应用场景是什么?
翟四通:大模型推理。
这是当前市场需求最明确、增长最快的场景。在主流Transformer模型里,FFN(前馈神经网络)部分通常占据整个模型绝大多数计算工作量。但这恰恰也是GPU效率并不理想的部分。因为GPU本质上是通用架构,它需要在灵活性和效率之间做平衡。
而NEU从设计之初就是围绕神经网络执行展开的,因此在这类高密度神经计算场景中,我们具备天然优势。
图3. 面向AF分离的GPU-NEU异构协同LLM部署方案示意图
图4. LLM在NEU同构集群下的流水线并行部署示意图
张通社:这是否意味着你们想替代GPU?
翟四通:恰恰相反。
我们从来没有把自己定义成GPU替代者。事实上,我们认为未来AI基础设施一定是异构的,不同类型的计算节点负责不同类型的任务。未来不是NEU与GPU的竞争,而是不同计算架构之间的协同。
NEU则负责那些最适合神经网络执行的部分。客户不需要推翻现有生态,也不需要重建软件体系,他们只需要把最适合NEU执行的部分交给NEU,剩下部分继续运行在原有系统之上。这样整个集群的效率、成本和能耗都会得到改善。
NEU会成为未来AI基础设施中的一个核心节点之一。
PART 04真正的壁垒,不是一颗芯片
张通社:听下来,NEU的确非常创新,但是你们的生态体系如何建立呢?
翟四通:NEU不是一个独立存在的芯片架构,它背后是一整套共同成长出来的系统,包括神经网络生成器、执行语义、编译系统、数据流管理、工具链、部署框架以及硬件本身。
这些并不是后来拼接起来的,而是从第一天开始就在共同设计。
因为如果执行逻辑发生变化,那么软件栈、开发方式和硬件组织方式也必须同时变化。
否则新的架构很难真正发挥价值。
张通社:很多AI芯片公司都是先做芯片,再补软件生态。你们似乎反过来了。
翟四通:确实如此。
我们的路径和很多公司不太一样,很多团队是先有芯片,然后围绕芯片建立软件体系。而我们其实是软件先行。很多底层系统的积累,甚至可以追溯到十几年前。
最开始的时候,我们研究的并不是AI芯片。而是数字电路的连接关系,以及如何让复杂系统实现自动化组织和执行。后来随着神经网络的发展,我们逐渐发现,两者在底层思想上存在高度一致性。神经网络本质上也是一种连接系统。于是这些积累开始逐渐融合,最后才演化出今天的NEU。
所以NEU是一整套计算体系,是软硬件共同演化的结果。
张通社:所以你们真正构建的是一种新的计算平台?
翟四通:是的。
如果说过去几十年,计算机的基础单位是程序。那么在AI时代,我们认为基础单位正在逐渐变成神经网络。一旦基础单位发生变化,整个计算体系都会跟着变化。
模型如何生成,如何部署,如何执行,如何与硬件交互,这些问题都需要重新思考。
因此我们做的不只是一个新的计算核心,而是在探索一种新的计算平台。
PART 05AI之后,计算机将走向何方?
张通社:你们认为支持未来的AI计算基础会发生什么变化?
翟四通:很多人认为未来十年的核心问题是模型会变得多强。但我觉得还有一个同样重要的问题:当AI越来越强之后,计算机本身会不会发生变化?
过去几十年,整个计算机产业都是围绕“程序”构建的。CPU负责执行程序,操作系统负责管理程序,软件工程师负责编写程序,这是过去计算机产业最底层的逻辑。
但AI的出现,正在改变这一切。因为神经网络和传统程序并不是同一种东西,程序是人设计出来的,而神经网络更多是被训练出来的;程序依赖明确规则,而神经网络依赖连接关系。
当越来越多任务开始由神经网络完成的时候,我们可能正在进入一个新的时代。计算机将逐渐从“程序驱动”走向“模型驱动”。今天很多开发者已经不再直接编写大量底层代码,而是在训练模型、组合模型、调用模型。
AI已经开始从一种软件工具,变成一种新的计算基础设施。
张通社:最后,您会如何定义中紫星?
翟四通:如果要用一句话概括,我们是在探索AI时代的新计算机,成为“人工智能的解放者”。
因为我们相信,真正的人工智能革命,不只是模型能力的进步,更是计算基础设施的一次重构。而这场重构,才刚刚开始。
文字|拿云 编辑|刘程星
398