少年天才，博士退学！他造出全球首款NEU AI芯片——当神经网络成为计算机：中紫星NEU架构的诞生

真正的人工智能革命，是计算基础设施的一次重构。出品 | 张通社

近两年，从Groq、Cerebras等新一代AI芯片公司，到MatX等探索推理计算结构的新玩家，一批公司开始尝试跳出传统GPU路径，重新思考推理时代的基础设施形态。越来越多的人开始意识到：AI需要的，或许不只是更大的GPU，而是一种全新的计算方式。

但与围绕AI推理效率展开优化不同，上海中紫星技术有限公司（简称“中紫星”）选择将目光进一步延伸至神经网络本身的执行机制。

当Groq、Cerebras、MatX等海外的非GPU架构开始被市场接纳，中紫星也在沿着这个方向试图走得更远。

中紫星成立于2025年。其创始团队来自多伦多“人工智能之父”Geoffrey Hinton创办的Vector Institute，长期深耕人工智能、EDA与芯片架构领域。在持续观察神经网络演化趋势的过程中，他们逐渐形成了一个判断：AI的发展正在越来越接近神经系统本身，而传统GPU本质上仍然是为通用计算设计的架构。

基于这一思考，中紫星研发出了NEU（Neural Execution Unit，神经执行单元）架构。与传统计算体系将神经网络视为需要执行的软件模型不同，NEU第一次尝试将其视为可直接在硬件中映射并执行的连接结构。在他们看来，神经网络不应再被翻译为指令序列，而应作为计算机本身的执行结构存在。GPU是在运行神经网络，而NEU试图让神经网络成为计算机本身。

截至目前，中紫星已完成芯片的设计和仿真以及软件体系建设，并计划于2026年第四季度启动首颗芯片试流片。

站在AI产业从训练时代迈向推理时代的关键节点，中紫星正在尝试回答一个更加根本的问题：

如果GPU并不是AI时代的最终形态，那么下一代计算机究竟应该如何执行神经网络？

近期，张通社独家对话中紫星创始人翟四通。以下为访谈实录。

PART 01为什么GPU不再是AI的终局

张通社：听闻你们颠覆性地设计了NEU这套全新的AI计算架构，让我们迫不及待地想要探究一番，但首先还是从你的经历开始谈起？

翟四通：我本科毕业于上海交通大学电子与计算机工程专业，之后在美国德州农工大学攻读计算机工程硕士。硕士期间，我开始研发EDA底层组件，也就是芯片设计过程中使用的工业软件。从那时开始，我的工作一直围绕芯片、EDA和计算系统展开。毕业后，我参与了国内EDA工具的研发与产业化工作，随后加入海思，主导自主EDA体系建设。那段经历让我对芯片设计、工具链和计算架构形成了比较深刻和系统的理解。

后来，我来到多伦多大学攻读博士，并加入了由“人工智能之父”Geoffrey Hinton创办的Vector Institute。也是在那里，我第一次开始认真思考一个问题：

如果神经网络正在成为未来计算的主体，那么我们今天使用的计算机，真的是为神经网络设计的吗？

张通社：为什么会产生这样的想法？

翟四通：因为我们发现，AI的发展方向正在越来越接近神经系统本身。从CNN到Transformer，再到MoE和稀疏激活，整个行业的发展轨迹都在不断强化神经网络内部的连接关系、数据流动方式以及协同机制。换句话说，AI的发展本质上是连接主义的胜利。

但与此同时，我们发现承载这一切的底层计算平台却没有发生根本变化。

今天支撑整个AI产业的GPU，本质上仍然是一种通用计算架构。它最初并不是为神经网络设计的，而是因为具备强大的并行计算能力，恰好成为了深度学习时代最合适的工具。

但随着大模型进入推理阶段，一些更深层的问题开始暴露出来。

张通社：比如哪些问题？

翟四通：很多人认为AI的核心问题是算力不足，但实际上，今天最先进的大模型面临的问题已经不仅仅是算力。内存带宽、通信开销、功耗、尾延迟，以及数据在系统中的流动效率，正在成为新的核心约束。尤其是在自动驾驶、机器人等物理智能场景里，系统需要的不只是高性能，更需要稳定、低延迟和确定性的执行能力。

这些挑战背后其实指向同一个问题：神经网络正在快速演化，但计算机仍然停留在过去的执行逻辑之中。

张通社：所以你们认为GPU不再是AI的终局？

翟四通：是的。

从那时开始，我们想的就不再是如何优化GPU。而是一个更底层的问题：

更适合神经网络的计算架构是什么？

NEU，就是我们给出的答案。

PART 02NEU：让神经网络成为计算机

张通社：很多AI芯片公司都在谈性能提升、算力优化，但你们所强调却是NEU在重新定义AI计算。它到底改变了什么？

翟四通：如果用一句话概括：

GPU是在运行神经网络，而NEU试图让神经网络成为计算机本身。

过去几十年，无论是CPU还是GPU，本质上都属于同一种计算范式。程序员先把问题写成代码，编译成指令，然后硬件按照指令一步一步执行。整个计算机工业建立在这种“指令式计算”之上。

但神经网络其实不是传统意义上的程序，它更像一种连接结构。一个大模型之所以具备能力，并不是因为它拥有某段程序代码，而是因为数以万亿计的参数形成了特定的连接关系。从某种意义上说，神经网络本身就是一种结构化存在。

如果这样看待AI，那么一个新的问题就出现了：为什么我们一定要先把神经网络翻译成指令，再交给GPU执行？为什么不能让神经网络本身直接成为计算机的执行结构？

这正是NEU诞生的出发点。

张通社：所以你们认为神经网络和传统程序有本质区别？

翟四通：是的。

传统软件更像是一份说明书，计算机需要逐条阅读和执行。

而神经网络更像是一张复杂的连接网络，真正重要的不是某条指令，而是整体连接关系。

在生物大脑里，智能并不是由某条指令产生的，而是来自神经元之间的大规模协同连接。

我们认为，神经网络也是如此。因此NEU从设计之初，就没有沿用传统CPU和GPU的设计思路。我们不再把神经网络视为需要执行的软件模型，而是把它视为一种可以直接映射到硬件中的执行结构。

模型本身，就是执行逻辑。

张通社：这种思路和GPU最大的区别是什么？

图1. GPU中的神经网络指令形式 vs. NEU中的神经网络数据流形式

图2. 基于空间数据流的NEU微架构阵列示意图

翟四通：GPU本质上是一种通用计算平台。它需要先把神经网络拆解成大量计算任务，再通过共享内存、指令调度和并行执行系统去完成计算。这个过程非常强大，也非常灵活。但它并不是为神经网络而生。从底层来看，本质上是在用通用计算模拟神经网络。

NEU则完全不同。我们采用神经拓扑驱动、分布式局部执行和空间展开的执行方式。神经网络不再需要被翻译成海量指令。它会直接映射到硬件结构之中。计算过程不再依赖复杂的调度系统，而是按照神经网络自身的连接关系自然流动。

换句话说，GPU关心的是“下一条指令是什么”，而NEU关心的是“下一个神经元连接到哪里”。这是两种完全不同的执行逻辑。

张通社：听起来NEU的设计思想和逻辑结构有着本质的不同，像是重构某种东西。

翟四通：也许是的。

我们认为，AI的发展最终会推动计算机本身发生变化。

过去几十年，计算机的核心任务是运行程序。

未来，计算机的核心任务可能是运行神经网络。

当这个变化真正发生时，很多我们今天习以为常的软件抽象层、硬件组织方式，甚至整个计算体系，都有可能被重新定义。

而NEU所做的，就是从底层开始探索这种新的可能性。

PART 03推理时代，正在呼唤新的计算架构

张通社：从技术角度来看，NEU确实是一种完全不同的执行方式。但投资人和客户最关心的问题可能是：为什么是现在？为什么过去没有出现这样的架构？

翟四通：过去AI产业的核心任务是训练。

训练时代有一个非常明确的目标：把模型做得更大。那个阶段最重要的是通用性和规模化能力。GPU恰好是最适合那个时代的产品。所以过去十几年，整个AI产业几乎都围绕GPU展开。

但今天情况已经发生变化。驱动整个产业发展的核心力量，正在从训练转向推理。越来越多模型开始进入真实世界。用户每天都在和AI交互，机器人开始进入工厂，自动驾驶开始进入道路。AI第一次开始承担持续运行的任务。

这个时候，用户关心的就不再只是峰值算力，而是整个系统的运行效率。

张通社：这种变化具体体现在哪些方面？

翟四通：最直接的变化，就是评价体系变了。过去大家讨论的是TOPS和FLOPS，但今天真正部署大模型的人，很少再关心这些数字。

他们更关心的是：每秒能够产生多少Token；每瓦能够产生多少Token；首字延迟是多少；部署成本是多少；最终每个Token要花多少钱。

这些指标背后反映的是一个事实：焦点正在从“计算问题”变成“经济问题”。大家开始关心推理经济学。

张通社：似乎模型厂商也越来越重视这方面？

翟四通：没错。

如果你去看DeepSeek公开发布的技术报告，会发现他们用了很大篇幅讨论推理经济学。他们指出，随着上下文越来越长，真正限制大模型发展的已经不再是单纯的计算能力，而是内存系统、KV Cache、通信和整体系统效率。为了突破这些限制，整个行业正在出现各种新的探索。

例如Mooncake架构，把预填充和解码拆开；例如DualPipe流水线调度；例如最近很受关注的Attention-FFN分离架构。

这些创新表面上看是软件优化，但它们其实都在说明同一件事情：

AI正在倒逼计算架构发生变化。

张通社：所以你认为MatX、Groq这些公司的出现，也属于这个趋势？

翟四通：我认为是的。

虽然大家选择的路线不同，但本质上都在回答同一个问题：当推理成为主角之后，GPU是否仍然是最优解？

Groq在追求确定性和低延迟推理；MatX在重新思考推理基础设施；Cerebras则在探索全新的数据流组织方式。

这些公司共同证明了一件事情：GPU之外，正在出现新的计算形态。

我们不仅关注如何提升推理效率，我们更关注神经网络本身应该如何被执行。

张通社：那么NEU现实的应用场景是什么？

翟四通：大模型推理。

这是当前市场需求最明确、增长最快的场景。在主流Transformer模型里，FFN（前馈神经网络）部分通常占据整个模型绝大多数计算工作量。但这恰恰也是GPU效率并不理想的部分。因为GPU本质上是通用架构，它需要在灵活性和效率之间做平衡。

而NEU从设计之初就是围绕神经网络执行展开的，因此在这类高密度神经计算场景中，我们具备天然优势。

图3. 面向AF分离的GPU-NEU异构协同LLM部署方案示意图

图4. LLM在NEU同构集群下的流水线并行部署示意图

张通社：这是否意味着你们想替代GPU？

翟四通：恰恰相反。

我们从来没有把自己定义成GPU替代者。事实上，我们认为未来AI基础设施一定是异构的，不同类型的计算节点负责不同类型的任务。未来不是NEU与GPU的竞争，而是不同计算架构之间的协同。

NEU则负责那些最适合神经网络执行的部分。客户不需要推翻现有生态，也不需要重建软件体系，他们只需要把最适合NEU执行的部分交给NEU，剩下部分继续运行在原有系统之上。这样整个集群的效率、成本和能耗都会得到改善。

NEU会成为未来AI基础设施中的一个核心节点之一。

PART 04真正的壁垒，不是一颗芯片

张通社：听下来，NEU的确非常创新，但是你们的生态体系如何建立呢？

翟四通：NEU不是一个独立存在的芯片架构，它背后是一整套共同成长出来的系统，包括神经网络生成器、执行语义、编译系统、数据流管理、工具链、部署框架以及硬件本身。

这些并不是后来拼接起来的，而是从第一天开始就在共同设计。

因为如果执行逻辑发生变化，那么软件栈、开发方式和硬件组织方式也必须同时变化。

否则新的架构很难真正发挥价值。

张通社：很多AI芯片公司都是先做芯片，再补软件生态。你们似乎反过来了。

翟四通：确实如此。

我们的路径和很多公司不太一样，很多团队是先有芯片，然后围绕芯片建立软件体系。而我们其实是软件先行。很多底层系统的积累，甚至可以追溯到十几年前。

最开始的时候，我们研究的并不是AI芯片。而是数字电路的连接关系，以及如何让复杂系统实现自动化组织和执行。后来随着神经网络的发展，我们逐渐发现，两者在底层思想上存在高度一致性。神经网络本质上也是一种连接系统。于是这些积累开始逐渐融合，最后才演化出今天的NEU。

所以NEU是一整套计算体系，是软硬件共同演化的结果。

张通社：所以你们真正构建的是一种新的计算平台？

翟四通：是的。

如果说过去几十年，计算机的基础单位是程序。那么在AI时代，我们认为基础单位正在逐渐变成神经网络。一旦基础单位发生变化，整个计算体系都会跟着变化。

模型如何生成，如何部署，如何执行，如何与硬件交互，这些问题都需要重新思考。

因此我们做的不只是一个新的计算核心，而是在探索一种新的计算平台。

PART 05AI之后，计算机将走向何方？

张通社：你们认为支持未来的AI计算基础会发生什么变化？

翟四通：很多人认为未来十年的核心问题是模型会变得多强。但我觉得还有一个同样重要的问题：当AI越来越强之后，计算机本身会不会发生变化？

过去几十年，整个计算机产业都是围绕“程序”构建的。CPU负责执行程序，操作系统负责管理程序，软件工程师负责编写程序，这是过去计算机产业最底层的逻辑。

但AI的出现，正在改变这一切。因为神经网络和传统程序并不是同一种东西，程序是人设计出来的，而神经网络更多是被训练出来的；程序依赖明确规则，而神经网络依赖连接关系。

当越来越多任务开始由神经网络完成的时候，我们可能正在进入一个新的时代。计算机将逐渐从“程序驱动”走向“模型驱动”。今天很多开发者已经不再直接编写大量底层代码，而是在训练模型、组合模型、调用模型。

AI已经开始从一种软件工具，变成一种新的计算基础设施。

张通社：最后，您会如何定义中紫星？

翟四通：如果要用一句话概括，我们是在探索AI时代的新计算机，成为“人工智能的解放者”。

因为我们相信，真正的人工智能革命，不只是模型能力的进步，更是计算基础设施的一次重构。而这场重构，才刚刚开始。

文字｜拿云编辑｜刘程星

少年天才，博士退学！他造出全球首款NEU AI芯片——当神经网络成为计算机：中紫星NEU架构的诞生

PART 01为什么GPU不再是AI的终局

PART 02NEU：让神经网络成为计算机

PART 03推理时代，正在呼唤新的计算架构

PART 04真正的壁垒，不是一颗芯片

PART 05AI之后，计算机将走向何方？

相关推荐