作者简介:
Craig Melrose 是 HTEC 的半导体与 AI 行业专家,专注于连接硬件创新与企业级 AI 部署。Ian Baird 是 HTEC 的高级半导体专家,重点关注工作负载迁移、AI 编译器以及异构计算环境。本文观点来自 2026 年 3 月进行的专家访谈,以及 HTEC 委托 Censuswide 对全球 250 位半导体行业 C 级高管开展的调研。
硬件热潮正在降温。接下来要面对的,是软件、功耗和推理能力方面的挑战,而行业里大多数公司其实还没有准备好。
如今,AI 芯片只占全球芯片产量的 0.2%,却贡献了大约 50% 的行业总收入。这个比例本身,就足以说明当前半导体行业的趋势。AI 正在重塑芯片设计周期、制造良率优化以及部署架构。但根据HTEC对250位半导体高管的全球调查,只有 44% 的企业已经在多个职能环节中全面嵌入 AI,剩下 56% 的企业仍停留在试点、有限部署或早期探索阶段。
也就是说,真正覆盖全公司的 AI 一体化应用,仍未普遍建立起来。结合这项调查结果,以及 HTEC 半导体业务高级负责人 Craig Melrose 和 Ian Baird 的专家观点,以下几大趋势将定义 2026 年的半导体行业格局。
01、AI硬件金字塔将会坍塌,接下来取而代之的是什么
当前 AI 半导体行业的结构,就像一个倒立的金字塔。宽的一端,是数百家芯片公司、数十亿美元的资本投入,以及持续不断的硬件创新;窄的一端,则是数量其实相当有限、真正进入规模化生产阶段的 AI 应用,而这些应用正运行在前述所有芯片之上。
0.2% / 50% 这个比例,已经清楚表明了行业今年的关注重点将转向哪里。正如 Craig 所说:
“当前很多关注点仍然放在硬件上,而不是放在解决现实世界的问题上。”
未来取代这座金字塔的,将是一种更平衡的结构:硬件会围绕少数几个主导性软件生态进行整合,并与制造、物理 AI、医疗等领域中已经验证过的终端应用层相连接。2026 年真正能够跨越这道鸿沟的企业,将是那些带着能跑真实企业工作负载的软件栈进入市场的公司,而不只是能在实验室里跑通方案的公司。英伟达就是一个典型例子。
02、下一家英伟达不会由芯片本身决定
英伟达赢得 AI 芯片竞赛,并不是因为它拥有最好的芯片,而是因为它拥有 CUDA——它足够好、出现得足够早,而且黏性足够强,最终成为全球 AI 开发的默认底层平台。Ian Baird 说得很直接:如今每一家做定制加速器的公司,真正面临的主要障碍并不是硬件性能,而是软件兼容性。
英伟达的优势,来自其为并行处理而生的 GPU 架构——而这种架构又与 AI 的需求高度契合。此后每一个竞争对手,都不得不逆着一个不断自我强化的软件生态往上爬。Craig Melrose 则借用了 Geoffrey Moore 的技术采纳曲线来解释:
“硬件是创新者。真正决定谁能成为快速跟随者、谁能进入主流市场的,是软件。”
对于那些正在开发或采用新型加速器的半导体公司来说,真正具有决定性的投入,应该放在编译器工具链、内核库,以及那些能够完成工作负载迁移、补齐软件短板的工程团队上。
最终能活下来的玩家,往往会具备几个共同特征:
在软件上深度投入
聚焦特定的高价值工作负载
拥有经过验证的部署模式
如果一款加速器在生产环境中无人使用的特定工作负载上性能提升30%,那它就无法成为一项可行的业务。而如果一款加速器在边缘计算的视频推理任务上效率提升20%,且拥有完整的软件栈和经过验证的部署路径,那它就是一项可行的业务。
03、到2027年,大多数 AI 推理将运行在边缘侧,但软件还没准备好
“AI 推理默认运行在云端”这一假设,正面临两股力量的冲击:一是物理 AI 应用的增长,二是数据中心算力能耗成本的不断上升。Craig 的判断很明确:
“物理 AI 最终大多数都会跑在边缘侧。”
机器人、自动驾驶汽车、工厂车间系统,都需要在动作发生的现场完成推理。一个人形机器人,不可能在抓取物体之前,还等着云端来回传一趟结果。
“边缘 AI 真正难的,不是把足够强的芯片送到边缘端,而是让软件能在所有这些硬件上正确运行。”
但瓶颈并不在硬件。当前 NPU 生态高度碎片化:AMD、Intel、高通、苹果以及其他数十家公司都推出了各自的神经网络处理器,但它们的架构和工具链彼此并不兼容。Ian 直指问题核心:如何开发能够在这样一个异构生态中高效运行的软件,才是真正的难题,而现有框架对此只能部分解决。边缘推理所需的硬件正在到位,但与之匹配的软件生态还远没有准备好。
04、2026年,Chiplet 架构将从小众走向主流
把单体 GPU 视为 AI 默认计算平台的时代,正在结束。AI 工作负载的多样化,使专用化在经济上变得越来越划算。Chiplet 架构允许企业将来自不同来源、不同工艺节点的计算、存储和 I/O 模块进行灵活组合,从而实现过去单片大芯片设计难以做到的定制化。
Craig 提到,像 Modular 这样的公司,正在用非常规方式切入硬件领域。它们正在开发 Chiplet 和模块化硬件,甚至在重新定义“什么叫一颗芯片”。Ian 还提到了 D-Matrix,作为另一个例子:其将超低延迟存储与计算进行集成,专门针对视频生成、提示词处理等推理负载进行优化。Google 的 TPU、微软的 Maia、亚马逊的 Trainium,本质上都押注于同一件事。超大规模云厂商几年前就已经看明白了这一点。到了 2026 年,市场的其他玩家才会开始真正跟上。
05、到2027年,推理效率将比原始 FLOPS 更重要
当功耗成为约束,效率就会成为护城河。推理优化的前沿,正越来越多地转移到软件层面。
现在,采购讨论的重点,已经开始从峰值算力性能,转向每瓦 FLOPS(FLOPS-per-watt)、每次查询时延(latency-per-query)、每次推理成本(cost-per-inference)。在 2026 年和 2027 年,真正有意义的性能提升,将更多来自软件层面的推理优化——例如模型蒸馏、量化、编译器调优,以及根据实际工作负载需求来合理裁剪模型规模。
在几乎所有真实生产场景里,一套优化良好的小模型,跑在高效芯片上,往往都能胜过一套配置过度、却运行在高功耗芯片上的大模型。那些把推理优化视为核心工程能力,而不是事后补救动作的公司,将拥有一种后来者很难补齐的结构性成本优势。
06、数据中心将在2028年前面临供电不足
AI 基础设施建设中有一个关键风险,当前仍被低估:能源供给的扩张速度,跟不上 AI 算力需求的增长速度。燃气轮机——目前新增供电能力最快的路径——其产能预订已经排到 2028 年。电力供应,正在成为数据中心扩张的硬约束。
一些地方性早期案例已经显现,比如美国内华达州一家公用事业公司计划优先保障数据中心用电,而不是现有的电信基础设施需求。这类情况说明,这种约束正在开始从纸面问题走向现实。Craig 直接抛出了后续问题:
“如果那些依赖数据中心的系统,所依赖的数据中心本身出现能源缺口,会发生什么?如果一个关键生产系统实时依赖云端推理,而该数据中心因电力不足而降载,责任该由谁承担?”
这不是一个理论问题,而是一个运营层面的现实问题。那些现在就开始通过边缘部署和工作负载优先级管理来提升韧性的组织,在后续约束进一步加剧时会更具优势。
07、2026年,物理 AI 的增长将快于数据 AI
下一波 AI 芯片需求,将来自嵌入在机器人、汽车、工厂和消费设备等物理系统中的 AI。Craig 认为,这一趋势其实已经开始了:那些需要本地实时推理的应用场景,增长速度已超过上个周期中占据主导地位的数据中心型应用场景。
证据其实已经体现在周边市场里。智能手表、便携式心电设备、智能戒指等消费设备,以及工业自动化、自动驾驶汽车,都需要边缘推理、低功耗、面向垂直场景的软件栈,以及让 AI 能够在完全不同于受控数据中心环境的现实世界中稳定运行的能力。
而恰恰是这些应用,当前的软件工具链最不具备服务能力。那些最终能把 AI 真正带入物理世界的公司,会最先意识到:硬件问题和软件问题,从来就不是两件彼此独立的事。
08、结论
半导体行业的硬件竞赛已经全面展开,但最终胜负将由软件决定。那些能够在这轮洗牌中存活下来的加速器和平台,必须满足几个条件:连接到经过验证的应用场景,背后有稳健的软件生态支撑,并且为一个以边缘优先、功耗受限为现实前提的世界而设计。
我是芯片超人花姐,入行20年,经手10亿+RMB芯片采购。原创写了9年文章,有50W+芯片行业粉丝。有很多不方便公开发公众号的关于芯片买卖、关于资源链接等我会分享在朋友圈,扫码加我本人微信
来源:内容由芯世相(ID:xinpianlaosiji)编译自「HTEC」
1423