如果说制程是硬件的 “筋骨”,架构便是芯片的 “灵魂”。长期以来,GPU架构是 AI 计算的绝对主流,英伟达凭借CUDA生态的垄断,构建起难以撼动的技术壁垒。但国产厂商没有走单纯复刻的老路,而是根据自身技术积累,走出了三条差异化的架构路线,实现从 “跟随” 到 “独创” 的跨越。
(一)华为达芬奇架构:全栈自研的 “性能标杆”
作为国产 AI 芯片的龙头,华为昇腾选择了最硬核的全栈自研之路,其达芬奇架构堪称国产通用 GPU 的巅峰之作。昇腾 910B 芯片采用 7nm 工艺,自研架构带来极强的算力密度,950PR 芯片的推理性能更是达到英伟达 H20 的 3 倍,彻底打破了国产芯片性能不如进口的刻板印象。更关键的是,华为同步构建了 CANN+MindSpore 全栈自研体系,从底层硬件到上层应用形成完整闭环,集群方案成熟,千卡级集群已在国内多个智算中心商用,成为国产算力底座的核心支撑。
(二)寒武纪 MLU 架构:推理场景的 “能效王者”
与华为主攻训练 + 推理全场景不同,寒武纪聚焦推理赛道,走出了 ASIC 专用架构的轻量化路线。其思元 370 芯片基于 MLU 架构优化,推理能效比行业领先,同等算力下价格仅为英伟达 A10 的 1/3,完美适配互联网大厂搜索推荐、金融风控、智慧城市安防等高频推理场景。最新的思元 590、690 系列已进入头部云厂商供应链,推理性能接近英伟达 A100,凭借 “高性价比 + 低适配成本” 的优势,在推理市场占据一席之地。
(三)多元架构百花齐放:定制化破解算力难题
除了两大龙头,国产阵营还涌现出一批特色架构。海光信息兼容 x86 架构并支持 AMX 指令集,深算二号的 AI 训练效率可达英伟达 A100 的 80%,凭借 CUDA 高兼容性优势,成为党政信创市场的宠儿;地平线征程 5 采用 BPU 架构,专为自动驾驶场景优化,INT8 算力达 1-20 TOPS,功耗低于 10W,完美适配端侧低延迟需求;沐曦、壁仞科技则对标高端通用 GPU,自研架构兼顾训练与推理,部分产品能效比已超越英伟达 A100。这种 “一超多强” 的架构格局,让国产 AI 芯片在不同场景都能找到最优解。
免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。
温馨提示:AI、芯片、半导体、大模型等“97个技术专栏”,请参考智能计算芯知识。
267