• 正文
  • 相关推荐
申请入驻 产业图谱

基于芯粒的集成架构是未来物理AI系统设计成功的关键

12/01 11:32
895
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

英伟达创始人黄仁勋到AI教父、诺贝尔奖得主Geoffrey Hinton都普遍认为,目前的AI水平距离真正的人类智能还相距甚远,未来5~10年最有发展潜力的领域当属物理AI系统。

一、什么是物理AI系统?

物理AI系统指的是能够感知、理解、推理并与真实物理世界互动的人工智能系统。与仅在数字世界运行的传统人工智能(例如基于LLM的智能体、聊天机器人或数据分析软件)不同,物理人工智能系统利用传感器和执行器来弥合数字智能与物理行动之间的鸿沟。

物理AI系统的主要特征包括:

1. 感知:物理AI系统利用各种传感器(例如摄像头激光雷达、雷达、麦克风和触摸传感器)收集周围环境的信息,使其能够实时“看到”、“听到”和“感受到”周围环境。

2. 实时推理和决策:这些系统使用先进的机器学习(ML)和深度学习(DL)算法处理传感器融合的数据,以解释复杂情况、预测结果并即时做出自主决策。

3. 物理行动:AI决策通过执行器(电机、机械臂、轮子等)转化为物理运动或操作——这才是人工智能在现实世界中真正“行动”的地方,而不仅仅是提供数字输出。

4. 自我学习与适应:物理AI系统利用强化学习等技术,从交互和经验中学习,不断提升其在不可预测环境中的性能表现和适应能力。

物理AI系统是众多行业自主系统的核心技术,其应用场景主要包括:

1. 自动驾驶汽车(AV):自动驾驶汽车和送货无人机利用物理人工智能进行道路导航、避障,并根据交通和天气状况做出实时决策。

2. 机器人:在制造工厂和物流仓库中,物理AI系统可以驱动机器人执行复杂的装配任务、管理仓库库存并与人类工人进行协作。

3. 医疗保健:机器人手术助手利用物理AI进行精准的微创手术,而AI赋能的假肢和外骨骼则能够提供自适应的移动支持。

4. 智能家居智慧城市:人工智能应用于智能家居和城市管理,通过处理传感器数据并相应地调整物理系统,优化能源利用、管理交通系统并增强安全性。

5. 农业:无人机和机器人利用物理AI执行精准农业任务,例如监测作物健康状况和自动收割等。

从本质上讲,物理AI系统旨在创造能够在动态的现实世界环境中与人类有效、安全地协同工作的智能机器,超越简单的自动化,实现真正的自主性和交互。

二、为什么说采用Chiplet架构的IC设计是物理AI系统的首选?

就像支持目前大语言模型(LLM)训练和推理的关键是AI芯片,推动物理AI系统快速发展的关键是负责边缘计算的AI芯片。AI和IC设计界人士一致认为,基于Chiplet的IC设计是物理AI系统(比如机器人、无人机、自动驾驶汽车)的关键推动因素,它能够提供传统的单片芯片难以实现的能效、可扩展性和可定制性。

物理AI系统对边缘计算能力有着独特的需求,需要在紧凑、功耗受限的体积内实现高性能和低功耗(例如,在电池供电的无人机或AR/VR设备中)。而基于Chiplet的架构通过以下方式满足这些需求:

• 性能与可扩展性:AI工作负载受益于大规模并行处理和高内存带宽。Chiplet的架构允许设计人员集成多个专用计算核心和AI加速器,并根据不同应用的需求进行横向和纵向的性能扩展。

• 能效与散热管理:通过使用更短、更高速的互连,并针对每个特定功能优化工艺节点(例如,使用成熟但更经济的工艺设计和制造I/O接口芯粒,而使用最新的工艺节点进行GPU芯片设计),Chiplet架构可以显著降低功耗并改善散热管理。

• 成本效益和良率提升:设计更小的独立芯粒可提高晶圆加工良率。如果某个芯粒出现缺陷,则只需报废该组件,而无需报废整个大型昂贵的晶圆,从而降低整体制造成本。

• 定制化和快速上市:模块化特性允许使用预验证的芯粒进行“混合搭配”设计,从而可加快专用AI解决方案的设计周期和上市时间。

尽管有如上益处,采用Chiplet架构的IC设计还需要应对以下挑战:

• 互连标准:芯粒之间高效、高带宽、低延迟的互联通信至关重要。国际上,通用芯粒互连高速协议(UCIe)和Arm的芯粒系统架构(CSA)等行业标准正在涌现,以确保不同供应商组件之间的互操作性。同时,国内也推出了芯粒设计及互联相关标准。

先进封装:采用2.5D中介层和3D堆叠(通过硅通孔TSV或玻璃通孔TGV进行垂直堆叠)等技术对于将芯粒物理集成到单个系统级封装(SiP)中至关重要。

• 系统级设计与分析:EDA工具必须能够应对多芯粒集成的复杂性,包括对电气、散热和机械压力进行多物理仿真和分析。

• 安全性和可靠性:在自动驾驶汽车和机器人等应用中,确保跨多个芯粒间的安全通信和可信执行至关重要。强大的安全框架(包括后量子密码学准备)正在被集成到设计流程中。

三、针对物理AI系统的芯粒框架设计步骤

Cadence的物理AI芯粒平台

从概念到实际芯片,构建基于芯粒的平台是一个精细的多阶段过程。作为物理AI芯粒平台的关键组件,系统芯粒的成功启动证明了这种模块化方法的成熟度。该平台集成了多个相同的系统芯粒,使系统能够模拟多种应用场景。

里程碑 1:系统平台初始化

成功完成初始上电和平台初始化标志着第一个重要里程碑的到来。硬件团队协调了所有芯粒的供电、时钟和基本连接,并验证了系统级复位和启动序列是否按预期执行。调试功能嵌入在始终开启的电源域中,确保在UCIe芯粒间互连链路初始化之前即可访问芯片。这一基础步骤为进一步的功能接口验证奠定了基础,并为后续里程碑做好了准备。单芯片配置在硬件和软件设置完成后一天内即可启动并进入命令行界面。这得益于硬件和软件在芯片制造前已通过仿真和模拟进行了验证。

里程碑 2:UCIe芯粒间接口启动

完成单芯片初始化后,接下来需要进行多芯粒间配置。这一关键步骤涉及启动并验证UCIe高速芯片间接口,这对于可靠的芯片间通信至关重要。一个芯片被配置为多芯片启动器,在完成自身安全启动后,它负责管理辅助芯片的初始化。这是Cadence Chiplet Framework的基本功能,稍后会详细介绍。工程团队精心执行了跨芯片的电源时序、链路训练和初始握手流程。通过详尽的测试和测量,验证了信号完整性、误码率和通道可靠性。重要的是,成功验证了封装中25mm链路(UCIe规范规定的最大链路长度)和更短的7mm链路的32Gb/s UCIe性能。这一里程碑式的成功不仅证明了芯粒在原始电气层和协议层上的互操作性,也验证了UCIe实现的稳健性。

UCIe-SP32G RX 眼图(25mm 链路)(来源:Cadence)

里程碑 3:LPDDR5X 9600内存接口启动

最大化AI性能需要高速内存访问,并将其深度集成到系统核心架构中。LPDDR5X 9600内存接口的启动和验证是Cadence系统芯粒平台启动的又一重大成果。它采用了最新的Cadence LPDDR5X IP解决方案,该接口已上线并成功训练,可在9600 Mb/s的速率下稳定运行。在内存子系统运行正常后,进行了广泛的压力测试——包括高要求的读/写模式和高带宽流传输——结果表明,即使在多个芯片同时访问的情况下,也能保持无错误且持续的高性能。双芯片系统中的每个芯片都支持独特的配置,因此可以验证多种实际应用场景。测试用例包括禁用其中一个芯片的内存子系统,并让另一个芯片通过芯片间的UCIe连接进行内存读写操作。另一个测试用例则配置了每个芯片上的LPDDR5X接口,构建了一个共享内存结构。Cadence系统芯粒平台的集中管理确保了最佳的内存利用率,从而使物理AI芯片平台能够提供先进的AI吞吐量和效率。

里程碑 4:芯片框架验证

另一个重要的里程碑是测试Cadence芯粒框架本身,这是衡量平台成功与否的关键标准。该框架支撑着平台的模块化架构,定义了异构芯片组之间的集成、发现、管理、安全启动、功能安全以及协同功能的标准。验证过程包括协调跨芯片组组合的复杂操作,验证每个功能模块均可由平台独立管理、动态分配和自动检测。芯粒间的工作流程、错误报告和平台级配置均已演示为无缝运行,证实了模块化设计的可扩展性和稳健性。经过验证的芯粒框架集成确保平台在引入新的芯粒和工作负载时,能够支持快速创新、轻松扩展和可靠的互操作性。

Cadence芯粒框架的能力

里程碑 5:功能和性能验证

功能和性能验证阶段包括在各种实际场景下对平台进行严格测试,以确保其符合预期标准。全面的基准测试可衡量不同AI工作负载下的数据吞吐量、延迟和能效。Cadence使用了TinyML提供的多个行业标准基准测试,包括目标检测。由于TinyML是专注于“边缘”AI的机器学习分支,因此无需依赖耗电的云处理。压力测试进一步验证了系统在峰值性能条件下不出现性能下降的能力,测试对象包括单个Chiplet以及多Chiplet模式。结果证实,该平台实现了高可靠性和具有竞争力的性能指标,使其成为下一代物理AI应用的可靠解决方案。

 

最后,重点转向对先前应用案例未涵盖的特定系统级功能领域进行验证。测试涵盖了从标准数据传输到复杂AI任务执行的各种场景,所有场景均由Cadence系统芯片协调,并分布在配置相同或不同的芯片上,以模拟其他应用场景。该平台表现出色,在高容量数据交换中无任何错误,在AI工作负载下性能稳定,且整体系统集成度高。系统芯片证明了其作为平台内通信和编排枢纽的关键作用,而多个芯片的使用则成倍提高了AI吞吐量,并利用基于多芯片的模块化设计实现了灵活的性能扩展。

Cadence与Arm联合开发出物理AI Chiplet设计平台并已经成功流片验证

Cadence系统芯片作为物理AI芯片平台的一部分,其成功启动标志着模块化高性能半导体设计的新标准。

1.降低高级系统集成风险:展示一个与内存和其他关键接口紧密集成的、完全运行的系统芯片,使未来的产品团队更有信心采用该平台构建的强大的物理AI系统,从而推动产品从概念阶段走向市场阶段。

2.加速生态系统发展:通过验证开放标准以及在综合平台内采用系统芯粒方法,一个设计人员便能够可靠地组合芯粒设计的生态系统正在构建而成。

3.实现强大而灵活的架构:系统芯粒作为物理AI芯粒平台的核心,使下一代汽车高级驾驶辅助系统ADAS)、无人机、机器人以及航空航天和国防设计能够受益于以往仅限于复杂且成本高昂的单芯片系统级芯片(SoC)的灵活性和可扩展性。

四、结语

多家科技巨头和IC设计公司正在大力投资芯粒技术,以支持AI工作负载,先列举几个典型的代表企业:

AMD:作为芯粒技术应用的先驱,AMD的Ryzen和EPYC处理器使用芯粒架构来集成CPU内核、I/O和缓存。AMD的Instinct MI300A(一款AI和HPC加速器)使用芯粒架构将GPU、CPU和内存集成到单个封装中。

英特尔:英特尔利用其Foveros和EMIB封装技术,将不同节点和功能的芯粒合在一起。其至强处理器和AI加速器预计将转向芯粒架构设计,以提高灵活性和良率。

台积电:作为全球领先的晶圆代工厂,台积电通过其CoWoS和InFO先进封装技术支持芯粒异构架构,从而实现AI芯片的2.5D和3D堆叠。

英伟达:尽管英伟达历来专注于单芯片GPU,但该公司正在探索基于芯粒架构的设计,以增强其未来人工智能和数据中心GPU的灵活性和可扩展性。

在模块化平台上,特别是对于物理AI应用而言,从设计到可运行的芯片设计流程是一个复杂而又充满挑战的过程。Cadence系统芯粒架构作为物理AI芯片平台验证和流片成功的关键组件发挥了决定性作用。

物理AI平台有望变革多个行业,其应用案例涵盖自动驾驶汽车、具身机器人、无人机,以及航空航天和国防等领域。这种多功能性凸显了芯粒架构平台对这些领域中安全、自主和高性能计算等复杂需求的适应性。

相关推荐