在第五届RISC-V中国峰会人工智能分论坛上,阿里巴巴达摩院技术专家、RISC-V国际基金会AME TG主席赵思齐,发表了《面向AI应用的高扩展性矩阵扩展》的演讲。他系统阐释了面向AI的高扩展性矩阵架构(AME)设计:“AME的核心使命是让矩阵运算成为CPU指令流的原生能力。”
赵思齐表示,RISC-V AME扩展的核心目标是通过深度集成CPU指令流实现原生矩阵加速,可以从四方面来理解:
首先,AME扩展的指令是CPU指令流的一部分,其主要目标是为了加速、并且是在CPU上的矩阵运算;其次,AME扩展可为矩阵运算提供额外的架构状态,即:软件可见的矩阵寄存器;第三,AME扩展提供新增的矩阵和向量运算指令,矩阵指令专注乘加核心计算,向量指令则因AI工作流需求成为不可或缺的协同单元;第四,AME扩展以AI应用为主要目标,兼顾HPC和嵌入式应用场景,需要兼顾AI、HPC及嵌入式三场景需求。
这些目标,也给AME的扩展性提出新的需求。由于AME为RISC-V架构引入了新的架构状态,使得AME成为受到最少限制的一种Matrix扩展,这也在一定程度上提升了业界对AME的期望,希望它在特定情况下具有极致的吞吐、极致的能效、极致的扩展性和软件支持度。
那么,AME该如何进行扩展?赵思齐表示,首先是AI为重点的全新设计,需要为矩阵运算量身定制全新的架构定义,针对AI应用重点设计;其次,SoC平台可以自由选择CPU核与AME单元的比例,自由定制算力;第三,需要更灵活的实现方式,能够依据各家SoC厂商、依据自己的应用场景需进行定制;其四,需要极致的性能突破,通过独立的运算单元、宽松内存模型及全栈创新指令集,使算力与硬件资源投入呈线性增长。
据介绍,AME TG工作组当前主要聚焦于三大议题:矩阵tile状态设计讨论,Point-wise/Element-wise操作相关的定义讨论,以及Relaxed内存模型,目标是明年3月左右推出一个指令。
赵思齐以一份来自于“玄铁”的提案展现了典型的实践路径:采用8个对称的Tile,支持多种计算指令、数据,可以灵活集成。“玄铁”为支持提案已经做了很多的工程、实践与验证工作。
玄铁的AME引擎除了能够提供矩阵算力、向量算力,也针对当前大模型经常用到的量化、反量化算法做了特别优化。在不同数据类型条件下,算力可以达到4T、8T、16T的规模,对现有算力利用率也进行了不少提升。
赵思齐表示,玄铁团队还会进一步对AME工作提供大力支持,同时也呼吁更多厂商深度参与,共享生态红利。
来源: 与非网,作者: 张慧娟,原文链接: https://www.eefocus.com/article/1864540.html
2393