近日,燧原科技发布了第二代人工智能训练产品——“邃思2.0”芯片,和邃思2.0一同发布的还有基于邃思2.0的“云燧T20”训练加速卡和“云燧T21”训练OAM模组,全面升级的“驭算TopsRider”软件平台以及全新的“云燧集群”。


关于“邃思2.0”


作为国内首发的第二代人工智能训练产品,邃思2.0采用Global Foundries的12nm FinFET工艺,挑战日月光2.5D封装的极限,将9颗芯片封装在了57.5mm x 57.5mm的尺寸中。


 
图 | 邃思2.0


计算精度方面,涵盖FP32、TF32、FP16、BF16和INT8全AI算力空间,是中国首款支持单精度张量TF32数据精度的人工智能芯片。单精度FP32峰值算力达到40T FLOPS,单精度张量TF32峰值算力达到160T FLOPS,半精度BF16/ FP16峰值算力达到160T FLOPS,整数精度INT8峰值算力达到320 T FLOPS。


存储带宽方面,邃思2.0共搭载了4颗HBM2E片上存储芯片,高配支持64 GB内存,带宽达1.8 TB/s,是中国第一个支持世界最先进存储HBM2E和单芯片64 GB内存的产品。


互联能力方面,邃思2.0拥有6个LARE卡间互联端口(燧原自研人工智能训练集群互联技术),每个端口可提供双向50 GB/s的互联带宽,因此总集群互联带宽可达双向300 GB/s,可支持数千张云燧CloudBlazer加速卡互联。


关于“云燧T20”训练加速卡和“云燧T21”训练OAM模组


云燧T20和云燧T21是基于邃思2.0开发的全高全长PCIE板卡和OAM标准模组,均支持容量为64GB/32GB的HBM2E存储,互联带宽同为300GB/s,但T21的板级功耗是400W,而T20的板级功耗为300W,因此在性能方面T21强于T20。


 
图 | 云燧T21/T20


具体来讲,T21的峰值算力是单精度张量TF32 160T FLOPS、单精度FP32 40T FLOPS,半精度BF16/ FP16 160T FLOPS,整数精度INT8 320 T FLOPS;T20的峰值算力是单精度张量TF32 134.4T FLOPS、单精度FP32 33.6T FLOPS,半精度BF16/ FP16 134.4T FLOPS,整数精度INT8 268.8 T FLOPS。


作为国内首发产品,如何才能有说服力,当然是测试数据,燧原也做了充足的基准测试Benchmarking,并在会上公布了云燧T20和友商次旗舰和旗舰产品的对比数据。


 
图 | 云燧T20-Benchmark VS 友商次旗舰


 
图 | 云燧T20-Benchmark VS 友商旗舰


关于“驭算TopsRider”软件平台以及“云燧集群”


基于云燧T20和T21训练产品、GCU-LARE互联技术和新一代驭算TopsRider软件平台,燧原科技可以打造超大规模的集群产品CloudBlazer Matrix 2.0。


 
图 | 云燧智算集群CloudBlazer Matrix 2.0


对比第一代集群产品CloudBlazer Matrix 1.0的全高全长PCIE板卡,其采用OAM标准模组的2.0产品在性能上可谓突飞猛进。散热形态从原来的液冷/风冷,全部改为液冷,最高支持板卡数量从1280张增加到8192张,单精度最高算力从原来的28P增长到1300P(1.3E),最高存储容量(HBM)从原来的20TB增加到524TB,最大总存储带宽(HBM)从原来的0.65 PB/s增长到14.7 PB/s,最大互联带宽(LARE)从原来的0.25 PB/s增长到2.5 PB/s,与此同时,评价数据中心能源效率的指标却从1.5降至了1.15。


写在最后


燧原科技是一家2018年成立的公司,成立至今3年多时间,期间获得过5轮融资,累计融资额近32亿元人民币。最新一笔融资记录为今年1月完成的18亿人民币C轮融资,由中信产业基金、中金资本旗下基金、春华资本领投。


受资本热捧的本质是“燧原科技按计划输出产品,说到做到的诚信和能力”,根据燧原科技创始人、COO张亚林公布的燧原五年产品路线图,到2023年,燧原科技将推出第三代产品——云端训练计算产品T30/T31和智算集群CloudBlazer Matrix 3.0、云端推理计算产品i30,以及云端推理计算软件平台驭算Topsrider 3.X,实现泛AI生态。


值得一提的是,发布会上,张亚林发布了“燧原产品定理”,即燧原的每一代产品必须比前一代在“平均业务”中每瓦性能提升超3倍,软件后向兼容可靠。