• 正文
  • 相关推荐
  • 电子产业图谱
申请入驻 产业图谱

CPU/GPU/TPU正为人工智能打的热闹,这家DSP IP厂商却说其实它最强?

2017/05/15 作者:与非网编辑
61
阅读需 13 分钟
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

 

虽然英特尔(Intel)、NVIDIA 等芯片大厂近期在人工智能(AI)、神经网络(NN)、深度学习(Deep Learning)等领域动作频频,但半导体领域的其他业者也没闲着,而且其产品发展策略颇有以乡村包围城市的味道。Cadence 旗下的 CPU/DSP 处理器核心授权公司 Tensilica,近期便发表针对神经网络算法设计的 C5 DSP 核心授权方案。 在 16 奈米制程条件下,该核心所占用的芯片面积约仅 1 平方公厘,却可提供达到 1TMAC 的运算效能,而且功耗远比 CPU、GPU 等处理器更低,适合各种嵌入式运算装置使用。

Cadence Tensilica 营销资深事业群总监 Steve Roddy 表示,神经网络技术正以飞快的速度演进。 根据该公司所收集的数据显示,在 2012~2015 年间,每几个月就有新的神经网络算法问世,且复杂度均比先前的算法明显增加。 在短短 3 年内,神经网络算法的复杂度已增加 16 倍,远超过摩尔定律的发展速度。

也由于神经网络算法演进的速度比半导体技术进步的速度还快,因此神经网络算法的开发者只能用内建更多处理器核心的硬件来执行新的算法。 但这种作法只能在云端数据中心行得通,无法适用于功耗、体积与成本均受到严格限制的嵌入式装置。

另一方面,目前神经网络算法大多在通用型 CPU、GPU 芯片上执行,也是一种迁就于现实的结果。 CPU、GPU 是已经大量生产的芯片,取得容易且成本远比自己打造 ASIC 来得低,而且对算法开发者来说,CPU 跟 GPU 提供很好的编程环境与应用设计灵活性,这也是 ASIC 所比不上的。

事实上,Tensilica 也认为,利用硬件加速器这类 ASIC 来执行神经网络算法,绝对是一条行不通的路。 因为 ASIC 设计通常需要数个月到 1 年时间,至于芯片要大量生产,应用在终端产品上,更常已是 2~3 年后的事。 在神经网络发展日新月异的情况下,除非芯片设计者拥有未卜先知的能力,精准预测出 3 年后神经网络算法会发展到何种地步,否则芯片开发者的产品可能还没上市就已经过时了。

除了产品开发时程的问题,单纯从技术层面来看,用硬件加速器与通用处理器共同执行神经网络算法,也是问题重重。 由于神经网络会牵涉到大量数据传输,若要将运算工作切割开来,用两颗芯片共同执行,则两颗芯片间光是数据传输,便很可能会占用掉一大半处理器资源,并带来可观的功耗量。

因此,如果有一种针对神经网络算法优化的处理器核心,既能兼顾应用设计灵活性,又比通用型 CPU、GPU 有更高的算法执行效率,对于神经网络的普及应用,将是一大加分。 这也是 Tensilica 决定推出专为神经网络算法设计的 C5 数字信号处理器(DSP)核心的原因。

C5 DSP 核心在 16 奈米制程条件下所占用的芯片面积为 1 平方公厘,能提供达 1TMAC 的乘法器效能给神经网络算法使用。 若应用需要更高的乘法器效能,C5 DSP 也允许 SoC 设计者采取多核心架构。 而且,因为 C5 DSP 是针对神经网络运算优化的核心,因此功耗极低,不会像 CPU 或 GPU,芯片功耗动辄数十瓦以上,甚至上百瓦,一般的嵌入式装置也能轻松采用。

Roddy 透露,虽然 C5 DSP 核心才刚正式发布不久,但早已有先导客户正在利用 C5 DSP 核心开发下一代支持神经网络算法的 SoC。 据其预估,最早在 2017 年第 3 季,第一颗内建 C5 DSP 核心的 SoC 产品就会 Tape Out。

 

更多最新行业资讯,欢迎点击与非网《今日大事要闻》

相关推荐

电子产业图谱