ADI文档:SHARC处理器的起源和演进
2009-09-25 12:50:56 来源:GP-DSP部日本区域总监 Paul Wheeler
关键字:
ADI公司
SHARC
处理器
浮点处理器
ADSP-21020
ADSP-2146x性能增强
在ADSP-2136x系列内核改进的基础上,ADI的SHARC开发团队制定了更高的性能目标,并采用台积电(TSMC)的65nm硅工艺继续优化性能和成本平衡。通过仔细的工程设计和规划,ADI在2008年11月正式发布了ADSP-2146x系列处理器,其内核性能可达450MHz,与最接近的竞争产品相比几乎高出30%。然而,ADI设计团队并不满足于仅仅增强性能,开始寻求创新的方式来大幅度提高运算性能,同时对功耗和成本的影响降至最小。
许多工程师利用浮点处理器提供的宽动态范围实现各种算法,如图案检测、数据压缩/解压缩、加密/解密和自适应滤波。在其中的许多运算密集型算法中,快速傅里叶变换(FFT)、有限冲击响应(FIR)滤波器和无限冲激响应(IIR)滤波器等一些基本的信号处理单元得到了广泛使用,并作为大多数数字信号处理应用的基础。专注于这些内核信号处理构建模块的ADI公司开始将这些功能集成进2146x
DMA架构中,以便进一步增强SHARC内核的450MHz性能。
在简单的编程模型基础上,DSP工程师可以将这些“加速器”的每个看作是一个简单的外设。每个加速器配置有自己的本地存储器用于数据和系数存储,从而不会增加内核处理器的开销。另外,还有一组加速器专用寄存器用于设置加速器,包括主存储器中的系数起始地址、计数器等信息。当设置完成后,程序就开始按顺序运行,用户只需简单地等待表示处理结束的中断。
下图是其中一种加速器的例子。
 |
| ADSP-2146x系列中的有限冲激响应滤波器加速器 |
FIR加速器包含一个1K字的本地存储器用于存储系数,另外1K字的存储器用于存储延时线数据。FIR运算单元包括4个并行的MAC(乘法累加)单元,每个单元的工作频率是内核时钟频率的一半。运算单元都能够利用80位精确累加器执行32位浮点或32位定点处理。理论上,除了内核提供的2.7GFlops性能外,这个引擎还能提供1.8Gflops的处理能力。因此与第三代产品相比,第四代产品大体上将可用浮点性能增加了一倍。
FIR加速器可以用于单次迭代模式,这意味着完整的滤波器实现可以适配进本地存储器(滤波器长度<=1024),或者也可以设置FIR加速器以支持多次迭代模式。在多次迭代模式,支持的最大FIR滤波器长度是4096个抽头。为了提高灵活性,用户可用的窗口尺寸变化范围可从1到1024个样本,而针对多速率滤波器(插值/抽取)和多通道滤波器(最多32个信道)的附加模式组成了完整的功能规范。
这种FIR加速器和额外的IIR/FFT加速器为各种信号处理应用提供了创新的低性价比提升方式,再次突出了ADI做出的以最小成本开销实现领先性能的承诺。
ADSP-2146x架构平衡考虑由于ADSP-2146x系列处理器可以提供2.7GFlops的内核运算性能,存储器密集系统的设计师面临的主要挑战是管理来去各种存储器和外设子系统的数据传送。如果在设计阶段没有考虑这些要求,内核可能由于较慢的大容量存储器而被迫等待新的数据进行处理,或由于多个系统资源存取相同存储区域而导致内核死机。为了尽量减小这些潜在的瓶颈,ADSP-2146x系列内置了最多达67个直接存储器存取(DMA)通道用于外设和内存之间的数据传送。同时集成了工作频率达内核时钟频率一半的16位DDR2接口,使得用于存储密集型应用时的性能最大。这种内核与外部存储器之间的1:1时钟比例极大地促进了数据的快速传送,并且开销很小,还能支持其它功能,比如从外部存储器中直接执行代码。
内部SRAM资源增加到了5Mb,这是所有SHARC处理器中最大的存储器容量。连接内核的带宽仍是7.2GBps,因此保证了内部运算任务的高速执行。这种存储器在架构上被划分为4个不连续模块(模块0-模块3),允许从多个系统资源同时进行零开销访问。
为了进一步优化存储器的使用,ADI开发出了名为VISA(可变指令集架构)的内核增强特性。到第三代处理器为止的所有SHARC用的都是48位的固定指令长度。对于经常使用的指令来说,这会导致非最优的PM代码存储器使用。这些指令经过优化,去除了操作码中的冗余位,产生了新的16位和32位宽指令。程序序列发生器经过更新以识别这些新的优化指令,从而使PM代码效率提高近20%。为了实现后向兼容,VISA模式是源代码编译器的一个选项,这意味着希望保持二进制代码兼容性的用户可以继续使用原来的48位方法学。
所有上述架构增强特性都使系统开发人员能以最佳的、用户友好的方式充分利用ADSP-2146x的高性能资源。
性能可扩展性ADSP-2146x系列处理器能为系统开发人员选择满足系统成本和性能要求的处理器提供最大的灵活性。这个系列中的所有成员采用相同大小的内部SRAM存储器,允许开发人员保持单一的软件架构,但可以通过选择较少外设或较低性能指标的处理器来优化系统成本。
对于要求的性能超出单个处理器的系统,ADI公司再次引入了链路口技术,以支持可扩展的多处理器平台开发。共有两个链路口可用于处理器间通信,每个端口8位宽,工作频率可达166MHz。这些双向端口可以被编程为发送或接收,不需要外部逻辑,还能用作处理器的引导结构。
智能集成随着信号处理系统越来越复杂和成本压力的不断增加,处理器开发团队一直在努力利用创新的外设和加速器集成方法提高DSP内核子系统的性能。
如前所述,ADSP-2146x采用领先的创新集成进一步增强了性能,包括FIR/IIR/FFT加速器、高带宽DDR2接口和链路口。
除了已经成为最新SHARC处理器上标准配置的8信道ASRC、SPDIF收发器和串行通信接口(SPORT、UART、SPI、TWI)外,市场关注的一些增强功能也增加进了ADSP-2146x系列产品中。
针对汽车应用,SHARC外设功能组中新增加了媒体局部总线(MLB)接口,以支持汽车下一代的多媒体应用。ADSP-2146x结合了数字传输内容保护(DTCP)协议加速器,可以从MOST系统中的MLB总线接收和发送加密的数字多媒体内容。
针对工业应用,第四代SHARC中还增加了16通道的脉宽调制(PWM)输出。这些PWM模块被安排为4×4输出,可以通过在软件中进行模式编程来支持边缘和中心对齐的波形,并且完全支持停滞时间控制。
 |
| 第四代SHARC ADSP-2146x评估平台 |
对于要求在恶劣环境中工作的系统,ADI公司集成了一个热敏二极管以帮助系统设计师直接监视SHARC处理器的硅片温度。通过热敏二极管与ADSP-2146x的可编程PLL功能的配合使用,系统控制器可以监视处理器的温度特性,并且根据要求动态控制处理器的内核时钟频率,从而保持系统规定的温度。
未来的SHARC和浮点处理在性价比上,
SHARC处理器在过去的18年中一直是浮点技术的市场领导者,而ADI公司还在继续投资未来。随着采纳浮点运算的成本门槛的不断降低,上市时间压力的不断增加,浮点的优势(增大的动态范围,自动调整)将继续推动SHARC进军曾经是定点处理器独占的应用市场。
这张表突出表明了SHARC系列处理器的性能和集成演变。
第四代SHARC处理器在不断提升这种成熟架构的性能极限,也充分体现了超级哈佛架构比其它竞争性产品架构更加优越。
分页:
1
2
3
相关文章