• 正文
  • 相关推荐
申请入驻 产业图谱

CPU芯片中的push PPA的十三种方法

20小时前
126
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

CPU 的 PPA(Performance-Power-Area)再“PUSH”一轮,业界做法可以拆成 13条可落地的“硬动作”。

1. 零线载模型跑极限频率

先用零线负载模型看 max frequency天花板,若与目标只差 5 % 以内,说明性能瓶颈在互连线而非逻辑深度,后面主攻布线优化 。

 

2.Top50 路径“逻辑级数 × 平均单元延迟”

如果该乘积大于 85%的Tcycle就要砍逻辑级数;RTL 改不动时立即上 retiming手段把组合逻辑切开 。

3. Uncertainty ≤ 15 % Tcycle

时钟 uncertainty一旦膨胀就会把有用裕量吃光;先把它压到15%以内再谈高频。

在数字芯片SDC 约束里,"clock uncertainty" 到底设多大并没有放之四海而皆准的固定值,而是随工艺、设计阶段和时钟源质量逐级收敛。

3.1按设计阶段取值(最常用)

阶段 setup uncertainty hold uncertainty 备注
逻辑综合 时钟周期 × 10%~20% 0.05~0.1 ns 时钟树未建,skew 完全靠 uncertainty 覆盖
place后 CTS 前 周期 × 8%~12% 0.04~0.08 ns 仍用理想时钟,但可利用预估 skew
CTS 后 Sign-off 周期 × 3%~5% 或 "工具自动值+余量" 0.02~0.05 ns 工具已算出实际 skew,只留 jitter+margin

3.2按工艺节点快速估算

28 nm:setup 0.08~0.12 ns,hold 0.03~0.05 ns

16/14 nm:setup 0.05~0.08 ns,hold 0.02~0.04 ns

7/5 nm:setup 0.03~0.05 ns,hold 0.01~0.03 ns

3.3想自己算,可用下面"快速公式"

setup uncertainty = (峰值 jitter ÷ 2) + 预估最大 skew + 0.02 ns(margin)

hold uncertainty = 0.3 × setup 值,且 ≥ 0.02 ns

jitter 指标在 PLL datasheet 里找;skew 在 CTS 报告里看,没做 CTS 前可按周期 7% 估 。

3.4跨时钟域再加 50~100 ps

无论同频还是异频,只要数据跨时钟域,就额外叠 0.05~0.1 ns 的 inter-clock uncertainty,双向都要写:

set_clock_uncertainty -from CLK_A -to CLK_B -setup 0.10

set_clock_uncertainty -from CLK_B -to CLK_A -setup 0.10

4. early-clock flow

place 阶段就把 CTS 全局约束喂给 place引擎,让时钟树和数据路径一起优化,使得Post-CTS 与 Pre-CTS 时序差距 小于3 %,减少迭代 。

5. 频率扫描找“断点”

按 100 MHz梯度记录WNS,若某一节点违例数量陡增指数倍,说明该频率出现结构式违例,回头改RTL比继续跑工具更有效 。

6. RTL Leakage 预筛

RTL合成后先用Joules或者PrimePower RTL看leakage 是否已小于10%总功耗预算;若超标,马上想办法把高VT单元比例提到70%以上,后面再降会牵一发而动全身。

 

7. 多电压域 + DVFS 岛

把SRAM、Debug、FPU 等划独立 power-island,上电后动态切 0.8 V/1.0 V,CPU 典型负载下可省18%左右动态功耗 。

 

8. Cell profiling + 面积扫描

统计“面积 TOP10 单元”占总面积比例,若大于35%,就用repeater面积换组合逻辑驱动强度的面积,降一号驱动强度并加 repeater,面积可降 8% 左右而timing 不变 。

9. 后端三板斧

Placement:high-effort  + cell padding 预留给时钟缓冲器

CTS:target skew ≤ 30 ps,insertion delay 最小化;

Route:NDR + 2×Via (双孔),跑signoffOptDesign 再做 setup→hold→leakage 三轮优化 。

10. 用机器学习引擎自动探索设计空间

Synopsys DSO.ai/Cadence Cerebrus这类工具先读入RTL、约束和库,自动生成成千上万条不同综合/布局/布线场景,并行跑完Placement、CTS、Routing,实时收集PPA数据,再用强化学习不断调整综合与物理实现参数,把最优解往前“推”10-20%。

 

11.用机器学习引擎自动探索floorplan优化空间

芯形纪AmazeFP-ME采用机器学习算法可以快速探索最优floorplan空间,有利于PPA提升。

 

12. 在物理实现阶段做“细粒度”二次优化

布局布线工具(Innovus/Fusion Compiler)把机器学习挑出的“潜力场景”重新做GigaOpt:同时优化cell sizing、VT替换、ECO布线,动态功耗再降5-8%;再用PrimeShield做统计型STA,把电压-温度变异引起的悲观量回收回来,进一步拔高频率。

对7nm以下节点,还会把电压“动态”往下探50-100mV,靠机器学习预测最差路径的统计相关性,避免传统guard-band过设计,把每瓦性能再抬升7-10%。

13. 签核阶段“数据回注”形成闭环

把最终timing/power数据回流到JedAI/DSO数据库,下一版CPU直接以该数据做初始训练,迭代收敛次数从几十轮降到几轮,实现“周级”PPA迭代。

相关推荐

登录即可解锁
  • 海量技术文章
  • 设计资源下载
  • 产业链客户资源
  • 写文章/发需求
立即登录

与非网2022影响力创作者TOP2,与非网2023最佳创作者TOP10,与非网2024年度创作者。

微信公众号