扫码加入

  • 正文
  • 相关推荐
申请入驻 产业图谱

soc top partition方法学其一

01/22 11:15
168
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

本文是研究和记录。

一、为什么要 Top-Partition

“大芯片”之所以必须做 Top Partition(顶层划分),根本原因是单die 面积逼近 reticle 极限、RTL 规模上亿门、全芯片一次性完成综合/布局/绕线已超出 EDA 工具容量与工程可管理性。把顶层切成若干物理 Partition 后,可把“一个巨问题”拆成“多个小且并行的问题”,在 PPA、进度、风险三方面获得量化收益。

突破工具 runtime & memory 瓶颈 。全芯片 flat 跑综合或布局绕线,数据量动辄数百 GB,24 h 内很难收敛;切成 6–10 个 20 mm² 左右的 partition 后,单块只需 30–40 GB,8–10 h 即可迭代一次,实现“日收敛”。

保住时序收敛质量(QoR) 。超大 flat 设计的长互连、跨模块路径在一次性绕线时难以兼顾,拆成 partition 后可在每个子块内做深层次的时钟树/布线优化,再把边界路径做成 interface timing budget,顶层只需 Focus on 跨 partition 的少量 critical path,结果时序收敛更快更稳。

降低跨团队协同成本。不同 partition 可分给 CPU、NPU、DDR、PCIe 等各子团队独立后端,只需遵守顶层给的 pin location、timing budget、power domain 约束;团队并行交付,项目周期从“串行”变“并行”,压缩 30–40 % 后端时间。

支持多工艺/多封装 Chiplet 策略 。当单 die 超过 reticle(~858 mm²)时,必须走 Chiplet;先在 RTL 阶段做 Top Partition,把“计算 Tile”“IO Tile”“Memory Tile” 划成独立 partition,再分别流片,最后用 2.5D/3D 封装拼回。这样既能用 3 nm 做计算芯粒、用 12 nm 做 IO 芯粒,又能通过 partition-level 电源域规划避免跨 chiplet 高功耗路径。

减少验证与 sign-off 风险  。每个 partition 可独立跑 DFT、STA、IR-drop、EM,问题局部化;若后期 ECO,只需重跑受影响的 partition,不必全芯片重来,降低 mask 费用和迭代时间。

兼顾良率与散热 。超大 die 的热点集中、良率指数下降;切分成多 partition 后,可在 floorplan 阶段就把高功耗模块分散到不同物理区域,再对应设计独立供电/散热通道,提升系统级可靠性。

简言之,Top Partition 是“大芯片”把面积、复杂度、团队、工艺、封装、良率六大压力同时降到可控范围的唯一工程路径;没有这一步,就无法在合理时间与成本内把 ≥800 mm²、≥100 亿晶体管的单颗 SoC 或 Chiplet 系统推向市场。

二、方法论总览:自顶向下 vs. 自底向上

大芯片 Top Partition 的主流方法论可归纳为 4 类,各自有明确的适用场景与优缺点。

1. Top-Down(自顶向下)分区

流程:芯片级 floorplan → 划 partition → 子模块实现 → 顶层拼接  。

核心思想:先定全局边界、电源、IO 和关键 macro 位置,再把 RTL 切成可独立实现的物理 partition,并行落地。

优点。全局视角:能一次性把 reticle 面积、电源网格、IO ring、封装 bump 规划到位,避免后期“装不下”或电源坍塌。  时序可控:在顶层就能对跨 partition 关键路径做 interface timing budget,后续子块只需收口内部路径,减少迭代次数。  支持“日收敛”:单 partition ≤20 mm² 时,EDA 工具 8–10 h 可完成 place+route,实现每日迭代 。

风险/局限: 前期对面积/功耗估计误差敏感,一旦 partition 边界定错,后期 ECO 牵动全芯片。  需要资深SoC架构师一次性把 7–10 个 power domain、时钟、电压域规划清楚,人力门槛高。

2. Bottom-Up(自底向上)分区

流程。IP 级硬宏先固化 → 依据宏的尺寸/引脚推导出顶层 floorplan → 拼接成芯片 。

核心思想。把已验证过的 IP(CPU、DDR PHY、PCIe 等)当“乐高”,用它们的实际面积、pin 坐标驱动顶层布局。

优点。IP 复用最大化:已有硬宏无需重新实现,缩短 30–40 % 设计周期。  对成熟 IP 友好:适合通信、多媒体 SoC 这类大量复用 3rd-party PHY 的场景。

顶层改动灵活:当某 IP 升级换代,只需替换该 partition,不影响其他区域 。

风险/局限。顶层布线资源容易被“硬宏 pin 阵列”卡死,出现局部 congestion 热点。  宏与宏之间的长互连可能成为新的 critical path,需要反复加 repeater 或调整 pin order。

3. Timing-Driven Partition(时序驱动分区)

流程。在图分割算法中把“关键路径延时”作为第三目标函数,与“资源平衡 / 割边最少”同时优化。

核心思想:粗化阶段把关键路径节点强制合并,细化阶段赋予关键割边更高权重,减少跨 partition 的时序代价。  Timing-Driven Partition 让“划分刀口”主动绕开关键路径,把“顶层时序收敛”从后端被动修改变成前端主动引导,是大芯片 Top Partition 阶段“保频率、减迭代”的核心技术之一。

优点。硬件验证频率高:在 FPGA 原型验证中,可把关键路径割边数降到 1/3,验证频率提升 30 % 以上 。  支持 TDM 智能适配:对非关键路径可用高比例时分复用,节省 IO 引脚;关键路径禁用 TDM,避免额外延时。  与签核工具无缝衔接:可读入 PrimeTime 的真实 timing arc,实现“签核—分割”闭环。

风险/局限。算法复杂度高,十亿门级设计需定制内存高效引擎,否则跑不动。  需要前端提供最终 SDC,若 RTL 频繁改动,partition 结果需重算。

4. Chiplet-Aware Partition(面向小芯片的分区)

流程。系统级功能 → 工艺/封装协同划分 → 生成多颗 die 的 RTL → 各自物理实现 → 2.5D/3D 封装

核心思想。按“功能特性 + 工艺敏感度”把大芯片拆成多颗 Chiplet,例如计算芯粒用 3 nm,IO/PHY 芯粒用 12 nm,再通过硅中介层或硅桥拼回。

优点。超越 reticle 限制:单封装面积可 >2000 mm²,实现“晶圆级”算力 。  成本最优:IO/模拟部分留在老工艺,数字计算部分用新工艺,综合 wafer cost 降低 25–40 %。  迭代加速:计算芯粒升级时,只需重流一片 3 nm die,封装基板与 IO die 复用,节省 NRE 数千万美元。

风险/局限:封装复杂度陡增:需要同步设计硅中介层、微 bump、TSV,带来机械应力、散热、测试新挑战。  跨 die 接口标准化尚不统一,需自定义 PHY+协议,或等待 UCIe 生态成熟。

三、芯片级规划(Chip-Planning)

芯片级规划(Chip-Planning)=“把一颗上亿晶体管的 SoC 在硅片面积上先‘画好城市总规’,再让后续后端、封装、测试各阶段按图施工”。它发生在 RTL Freeze 之后、Placement 之前,核心任务只有一句话——在可制造的前提下,用最小面积、最低功耗、最好时序,把功能模块、I/O、电源、时钟、散热全部一次性摆到位。

Chip-Planning 的 6 大交付物。芯片级 Floorplan(含核心面积、长宽比、利用率)。I/O Ring & Bump Map(封装兼容、信号/电源比例、ESD 策略)。电源网格方案(IR-Drop < 3 %,EM 裕度 > 20 %)。时钟域 + 时钟树雏形(CTS 区域、平衡式/鱼骨式策略)。宏单元(RAM/PLL/Analog)坐标与朝向(通道宽、keep-out)。分区/黑盒规划(硬分区边界、引脚分配、时序预算)。

输入文件  。网表 、SDC 、 LEF 、 Liberty、MMMC、capTable、qrcTechFile、UPF。

利用率 。预留 20 % 通道给顶层 PG 与跨分区信号。IO ring 宽度≥ 60 μm,预留 ESD 与 bump escape  。在 Top-partition 阶段就把 ESD 面积“占坑”进去,比后端挤牙膏式地东拼西凑要省 1–2 轮迭代。核心思路只有三句话,先算“每 1000 µm 周长需要一组 ESD 电源对”的面积;在 Floorplan 里把 IO-ring 内侧留一条 ≥ 150 µm 的 “ESD corridor”,并把它标成 hard blockage;分区边界若贴着 IO,必须让出 ≥ 2×ESD-cell 高度 的 “ESD keep-out”,否则分区引脚会被 ESD 金属盖掉。

宏单元预布局。先用 AI-Floorplanner(MixPlace)跑 2 h,得到 macro 初始坐标  。然后人工微调,memory 靠边放,高速 SerDes 靠近对应 IO,PLL 放中心减 skew  。

电源网格早期估算  。峰值电流 Ipeak = Pmax / Vmin  < 1.5 mA / µm(此值供参考)。目标静态 IR < 3 % ;动态IR < 10 %。

四、 时序预算(Timing Budget)

路径切割原则  。寄存器到寄存器:budget 按 “逻辑深度 + 线长” 加权  。输入路径:input delay = 时钟周期 × 40 %(留 60 % 给内部)  。输出路径:output delay = 时钟周期 × 45 %(留 55 % 给内部) 。

人工微调场景。跨分区高速总线(> 1 GHz):把 input/output delay 收紧到 0.25 ns。同时在顶层留 200 μm channel 做 pipeline repeater 。长距离 (> 4 mm) 控制信号:额外加 0.1 ns margin,防止 SI 推高 transition  。若分区离 IO bump > 1 mm,可把 input_delay 再 + 0.2 ns(线长补偿)。若电源 IR-drop 预算 > 5 %,同步把 clock_uncertainty 加 50 ps,防止 timing 与 power 互相踢皮球。

加入星球,结伴同行

相关推荐

登录即可解锁
  • 海量技术文章
  • 设计资源下载
  • 产业链客户资源
  • 写文章/发需求
立即登录