soc top partition方法学其一

本文是研究和记录。

一、为什么要 Top-Partition

“大芯片”之所以必须做 Top Partition（顶层划分），根本原因是单die 面积逼近 reticle 极限、RTL 规模上亿门、全芯片一次性完成综合/布局/绕线已超出 EDA 工具容量与工程可管理性。把顶层切成若干物理 Partition 后，可把“一个巨问题”拆成“多个小且并行的问题”，在 PPA、进度、风险三方面获得量化收益。

突破工具 runtime & memory 瓶颈。全芯片 flat 跑综合或布局绕线，数据量动辄数百 GB，24 h 内很难收敛；切成 6–10 个 20 mm² 左右的 partition 后，单块只需 30–40 GB，8–10 h 即可迭代一次，实现“日收敛”。

保住时序收敛质量（QoR）。超大 flat 设计的长互连、跨模块路径在一次性绕线时难以兼顾，拆成 partition 后可在每个子块内做深层次的时钟树/布线优化，再把边界路径做成 interface timing budget，顶层只需 Focus on 跨 partition 的少量 critical path，结果时序收敛更快更稳。

降低跨团队协同成本。不同 partition 可分给 CPU、NPU、DDR、PCIe 等各子团队独立后端，只需遵守顶层给的 pin location、timing budget、power domain 约束；团队并行交付，项目周期从“串行”变“并行”，压缩 30–40 % 后端时间。

支持多工艺/多封装 Chiplet 策略。当单 die 超过 reticle（~858 mm²）时，必须走 Chiplet；先在 RTL 阶段做 Top Partition，把“计算 Tile”“IO Tile”“Memory Tile” 划成独立 partition，再分别流片，最后用 2.5D/3D 封装拼回。这样既能用 3 nm 做计算芯粒、用 12 nm 做 IO 芯粒，又能通过 partition-level 电源域规划避免跨 chiplet 高功耗路径。

减少验证与 sign-off 风险。每个 partition 可独立跑 DFT、STA、IR-drop、EM，问题局部化；若后期 ECO，只需重跑受影响的 partition，不必全芯片重来，降低 mask 费用和迭代时间。

兼顾良率与散热。超大 die 的热点集中、良率指数下降；切分成多 partition 后，可在 floorplan 阶段就把高功耗模块分散到不同物理区域，再对应设计独立供电/散热通道，提升系统级可靠性。

简言之，Top Partition 是“大芯片”把面积、复杂度、团队、工艺、封装、良率六大压力同时降到可控范围的唯一工程路径；没有这一步，就无法在合理时间与成本内把 ≥800 mm²、≥100 亿晶体管的单颗 SoC 或 Chiplet 系统推向市场。

二、方法论总览：自顶向下 vs. 自底向上

大芯片 Top Partition 的主流方法论可归纳为 4 类，各自有明确的适用场景与优缺点。

1. Top-Down（自顶向下）分区

流程：芯片级 floorplan → 划 partition → 子模块实现 → 顶层拼接。

核心思想：先定全局边界、电源、IO 和关键 macro 位置，再把 RTL 切成可独立实现的物理 partition，并行落地。

优点。全局视角：能一次性把 reticle 面积、电源网格、IO ring、封装 bump 规划到位，避免后期“装不下”或电源坍塌。时序可控：在顶层就能对跨 partition 关键路径做 interface timing budget，后续子块只需收口内部路径，减少迭代次数。支持“日收敛”：单 partition ≤20 mm² 时，EDA 工具 8–10 h 可完成 place+route，实现每日迭代。

风险/局限：前期对面积/功耗估计误差敏感，一旦 partition 边界定错，后期 ECO 牵动全芯片。需要资深SoC架构师一次性把 7–10 个 power domain、时钟、电压域规划清楚，人力门槛高。

2. Bottom-Up（自底向上）分区

流程。IP 级硬宏先固化 → 依据宏的尺寸/引脚推导出顶层 floorplan → 拼接成芯片。

核心思想。把已验证过的 IP（CPU、DDR PHY、PCIe 等）当“乐高”，用它们的实际面积、pin 坐标驱动顶层布局。

优点。IP 复用最大化：已有硬宏无需重新实现，缩短 30–40 % 设计周期。对成熟 IP 友好：适合通信、多媒体 SoC 这类大量复用 3rd-party PHY 的场景。

顶层改动灵活：当某 IP 升级换代，只需替换该 partition，不影响其他区域。

风险/局限。顶层布线资源容易被“硬宏 pin 阵列”卡死，出现局部 congestion 热点。宏与宏之间的长互连可能成为新的 critical path，需要反复加 repeater 或调整 pin order。

3. Timing-Driven Partition（时序驱动分区）

流程。在图分割算法中把“关键路径延时”作为第三目标函数，与“资源平衡 / 割边最少”同时优化。

核心思想：粗化阶段把关键路径节点强制合并，细化阶段赋予关键割边更高权重，减少跨 partition 的时序代价。 Timing-Driven Partition 让“划分刀口”主动绕开关键路径，把“顶层时序收敛”从后端被动修改变成前端主动引导，是大芯片 Top Partition 阶段“保频率、减迭代”的核心技术之一。

优点。硬件验证频率高：在 FPGA 原型验证中，可把关键路径割边数降到 1/3，验证频率提升 30 % 以上。支持 TDM 智能适配：对非关键路径可用高比例时分复用，节省 IO 引脚；关键路径禁用 TDM，避免额外延时。与签核工具无缝衔接：可读入 PrimeTime 的真实 timing arc，实现“签核—分割”闭环。

风险/局限。算法复杂度高，十亿门级设计需定制内存高效引擎，否则跑不动。需要前端提供最终 SDC，若 RTL 频繁改动，partition 结果需重算。

4. Chiplet-Aware Partition（面向小芯片的分区）

流程。系统级功能 → 工艺/封装协同划分 → 生成多颗 die 的 RTL → 各自物理实现 → 2.5D/3D 封装

核心思想。按“功能特性 + 工艺敏感度”把大芯片拆成多颗 Chiplet，例如计算芯粒用 3 nm，IO/PHY 芯粒用 12 nm，再通过硅中介层或硅桥拼回。

优点。超越 reticle 限制：单封装面积可 >2000 mm²，实现“晶圆级”算力。成本最优：IO/模拟部分留在老工艺，数字计算部分用新工艺，综合 wafer cost 降低 25–40 %。迭代加速：计算芯粒升级时，只需重流一片 3 nm die，封装基板与 IO die 复用，节省 NRE 数千万美元。

风险/局限：封装复杂度陡增：需要同步设计硅中介层、微 bump、TSV，带来机械应力、散热、测试新挑战。跨 die 接口标准化尚不统一，需自定义 PHY+协议，或等待 UCIe 生态成熟。

三、芯片级规划（Chip-Planning）

芯片级规划（Chip-Planning）=“把一颗上亿晶体管的 SoC 在硅片面积上先‘画好城市总规’，再让后续后端、封装、测试各阶段按图施工”。它发生在 RTL Freeze 之后、Placement 之前，核心任务只有一句话——在可制造的前提下，用最小面积、最低功耗、最好时序，把功能模块、I/O、电源、时钟、散热全部一次性摆到位。

Chip-Planning 的 6 大交付物。芯片级 Floorplan（含核心面积、长宽比、利用率）。I/O Ring & Bump Map（封装兼容、信号/电源比例、ESD 策略）。电源网格方案（IR-Drop < 3 %，EM 裕度 > 20 %）。时钟域 + 时钟树雏形（CTS 区域、平衡式/鱼骨式策略）。宏单元（RAM/PLL/Analog）坐标与朝向（通道宽、keep-out）。分区/黑盒规划（硬分区边界、引脚分配、时序预算）。

输入文件。网表、SDC 、 LEF 、 Liberty、MMMC、capTable、qrcTechFile、UPF。

利用率。预留 20 % 通道给顶层 PG 与跨分区信号。IO ring 宽度≥ 60 μm，预留 ESD 与 bump escape 。在 Top-partition 阶段就把 ESD 面积“占坑”进去，比后端挤牙膏式地东拼西凑要省 1–2 轮迭代。核心思路只有三句话,先算“每 1000 µm 周长需要一组 ESD 电源对”的面积；在 Floorplan 里把 IO-ring 内侧留一条 ≥ 150 µm 的 “ESD corridor”，并把它标成 hard blockage；分区边界若贴着 IO，必须让出 ≥ 2×ESD-cell 高度的 “ESD keep-out”，否则分区引脚会被 ESD 金属盖掉。

宏单元预布局。先用 AI-Floorplanner（MixPlace）跑 2 h，得到 macro 初始坐标。然后人工微调，memory 靠边放，高速 SerDes 靠近对应 IO，PLL 放中心减 skew 。

电源网格早期估算。峰值电流 Ipeak = Pmax / Vmin < 1.5 mA / µm（此值供参考）。目标静态 IR < 3 % ；动态IR < 10 %。

四、时序预算（Timing Budget）

路径切割原则。寄存器到寄存器：budget 按 “逻辑深度 + 线长” 加权。输入路径：input delay = 时钟周期 × 40 %（留 60 % 给内部）。输出路径：output delay = 时钟周期 × 45 %（留 55 % 给内部）。

人工微调场景。跨分区高速总线（> 1 GHz）：把 input/output delay 收紧到 0.25 ns。同时在顶层留 200 μm channel 做 pipeline repeater 。长距离 (> 4 mm) 控制信号：额外加 0.1 ns margin，防止 SI 推高 transition 。若分区离 IO bump > 1 mm，可把 input_delay 再 + 0.2 ns（线长补偿）。若电源 IR-drop 预算 > 5 %，同步把 clock_uncertainty 加 50 ps，防止 timing 与 power 互相踢皮球。

加入星球，结伴同行

soc top partition方法学其一

一、为什么要 Top-Partition

二、方法论总览：自顶向下 vs. 自底向上

三、芯片级规划（Chip-Planning）

四、 时序预算（Timing Budget）

相关推荐

四、时序预算（Timing Budget）