快流片了，服务器不够用了

最近和一个做芯片设计的朋友聊天，他提到一个挺典型的问题。

他们的项目快要流片了。

做过 IC 设计的人应该都有类似体验：平时服务器资源可能还算够用，但一旦进入流片前阶段，各种任务就会突然集中起来。后仿真、PV、STA、IR drop 分析，一股脑地堆在一起跑，服务器基本是 24 小时满负荷。

这里面有一类任务特别容易卡资源：IR 和 STA。

很多时候问题不是 CPU，而是内存。规模稍微大一点的设计，IR 或 STA 跑起来动不动就需要 TB 级内存。内存不够的时候，任务要么排队，要么干脆跑不起来。

朋友他们现在就处在这种阶段。平时服务器还算够用，但到了这个时间点，队列就开始变长，工程师每天都在盯着资源情况。

于是团队里有人提议：要不要买几台大内存服务器。

听起来很合理，但仔细想想又有点尴尬。因为这种需求往往只集中在某些阶段，比如流片前几个月。项目一旦过了这个阶段，服务器压力就会明显下降。

如果为了这个阶段专门采购几台 TB 级内存服务器，后面很长一段时间可能都会闲着。

再加上现在内存价格大家都知道，不仅贵，有时候甚至有钱也未必买得到需要的配置。在这种情况下，自己采购大内存服务器就更需要算一算账了，特别是对中小型 IC 公司来说。

有人会问，那为什么不用云服务器？

理论上这当然是一个方案，但现实里很多 IC 公司对设计数据的安全要求非常严格。设计数据库往往被视为最核心的资产之一，不少公司都要求设计数据必须在本地机房运行。

所以很多团队其实处在一个有点矛盾的状态：服务器不够用，但又不太愿意把任务放到云端。

前段时间刚好了解到一个做法，算是一个折中的方案。

有公司开始做大内存服务器租赁，不过机器不是放在云端，而是可以直接部署到客户自己的机房。简单说就是服务器是租的，但设备是在本地跑。

这样一来，一方面可以按需要使用大内存服务器，另一方面数据仍然留在企业自己的网络环境里。

我看了一下他们现在提供的配置，最高可以做到 6TB 内存。对于很多 EDA 场景，比如 STA、IR 或者大规模后仿真，其实已经足够用了。

硬件平台也比较常见，一类是 Intel 的高频计算型平台，另一类是 AMD 的多核吞吐型平台。做过 EDA 任务的人大概都知道，两种架构各有各的适用场景。

这种模式的思路其实挺简单：计算资源按阶段使用，而不是长期持有。

对于服务器需求波动比较大的团队来说，这种方式可能会更灵活一点。

我这里也拿到了一份他们的配置和报价，如果有团队刚好遇到类似的资源问题，可以参考看看。

联系方式：郭亚鹏 18049865398 （微信同号）

相关推荐