AI算力爆发的时代,马斯克提出的太空算力,引发了不少讨论,其中争论最严重的就是散热。
有人说太空“冷得可怕”,把AI算力或者数据中心搬上轨道,绝妙的点子,这样还省了不少散热的功夫。
也有理性的人说,太空虽然冷,却没有空气。芯片产生的热量既不能被风带走,也无法通过冷却塔蒸发散失,最终只能变成红外线,慢慢辐射到宇宙中,所以散热变成辐射那么更难了。
显然是后者考虑的更科学理性,马斯克的太空AI算力计划真正困难的部分,可能不是把GPU等算力芯片送上天,而是怎样让它们不被自己产生的热量“烤死”。
那么本文,从科普的角度分析太空AI算力为什么难,现在太空卫星怎么散热,Space X会有哪些方法进行热管理。
1、太空 AI 算力最难的,为什么是散热?
我们先从地面AI算力或着数据中心的散热开始讲起,普通地球上的点子设备散热主要依赖三条散热路径:芯片把热量传给冷却板或空气,再由水和空气带走,最后通过冷却塔排入环境。
然而到了太空的真空中,对流几乎完全消失,蒸发冷却也无法直接使用。整套系统只剩两件事可做:
第一,把热量从芯片内部高效传到卫星表面;
第二,让卫星表面以红外辐射的形式把热量送入太空。
完整路径大致是:
芯片产生的热量流向导热材料与冷板,再经过热管或液体回路,到达散热器,最后经过红外辐射,辐射到宇宙中,完成散热过程。
不过问题在于,辐射散热能力并没有想象中那么强。按照斯忒藩—玻尔兹曼定律,一块温度为300—350K、发射率约0.9的理想散热板,每平方米理论上只能排出约400—800瓦热量。
这意味着,仅排出1兆瓦废热,就可能需要约1250—2500平方米的有效散热面积。考虑太阳照射、地球红外辐射、材料老化、姿态限制和安全余量,实际面积还会更大。
此外,太空散热还有三个麻烦:
太阳一侧可能很热,阴影一侧又很冷,卫星每绕地球一圈都要经历温度循环。
GPU热流密度很高,平均热量能排出去,不代表芯片局部不会出现热点。
散热板、管路和冷却液都会增加质量,而轨道数据中心的每一公斤都需要火箭运输。
因此,太空并不是一个免费的“大冰箱”,而是一个没有风扇、没有冷却塔、只能依靠红外线排热的巨大真空瓶。
2、星链和现有航天器是怎样散热的?
那么现在其实人类有不少卫星,Space X现有的星链此类通讯类卫星也在太空中,他们的电子芯片是如何散热的呢?
其实,现有卫星早已形成了一套成熟的热控方法,只是它们的功率通常远小于大型AI数据中心。这些卫星散热遵循上节讲到的理论,主要有三个步骤:
首先是“铺热”。芯片通过导热界面材料、例如铝合金结构、石墨片或热带,把集中在很小面积上的热量扩散到更大的卫星结构上。这样可以使芯片的温度铺散到其他地方,不至于芯片周围过热。
其次是“搬热”。卫星常用热管、环路热管或泵驱动液体回路,把热量从电子设备送到背阳面的散热区域。热管内部通过蒸发和冷凝循环传热。
最后是“辐射”。卫星表面会使用白色热控涂层、光学太阳反射器等材料:尽量少吸收太阳光,同时尽量多地向外发射红外线。多层隔热材料则用来保护不希望受热或失热的部件。
国际空间站提供了更接近数据中心的参考。它利用内部水循环和外部氨循环,把设备及乘员产生的热量送到大型外置散热板。换句话说,太空中的液冷依然存在,只不过冷却液最终仍要把热交给辐射板。
星链卫星采用扁平化结构,本身就有利于增加表面积和缩短导热路径。但SpaceX没有公开其完整热控细节。合理推测,其通信载荷、电源和推进系统主要依靠结构导热、热管与机身辐射面散热。由于单颗星链卫星的功率与AI数据中心相差多个数量级,它不需要携带数据中心级别的巨型散热翼。
这也是从“通信卫星”升级到“轨道数据中心”时最大的跨越:技术原理并没有改变,散热规模却可能放大几十倍甚至几百倍。
3、马斯克可能怎样解决太空算力散热?
目前,马斯克和SpaceX尚未公布一套完整、可验证的轨道数据中心热控方案。因此,下面只能根据现有航天技术、星链架构和Starship的运输逻辑进行工程推演。
我们觉得马斯克Space x可能解决太空算力散热的方案有:
1. 不建一座巨型机房,而是把算力分散到大量卫星
最符合SpaceX风格的方案,太空算力肯定不是建一座几百兆瓦的轨道空间站,而是和当前星链一致由大量标准化算力卫星组成的星座。
这样,每颗卫星只处理有限功率,散热器也可以随卫星分散部署。单颗卫星故障不会拖垮整个数据中心,还能沿用星链的批量制造、星间激光通信和快速迭代能力。
马斯克押注的“散热赌注”并非某一种神奇散热材料,而是发射成本、芯片能效、太阳能和卫星规模化能够同时进步。
2. 让芯片在更高温度下工作
辐射能力与绝对温度的四次方成正比。散热器温度越高,同样面积能够排出的热量越多。
因此,太空GPU可能不会追求地面机房式的低温,而是使用耐高温芯片、直接液冷冷板和高温冷却液,使散热器工作在更高温度。代价是芯片寿命、材料可靠性和辐射损伤控制会更困难。
当然,这种方案可能性不大,毕竟老马也在各种采访中说过,他的想法是不管地球上的什么芯片,都可以发射到太空。
3. 使用轻量化、可展开的大面积散热翼
这种应该是板上钉钉的事实,通过IPO ppt上的图片可以看到,其算力卫星有着巨大的太阳能电池板,太阳能板面向太阳,散热板则尽量避开太阳和地球,两者可能像“光明面”和“阴影面”一样分开布置。
散热翼可能采用薄膜、复合材料流道、两相冷却回路和高发射率选择性涂层。其目标不是让表面变得冰冷,而是用尽可能少的质量获得尽可能大的有效辐射面积。
可以看到其算力卫星除了两侧的展翼,还有一个尾翼,这个很有可能也是散热的。
4. 用相变材料和算力调度削峰
此外,AI负载并不始终保持峰值。卫星可以使用相变材料暂时吸收热量,再在负载下降时缓慢释放。
同时,计算任务也可以根据温度进行调度:某颗卫星过热就降频,把任务转移给其他节点;进入不利姿态或受到太阳照射时减少计算,在散热条件更好的阶段恢复满载。
换句话说,未来的调度系统管理的不只是GPU和网络,还要管理每颗卫星的“热预算”。
5. 用Starship把散热器的质量问题变成经济问题
最后,传统卫星追求极致轻量化,因为发射质量极其昂贵。马斯克的不同之处,是希望通过Starship降低单位入轨成本。
如果发射足够便宜,SpaceX可以接受更大的散热器、更多冷却液和更高冗余度。其方案未必是热力学上最优雅的,却可能是制造和经济上最容易扩张的。
结语
可以明确的是马斯克肯定无法绕过物理定律。所以,无论芯片多先进、火箭多便宜,每消耗一度电,绝大部分能量最终都必须以热的形式排出去。
因此,太空算力真正的核心资产,可能不只是GPU数量,而是“每公斤散热能力”:芯片能效有多高,热量能否快速铺开,散热器每平方米能排出多少热,以及每公斤系统能够支持多少持续算力。
太空确实很冷。但对于一台全速运行的GPU来说,那里最稀缺的不是低温,而是一条足够宽的散热通道。
最后,马斯克确实打开了大家的想象力,有点像当年恩里克王子和哥伦布开启的大航海时代,我们开始将视野投向了太空,开启了另外一个人类征程。
参考资料以及图片
- SpaceX_IPO_Roadshow_Final.pdf
*未经准许严禁转载和摘录-获取本文参考资料方式:加入我们的知识星球可以下载公众号海量参考资料包含以上参考资料。
397