当所有人都在拼算力、拼数据中心、拼万卡集群的时候,有一家叫 Taalas 的公司,走了一条更激进的路。
他们不优化 GPU,不做更大的数据中心,也不做更通用的 AI 加速器。
他们做了一件近乎疯狂的事:把一个大模型,直接做成一颗专用芯片。
Taalas创建的平台,用于快速将任何人工智能模型转变为定制芯片。由此产生的硬核模型的效率比软件模型高 1000 倍。
不是“跑模型的芯片”。 而是“模型本身就是芯片”。
产品展示
Taalas HC1硬件中实现 Llama 3.1 8B模型,HC1 展示了 Taalas 硬核模型硅技术的强大功能,在 Llama 3.1 8B 模型上每秒为每个用户提供超过 17k个tokens,为 2.5kW 服务器设计。
Taalas HC1 的速度比 Cerebras 芯片快约 10 倍,制造成本低 20 倍,功耗也低 10 倍。其主要缺点是只能使用硬件中硬编码的模型,目前是 Llama-3.1 8B,不过据称它“通过可配置的上下文窗口大小和对低秩适配器 (LoRA) 微调的支持,保留了一定的灵活性”。
硬件加速器通常一侧是内存,另一侧是计算单元。两者运行速度不同,而内存带宽通常是大型语言模型(LLM)的瓶颈。Taalas 技术将存储和计算单元集成到单个芯片上,密度达到 DRAM 级别,从而大幅提升性能并降低功耗。
人类语音的峰值速度约为每秒三个单词。Taalas HC1 每秒能说 17,000 个单词。Taalas 在 815 平方毫米的台积电 6 纳米硅片上构建了一个本地化的预言机。530 亿个晶体管完全用于操控 Llama 3.1 8B 的指令,使其瞬间响应。2.5 千瓦服务器 ,每用户每秒处理超过 17,000 个令牌,零延迟瓶颈。
该公司搭建了一个在线聊天机器人演示,任何人都可以试用,速度确实非常快。当我问“2+2等于多少?”时,它报告的处理速度为19,600 token/s,但像“为什么天空是蓝色的?”或“你对芯片之家了解多少?”这类更常见的问题,处理速度约为15K/16K。我试着让它写一本关于人生意义的100页的书,结果它生成了一个14章的书稿大纲,耗时0.064秒,处理速度为15,651 token/s。需要注意的是,这是一个拥有80亿参数的模型,所以答案并不总是正确的。
为什么要这么做?
当前大模型的两个核心问题:
- 延迟高成本高
无论是 NVIDIA 的 GPU,还是 Cerebras 的晶圆级芯片,本质上仍然是“通用架构”。
通用意味着灵活,但也意味着:
- 指令调度存储搬运冗余缓存大量 DRAM 访问
这些都是效率损耗。
Taalas 的思路是彻底放弃通用性—— 既然模型结构是确定的,那就让硬件也完全确定。
这叫:Model-Specific Silicon(模型专用硅)
模型专用硅:极端专用化
如果一个芯片只为一个模型服务,会发生什么?
- 权重可以固化计算路径可以物理级优化不再需要复杂调度延迟可以压到极低功耗可以极端收敛
这有点像当年比特币从 GPU 进化到 ASIC。
当专用化发生,效率就会指数级提升。
这是一种“反通用化革命”。
但代价同样残酷
问题在于:
AI 模型更新周期是 6 个月。 芯片流片周期可能也是 6 个月。
每更新一个模型,就要重新设计、重新仿真、重新流片。
这意味着巨额 NRE 成本和巨大风险。
如果模型迭代太快,芯片可能还没量产就已经过时。
这是一场软件节奏与硬件节奏的对抗。
该公司目前正在研发第二款基于HC1芯片的中型推理LLM,预计将于第二季度发布。未来,第二代芯片平台(HC2)将实现更高的密度和更快的执行速度,并有望在年底前开始部署。
它到底是不是革命?
从历史看,所有计算革命都有一个趋势:
CPU → GPU → TPU → ASIC 通用 → 半专用 → 极专用
如果 AI 走向成熟,出现长期稳定的“标准模型”, 那么模型专用芯片,很可能成为下一阶段的主流。
但如果模型持续高速迭代, 这种模式可能成为一场昂贵的理想主义实验。
大家怎么看?
不同于上述的专用方案,目前主流的AI通用架构方案,存储以及内存涨价近10倍,自己做都快用不起了。但老宇哥发现有一家开发板厂,却依然坚持“3千兆网、4核心”全志T153开发板只卖99元(原价399元)。
另外,全志最新处理器T536支持17路UART + 4路CAN-FD,专为工业而生!创龙科技T536工业开发板限时优惠600元!
某种程度上,直接用他们家的核心板跟开发板做项目,比自己采购元器件都便宜了!
297