把大模型刻进芯片,可行吗?
Taalas是一家成立于2023年的加拿大初创公司,凭借其HC1芯片在AI推理领域引起广泛关注。该公司采用了独特的设计思路,将AI大模型的权重直接蚀刻到芯片的金属互连层中,实现了极致的存算合一,使推理速度达到17000 tokens/秒,远超现有GPU。然而,这种极端专用化的设计使得芯片仅能运行特定模型,且每次模型更新都需要重新流片,这对其商业可行性提出了挑战。 尽管如此,Taalas的方案在某些特定场景中展现了独特价值,例如工业自动化、政务系统和消费电子产品等领域,能够有效解决推理延迟问题。然而,其高昂的成本和较长的迭代周期仍是主要争议点。总体而言,Taalas的尝试为AI芯片设计提供了新的视角,尤其是在存算合一和定制化硬件的方向上,有望在未来推动AI硬件向多元化和场景化发展。