耐能(Kneron)推出新一代边缘AI芯片KL1140,该芯片据称推理成本较云端解决方案降低10倍,能效提升3倍。此次发布正值芯片供应商与系统厂商纷纷寻求方法,缓解AI快速普及带来的功耗压力之际。
优化Mamba的NPU助力降低云依赖
Kneron将KL1140定位为其迄今最先进的神经网络处理器(NPU),也是首款能在边缘设备上运行完整Mamba网络的芯片。通过将大语言模型(LLM)工作负载从云端迁移至边缘,该芯片旨在解决AI部署规模扩大后日益突出的延迟、隐私及功耗问题。
“高成本与海量能耗的双重威胁,意味着当前AI计算的现状根本不可持续,”Kneron创始人兼首席执行官Albert Liu表示,“通过在边缘运行先进模型,我们正将大语言模型的算力直接交付给用户。”
Kneron称,四颗级联的KL1140芯片在处理参数达1200亿的模型时,性能可媲美GPU,而功耗仅为后者的三分之一至二分之一。加州大学伯克利分校的基准测试验证,该设备是首款突破Kneron所称“大语言模型能效阈值”的边缘处理器。
瞄准机器人、汽车与智能制造领域
KL1140专为机器人、汽车电子及智能工厂的实时工作负载设计。Kneron表示,该芯片支持本地语音交互、智能视觉及设备端决策,无需依赖外部数据中心。
潜在应用场景包括:无需WiFi即可实现自然语言交互的自主机器人、无手机信号覆盖仍能正常工作的车载AI助手,以及将敏感数据留存本地的企业系统。Kneron指出,同一架构还可支持工业设备在边缘端实现视频分析与语音控制。
刘表示,此次发布标志着“云端之外实用且可持续的AI应用迎来转折点”。
全栈布局与台湾制造合作深化
Kneron已从边缘处理器拓展至全栈AI基础设施领域,为医院、高校及政府机构提供自主AI项目解决方案。其KNEO Pi开发者生态系统目前已拥有超过2.8万名用户。
该公司正通过与台湾星火科技(Taiwan Spark Technology)合作,深化在台湾地区的供应链布局,双方将联合生产搭载Kneron芯片的大语言模型服务器。客户涵盖人工智能物联网(AIoT)、安防、汽车及边缘服务器领域的丰田(Toyota)、广达(Quanta)、韩华(Hanwha)与德施曼(Dessmann)等企业。Kneron的可重构NPU架构也已获得认可,例如荣获IEEE电路与系统学会(CAS)达林顿奖(Darlington Award)。
原文标题:Kneron unveils KL1140 chip with 3x efficiency and 10x lower costs
原文媒体:digitimes asia
691