AI推理_AI推理资讯

没有记忆，AI推理落不了地｜爱分析访谈

红熊AI CEO温德亮认为，记忆不应仅作为模型的外挂或插件，而应成为推理入口，强调记忆驱动推理的重要性。红熊AI首先聚焦于客服、营销等易商业化场景，利用应用收入反哺底层技术建设，并逐步扩展至更通用的能力。记忆赛道的发展历程表明，商业化成功的关键在于能否有效解决实际业务需求并产生经济效益。此外，记忆系统还需具备反思和遗忘机制，以适应不断变化的企业环境。尽管开源有助于扩大影响力，但闭源模式更能保障企业的实际收益。红熊AI目前采用订阅加本地化部署模式，预计今年营收可达五亿元人民币。

爱分析ifenxi

263

17小时前

AI推理

被遗忘十年的LPU翻红，一门新生意成立了吗？

AI推理时代到来，专业化分工成为芯片行业共识。谷歌、Anthropic、SambaNova等企业纷纷尝试将不同计算任务拆解给不同类型芯片处理。Groq的LPU因其独特的编译能力和SRAM高带宽存储，在推理系统中扮演重要角色。然而，LPU面临的挑战是如何在激烈的市场竞争中脱颖而出并实现盈利。

雷峰网

485

06/28 12:52

AI AI推理

LPDDR逆袭：AI推理芯片为何集体“换芯”？

LPDDR正在数据中心、端侧AI、桌面AI等领域迅速普及，因其成本低、容量大、功耗低等特点受到青睐。高通、英特尔、英伟达等厂商纷纷采用LPDDR作为推理芯片的内存方案，推动LPDDR需求急剧增长。随着LPDDR6的发展，单颗芯片容量有望达到512GB，性能大幅提升，进一步满足AI推理对大容量和低功耗的需求。

半导体产业纵横

2097

06/11 11:47

AI推理 LPDDR

深度对比AI推理芯片企业：Groq、Cerebras、SambaNova、d-Matrix

存算一体技术在AI推理领域成为新的战略重点，通过消除数据在处理单元与存储器之间的移动成本来提高数据吞吐量。本文介绍了四家AI推理芯片厂商——Groq、Cerebras、SambaNova与d-Matrix——在存储战略上的不同选择，并详细比较了它们的核心芯片架构、解决方案及其市场表现。其中，d-Matrix凭借低TCO、兼容标准服务器和灵活的“性能/容量”双模切换，在企业级推理市场最具竞争力；而Cerebras虽然在极致性能上领先，但其财务契约和工艺依赖使其实现大规模普及面临挑战。未来三年，行业需关注代工锁定、SRAM缩放停滞和算法演进带来的风险。

半导体产业研究

3091

05/27 13:08

AI推理推理芯片

深度对比AI推理芯片企业：Groq、Cerebras、SambaNova、d-Matrix

为什么边缘计算终于有了它的杀手级应用?

边缘计算近年来经历了从理论探讨到实际应用的转变，尤其是在AI推理领域的突破。随着生成式AI的兴起，边缘计算的需求显著增加，特别是对于实时性和低延迟的需求。AI推理被视为边缘计算的“杀手级应用”，促使计算能力从集中式云向分布式边缘迁移。然而，AI推理带来的高能耗挑战使得传统数据中心设计面临重构，液冷技术和现场发电成为必要选择。预计到2028-2029年，AI推理将广泛应用于AR眼镜、机器人等领域，推动边缘基础设施的快速发展。此外，电力供应、人才短缺和高质量数据体系将是未来竞争的关键因素。

iot101君

552

05/25 19:07

AI 边缘计算

研报 | 北美CSP大举购置英伟达 GB/Rubin整柜式方案，2026年AI推理算力将跃升1.2倍

TrendForce集邦咨询预测，2026年AI训练机种将在AI Server出货中占据约55%的比例，而AI推理机种将成为市场主力。北美五大CSP计划增加对整柜式AI Server的采购，预计AI训练算力增长56%，AI推理算力增长122%。NVIDIA、AMD及CSP自研ASIC平台同步放量，导致五大CSP Server功耗年增116%。北美五大CSP的资本支出预计达到7,700亿美元，年增87%。

TrendForce集邦咨询

1030

05/21 16:30

算力 CSP

研报 | 北美CSP大举购置英伟达 GB/Rubin整柜式方案，2026年AI推理算力将跃升1.2倍

快Token生意浮出水面：Cerebras上市，华尔街重新给AI硬件定价

Cerebras上市首日市值飙升至800亿美元以上，主要得益于其晶圆级AI芯片技术和与OpenAI的合作。尽管面临SRAM容量、片外I/O和系统成本等工程约束，Cerebras凭借其独特的晶圆级架构，在AI推理市场获得了高估值。然而，市场对其未来的可持续性和交付风险持谨慎态度，特别是与OpenAI的关系及其潜在影响。

美股研究社

622

05/18 17:22

AI Token

价格狂飙，业绩爆发，2026年闪存市场迎来“泼天富贵”

2026年全球闪存市场受AI驱动步入“超级周期”，价格飙升、业绩暴增，供需失衡加剧。3D NAND堆叠竞赛进入300层+时代，HBF技术崛起，重塑AI推理存储格局。各大存储巨头纷纷加大研发投入和技术布局，共同推动市场迈向全新高度。

全球半导体观察

1922

05/18 14:42

AI推理 3D NAND

刚刚，史上最大AI芯片IPO了！盘中飙升109%，市值超4500亿元

Cerebras Systems成功在纳斯达克上市，发行价185美元，开盘涨89%至350美元，总市值达832亿美元。Cerebras以其全球最大的AI芯片WSE系列著称，最新一代WSE-3采用5nm制程，集成90万个计算核心和4万亿颗晶体管，性能显著超越GPU。公司预计2025年实现扭亏为盈，主要得益于中东客户的大量订单和与OpenAI、AWS的合作。尽管目前市值不及英伟达，但凭借强大的技术和市场前景，有望成为AI推理领域的领军者。

芯东西

1241

05/16 14:58

AI芯片 OpenAI

存储巨头预言：缺货到2028年，2030年中国将诞生全球NAND新王

存储芯片产能严重供不应求，下半年DRAM价格继续上涨。AI推理需求爆发推动NAND闪存需求大增，预计到2030年中国长江存储将成为全球最大的NAND闪存制造商。存储芯片扩产周期长，供需失衡导致价格上涨。AI推理需求促使NAND闪存成为“近内存”计算资源，其战略地位和价值量重估。长江存储凭借技术创新和产能扩张，有望在全球存储市场占据重要份额。存储资源争夺加剧消费电子市场竞争，苹果凭借议价能力成为最大赢家。

旺材芯片

3862

05/12 23:17

存储芯片 AI推理

2026年，Meta花几十亿美元买了亚马逊的CPU。这可能是AI算力史上最被低估的一份公告

Meta花费数十亿美元向AWS购买Graviton5 ARM架构CPU，构建其AI推理和Agentic AI系统，标志着计算范式的转变，预示着ARM架构在AI推理领域的崛起，挑战x86架构的地位。

歪睿老哥

900

05/07 09:36

CPU ARM架构

LLM推理的硬件危机，比你想的严重得多

Google DeepMind的两位工程师发布了一篇关于大模型推理硬件的论文，指出当前硬件架构不适合推理任务，尤其是在解码阶段。论文提出四种解决方案：高带宽闪存（HBF）、近存计算（PNM）、3D内存逻辑堆叠和低延迟互连。这些方案旨在解决内存带宽、容量和通信延迟等问题，而非单纯增加算力。研究者呼吁学术界和产业界合作，共同推动推理硬件的发展。

歪睿老哥

1493

05/06 09:32

大型语言模型 AI推理

当Token使用量暴涨，LLM推理性能如何评估？

本文介绍了AI技术的发展历程及其三个主要阶段：生成式AI、推理AI和AI Agent。文中详细阐述了AI推理基础设施的关键性能指标，包括用户侧体验和推理引擎内部统计指标。Keysight推出的AI Inference Builder提供了全面的测试解决方案，帮助评估AI推理引擎的性能、效率和可靠性。此外，文中还讨论了AI推理过程中的主要瓶颈，如GPU计算、内存带宽和内存容量限制，并展示了Keysight AI Inference Builder如何通过模拟真实使用场景来识别和解决这些问题。最后，指出AI已进入“推理性能”时代，强调了精准性能评估的重要性。

是德科技KEYSIGHT

1257

05/01 11:25

生成式AI AI技术

英伟达入股SiFive，数据中心CPU进入“三国时代”

SiFive成功筹集4亿美元融资，加速高性能数据中心CPU路线图。此次融资由Atreides Management主导，多家知名投资机构参与，使SiFive估值达到36.5亿美元。SiFive计划利用这笔资金扩展高性能CPU和AI IP解决方案的研发，特别是针对数据中心的RISC-V CPU和加速器。此外，SiFive与英伟达达成技术合作，将其NVLink Fusion技术集成到RISC-V CPU中，进一步增强其在AI数据中心领域的竞争力。与此同时，Arm也发布了自家的AGI CPU，标志着数据中心CPU市场进入“三国时代”。

芯智讯

887

04/10 15:36

CPU AI推理

分支边缘AI推理落地难？华为超融合一体机跑通“最后一公里”

2026年，当人工智能加速从实验室走向千行百业，“最后一公里”的落地难题愈发凸显。分支边缘场景作为AI赋能实体经济的前沿阵地，小到社区安防、门店运营，大到工厂质检、医疗诊断，都离不开实时、安全、可迭代的AI推理能力。然而，当前业界“重中心、轻边缘”的倾向，使得分支边缘场景的AI推理陷入部署难、运维贵、进化慢等困境，成为制约行业智能落地的核心瓶颈。能否打通这“最后一公里”的障碍？将决定AI大模型能

极客网

1078

04/04 18:38

边缘AI AI推理

大模型推理芯片架构全揭秘：五大门派华山论剑，谁才是真正的王者？

大模型时代的AI推理芯片竞争激烈，各大厂商纷纷推出多样化架构应对计算挑战。主要架构包括GPU、脉动阵列、多核SRAM、晶圆级和确定性流水线等，各有优劣。具体选择应根据应用场景，如小批次低延迟、大批次高吞吐等。未来趋势包括异构内存系统、硬件加速MoE支持、专门KV Cache引擎和内存-计算解耦架构。选对芯片可显著降低成本和提高性能。

歪睿老哥

1477

04/03 09:50

AI芯片大模型

功耗只有284mW的LPU，能跑大模型的吗？

韩国公司推出一款名为LPU的AI推理芯片，采用4nm工艺，面积仅0.824平方毫米，功耗仅为284毫瓦。该芯片在LLM推理方面表现出色，处理能力远超NVIDIA H100，能效比H100高出33%。其独特架构包括优化的内存访问、智能数据调度、高效的计算引擎和扩展同步链接，使其在大规模模型推理中具有显著优势。尽管仍处于原型阶段，但LPU展示了专用AI芯片在特定领域的巨大潜力，并可能推动端侧推理AI芯片的发展。

歪睿老哥

768

04/02 11:02

AI推理 LPU

一文聊透KV Cache：大模型推理‘提速几十倍’的刚需技术

文章介绍了KV Cache的概念及其在大模型中的作用。首先解释了标记、嵌入和位置编码的基础概念，然后详细讲解了解码器模型的工作原理，特别是注意力机制的作用。接着，文章深入探讨了KV Cache如何通过缓存已计算的K和V向量来提高推理效率，从而显著降低时间复杂度。尽管KV Cache会占用更多的显存，但它大大提升了推理速度，使得大模型能够高效运行。

歪睿老哥

1568

03/31 09:51

AI推理 cache

黄仁勋喊出“推理拐点”，边缘推理的机会窗口打开了吗

本周，硅谷兴起“tokenmaxxing”现象，Meta、OpenAI和NVIDIA纷纷推动AI推理的分布式解决方案。Akamai提出AI推理必须走向分布式，其全球边缘节点网络能够有效应对实时应用场景的延迟和带宽挑战。尽管面临算力和调度难题，Akamai通过AI Grid和NVIDIA合作，提供了灵活且高效的推理基础设施解决方案，为中国出海AI创业者提供了新的选择。

硅星人

613

03/27 22:43

AI Token

Groq LPU vs 其它CIM芯片：谁将成为AI推理时代存算一体芯片市场的最大赢家？

英伟达推出Vera Rubin平台，采用异构计算架构，包括Vera CPU、Rubin GPU和Groq LPX，旨在解决大规模AI推理中的瓶颈。Groq LPX基于软件定义VLIW架构，利用SRAM实现高速解码。AI推理分为预填充和解码两阶段，前者注重并行处理，后者强调内存带宽和延迟。CIM技术通过在存储阵列内原位完成计算，消除数据搬运开销，提高能效。全球CIM芯片厂商如d-Matrix、Axelera AI、Mythic等各有所长，中国厂商如知存科技、后摩智能也在积极发展。CIM技术有望在未来AI基础设施中占据重要地位。

半导体产业研究

4955

03/25 13:37

存算一体 AI推理

Groq LPU vs 其它CIM芯片：谁将成为AI推理时代存算一体芯片市场的最大赢家？