告别15年的语音按钮：这块国产芯片正在改写AI规则

你上次觉得”这玩意真牛X”是什么时候？

如果我说，是你在地铁里打开手机语音助手的那一瞬间，你大概会说不算。

但你仔细想想——从 Siri 2011年诞生算起，过去十五年，我们跟机器沟通的”第一入口”，就是一个语音按钮。按下去。说话。等答案。或者说“小X，小X，”需要唤醒。这个交互方式从来没变过。但如果有一天，你跟AI说话不再需要伸手按手机——而是直接在空气中开口，它就听到了。甚至在你开口之前，它就通过你周围的声音判断出你在叫它。这不是科幻。

这是2026年6月3日，在东莞松山湖举行的”第十六届松山湖中国IC创新高峰论坛”上，一家叫艾为电子的国产芯片公司正在做的事情。他们发布了一款叫AWA88188的芯片。叫它”功放芯片”。但说实话，用”芯片”这个词来定义它，已经不够准确了。我先说一个你可能不知道的事。现在全球主流AI眼镜品牌——Meta、Rokid、雷鸟创新、XREAL、小米、联想、星纪魅族、OPPO、vivo——背后，都有艾为电子的芯片。

这个公司在科创板上市。但他们做的那些芯片，你戴在耳朵上、放在口袋里、甚至直接架在鼻梁上，可能根本感觉不到它们的存在。因为太小了。小到几乎可以忽略不计。AWA88188这块芯片的面积，比上一代方案缩小了40%。免电感方案的布板面积缩小了50%。

50%是什么概念？就是在同样大小的AI眼镜里，你可以放两颗芯片而不是只放一颗。放两颗意味着什么？意味着可以同时驱动更多扬声器阵列、支持空间音频、或者塞进更多功能模块。芯片尺寸缩小不是”省钱”的事。是释放架构可能性。每一毫米，都是产品形态的增量。但我想聊的不是尺寸。我想聊的是，这块芯片正在做的事情，其实比我们大多数人都要看得深远。过去三年，我一直在关注AI硬件的演进方向。

你如果也关注的话，应该能感觉到一个趋势：AI正在从”你主动去问它”变成”它主动感知你”。以前你要打开App、输入Prompt、等待回复。这是一个高度”主动”的过程——你需要意识到自己需要AI，然后去找它。

未来的交互是反过来的。AI会通过声音、通过视觉、通过你的动作，主动判断你的需求。而要实现这一点，前提是——机器要能”听”。不只是”听到声音”。是理解声音。识别声源、过滤噪音、定位你在哪、判断你在跟谁说话、甚至在你开口之前就感知到你要开口的意图。音频，正在成为AI交互的”全域入口”。这个概念可能听着有点抽象。我换个说法——显示屏幕是第一代AI交互的入口，而音频是第二代。现在所有人都盯着AI眼镜的显示效果看，看分辨率、看视野角、看显示亮度。但这些是”输出”。

真正决定AI眼镜好不好用的，是”输入”。你输入得越自然，AI体验越好。而最自然的输入方式，是什么？说话。听声音。用你的声音交互。所以当你看到艾为电子把AWA88188定义为一个”智能音频计算节点”而不是一个”功放”的时候，你应该意识到，这个公司在思考一个很不同的问题。

传统功放的使命是什么？就是把信号放大，让声音更大、更清晰、不失真。这是物理层面的事。但AWA88188内置了一个200MCPS算力的自研DSP——这个数字什么意思？DSP是数字信号处理器，它让这块芯片可以不依赖外部处理器，自己完成杂音抑制、声场环绕、高清音频输出。它不再只是”让声音变大”。它在”理解声音”。

我有时候会觉得，AI时代最重要的芯片，可能不是你手机里那个最贵的处理器，而是某个不起眼的、负责”听”和”说”的芯片。因为如果机器听不到你，它再聪明也跟你没关系。再给你讲一个更细节的事。艾为电子最近还推出了一套叫”帝江”的上行音频算法。听起来很奇怪对吧——”帝江”。上古神话里那个”状如黄囊，赤如丹火，六足四翼，浑敦无面目”的怪兽。他们管音频算法叫”帝江”。

我猜是取”混沌”之意——声音从混沌中来，算法从混沌中理出秩序。这个命名有点意思。这套算法做什么呢？AI风噪消除、回声消除、定向拾音、声源定位。翻译成人话就是：你在户外跑步的时候，风声很大，你的AI眼镜怎么知道你是在跟它说话而不是在自言自语？它在开会的时候，旁边有人在讲话，它怎么知道你在跟远程同事说话而不是在跟旁边的人聊天？它怎么精准地只拾取你的声音，而不是一并录下整个环境？这些问题，过去是麦克风厂商的问题。现在变成了芯片公司的问题。这就是”全链路”的逻辑——从芯片硬件到上行算法到下行算法，打通。不是只做一块芯片，而是做一个完整的音频体验。

艾为凭借全音频链路布局、软硬件协同算法能力、成熟客户生态构筑核心壁垒。公司覆盖音频全链条芯片产品，打造“芯片+算法”一体化解决方案，并与Rokid等企业深度联动，构建端侧AI产业闭环。但这个文章我最想聊的，其实是一个更大的话题。AI交互界面的历史更替。你回想一下，过去五十年，人机交互的第一入口变化了几次？打字。命令行。GUI鼠标。触摸屏。语音。每一次更替，都意味着一类硬件的崛起和一类硬件的衰落。

键盘时代，有键盘公司。鼠标时代，有鼠标公司。触摸屏时代，有触控芯片公司。现在呢？AI交互时代——音频成为入口。所以，那些做”听”和”说”的芯片的公司，可能在下一轮硬件浪潮中扮演的角色，会跟当年做触摸屏芯片的公司一样重要。这不是说它们会变成下一个高通。而是说——谁控制了交互入口，谁就定义了AI体验的边界。AI眼镜如果成功了，它不会是一个”带显示器的手机”。它会是一个全新的交互形态。而这个形态的”第一触点”，很可能就是音频。你说的每一句话、你发出的每一个声音指令、你周围的声音环境——这些就是AI眼镜感知世界的”耳朵”。而负责”耳朵”的芯片，可能就是这块只有几毫米见方的AWA88188。

说到这个，我还注意到一个细节。艾为电子预计2026年第三季度发布一款低功耗NPU语音端侧AI处理芯片。NPU是神经网络处理单元。语音端侧。意思就是——语音识别和语义理解，不再需要上传到云端，直接在芯片上完成。

这是什么概念？意味着你的AI眼镜可以在完全离线状态下听懂你在说什么。没有网络、没有延迟、不需要服务器响应。这对于隐私来说是天大的好事。对于响应速度来说也是。但你想想另一个层面——这意味着什么？意味着”AI”不再是一个云端的概念，而是一个可以嵌入到任何物体里的本地能力。AI不是一个服务。它是一个组件。就像内存、像电池、像天线一样，被嵌入到眼镜、手表、车、冰箱、机器人里。AI正在从”工具”变成”基础设施”。只不过那篇说的是软件层面，这篇说的是硬件层面。两个层面的”基础设施化”同时发生，我觉得这件事值得多留意。

坦率的讲，我对AI基础设施不算特别专业。但我做AI这个领域，越做越觉得一件事——真正的变化，往往不在聚光灯下。大众在讨论大模型有多聪明、AI应用多牛、ChatGPT出了什么新功能。但底层那些做芯片的、做传感器、做封装的公司， quietly doing something very real。它们不发推文、不上热搜、不做Demo视频。但你的AI眼镜、你的智能手表、你的AI耳机——所有这些硬件——都依赖它们。这其实是一个很有趣的权力结构。最底层的东西，决定了最上层的东西能走多远。

我有时候在想，如果我们站在2030年回头看2026年，我们会觉得”AI眼镜是2024年引爆的”还是”2026年才真正开始”？取决于你看的是软件还是硬件。软件层面，2024年就已经在热闹了。但硬件层面——能承载这些软件的最小化、低功耗、智能化的硬件——真正成熟可能要到2026-2027年。所以现在看到的这些芯片发布、这些功耗优化、这些端侧算力下沉，不是”太早”。是”刚刚好”。最后说一个有点跑题但我觉得很有意思的事。艾为电子的客户里，有Meta。Meta的AI眼镜——Ray-Ban Meta——2024年发布的时候，全世界都在说”这玩意儿能卖多少”。

结果呢？2025年销量超过一百万副。对于一个还没解决”到底有没有用”这个问题的硬件产品，一百万。这说明什么？说明人们已经准备好了。不是准备好了AI眼镜本身，是准备好了以这种”戴在脸上的AI”的方式生活。而一百万副眼镜背后，是数百万条语音交互数据、数百万次音频处理能力需求、数百万个需要被低延迟响应的音频场景。

这些，都需要芯片。我有时候觉得，硬件公司的故事比软件公司的好看。软件公司讲的是”增长曲线”和”用户留存”。硬件公司讲的是”你能做多大、能多小、能多省电”。后者的进步，更真实、更可触摸、更有物理世界的重量感。一块芯片从40%缩小到更小，这不是KPI。这是物理空间里的真实压缩。大时代啊，朋友们。有时候看着这些变化，会觉得有点恍惚。

五年前，AI还是一个软件概念。三年前，AI开始进入手机和电脑，今天，AI已经住进了眼镜、手表、耳机、机器人里。我不知道下一个载体是什么。但有一点我很确定：那个能让人类最自然、最无缝地与AI交流的方式，不会是一个App、不会是一个对话框、不会是一个你需要打开才能用的东西。它会是一种你感受不到的交互。就像打电话——你不需要”打开电话App”才能打电话。打电话就是你本来就在做的事情。AI交互的终极形态，也应该是这样。它应该是你生活的一部分，而不是你生活的一个功能。

告别15年的语音按钮：这块国产芯片正在改写AI规则

相关推荐