你上次觉得”这玩意真牛X”是什么时候?
如果我说,是你在地铁里打开手机语音助手的那一瞬间,你大概会说不算。
但你仔细想想——从 Siri 2011年诞生算起,过去十五年,我们跟机器沟通的”第一入口”,就是一个语音按钮。按下去。说话。等答案。或者说“小X,小X,”需要唤醒。这个交互方式从来没变过。但如果有一天,你跟AI说话不再需要伸手按手机——而是直接在空气中开口,它就听到了。甚至在你开口之前,它就通过你周围的声音判断出你在叫它。这不是科幻。
这是2026年6月3日,在东莞松山湖举行的”第十六届松山湖中国IC创新高峰论坛”上,一家叫艾为电子的国产芯片公司正在做的事情。他们发布了一款叫AWA88188的芯片。叫它”功放芯片”。但说实话,用”芯片”这个词来定义它,已经不够准确了。我先说一个你可能不知道的事。现在全球主流AI眼镜品牌——Meta、Rokid、雷鸟创新、XREAL、小米、联想、星纪魅族、OPPO、vivo——背后,都有艾为电子的芯片。
这个公司在科创板上市。但他们做的那些芯片,你戴在耳朵上、放在口袋里、甚至直接架在鼻梁上,可能根本感觉不到它们的存在。因为太小了。小到几乎可以忽略不计。AWA88188这块芯片的面积,比上一代方案缩小了40%。免电感方案的布板面积缩小了50%。
50%是什么概念?就是在同样大小的AI眼镜里,你可以放两颗芯片而不是只放一颗。放两颗意味着什么?意味着可以同时驱动更多扬声器阵列、支持空间音频、或者塞进更多功能模块。芯片尺寸缩小不是”省钱”的事。是释放架构可能性。每一毫米,都是产品形态的增量。但我想聊的不是尺寸。我想聊的是,这块芯片正在做的事情,其实比我们大多数人都要看得深远。过去三年,我一直在关注AI硬件的演进方向。
你如果也关注的话,应该能感觉到一个趋势:AI正在从”你主动去问它”变成”它主动感知你”。以前你要打开App、输入Prompt、等待回复。这是一个高度”主动”的过程——你需要意识到自己需要AI,然后去找它。
未来的交互是反过来的。AI会通过声音、通过视觉、通过你的动作,主动判断你的需求。而要实现这一点,前提是——机器要能”听”。不只是”听到声音”。是理解声音。识别声源、过滤噪音、定位你在哪、判断你在跟谁说话、甚至在你开口之前就感知到你要开口的意图。音频,正在成为AI交互的”全域入口”。这个概念可能听着有点抽象。我换个说法——显示屏幕是第一代AI交互的入口,而音频是第二代。现在所有人都盯着AI眼镜的显示效果看,看分辨率、看视野角、看显示亮度。但这些是”输出”。
真正决定AI眼镜好不好用的,是”输入”。你输入得越自然,AI体验越好。而最自然的输入方式,是什么?说话。听声音。用你的声音交互。所以当你看到艾为电子把AWA88188定义为一个”智能音频计算节点”而不是一个”功放”的时候,你应该意识到,这个公司在思考一个很不同的问题。
传统功放的使命是什么?就是把信号放大,让声音更大、更清晰、不失真。这是物理层面的事。但AWA88188内置了一个200MCPS算力的自研DSP——这个数字什么意思?DSP是数字信号处理器,它让这块芯片可以不依赖外部处理器,自己完成杂音抑制、声场环绕、高清音频输出。它不再只是”让声音变大”。它在”理解声音”。
我有时候会觉得,AI时代最重要的芯片,可能不是你手机里那个最贵的处理器,而是某个不起眼的、负责”听”和”说”的芯片。因为如果机器听不到你,它再聪明也跟你没关系。再给你讲一个更细节的事。艾为电子最近还推出了一套叫”帝江”的上行音频算法。听起来很奇怪对吧——”帝江”。上古神话里那个”状如黄囊,赤如丹火,六足四翼,浑敦无面目”的怪兽。他们管音频算法叫”帝江”。
我猜是取”混沌”之意——声音从混沌中来,算法从混沌中理出秩序。这个命名有点意思。这套算法做什么呢?AI风噪消除、回声消除、定向拾音、声源定位。翻译成人话就是:你在户外跑步的时候,风声很大,你的AI眼镜怎么知道你是在跟它说话而不是在自言自语?它在开会的时候,旁边有人在讲话,它怎么知道你在跟远程同事说话而不是在跟旁边的人聊天?它怎么精准地只拾取你的声音,而不是一并录下整个环境?这些问题,过去是麦克风厂商的问题。现在变成了芯片公司的问题。这就是”全链路”的逻辑——从芯片硬件到上行算法到下行算法,打通。不是只做一块芯片,而是做一个完整的音频体验。
艾为凭借全音频链路布局、软硬件协同算法能力、成熟客户生态构筑核心壁垒。公司覆盖音频全链条芯片产品,打造“芯片+算法”一体化解决方案,并与Rokid等企业深度联动,构建端侧AI产业闭环。但这个文章我最想聊的,其实是一个更大的话题。AI交互界面的历史更替。你回想一下,过去五十年,人机交互的第一入口变化了几次?打字。命令行。GUI鼠标。触摸屏。语音。每一次更替,都意味着一类硬件的崛起和一类硬件的衰落。
键盘时代,有键盘公司。鼠标时代,有鼠标公司。触摸屏时代,有触控芯片公司。现在呢?AI交互时代——音频成为入口。所以,那些做”听”和”说”的芯片的公司,可能在下一轮硬件浪潮中扮演的角色,会跟当年做触摸屏芯片的公司一样重要。这不是说它们会变成下一个高通。而是说——谁控制了交互入口,谁就定义了AI体验的边界。AI眼镜如果成功了,它不会是一个”带显示器的手机”。它会是一个全新的交互形态。而这个形态的”第一触点”,很可能就是音频。你说的每一句话、你发出的每一个声音指令、你周围的声音环境——这些就是AI眼镜感知世界的”耳朵”。而负责”耳朵”的芯片,可能就是这块只有几毫米见方的AWA88188。
说到这个,我还注意到一个细节。艾为电子预计2026年第三季度发布一款低功耗NPU语音端侧AI处理芯片。NPU是神经网络处理单元。语音端侧。意思就是——语音识别和语义理解,不再需要上传到云端,直接在芯片上完成。
这是什么概念?意味着你的AI眼镜可以在完全离线状态下听懂你在说什么。没有网络、没有延迟、不需要服务器响应。这对于隐私来说是天大的好事。对于响应速度来说也是。但你想想另一个层面——这意味着什么?意味着”AI”不再是一个云端的概念,而是一个可以嵌入到任何物体里的本地能力。AI不是一个服务。它是一个组件。就像内存、像电池、像天线一样,被嵌入到眼镜、手表、车、冰箱、机器人里。AI正在从”工具”变成”基础设施”。只不过那篇说的是软件层面,这篇说的是硬件层面。两个层面的”基础设施化”同时发生,我觉得这件事值得多留意。
坦率的讲,我对AI基础设施不算特别专业。但我做AI这个领域,越做越觉得一件事——真正的变化,往往不在聚光灯下。大众在讨论大模型有多聪明、AI应用多牛、ChatGPT出了什么新功能。但底层那些做芯片的、做传感器、做封装的公司, quietly doing something very real。它们不发推文、不上热搜、不做Demo视频。但你的AI眼镜、你的智能手表、你的AI耳机——所有这些硬件——都依赖它们。这其实是一个很有趣的权力结构。最底层的东西,决定了最上层的东西能走多远。
我有时候在想,如果我们站在2030年回头看2026年,我们会觉得”AI眼镜是2024年引爆的”还是”2026年才真正开始”?取决于你看的是软件还是硬件。软件层面,2024年就已经在热闹了。但硬件层面——能承载这些软件的最小化、低功耗、智能化的硬件——真正成熟可能要到2026-2027年。所以现在看到的这些芯片发布、这些功耗优化、这些端侧算力下沉,不是”太早”。是”刚刚好”。最后说一个有点跑题但我觉得很有意思的事。艾为电子的客户里,有Meta。Meta的AI眼镜——Ray-Ban Meta——2024年发布的时候,全世界都在说”这玩意儿能卖多少”。
结果呢?2025年销量超过一百万副。对于一个还没解决”到底有没有用”这个问题的硬件产品,一百万。这说明什么?说明人们已经准备好了。不是准备好了AI眼镜本身,是准备好了以这种”戴在脸上的AI”的方式生活。而一百万副眼镜背后,是数百万条语音交互数据、数百万次音频处理能力需求、数百万个需要被低延迟响应的音频场景。
这些,都需要芯片。我有时候觉得,硬件公司的故事比软件公司的好看。软件公司讲的是”增长曲线”和”用户留存”。硬件公司讲的是”你能做多大、能多小、能多省电”。后者的进步,更真实、更可触摸、更有物理世界的重量感。一块芯片从40%缩小到更小,这不是KPI。这是物理空间里的真实压缩。大时代啊,朋友们。有时候看着这些变化,会觉得有点恍惚。
五年前,AI还是一个软件概念。 三年前,AI开始进入手机和电脑,今天,AI已经住进了眼镜、手表、耳机、机器人里。我不知道下一个载体是什么。但有一点我很确定:那个能让人类最自然、最无缝地与AI交流的方式,不会是一个App、不会是一个对话框、不会是一个你需要打开才能用的东西。它会是一种你感受不到的交互。就像打电话——你不需要”打开电话App”才能打电话。打电话就是你本来就在做的事情。AI交互的终极形态,也应该是这样。它应该是你生活的一部分,而不是你生活的一个功能。
330
