没有记忆，AI推理落不了地｜爱分析访谈

一段看似普通的售后对话，最能暴露AI应用的短板。用户只说了一句“手机闪屏了”，系统往往还要从头追问型号、订单、设备、账号，再把这些零散信息拼起来回答问题。红熊AI的CEO温德亮不认可这种工作方式。

在他看来，如果一个系统已经知道用户买过什么、当前在用什么、此前发生过什么，它就不该每一轮都“重新认识一次用户”。这也是红熊AI切入记忆赛道的起点。与不少把记忆当作大模型外挂、插件或能力补丁的公司不同，红熊AI创始人温德亮更愿意把它定义为一套类人脑记忆引擎。记忆不是在推理之后被动补充，而是应该先进入记忆，再决定系统如何理解上下文、如何生成回答、如何执行动作。

顺着这条逻辑，红熊AI没有先做一套纯底层能力等待市场成熟，而是先从客服、营销、售后等最容易出商业结果的场景切入，用应用收入反哺底层技术，再把记忆、反思和工作流逐步沉淀成更通用的能力。从2024年“客户和投资人都听不懂”开始，到2026年赛道被重新点燃，温德亮讲的已经不只是记忆怎么做，而是一个更现实的问题：当概念热度过去之后，谁能把记忆真正做成一门能交付、能赚钱、也能过合规门槛的生意。

核心观点

记忆不是外挂，而是推理入口。

真正有效的记忆系统，不是推理完再补记忆，而是先调记忆、再做推理，只有这样才能深度进入复杂业务场景。

没有记忆约束，垂直场景的AI准确率很难稳定超过95分。

在温德亮看来，记忆的价值不只是记住更多，而是系统性压低事实性幻觉，把业务准确率拉到企业可接受的水平。

记忆赛道的第一桶金，不会先来自纯基础设施。

红熊AI选择先做智能体应用，不是放弃底层，而是先用订单和现金流验证需求，再反哺底层能力建设。

行业已经从技术竞争，走向商业化竞争。

Gemini和DeepSeek相关论文把记忆赛道点燃之后，市场真正分化的不是谁讲得更前沿，而是谁能把效果、部署和收入一起做出来。

记忆的下一步不是存得更多，而是会反思、会遗忘、会进化。

如果记忆不能进入工作流修正和策略迭代，它本质上仍然只是存储层，不是AI原生应用的大脑。

以下为本次访谈实录，在不改变原意基础上略有修改。

01、先调记忆、再做推理，记忆驱动推理

爱分析：现在很多记忆厂商更愿意把自己定义成基础设施。红熊AI一方面做底层记忆，一方面又做上层应用，是因为单独做记忆，当前还比较难商业化吗？

温德亮：行业内很多公司把记忆定义成基础设施，是因为它们的出发点是补足模型底层能力的不足。不管是多模态模型还是纯文本模型，都会有记忆缺失的问题，所以很多方案本质上是在给模型打补丁。

爱分析：但实际上，模型和记忆是独立的两套体系？

温德亮：不同路径对此的看法不同。现在大致有几类路径，第一类是模型自带记忆，很多模型公司都在往这个方向走，但它对业务场景的理解不够；第二类是把记忆做成第三方插件，在模型外面补一层。我们是第三类，从类人脑记忆引擎出发，强调的是记忆驱动推理。

爱分析：怎么理解记忆驱动推理？

温德亮：我们是先调用记忆，再做推理。如果你是第三方插件式方案，往往是先推理，再去调插件补记忆。前后顺序一变，对复杂业务场景的处理能力就完全不一样。比如一个用户在我这里买过手机，发生过订单行为。等他再来问“手机闪屏、屏幕不亮怎么办”的时候，系统如果已经记得他买过什么型号、当前用的是什么设备，就可以直接回答，而不是先问“你现在用的是什么手机”。这样一来，多轮对话里的Token成本会立刻下降，回答也会更准。

爱分析：这其实不只是记住信息，而是先用记忆确定问题的边界。

温德亮：对。我们在垂直场景里压的就是事实性幻觉。每一轮对话都基于记忆去推理，很多场景里可以做到接近零幻觉。当然，它也有代价，延迟会更高。但对很多企业来说，只要结果够准，等一会儿是可以接受的。

爱分析：有些技术方案会先做路由，判断当前要不要调用记忆。怎么看这种方式？

温德亮：路由的问题在于，只要你先做“要不要记忆”的判断，就会碰到记忆召回率和准确率衰减的问题。尤其是长期记忆，你一旦靠召回，就天然会损失一部分精度。我们不愿意在这一步就打折。

爱分析：这个逻辑在B端企业场景和C端消费场景里都成立吗？

温德亮：都成立，甚至C端更需要。比如陪伴玩具这种场景，系统要知道你的家庭关系、人物角色和历史互动。记忆不是把所有东西都记下来，而是要记和当前角色相关的那一部分。

02、先拿订单跑商业化，再养底层记忆技术

爱分析：目前先商业化的是客服、营销这条应用链路。为什么没有选择直接将记忆基础设施商业化？

温德亮：因为这是现在最容易商业化的方向之一。当前AI最能变现的几个行业，基本就是营销、客服、AI编程，以及一部分C端的陪伴和内容生成。我们要先找离收入最近的场景。我们一开始融资没有现在这么顺利，所以第一件事情不是讲故事，是先想办法赚钱活下来。我们的策略就是先做应用变现，用变现去养底层技术和生态的构建。别人是先做底层，再做应用，再赚钱，我们是反过来的。

爱分析：从长期看，底层记忆能力本身能不能独立商业化？

温德亮：可以。最近已经有不少客户测试过市面上的记忆方案，发现很多做不到，就会来找我们。但我们现在没有把这块作为商业化核心，因为主营业务的客服和营销订单已经很多了，我们暂时还没空重点做这块。

爱分析：站在商业模式角度，大家会觉得越往底层基础设施走、规模化越好，应用层还是偏项目制。你们怎么权衡？

温德亮：我们的答案是都要，前提是底层能力要足够支撑得住。但在“都要”之前，我们先想明白一件事，项目制是可以养公司的，而且它还有第二个价值，就是可以让我们直接采集企业里的真实需求。

爱分析：通过项目交付来迭代产品？

温德亮：对。你做任何商业化，本质上都是解决企业的真实需求。现在的问题是，有些企业既愿意给你钱，又能把真实需求暴露给你，这对我们来说就是最好的产品化素材。我们很愿意干这件事。

03 、记忆赛道，2026年才真正开始

爱分析：2023年智能体定义之初，记忆这个概念就有，但真正被市场广泛讨论，是最近一两年的事。你怎么看这段变化？

温德亮：我感受特别深。2024年我们讲AI记忆的时候，客户听不懂，投资人也听不懂，很多人甚至会觉得你像骗子，那时候大家不知道你到底在做什么。到了2025年DeepSeek火起来之后，大家虽然不再骂你是骗子了，但会开始强烈质疑你的应用效果到底是不是真的。再往后，真正把行业点燃的是2025年11月前后，Gemini、DeepSeek都开始重点提模型记忆，这两件事情把整个赛道的关注度一下拉起来了。

爱分析：OpenClaw破圈之后，继续推动一批新的记忆厂商成立。

温德亮：对。国内很多玩家是到那个时候才陆续冒出来的。可对我们来说，这条路已经迭代了一年半，所以我们确实有先发优势。

爱分析：过去几年里的技术迭代，最大的里程碑是什么？

温德亮：一开始我们做的是单模态模型上下文里的记忆，再往后是短期记忆、长期记忆、永久记忆的区分。然后再进一步，从永久记忆切到类人脑记忆，这是我们几个大版本里最大的变化。

爱分析：类人脑记忆是技术框架未来的收敛方向吗？

温德亮：我觉得会。因为大家对“类人脑”这个概念是听得懂的，关注度也高。你可以把它理解成，今天做AI，很多人最终都会往更接近人类认知结构的方向走，否则你走别的路径，市场会觉得你不够前沿。

爱分析：但从学术和技术框架看，现在大家的路线还挺发散。

温德亮：这很正常。因为底层涉及的是脑科学、神经科学、认知科学和计算机科学的融合，大家对理论的理解不一样，方向就会不一样。但我不觉得最终比的不是谁的概念更漂亮，最后还是要回到商业化。这个行业最后一定不是讲谁技术最好，而是讲谁商业化最好。

爱分析：如果把记忆本身单独看作一个市场，你觉得它现在有多大规模？

温德亮：我觉得规模当前还不大，大概就是十几亿到二十亿。它还缺一个真正的爆点。

爱分析：这个爆点会来自哪里？

温德亮：核心还是C端感知还不够强。B端老板看一眼演示，很多时候就会觉得这东西必须要，但C端用户还没有一个特别明显的跨代际体验。它还缺一个属于记忆的DeepSeek时刻。

04 、记忆会反思，也会遗忘

爱分析：记忆未来会把知识库合并掉吗？

温德亮：记忆有容量问题，就像人的脑容量也是有限的。知识库理论上可以无限大，海量数据都能放进去。记忆不是拿来当数据库用的。我经常用一个比喻。知识库像存放说明书的地方，记忆像大纲和索引，它让我快速知道什么东西在哪、什么内容和当前问题有关。两者有关联，但不是一回事。记忆是对一个事件和上下文的描述，它里面隐含了关系、角色、前因后果，这些才是关键。

爱分析：再往下看，记忆和工作流之间是什么关系？现在很多企业也有低代码、拖拉拽式流程。

温德亮：我们做的不是简单在原有流程平台上再加一层。我们更强调一个自我反思引擎。系统在和用户持续对话、持续执行任务时，会发现哪里出问题了，然后递归学习、做反思，再去修正工作流。

爱分析：修正工作流，具体能修到什么程度？

温德亮：不只是流程本身，还包括提示词、知识库里的问答标注，这些都可以通过反思和自我修正去调整。更进一步，当记忆太复杂、太脏的时候，系统还要会遗忘，把不必要的信息清掉。这样记忆系统才会保持干净和整洁。

爱分析：自我反思就是自主进化？

温德亮：对，就是自主进化。就和人一样，它不是把所有东西都堆起来，而是会自己迭代、自己校正、自己做减法。

爱分析：企业现在对自我反思能力的接受度怎么样？

温德亮：我们自己交付没问题，但企业真正自己去改的时候，往往会很谨慎。因为这件事要求操作者对业务理解得非常深，否则他不敢动。现在经常是AI效率已经很高了，人反而跟不上。

爱分析：这类能力目前主要落在哪些场景？

温德亮：更多还是在客服场景。营销相对更标准化，不太需要客户频繁调整，客服每家企业差异很大，反而更需要这种能力。

05 、开源很热闹，闭源才赚钱

爱分析：现在几乎所有做记忆的团队都会开源。你怎么看开源的价值？

温德亮：我们的感受是，开源更多解决的是声量和开发者生态。但对公司的实际业绩帮助，没有大家想象得那么大。大多数公司，开源带不来业务。

爱分析：开源对于商业化的打击很大。

温德亮：对。很多时候，开源带来的是品牌溢价，不是收入。中国现在很多开源产品，有名的不一定有利，有利的反而不一定知名。

爱分析：记忆赛道会不会也出现一个类似DeepSeek那样的开源产品，把整个市场迅速平权掉？

温德亮：我不大相信。因为记忆是To B产品，和模型的To C逻辑不一样。To B客户是真要掏钱的，他买的是结果、交付和责任，不是一个好看的开源项目。记忆如果被定义成基础设施，它天然就更偏To B。

爱分析：所以你判断，中国市场也会逐步进入闭源时代。

温德亮：我觉得会。因为模型和应用都得面对一个现实问题，就是烧钱烧不动了。如果不能形成收入，光靠热度很难持续。最后还是谁能赚钱，谁留下来。

爱分析：红熊AI现在的商业模式如何？

温德亮：我们大致有两种模式。第一种是用Agent直接解决商业结果，这更接近项目制。第二种是在结果化过程中，把能力进一步做成软件化、硬件化、可订阅化的产品，去解决规模复制的问题。我们两端都在努力。

爱分析：今年商业化进展如何？

温德亮：我们现在主营还是订阅加本地化部署模式。按我们的口径，今年确认收入能到5个亿左右，其中私有化部署大概2个亿，另外还有3个亿左右的订阅收入。团队规模现在马上200人。

爱分析：现在面对的竞争对手，主要是哪些？

温德亮：现在真正跟我们打单的，更多是阿里、科大讯飞、字节这类玩家，传统客服厂商不太构成正面竞争。

爱分析：传统客服厂商竞争力下降的原因是什么？

温德亮：底层原因其实很直接，就是AI原生应用对传统软件的冲击已经非常明显。今天不是谁把原来的客服软件再做得更精细一点，而是整套交付方式已经变了。因为你会发现，AI coding的底层效率远高于原有coding的交付效率，这件事很致命。它不是局部优化，而是行业替代性。你可以理解为，原来那套传统软件的做法，已经开始被AI原生应用重写了。

爱分析：那红熊AI能切进来，靠的也不只是做了一个更好的客服产品？

温德亮：不是。到了AI原生应用这一步，谁掌握底层基础设施构建好技术生态，谁就有更强的竞争力。我们从2024年就在做这件事，所以到今天，很多同行已经把我们当成对标对象了。

爱分析：除了商业化，接下来最大的风险点是什么？

温德亮：合规。做AI很容易出现合规问题，尤其记忆又天然会碰到隐私数据。你有模型、有记忆，就一定会涉及数据和隐私保护。这不是上层业务的问题，更多是底层技术架构必须跟着变。