• 正文
  • 相关推荐
申请入驻 产业图谱

美国知名风投a16z合伙人对话:到底什么是AI智能体?

05/28 14:49
1047
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

在《AI + a16z》在4月28日播放的节目中,a16z负责基础设施领域的合伙人 Guido Appenzeller、Matt Bornstein和Yoko Li探讨了目前科技行业最热门的话题之一:AI 智能体(AI agents)。

三位嘉宾从多个角度深入讨论了这一概念,包括:

是否存在一个统一的“智能体”定义

如何区分智能体、大语言模型(LLM)和功能函数(functions)

如何思考智能体的定价模式

智能体是否真的可以替代人类

数据孤岛对能访问网络的智能体会产生哪些影响 

他们声称并不掌握了所有答案,但他们提出了一系列值得所有正在开发、购买,甚至推广AI 智能体的人关注的问题与洞见。

该播客原文链接:https://a16z.com/podcast/what-is-an-ai-agent/

以下为完整对话内容

超算百科编译

Guido Appenzeller:我觉得有些事情我们可以先说清楚。首先,“智能体”这个概念本身就存在很多分歧。我们在技术层面听到过很多不同的定义,甚至在市场和销售方面也是一样,因为这里面涉及一些销售模式。

我们先从技术角度谈起吧。我认为这里有一个连续谱(存在一个从简单到复杂的不同层次)。我听过最简单的“智能体”定义,其实就是一个聪明的提示词(prompt),它基于某种知识库或上下文,并具有类似聊天界面的功能。

从用户的角度来看,这种东西看起来就像一个人类智能体,对吧?比如,如果我问:“我在产品 X、Y、Z 上遇到了技术问题”,它就会查看知识库并返回一个预设好的回答。

Yoko Li:但也不一定非得有知识库,对吧?

Guido:是的,不一定非得有知识库。我明白了。所以也许它只是一个训练好的模型。模型权重本身就是知识,所以它更简单。那么,根据某些定义,一个智能体可能就只是一个带有聊天界面的大语言模型,对吗?

Yoko:没错。

Guido:而在另一端,有些人则认为,只有具备接近通用人工智能(AGI)能力的东西才能称为真正的智能体。它需要长期持续运行,能够学习,拥有知识库,并能独立解决问题。如果我们采用最极端的定义,是不是可以说,这样的“智能体”现在还不存在?

Yoko:我认为是的,目前还不行。

Guido:那以后会实现吗?

Yoko:这是个哲学问题。

Guido:好吧,确实如此。那么,如果我们考虑中间的状态,有没有办法把这整个连续谱分成几个类别,或者至少是不同等级的“智能体行为”?

Yoko:当然有不同的智能体类型。比如有帮助艺术家创作新的贝塞尔曲线的艺术智能体;也有我们常提到的编程智能体,也就是所谓的“每日智能体”(这里指的是目前最受关注、最常被讨论、最有潜力落地的 AI 智能体类型)。

Guido:而且我们自己也在用。

Yoko:没错,我们确实在用。还有些智能体只是 LLM 的封装

Guido:对。

Matt Bornstein:我想我是这群人中的反方观点者。在我看来,“智能体”这个词其实就是 AI 应用程序的代称。任何使用 AI 的东西,现在都可以被称为智能体。在这次谈话之前,我还特意去网上查了一下,看看有没有什么关于 AI 智能体的有趣观点。我发现 Karpathy 几年前做过一个非常精彩的演讲,我可以稍微介绍一下。不过有意思的是,在 YouTube 推荐视频里,标题都是“AI 智能体将彻底改变你的生活方式”、“超级智能 AI 的崛起”之类的。这明显就是市场营销的套路。

我认为最清晰的定义是一个能进行复杂规划并能与外部系统交互的东西。但问题是,现在的 LLM 本质上已经具备这两项能力了。它们通常内置了规划能力,并且至少能从互联网或通过 MCP 等协议获取信息。因此,这条界限其实非常模糊。

Karpathy 的演讲特别有意思,他把 AI 智能体比作自动驾驶汽车,认为这是一个真实存在的问题,但更像是一个十年期的项目。而我们现在看到的大多数东西,更像是“周末 demo 版本”(这里指的是它们更像是开发者花一两个晚上快速做出来的演示产品,而不是真正成熟、稳定、具备长期自主能力的系统)。这也是为什么我们会产生这么多混乱的原因:我们面对的是一个定义不清、模糊不清的概念,而 LLM 正在不断吞噬它。

所以我个人认为,我们目前拥有的东西都不是真正意义上的智能体。“智能体”这个词本身可能就是一个定义不清、被过度使用的术语。但如果有人愿意花时间去认真定义“智能体”到底是什么——比如,如何以数字形式复制一个人的行为,并投入十年时间让它真正发挥作用,这才是我真正期待看到的。

Guido:所以,定义“智能体”是一件困难的工作。也许我们可以换个角度,谈谈人们是如何使用他们称之为“智能体”的工具,以及这些工具在智能体行为上的程度差异。

Yoko:我也觉得我们或许应该重新定义“智能体”,因为我们都知道“智能体”这个词本身就不是个好术语。它对不同的人来说意味着太多不同的东西。如果我们要深入探讨这个问题,我们需要明确:我们所说的“智能体”到底指什么?别人说“智能体”时又意味着什么?我们还可以用哪些方式来利用这种被称为“智能体”的过程?

Guido:我觉得,如果我们试图定义“智能体”或至少是“智能体行为的程度”,或许更容易一些。这背后似乎有一个用户界面方面的因素。比如说,一个纯辅助助手(copilot),用户和 LLM 来回互动完成任务,通常不被称为“智能体”,对吧?这有点像“辅助助手”和“智能体”之间的 UI 模式区别。

Yoko:是的。那你觉得“智能体行为”应该包含哪些元素呢?比如 Matt 提到的“规划”可能是一个要素,还有“决策”也是。当然必须要有 LLM 的参与。我很想听听你的看法。

Guido:最近我们听到 Anthropic 对“智能体”的一种定义是:一个 LLM 在调用工具的过程中循环运行。这有两个关键点:第一,它不是一个单一的提示词,也不是一组静态的提示序列,而是 LLM 能够将输出反馈给自己,并据此决定下一步该怎么做。甚至还能决定何时终止某个任务。对于那些更高级的智能体行为来说,这个定义算是比较合理的。

Matt:但按照这个定义,那每个聊天机器人岂不是都成了智能体?比如我去 chatgpt.com 用他们的最新推理模型加网络搜索功能,它难道不是在调用工具并将输出结果反馈到新的提示词中,从而执行链式思维吗?

Guido:链式思维处于两者之间。如果只是一个单提示词返回结果,那不具备“规划”和“长期任务”的特征。但如果是一个复杂的任务,那就开始看起来像是智能体行为了。

Matt:我觉得定义一个系统真的很困难,尤其是当它的输入是人为设定的时候。因为这些系统的设计初衷是处理非结构化输入,它们几乎可以接受任何内容。如果你让它查天气,那显然不是智能体行为,只是调用 API。但如果你让它“定义一种新的天气哲学”,它也会很乐意去做。所以,有时候它是智能体,有时候不是,这就是市场上很多人感到困惑的地方。

如果我们用你刚才说的那种方式来描述,即“一个与工具联动的 LLM 循环”,我觉得这样更有意义。

Guido:话说回来,我们似乎正在看到用户界面出现一定程度的专业化趋势,大概分为两个方向。一个是像 Cursor 这样的工具,它强调用户、LLM 和工作对象之间的紧密反馈循环。我希望在操作时能立即得到响应,延迟越低越好。另一个则是后端系统插件,比如源代码管理系统。这类智能体更多是通过回答几个问题就把任务扔过去,然后尽可能让智能体独立工作一段时间。

所以,虽然你说得对,我们很难在系统定义上划出一条清晰的界限,但用户界面方面确实出现了某种程度的分化。你觉得这个说法合理吗?

Yoko:我几乎觉得,在我们提到的所有智能体应用场景中,它们都有一个共同的核心要素:推理和决策能力。 如果你只是让 LLM 把一段文本翻译成 JSON,那可能不算智能体。但如果你让 LLM 决定“这段回复该发给谁,并自动发送给对应的人”,这就更像智能体了。它更像是一个计划过程。我不确定智能体是否需要“规划”还是只需要“决策”,也许两者都需要。我觉得它更像是一个多步骤的 LLM 链条加上一个动态的决策树。

Guido:是的,动态决策树。

Yoko:没错。

Matt:我觉得我们都被这个问题“套住了”。人文学者喜欢分类,喜欢在不同类型的事物之间做细微区分。但我们是计算机科学家,不是那种人。所以我们不太擅长处理这种介于零和一之间的事情,总是试图把它归为其中一种。

当然,“智能体”不仅仅是技术,它也正在成为一种产品,这意味着它也需要被营销。一个人如何定位自己的产品,会极大影响其定价策略。更重要的是,大多数智能体的价值目前仍不确定,它们能在多大程度上真正取代或仅仅是增强人类工作者的能力,仍是未知数。

Guido:确实有一个有趣的点,那就是“智能体”确实有营销的角度。我听过一些初创公司的说法,他们基本上是在说:“嘿,我们能把自己的软件定价更高,因为它是一个智能体。”于是他们可以告诉客户:“你可以用这个智能体代替一个人工员工。那个人工员工年薪五万美元,而我们的智能体只要三万。”听起来很有吸引力。实际上,早期阶段这种对比定价对买家来说确实容易理解。

但从另一方面看,我们知道产品的价格最终都会趋近于边际生产成本。比如以前我请人翻译一页文字,现在我用 ChatGPT,我根本不会按原来的价格付钱。我只是支付 API 成本的一小部分,也就是几分钱而已。所以我很好奇,这场关于“智能体”的争论有多少是由营销和定价驱动的。

Matt:我觉得这个问题也很有意思。你们能想到哪些领域已经被 AI 或 AI 智能体完全取代了吗?我提前说明一下,我有个极端的观点,等下再说。

Yoko:目前还没有完全取代的情况,但肯定有部分替代。例如语音智能体正在逐步取代接待员,或者负责回应客户的工作人员。很多传统由人工完成的任务已经转移给了 AI。但我认为它们还没达到 100% 替代的程度。人类可以去做其他事情了。我们看到的是,一些岗位的招聘增长放缓了。也就是说,不是现有工作被取代,而是新增岗位减少了。

Guido:完全正确。我认为在少数情况下,AI 会完全取代人类。但在大多数情况下,是两个员工变成一个员工,但这个员工的效率提高了。

Matt:或者公司可能仍然保留两名员工,只是让他们做别的事。

Guido:也可能变成三名员工,因为他们变得更高效了。

Matt:是的。这真是个很有趣的问题。我觉得它之所以与“智能体”相关,是因为人们有一种错觉,认为我们会创造出真正的人类替代品。而“智能体”这个名字本来就是用来称呼人的——在我们没有 AI 的时候,我们就有人叫“智能体”,现在依然有很多人被称为智能体。但事实上并没有发生这种替代。正如你所说,Yoko,我们早就有客服自动化了,比如 1-800 号码,让你按键选择服务选项。这种东西早就存在了。现在的 AI 只是做得更好而已。

翻译也是一个很好的例子,Guido。这些系统确实可以很好地执行翻译任务,但你不太可能直接把一段内容丢给 ChatGPT,然后直接发布到网站上。实际上还需要做一些后续工作。我觉得这是因为大多数人类从事的工作中,其实都有创造性的成分。我们在硅谷有时会忘记这一点——世界各地的人都在做各种各样的工作,这些工作并不只是“有人必须做”的苦力活,而是需要思考和判断的工作。我不确定 AI 是否具备我们所理解的“意图”或“决策能力”。它仍然是一个需要有人按下按钮的系统。它可能在后台运行得很好,但它仍然需要有人给出提示并启动它。这是我眼中造成混淆的核心原因。

我们都觉得有一天,某个具有意图、创造力和思考能力的人类会被 AI 取代。但我怀疑这是否在理论上是可能的。这几乎是个悖论:如果说一个 AI 是在“自主思考”,那它也一定是某个人设计出来的。这已经进入老派科幻小说的哲学范畴了,但我确实认为这是我们当前混乱的一个重要原因。

Yoko:有趣的是,我们现在讨论的“智能体”有两种类型。一种是替代或协助人类工作的智能体,另一种是更底层的系统流程智能体,它们彼此协作,互相传递任务。某种程度上,智能体就像是系统中的技术细节。但我们在谈论“智能体”时,这两种含义都包括在内。

Guido:如果是这样的话,那“智能体”和“函数”之间有什么区别吗?

Yoko:我认为是有区别的。智能体应该是多个函数加上中间的 LLM。

Guido:如果我有一个低级别的智能体,我给它一个任务,它返回一个任务结果,那看起来有点像传统的 API 调用。

Yoko:但中间有 LLM 来决定该做什么 API 调用。

Guido:明白了。但这不就是函数内部的工作机制吗?

Yoko:是的。

Guido:那从外部来看,我会在意这个区别吗?

Yoko:你不会在意。比如我们常说的 AI 销售发展代表(SDR)智能体,意思就是它可以访问 CRM 系统,提取数据、筛选列表、起草邮件并发送邮件。这更像是流程级的操作,而不是人类级别的操作。

Guido:完全正确。

Yoko:是的,这就是我的意思。

Guido:如果你不知道它内部是怎么运作的,那传统的函数和智能体其实是无法区分的。

Yoko:完全同意。但作为程序员,当你写一个函数时,你会定义一个智能体接口。

Guido:明白了。我们稍后再回到定价问题。在此之前,让我们更深入地讨论一下与智能体互动的方式与传统软件功能有何不同或相似之处。

Matt:关于这个问题,还有一个很有趣的点。我完全同意你的看法,Guido,我觉得你也基本同意。如果你从功能角度来看,它其实就是一个函数。可共享、可复用的函数一直以来都不是一件容易的事。这是市场中一直尝试的目标之一。人们曾希望“我可以写一个函数,地球上的任何人都可以使用它”。比如,你可以下载一个包含多种功能的包,但要单独分享一个函数却很难做到。

但现在有了 AI,这种想法某种程度上实现了。因为你可以下载别人训练好的模型,微调它,训练 LoRA,然后打包上传到 HuggingFace 等平台,供其他人使用。虽然是否使用 LLM 是一个实现细节,但模型本身占据了函数的大部分功能,这是一种与传统代码截然不同的“动物”。它天生具有一定的共享性,因为没人每次写代码都要重新训练模型。当然,它也有一些缺点,比如体积大、部署难等等。但我认为,未来我们会围绕这种新型功能构建新的基础设施和开发工具。

Guido:这很有道理。回想过去,上一次我们发明了一个重要的新组件来构建系统,可能是网络技术。当时我们对“调用函数”的理解发生了巨大变化。

Matt:完全正确。

Guido:API 的复杂性和围绕它的基础设施今天完全不同了。

Yoko:这真是个很棒的观点。现在想想,我觉得人类其实也可以看作是一种函数。如果你做一个思想实验,把程序中的 LLM 替换成人类,你会发现它给程序带来的输出其实和 LLM 差不多。

Matt:如果有一天我们都接入服务器,可以像 Lambda 函数一样被调用,那我才同意“智能体”真的诞生了。那才是真正的智能体。

Guido:那 Mechanical Turk 不就是这样的吗?或者甚至你的收件箱?

Matt:是的,听起来像个智能体。

Yoko:我记得亚马逊几年前在旧金山开了一家 Amazon Go 超市,宣传说是背后的计算机视觉模型识别顾客拿走了什么商品。但后来人们发现他们其实雇佣了很多人在后台实时标注数据。所以在那个案例中,人类就是……

Guido:秘密智能体。

Yoko:没错,如今可能已被 LLM 取代了。

Matt:这正是我想说的。即使是超市收银员这样的工作,你以为很简单,其实并不简单。你可以用自动化来压缩这部分工作量,但它永远不会完全消失。

Yoko:是的,完全同意。好了,既然如此,企业应该如何为他们的智能体定价呢?按使用人数、按 token、还是按任务?提示:现在下结论可能还太早。

Guido:一般来说,当你推出一个全新的产品类别时,最初的定价往往是参照现状来的。你要么替代,要么增强某些原有功能。假设我们真的能直接替代一个人类,那就可以按照“这个人年薪多少”来定价。但随着时间推移,竞争加剧,价格会逐渐向边际成本靠拢。这取决于很多因素,比如你是否有护城河、客户是否锁定等等。长远来看,大多数智能体的成本都很低,尤其是仅依赖几个 LLM 调用就能运行的智能体,而且成本还在不断下降。

Matt:我甚至认为这已经在发生了。大多数 AI 应用,特别是我们称之为 AI 智能体应用的,它们的销售话术通常是“你应该付我们 X 元,因为我们帮你省下了 Y 元”。这是一种经典的 ROI(投资回报率)计算方式。

Guido:建立价值对吧。

Matt:是的,价值定价。但现实中,大多数买家其实很清楚幕后发生了什么。他们知道这些东西其实很简单。所以他们会问:“运行这些 GPU 成本是多少?我们愿意为此支付一点溢价。”我认为现在很多供应商就是这样定价的。

Guido:从长远来看,你期望获得健康的利润率,就像 SaaS 一样,历史上 SaaS 的利润率一直很高。

Yoko:挺有意思的,我们总是建议公司不要基于成本定价,而是基于你为客户创造了多少价值。这可能是相对于市场上其他供应商,或者是相对于自建系统的成本。传统上,基础设施服务如果是给人用的,通常是按座位收费;如果是机器之间的服务,则是按使用量计费。但我不知道“智能体”应该放在哪一类。

Guido:它可能既可以被人使用,也可以被智能体使用。

Yoko:没错。

Matt:我觉得你的分析是对的。现实是大多数 AI 公司还不清楚自己到底创造了什么价值。这个行业太新了,大家还在摸索。比如 OpenAI,他们已经有几百万用户了,但很可能不清楚这些用户到底在用它做什么。一旦他们搞清楚了——你现在可以看到他们在垂直领域发力,推出针对特定场景的产品,比如代码生成——那时定价才会真正跟上来。

Yoko:这让我想起你提到的 OpenAI 的例子。我在想 AI 伴侣,因为那是最接近“按使用人数收费”的人类应用场景。你不可能因为你和你的 AI 伴侣说了多少句话就收费。虽然有些基础模型……

Matt:确实有一些服务是按响应次数收费的,我没用过,但它们确实存在。

Yoko:哦?哇。所以一般不会按“你和 AI 伴侣聊了多少句”来收费,通常都是按月订阅制。

Guido:如果每次说话都要收费,感觉就不像真朋友了,对吧?

Yoko:没错,那太交易化了。

Matt:这些都是理论上的讨论。人们喜欢坐在一起畅谈:“我们要按人数、按任务、按拯救的世界经济来收费!”但实际上这些定价都是拍脑袋想出来的。Guido 说得对,我们应该先看看我们所谓的“智能体”背后的技术是什么,在哪里部署,为什么部署。定价、营销、销售策略,这些都会随之而来,取决于你实际在卖什么。

如果你现在卖的东西看起来像智能体,但你还没搞清楚它到底为用户创造了什么价值,那你将来怎么证明自己有资格涨价?

Matt:你需要卖的是一个解决方案,而不是一个产品。这在企业市场的打法中是非常成熟的思路。代码就是一个例子,现在它的价格已经脱离了底层技术,因为它确实有效,ROI 很清晰。作为一个工程 VP 或 CTO,你可以明确地说:“我节省了很多成本,团队效率提升了。”你可以做出正常的 ROI 分析。

Guido:而且员工也会更开心。

Matt:是的。你买的是一个解决方案,一个能解决你问题的产品。微软、甲骨文、Salesforce 的做法一直都是如此。一旦我们看到更多这样的案例,这些产品才会真正成为商业实体,定价也会变得像传统企业那样稳定。

Yoko:我认为这取决于高层应用。举个例子,我玩 Pokémon GO。当你收集了足够的宝可梦,但背包满了之后,你就得花钱买一个新的虚拟背包。作为一名基础设施投资者,我投资存储业务,当我看到为额外 30 个宝可梦空间付费的价格时,发现它比真实的存储成本贵了几千倍。这让我意识到……

Guido:我惊讶它只贵了几千倍。

Yoko:是的,只贵了几千倍。

Guido:我以为是 10^15 倍。

Yoko:没想到吧,宝可梦存储居然有一整条价格曲线。其实这背后有两个原因:一是垄断,二是应用场景不同。普通玩家不会去想“存储到底多少钱”,他们只关心“为了这个游戏值不值得花这个钱?”对他们来说,只要好玩,多花一百美元也没关系。

Matt:是的,这正是我要说的。隐含的意思是,这个产品或解决方案必须对他们有用,对非技术人员来说,他们不会去自己搭建一个 S3 存储桶来自托管宝可梦。

Guido:是的,尤其是宝可梦。

Yoko:而且这个差异化是可以防守的,因为 Pokémon GO 不是开源的,也没有替代品。只有一个地方你能买到宝可梦存储。

Guido:再加上强大的品牌效应,还有社交网络效应,你可以和朋友一起玩。

Yoko:是的。我相信未来我们会看到 AI 智能体版本的这种现象,比如为 AI 伴侣的衣柜付费存储。

随着 AI 市场的发展和演变,“智能体”的能力最终会落在哪里?比如,它们是集成在 LLM 中,还是必须调用外部工具?谁最有能力影响这个发展方向?

Guido:这是一个非常有趣的问题。从系统架构的角度来看,我认为智能体的构建方式与今天的 SaaS 软件没有太大区别。让我解释一下。在一个智能体中,我们通常有一个 LLM 加上提示词组成的循环结构,并结合外部工具的使用。LLM 本身由于高度专业化,需要庞大的 GPU 集群支持,因此通常需要独立部署。状态管理方面,今天我们在 SaaS 中都是通过数据库等外部系统来处理的,因此也应该外部化。剩下的逻辑其实非常轻量,主要是从数据库中检索上下文、组装提示词、运行提示词,并偶尔调用工具。这些核心逻辑可以在一台服务器上运行大量的智能体实例,不需要太多的计算资源。这个思路对吗?

Matt:是的,我完全同意。对我而言,一个有趣的架构问题是,如何处理 LLM 输出的不确定性。许多我们常用和喜爱的 AI 应用,比如聊天机器人或图像生成器,它们只是把模型的输出返回给用户。但当你试图将 LLM 的输出整合进程序的控制流中时,这其实是一个非常难解决的问题。虽然目前架构差异不大,但未来可能会引发更深远的变化。

Yoko:我认为赢家将是那些在基础模型之上进行定制和优化的专家,而不是基础模型本身。比如我在过去两周一直在用 GPT-4o 的图像模型生成漫画风格图片。它在吉卜力风和日本漫画方面表现很好,但也就只会几种风格。艺术界喜欢的是“分布之外”的作品,大家都想看到不一样的东西。印象派刚出现时,其他画家都说:“你的眼睛有问题吗?为什么要画模糊的画?”风格在变,但正因为如此,推动分布的责任在于人类和新一代专家,他们要用新的数据、新的工作流、新的美学来拓展边界。

Guido:没错,基础模型永远不可能覆盖全部需求。

当然,归根结底,智能体的实用性取决于它们能访问的工具和数据。如果主要的网络平台决定限制智能体访问数据,会发生什么?

Guido:目前智能体面临的一大难题是数据壁垒。有些是因为技术限制,比如你想访问某个数据,但系统难以集成。有些则是人为设置的壁垒,比如 iPhone 的照片数据没有开放 API,因为它是一个封闭生态系统。

Matt:也就是数据孤岛。

Guido:是的。这会不会阻碍智能体的发展?或者说,消费者公司往往不愿意提供对其服务的自动化访问,因为他们想要用户的注意力,以便投放广告。这是否会限制智能体的部署?

Yoko:如果未来浏览器原生支持智能体,可以直接浏览网页,情况会不会改变?

Guido:这是个好问题,是的。

Matt:Yoko 说得对。掌握数据的人往往有强烈的动机保留数据,因为他们害怕 AI 会对他们造成影响。他们紧紧抓住手头的资产。这些问题很少能通过制定新协议来解决。但总有人会想办法说:“如果你的数据是公开可见的,我们就要获取它。”毕竟,那数据本来就不是你的,而是关于我的数据,凭什么你来保管?

Yoko:我也觉得模型的新进展可能会打破数据壁垒。目前智能体浏览网页的效果很差,速度慢、体验差,需要多次尝试才能完成一个任务。但想象一下,如果基础模型具备这样的能力:智能体可以登录任意网站,像人类一样操作,或者 SSH 登录服务器执行命令,甚至为移动设备启动虚拟机、访问设备农场来玩 Pokémon GO。那原本只能由人类访问的数据,可能也将对智能体开放。

Guido:也有可能出现相反的趋势:很多消费级网站正在采用越来越高级的验证码技术,来阻止 AI 智能体的自动化访问。防止智能体访问,因为它们只想吸引人类注意力。我最近试用了一个深度研究工具,它用的是某个主流 LLM。其中一个步骤就是绕过某个网站的验证码机制。它甚至知道自己想要的信息被阻挡了,还进行了推理。这未免有点太反乌托邦了吧?

Matt:它成功了吗?

Guido:成功了。

Matt:这真是个很有趣的例子。还记得 Gmail 刚引入广告时的争议吗?当时他们说:“我们不会读你的邮件,但我们的算法会读,并据此推荐广告。”我们后来慢慢接受了这个事实。但有些数据持有者反应强烈,比如亚马逊后来改发确认邮件时不再附带订单详情,而是让用户点击链接查看。这说明数据持有者确实找到了方法来限制数据的外泄。现在这种情况还会发生吗?

Yoko:但同样的数据可能还是能通过客户端安装的广告网络爬取到。

Matt:没错,总有其他途径,虽然可能不是完全一样的数据,但已经足够接近了。

Guido:也许未来我们很难区分一个 LLM 和一个人类之间的行为,这可能改变游戏规则。

最后,Guido、Matt 和 Yoko 回答了一个显而易见的问题:在我们能看到的最长时间范围内,为了让智能体成为一个真正具有变革性的创新,我们需要实现哪些目标?

Guido:我的乐观设想是,在两年内,我们能让智能体代表我使用我所能访问的几乎所有工具。当然我们也清楚,目前还有几个关键技术尚未突破:智能体的安全性、身份验证、访问控制、数据保留机制、以及如何应对那些试图阻止智能体访问的消费类网站。如果解决了这些问题,智能体将极大地简化许多任务。比如我现在 Google Drive 上的数据,如果智能体能自动理解和处理这些数据,而不是分散在多个碎片化的来源中,那将会大大提高效率。这就是我对智能体未来的积极预期:它能代表你访问所有你能访问的数据,并为你执行任务,节省大量时间,让你的生产力提升数倍。

Yoko:我的看法略有不同。我认为关键在于基础模型的多模态能力。目前它还是以文本为主,这对编码和文本任务非常有效。但对于视觉优先的任务,还没有一对一的映射。即使是浏览网页,现在也只能通过每几秒截图再传给模型的方式,体验非常糟糕。所以我看好多模态模型的发展。如果我们能训练模型学习点击网页按钮、浏览网页、使用设备、绘图、制作矢量图等多种行为,那么智能体将解锁前所未有的能力。

Matt:你们大概猜得到我的答案。如果两年或五年后我们不再使用“智能体”这个词,那将是一个巨大的胜利。哥伦比亚大学的一些研究人员发表了一篇有趣的论文,叫做《AI as Normal Technology》,他们指出,社会对 AI 的认知存在一个错误的二元对立:要么 AI 带来乌托邦,要么带来末日。但实际上,我们应该把它当作像水、电、互联网一样的正常技术来看待。智能体只是帮助我们实现这一目标的一种方式。我认为这才是我们前进的方向。这些技术非常强大,我们已经知道如何使用它,也了解它的应用场景。接下来就是如何让它为我们所用。

扫码关注我们

相关推荐