MiniMax Mavis实测｜多Agent协作，自动分工 + 对抗式验收

原标题：同事：“你怎么不盯着 AI 干活了？” 我：“我让 Agent Team 互相盯着” 他：焚决教出来！

大家好，我是小林。

现在干活基本离不开 AI 了，但用得越深，问题就越冒头。

你让它写份报告，它写了三段就停下来问「需要继续吗」。一个晚上下来，你有一半时间在打「继续」两个字。

任务跑到后半段，它开始飘了。前后矛盾也不管了，输出质量肉眼可见地往下掉。

写完代码让它自己审一遍，它审的还是自己刚构造出来的那一坨，缺陷正好藏在它的盲区里。

这三件事有个共同的根源。

一个 AI 干所有的活，又当选手又当裁判，上下文越塞越满，质量自然顶不住。

MiniMax 这次给的方案叫 Mavis。

MiniMax as a Jarvis，名字起得挺有意思。

最核心的变化，是上线了 Agent Teams。桌面端支持多个 Agent 并行干活，分成 Leader、Worker、Verifier 三个角色，专门治那种又长又复杂、单 Agent 搞不定的任务。

桌面端下载：agent.minimaxi.com/download

我立马下载下来，去尝鲜玩了一下。

这几个月我不是爆肝搞了个大模型面试题网站，已经更新完 Agent、RAG、工具调用、LLM 的面试题了，累计也有好几十万字。

大模型面试题网站:xiaolinnote.com

我就琢磨，搞一个高频面试题排行榜出来，复习起来是不是更高效？

正好用 Mavis 试试水，让它帮我组队搞定。

过程里，它自己拆任务、自己组团队，把活分给底下不同的 Agent。

这种感觉，真的让我感受了一把当老板的爽感。

我只丢了一个网页地址过去，它直接用爬虫，把小林大模型面试题网站的 74 道题全抓了下来。

左侧的「任务历史」里能看到不同职责的 Agent 在干活，点进去会话框，每个 Agent 具体在做什么都看得一清二楚。

跑完之后，交付物直接出来了。网页干完了，右侧的任务进度和 Agent Team 状态全显示完成。

不过有点小瑕疵，网页是蓝紫色的 AI 风，我想再换个皮。

我在左侧的「技能」里找到了一个能做 UI 优化的 skill，直接装上。

接着让 Mavis 继续帮我改。

成品长这样，你们觉得怎么样？

我个人就是喜欢这种简约风格的。

而且数字也对得上，74 道题，正好是我网站面试题的总数。一道没漏，全抓了下来，还按高频排了序。

点开一道题，能看到从面试视角的解读和学习建议。想看完整解析，点「查看原文」就会自动跳到网站对应的文章。

整套跑下来，Mavis 这个 Agent Team 的活，是真有模有样。

Agent Teams 怎么用

Mavis 是这个团队的 Leader，下面挂着一群成员。每个成员有自己独立的上下文和工具权限，互不打扰。

放到公司里看，就是 项目经理拆活，开发干活，QA 验收。

你不用一个一个手动配。把任务丢给 Mavis，它自己判断要不要拆、拆几个、给谁干。底下的成员各跑各的，并行推进。

背后有个叫 Team Engine 的状态机在驱动。verifying 没过，自动打回 producing，让 Worker 接着改，不用你催。

当然你也可以手动建角色、贴提示词。两种都行，看你想怎么玩。

实测：用 Agent Team 做一个全栈销售数据看板

简单的活验过了，我想找个更复杂的扔给 Mavis。

需求是这样的：做一个销售数据看板。后端用 Python FastAPI 提供 REST API，前端用 React 加图表库，展示销售趋势、Top 产品、地区分布。要有模拟数据，要有完整的单元测试和集成测试，代码审查过了才算交付。

为啥选这个 case？因为它天然有好几个环节，后端、前端、测试、审查全得在。这种活压一个 Agent 身上，到后期大概率会在接口对接和测试覆盖上崴脚。正好拿来验 Team 的分工。

任务一丢过去，Mavis 立刻判断这活得组团。

Leader 接活后第一步是拆。哪些可以并行？哪些必须验证？哪个角色要带什么工具？这些它在 Leader 这一层就想清楚了。

计划写好，后端、前端、测试三条线就并行起来了，各有独立的 Agent 在跑。

可以明显看到，FastAPI 后端和 React 前端是同时在干的。

进到验证环节，Verifier 揪出了一个真问题：前后端 API 端点和数据结构完全对不上。直接出了 CycleReport，把活打回去返工。

这里要单独说一下 Agent Team 最有意思的设计，对抗式验收。

Worker 和 Verifier 是对抗关系。Worker 做完提交，Verifier 开始挑刺。Verifier 说不行，Worker 接着改。这个循环会一直跑，直到 Verifier 点头才停。

跟公司里研发提交、QA 打回、研发再改、QA 再测，是一模一样的流程。只不过这里全自动，Team Engine 在背后驱动，不用人在中间协调。

中间我闲着没事，随手问了一句进度怎么样。

Mavis 秒回。

后端 API 写完了，53 个测试全过，覆盖率 99%。前端 UI 也写完了，但 Verifier 发现前后端接口完全对不上，正在修。右边的进度条和 Agent Team 状态都在实时更新。

这就是 Agent Team 跟单 Agent 最大的差别。

主 Agent 随时能响应你，告诉你现在做到哪、卡在哪。底下的子任务在后台各自推进，不会因为你插一句话就中断。

最终交付的成品长这样。

完成度相当高，布局清晰，配色也统一。

我只说了一句要啥，剩下的全是 Mavis 在带着团队跑。拆任务、组队、发现问题、退回修复，整套流程它自己走完了。

任务跑完，系统还自动更新了一下 Agent Memory，沉淀了 3 条新教训。

这其实是 Team 模式特别值钱的一点。每跑一次任务，踩过的坑会进记忆，有价值的动作会变成 Skill。

下次再遇到前后端并行开发，系统会自动提醒先对齐 API 合同，不会再犯同一个错。下次 Verifier 连着报同一个 FAIL，Leader 会先怀疑是不是读到了旧结果，而不是让 Worker 在原地空转。

跟临时拉一群 Agent 群聊不一样，Agent Team 是有积累的。每跑一次，它都比上一次更熟一点。

往深看一层：Agent Team 是一套运行系统

聊到这，可能有人会觉得，多 Agent 协作听起来也没多复杂啊，写几段不同的提示词，让 AI 扮演不同角色不就行了？

没那么简单。

提示词能解决的，只是「你是谁，你干啥」这一层。真要让一群 Agent 配合干活，更难的问题在后面。

谁来派活？卡住了谁来兜？验收不过怎么循环？过程记录又存哪？这些事提示词写不了，必须有一套系统在后面跑。

Agent Team 的背后，是一整套运行时基础设施。

Team Engine 管的事可不少。光是一个任务的创建来源，就有用户发起的、Agent 拆出来的、引擎自己定时触发的好几种。消息也是，用户跟 Agent 的、Agent 之间的、定时任务的、IM 过来的，全都得在同一个界面上有条不紊地呈现。

打个比方。提示词更像一份工作手册，告诉每个人你负责什么。但真要让团队跑起来，光有手册不够，还得有项目看板能看进度，有沟通工具能传消息，有权限能拦越界，有日志能追溯。这些全是系统层面的事。

行业其实也在往这个方向走。OpenAI、Google、AWS 最近发布的 Agent 框架，重心都从提示词转到了运行时基础设施。

MiniMax 的 Agent Team 能稳跑复杂任务，靠的就是这一层。

成本和边界

说实话，Agent Team 的 Token 消耗确实比单 Agent 高。多个 Agent 各自维护上下文，加上 Verifier 的验证轮次，整体用量大概是单 Agent 的 1.5 到 2 倍。

但 MiniMax 在工程上花了不少心思压成本。每个 Agent 只接收自己任务相关的摘要，不共享一个膨胀的对话历史。Agent 之间协作走文件交接和留言板，按需获取，不会一股脑全塞进上下文。状态机管流程，也避免了模型自己瞎判断、空转。

那啥时候该上 Agent Team？多步骤、多角色、需要交叉验证的任务，值。改个错别字、查个天气、翻译一段话，单 Agent 更快更省，没必要拉一帮人。

还有个容易被忽略的收益。每跑完一次，经验会沉淀成记忆和 Skill，下次遇到类似任务自动生效。前期多花的 Token，换的是整个系统在持续进步。这笔长期账，划算的。

这次顺带还更新了订阅。TokenPlan 和 Agent Plan 合并成一份，CLI、API、Agent 全打通，M2.7、音乐、视频、语音所有模型都包含在内，Credits 在 Agent 和 API 之间共享。同时在用 API 开发又在用桌面端 Agent 干活的人，不用再分两份额度管了。

最后

回到开头那个场景。

以前你让 AI 帮你干个复杂项目，得盯着它一步一步跑。跑偏了你来拉回来，停下来了你来催一句，写完了你还得自己再审一遍。

这次用 Mavis 跑下来，体感真的不一样了。

你说一句你要啥，剩下的拆任务、组队、分活、测试、审查，全是它自己在跑。

你可以去干别的事，想起来了问一句进度，它秒回。Verifier 发现接口对不上，自动打回让 Worker 改，不用你盯。跑完还会把经验沉下来，下次再碰到类似的坑，它自己就绕过去了。

当然 Agent Team 也不是万能的。简单活没必要拉团队，Token 消耗也确实更高，复杂任务的交付时间还会变长。

但对于那种涉及多角色、多步骤、必须交叉验证的项目，有分工、有验收、有积累的方式，明显比盯着一个 Agent 闷头跑要靠谱得多。

多 Agent 这事现在行业里也越来越热。OpenAI 有 Agents SDK，Google 有 ADK，Claude Code 也有 Teams 机制。MiniMax 的 Mavis 在对抗式验收和上下文隔离这两点上，走出了自己的路子。

桌面端不久之后还会开源，预计跟 M3 模型一起放出来。想自己试试多 Agent 协作的，现在就能下载玩玩。