Anthropic近期发布的Claude Opus 4.6在长上下文处理和多智能体协作方面带来了显著突破。本文作者基于实际开发场景进行了测试,并围绕"16个AI Agent两周编写出可编译Linux内核的C编译器"这一实验,探讨了AI Agent对软件工程范式的潜在影响。
本次实测通过 c.myliang.cn 进行,该平台支持Claude Opus 4.6和Sonnet 4.6国内直接访问,无需额外网络配置。
一、一个值得关注的实验:16个Agent两周写出能编译Linux内核的编译器
在Claude Opus 4.6正式发布之前,Anthropic内部进行了一项实验:让AI从零开始,用Rust编写一个完整的C编译器,并要求它能够编译Linux内核。
这项实验持续了约两周时间,累计运行近两千次Claude Code会话,16个AI Agent并行协作,最终产出了一个约10万行代码的编译器。该编译器能够在多种架构上构建Linux 6.9,还可以编译FFmpeg、Redis、PostgreSQL、QEMU,并通过了GCC自身99%的torture test,甚至成功编译并运行了经典游戏Doom。
作为参照:GCC(GNU编译器集合)从1987年开始开发,历经37年,投入过数以千计的工程师。而这次实验,是一名研究者加上16个AI智能体,在数周内完成了一个能够通过大量GCC测试集、并编译真实大型项目的编译器。整个实验的API成本约为2万美元。
这是否意味着软件工程的范式正在发生转变?至少从实验结果来看,AI Agent在复杂工程任务中的协作能力已经不容忽视。
二、核心技术能力拆解
2.1 百万Token上下文:解决"上下文腐烂"
Claude Opus 4.6首次在Opus级别开放了100万token的超大上下文窗口(Beta版)。模型可以一次性处理整部《三体》三部曲、600张图片,或完整的代码库。
但关键提升并不在于"能塞更多token",而在于"塞进去之后还能正确调用"。在MRCR v2"草堆找针"测试中,Opus 4.6在100万token范围内检索关键信息的得分达到76%,而上一代Sonnet 4.5仅为18.5%。
这直接解决了开发者长期吐槽的"上下文腐烂"问题——很多模型在任务拉长后,要么遗忘早期信息,要么虽然"看过"但无法在后续推理中正确调用。
2.2 自适应思考:模型自主决定推理深度
Claude 4.6引入了"自适应思考"(Adaptive Thinking)功能。模型不再需要开发者手动指定"是否需要思考",它能根据问题复杂度动态决定是否启动深度推理:
简单查询 → 快速响应,节省成本
复杂逻辑 → 自动通过Extended Thinking深入推演
API还提供了四档"努力程度"(Low、Medium、High、Max),开发者可以根据任务价值精确控制算力投入。
2.3 上下文压缩:延长Agent会话生命周期
针对长对话中的"遗忘"问题,新功能允许模型在接近窗口限制时,自动对早期上下文进行语义级压缩。对于需要长期记忆的Agent场景,这个功能显著延长了单一会话的有效生命周期。
2.4 128K输出:长内容不再截断
输出端限制放宽至128,000 token,解决了之前生成长篇报告或大型代码模块时被截断的痛点。对于需要一次性生成完整项目文件的场景,这个提升至关重要。
2.5 多智能体团队:并行协作机制
Opus 4.6最核心的新增功能是"智能体团队"(Agent Teams):由多个智能体组成小队,将大任务拆分为独立子任务并行推进。
在编译器实验中的运作方式:
每个Agent在独立Docker容器中运行
通过同步算法锁定不同任务,避免重复劳动
Agent完成工作后,将改动推回共享仓库
其他Agent自动拉取合并
这种并行机制使得复杂工程任务的完成效率大幅提升。开发者不再需要单个Agent按顺序从头做到尾,而是可以拆解任务后让多个Agent各自负责一块。
三、基准测试数据
在GDPval-AA(金融、法律等高价值知识工作)评测中,Opus 4.6比GPT-5.2高出约144 Elo分,意味着在直接对决中,Opus 4.6约有70%的概率胜出。
四、实测体验
4.1 代码库分析
实测将一个约10万行的Java项目一次性提交给Opus 4.6进行代码审查。模型能够准确追踪跨文件的函数调用链和变量作用域,分析结论保持全局一致性。之前用上下文较小的模型时,需要分段提交,经常出现前后分析结论矛盾的问题。
4.2 响应速度
在测试环境中(北京联通500M宽带),中等规模代码分析任务的首次响应约2-3秒,长文档处理约5-8秒,整体体验流畅。
4.3 中文理解
常规技术文档和代码注释的中文生成质量较高。对于包含大量专业术语的内容,准确率略有下降但仍在可接受范围内。
五、使用建议与注意事项
5.1 版本选择
| 版本 | 适用场景 | 建议 |
|---|---|---|
| Opus 4.6 | 大型代码审查、多步骤工程、Agent协作 | 复杂任务首选 |
| Sonnet 4.6 | 日常对话、简单问答、轻量编码 | 性价比更高 |
5.2 任务拆解技巧
充分利用Agent能力的关键是学会"任务拆解":
1.先让Claude生成任务清单和执行计划
2.将复杂任务分解为多个独立子任务
3.明确每一步的输入输出要求
4.对于跨模块依赖,让Claude先理清依赖关系再并行执行
5.3 成本控制
官方API定价:输入5/百万token,输出25/百万token
超200K token的长文本会触发溢价
建议先用免费额度验证方案可行性,再根据业务量决定是否接入付费API
简单任务使用Sonnet版,复杂任务再切换Opus,可有效控制成本
5.4 已知局限
JSON输出偶尔格式不标准,建议在提示词中要求严格Schema
多Agent协作在平台支持层面仍有差异,部分平台可能仅支持单Agent模式
百万token上下文虽大,但超长文档的处理延迟会明显增加
六、总结
Claude Opus 4.6在几个方向上的突破值得关注:
百万token上下文:一次性处理完整代码库,告别分段分析的碎片化
自适应思考:自动匹配问题复杂度,平衡速度与深度
多智能体协作:多个Agent并行工作,缩短复杂任务完成时间
专业领域表现:在金融、法律、编程等场景中接近初级专家水平
当然,从"实验室demo"到"生产环境可靠工具",中间还有不少路要走。多Agent协作的工程化、任务编排的标准化、以及错误传播的控制,都是需要持续关注的问题。
对于国内开发者,建议从日常开发任务入手,逐步体验百万token上下文和多Agent协作带来的效率变化,再评估是否值得将AI Agent深度集成到工作流中。
687