当大模型的能力已经强到能一口气写出几万行代码,我们还在纠结怎么写提示词?
当 AI Agent 已经能自主跑完全程复杂任务,我们还在把它当成嵌在对话框里的外挂助手?
过去两年行业吹过的泡沫正在破裂:套壳大模型的对话框产品留存不到 5%,只会调提示词的工程师和产品经理开始遭遇职业危机,大家突然发现:大模型越聪明,我们做出来的产品反而越失控。
破局点不是等更强的模型出来,而是换一套玩法。今天我们聊的 Harness Engineering(驭缰工程/驾驭工程),就是 AI 原生时代正在席卷行业的新开发范式——它不是让 AI 帮人写代码,而是人给 AI 设计一套能稳定干活的系统。
整体架构
从提示词工程到驾驭工程:行业走到哪一步了?
我们先捋一捋这几年 AI 开发的进化路线,你就能明白 Harness 为什么会出现了。
2023-2024 年大模型刚破圈,最火的是提示词工程:核心问题是“怎么跟 AI 说话,它才能听懂我的意思”,那时候会写Prompt就能拿高薪,整个行业都是“画皮匠”的狂欢。
2025 年焦点转到了上下文工程:问题变成了“该给 AI 喂什么信息”,RAG、记忆管理、信息流组织成了核心。
走到 2026 年,两件事彻底改变了格局:一方面大模型基础能力越来越强,已经超过普通人平均水平;另一方面 AI Agent 已经能自主执行多步骤的长任务了。
这时候新的问题来了:怎么让 Agent 在真实的生产任务里稳定跑完不翻车?
模型能力够强了,但还是一跑长任务就失控:上下文被填满就忘事,出了错不知道回退,自我评估永远都是“我做得很好”,做出来的东西乱七八糟不符合要求。
这些不是模型本身的问题,是执行环境的问题,是工程问题。Harness Engineering 就是用来解决这个问题的。
到底什么是 Harness Engineering?用一匹马讲清楚
Harness 直译就是马具、挽具,这个翻译其实把意思讲得太到位了。
你想啊:马本身就有力量,能跑能拉车,马具不提供动力,它只干四件事:管方向,管节奏,管安全,保证马在极速奔跑的时候不翻车。
一匹没有马具的野马,力气再大你也坐不上去,更别说让它按你指定的路线跑完全程,搞不好还会把你掀下去摔个半死。
放到 AI 语境里就是:AI Agent 是那匹有力的野马,Harness 就是套在它身上的缰绳和鞍具。
更工程化的定义是:Harness 是包裹在 AI 模型周围的基础设施,专门用来管理 AI 的长期复杂任务。它不是 Agent 本身,是架在 Agent 框架之上的更高层架构:负责给 Agent 提供预设上下文、标准化工具调用、生命周期管理,还有开箱即用的任务规划、文件访问、子 Agent 管理这些能力。
换个操作系统的类比你就懂了:Agent 是运行的进程,Harness 就是操作系统的内核调度系统。一个进程能做成什么事,不完全是进程自己的代码决定的——内存怎么分配、IO 怎么调度、跑崩了怎么处理,这些都是内核调度的事。没有调度的裸程序跑起来可能很快,但能做的事极其有限,出一次错就全没了。
Harness 解决的就是 Agent 版的“裸奔问题”:上下文长度不够、自我评估偏差、跨任务丢状态、长任务中途失控,这些烂事都交给 Harness 来管。
那些疯狂的实战:AI 自己写出了 100 万行代码
说再多概念不如看真实案例,行业顶流已经把这套方法玩出结果了。
OpenAI:三个人五个月,零行人工代码写出百万行产品
2026 年 2 月 OpenAI 发了一篇博客,直接震惊了整个技术圈:他们用 Codex Agent 从零开始做了一个软件产品,从第一个 Git 提交开始,五个月时间,产出了一百万行代码——没有一行是人工写的。
我们来看看这个实验的数据:
- 开发周期:5 个月初始团队:3 名工程师最终团队:7 名工程师总代码量:约 100 万行人工编写代码:0 行处理 PR:约 1500 个效率对比:比传统手写代码快了近 10 倍产品状态:已经上线,有真实的内部日活和外部 Alpha 测试
最有意思的是团队扩张后的变化:传统软件工程遵循布鲁克斯法则——“给延期的项目加人,只会让项目更延期”,因为沟通成本会指数级上升。但在这套模式下,团队从 3 人扩张到 7 人,吞吐量不但没降,反而继续增长。
为什么?因为人和人之间没有了代码层面的依赖,原来的矛盾是“我写的代码和你写的会不会冲突”,现在的问题是“我设计的环境和你设计的环兼不兼容”——后者的耦合度天然低太多了。
整个过程中人类工程师只做一件事:设计好让 AI 干活的环境,然后盯着它跑就好了。工程师从“写代码的人”,变成了“设计规则的人”。
Anthropic:让 AI 自己迭代出惊艳的创意飞跃
Anthropic 团队做了个更有意思的实验:他们让 Claude Agent 在没人干预的情况下,自己迭代开发一个前端网站。
Agent 做复杂任务的时候有两个通病:第一,上下文越跑越长,最后装满了就直接丢失连贯性,甚至还会出现“上下文焦虑”——快到上下文限制了就赶紧敷衍完工交差;第二,自我评估永远都是自吹自擂,不管做出来啥都觉得自己做得特别好,这个问题在设计这类偏主观的任务里尤其明显。
Harness 怎么解决这个问题?工程师给 Agent 加上了两个约束:
第一,做明确的上下文切割和管理,不让无关信息堆满窗口;第二,给它定好四个明确的评分标准,让它每次迭代完都按照标准自己打分:
设计质量:整体是不是连贯统一的整体?
原创性:是不是只是套模板,还是有自己的自定义决策?
工艺细节:排版、间距、色彩这些基础执行到位了吗?
功能性:用户能不能看懂界面,顺利完成操作?
这套方法效果出奇的好:到第九次迭代,Agent 就产出了一个符合要求的虚构博物馆深色主题着陆页,视觉效果非常精致。
到第十次迭代更夸张:Agent 直接推翻了之前的所有设计,给了一个人类完全没想到的创意方案——把整个网站重新做成了空间体验:用 CSS 透视渲染出带棋盘地板的 3D 房间,艺术品自由挂在墙上,导航是通过门口切换画廊房间,而不是传统的滚动和点击。这就是完全超出人类预期的创意飞跃。
Harness 工程的核心:到底要做哪几件事?
讲完案例,我们来拆解 Harness Engineering 的核心工作,其实就是三件事,说穿了就是一句话:人类掌舵,Agent 划桨。工程师的工作从写代码,变成了设计环境、明确意图、构建反馈回路。
第一件事:设计 Agent 的运行环境
传统软件工程里,“环境”就是你的 IDE、编译器、依赖包这些东西。但在 Harness 里,“环境”的范围大太多了:你的整个代码仓库结构、架构约束、Linter 规则、文档规范、CI 管线,全都是 Agent 的运行环境。
Agent 不是“在你的代码库里帮你写代码”,而是“在你设计好的环境里自主完成整个任务”。环境设计得好,Agent 写出来的代码自然规范统一;环境设计得烂,Agent 就会到处乱跑,写出来的东西东一块西一块没法用。
这就像城市规划:你不需要亲自去盖每一栋楼,但你要划好道路红线、规定好容积率、定好建筑规范。楼是开发商(Agent)盖的,但整个城市长什么样,是你这个规划师决定的。
第二件事:把模糊意图拆成可执行的明确任务
在传统开发里,产品经理写 PRD,工程师理解需求然后写代码。在 Harness 模式里,工程师做的事更像产品经理:把一个模糊的大目标,拆成 Agent 能一步步执行的小任务。
OpenAI 团队把这个方法叫做“深度优先工作法”,逻辑很简单:
- 把大功能拆成多个独立的模块每个模块再拆成设计→编码→测试→评审四个步骤每一步都明确写清楚输入、输出和验收标准让 Agent 逐个逐个构建完成
这里要划重点:这不是写更好的 Prompt。这是整个思维方式的迁移:原来你想的是“我怎么实现这个功能”,现在你想的是“我怎么描述这个功能,才能让 Agent 独立把它实现好”。两者的抽象层次完全不一样。
第三件事:构建能快速纠错的反馈回路
这是 Harness 最核心的一环,也是很多人搞错的地方。
很多人觉得 AI 开发就是要让 Agent 不犯错,其实不是。Harness 的核心信仰从来不是“Agent 不会出错”,而是“错了能快速发现,快速纠正”。
Agent 会犯错,会跑偏,会写出烂代码,这太正常了。你要做的不是逼它一次做对,而是给它搭好自动测试、自动评审、自动回退的反馈机制,错了马上抓出来,马上改,大不了回滚到上一个正确版本重新来。
只要反馈回路足够快,犯错根本不可怕,反而会变成迭代优化的动力。刚才 Anthropic 的创意飞跃,不就是一次次迭代试错试出来的吗?
对于产品经理来说,Harness 还有一套更明确的四大核心能力:System Boundaries(系统边界)、Tool Use(工具调用)、Memory Management(记忆管理)、Error Recovery(错误恢复),本质上就是用这四件套,把不可控的大模型,驯化成稳定可用的商业基础设施。
戳破一个幻象:套壳对话框不是 AI 原生
说到这里,不得不戳破过去两年行业最大的一个骗局:市面上 95% 标榜自己是“AI 原生”的产品,本质上都是 Web 2.5,都是套壳对话框,我们可以叫它“游乐场模式”——就是在原来的软件外面,硬生生塞一个聊天框,或者直接在大模型 API 外面包一层网页 UI。
这种模式为什么做不出来好产品?三个痛点直接杀死体验:
第一,空白画布综合征:面对一个啥都能干的空白对话框,用户第一反应不是兴奋,是懵逼。我不知道该问什么,也不知道怎么提问才能得到好结果,把思考的压力全都扔给了用户。好产品应该替用户思考,不是甩锅给用户。
第二,幻觉完全失控:用户输入直连模型输出,大模型天生就会一本正经胡说八道,做严肃业务的时候,出一次错就把所有用户信任都毁了。
第三,工作流彻底断裂:所谓的AI助手,就是工作流里的第三者,用户要在原工作区和AI对话框之间来回复制粘贴,本来想提效,结果反而多了好几个步骤,用着更累。
套壳对话框只是大模型早期的权宜之计,绝对不是AI原生的终局。真正的AI原生是什么?不是“现有产品加个AI插件”,而是假设第一天就有这么聪明的大模型,这个业务这个场景本来应该长什么样,就按照那个样子重新设计。
Harness 不是让AI抢工作,是让人类做更有价值的事
很多人看到“AI写了一百万行代码,零人工代码”第一反应就是:那工程师是不是要失业了?
恰恰相反。当 AI 把写代码这种重复劳动接过去之后,软件工程反而变得更“工程”了。原来我们天天陷在写CRUD、调BUG这些细节里,根本没时间抬头想架构、想产品、想用户真正需要什么。
现在我们把力气花在设计规则、定义问题、搭建环境上,这些才是真正体现人类价值的地方——AI有力气,但是方向要人类来定,边界要人类来划,对错要人类来拍板。
OpenAI那个实验里,三个人干了原来三十个人的活,不是说少了二十七个人失业,而是说原来三十个人才能做的产品,现在三个人就能做出来,更多原来因为成本做不了的创新,现在能落地了。
这就是范式革命的魔力:AI 原生时代,拼的不再是谁写代码快,拼的是谁能更好地驾驭 AI,让AI稳定可靠地帮我们完成复杂任务。
写在最后:真正的革命不是AI写代码,是重新设计系统
回头看这几年的发展,从提示词工程到上下文工程,再到今天的 Harness Engineering,其实行业的关注点一直在往上走:从跟AI说话的技巧,到喂给AI的信息,再到让AI稳定干活的整套系统。
Harness Engineering 最大的范式转变,就是把我们从“让AI写代码”的思路,带到了“设计让AI可靠工作的系统”这条路。
不是等更强的模型出来就能解决所有问题,模型越强,我们越需要一套好的缰绳,才能不让野马掀翻马车。
未来不会写代码的工程师才是好工程师?这句话有点夸张,但大方向没错:未来的顶级开发者和产品经理,核心能力不再是写代码调Prompt,而是设计环境驾驭AI。泡沫已经破了,真正的AI原生时代,才刚刚开始。
346