Harness 工程的未来:退潮后留下的脚手架
引言
海边的人建造灯塔时,先搭了很厚的脚手架。年轻工匠站不稳,脚手架保护他们,也让石块能被一层层吊上去。
几年后,工匠手艺变熟,灯塔也变高。有人提议继续往脚手架上加木板,觉得越厚越安全。老匠人却在退潮后走到塔下,一块一块检查:哪些木板还承重,哪些只挡路,哪些护栏虽然少用但必须留在海崖边。
他没有拆掉所有脚手架,也没有让脚手架永远增长。
Harness 工程未来最难的部分,也许正是这种判断。
TL;DR
Agent 工程的重心正在从 Prompt 工程、上下文工程,转向 Harness 工程。模型像 CPU,Harness 像操作系统,负责生命周期、工具、记忆、权限、调度和评估。未来会走向智能体原生应用和分层协议栈,同时也要面对长期状态、多智能体协调、安全攻防、成本前沿,以及给过期控制做减法的问题。
1. 从 AI 增强到智能体原生
很多应用现在仍是 AI 增强型:传统代码流程主导,模型在某些节点做总结、分类、生成。智能体原生应用会把模型推理放到控制流中心,让系统按目标、状态和工具动态决定下一步。
这种变化会把 Harness 推到台前。运行时管理会话生命周期,工具层提供系统调用,记忆与上下文承担状态和文件系统职责,编排层像调度器,安全层像权限系统。
所以"智能体即操作系统"不是比喻游戏。模型提供推理能力,但没有运行时、权限、工具、记忆和评估,推理无法稳定变成可交付结果。能力来自模型、Harness 和环境组成的系统。
2. 还没解决的硬问题
第一个硬问题是推理状态持久化。传统应用把数据写进数据库,Agent 还要保存假设、目标、已经验证的事实、未完成动作和回滚点。长上下文不能替代长期状态管理。把历史全塞进窗口,只会让临时推测更容易被固化。
第二个是多智能体协调。多个智能体可能目标冲突、共享错误记忆、互相放大偏差。通信协议、冲突检测、结果归并和整体稳定性,都还没有成熟答案。
第三个是能力发现与绑定。系统要在运行时发现工具、数据源、远程能力和权限变化。MCP 解决了一部分工具接入问题,但复杂 IDE、长期会话、多轮审批和前端事件流还需要更丰富的协议。
第四个是学习与自适应。今天大多数 Harness 能记录经验,却还不能稳定地把经验变成更好的策略。技能优化、轨迹反思、记忆整合和持续评估,会成为让系统随使用变好的关键。
3. 标准化会变成协议栈
MCP 已经把智能体与工具、数据源之间的接口标准化。它解决了工具碎片化,让一个 Server 能被多个支持 MCP 的框架使用。
但未来不会只有一个协议。工具调用、智能体间通信、前端事件流、声明式 UI、长期会话,都可能有各自标准。Harness 会越来越像协议网关,在 MCP、A2A、UI 事件协议和框架私有能力之间做翻译、路由和治理。
标准化的价值不只是复用工具。它还让评估可以对标,让安全边界更清楚,让智能体能力从一个框架迁移到另一个框架时不必重写所有基础设施。
工程师需要接受一点:标准化是分层和渐进的。MCP 是核心,但不是万能接口。越接近具体工作流,越可能需要专用协议和本地工程判断。
4. 做加法,也要做减法
过去几年,Harness 工程主要在做加法:加沙箱、加护栏、加重试、加压缩、加审计、加评估。每一层控制都有一个隐含假设:模型自己做不好,所以系统要兜底。
这些假设会过期。模型更强、更便宜后,一些控制会变成延迟、成本和复杂度。过度清洗可能破坏模型原本能处理的结构,过度重试可能放大错误,过度分阶段可能让强模型失去连续推理优势。
但减法不能盲目。要区分两类控制:
- 替模型擦屁股的控制,可以用实验持续审计是否仍然承重。
- 守住不可逆副作用的控制,必须谨慎保留,例如权限、提交边界、审计、沙箱、回滚。
理想系统会监控每个控制多久没触发、触发时救了什么、花了多少成本。没有这些信号,团队不知道脚手架哪块还承重,只能越搭越厚。
5. 人的理解债也要纳入成本
未来的 Agent 会更快地产生代码、配置和工作流。速度提升会带来另一个风险:没人读过的系统变多,理解债务积累。
如果每次变更都由智能体生成、测试通过就合并,人类对系统的 mental model 会逐渐落后。短期效率提升,长期维护变难。出问题时,团队不知道该看提示、工具、运行时、权限还是记忆。
所以 Harness 的未来不只是自动化更多工作,也要保留可解释的轨迹、清楚的控制边界、能让人追溯的决策记录。系统变得更自主,人对系统的理解反而更不能丢。
写在最后
灯塔完工那天,老匠人拆掉了大半脚手架,只留下靠海一侧的护栏和几处检修梯。年轻人问他:"既然灯塔已经稳了,为什么不全拆?"
他说:"不承重的木板会挡路,挡命的护栏不能省。"
Harness 工程也会走到这个阶段。模型弱的时候,它要替模型兜底;模型强的时候,它要减少多余包裹;但只要系统会触碰真实世界,它就必须保留提交边界、权限、审计和回滚。
成熟的 Harness 不是控制最多的那一个,而是最清楚每个控制为什么存在的那一个。等模型继续变强,真正的前沿会从"怎样把模型包起来",转向"这一次,到底还需要多厚的包裹"。