Agent 行业调研(三)
Agent 今天最容易制造错觉的地方,在于演示视频常常展示的是“能做某件事”,而产业真正关心的是“能否稳定、可控、低成本地持续做这件事”。因此讨论 Agent 的未来,不能只看模型上限,而必须同时看协议、运行时、企业接入、安全、评测与社会反馈。#S2 #A2 #M2
从这个意义上说,Agent 的未来不是单线演进,而是三条线同时推进:能力继续增强,环境接入继续扩展,治理机制继续补齐。哪一条掉队,都会让 Agent 停留在 demo 阶段。#S2 #G3
Large Multimodal Agents 综述已经指出,多模态 Agent 的关键不只是“模型会看图”,而是把视觉、视频、音频、GUI 等输入真正纳入任务闭环。只要 Agent 需要在网页、桌面、文档、视频会议或移动端环境中行动,多模态能力就不再是增强选项,而会变成默认前提。#S3
Google 在 Gemini 2.0 博文中把 Project Astra、Project Mariner 与 Jules 串成一条清晰路线,实际上已经说明了这个趋势:未来 Agent 不会停留在文本通道里,而会持续延伸到浏览器、代码、设备、音视频和更复杂的环境交互。Google 后续又把 Mariner 的 browser control 能力带入 Gemini API 的 computer use tool,进一步确认了这条路线。#G1 #G2
国内模型也在沿着同一方向推进。智谱 GLM-5V-Turbo 明确强化 GUI Agent、Coding Agent 和多模态 tools;字节 Seed2.0 则公开强调视频、音频、视觉统一理解与复杂长链路 Agent 能力。这说明多模态 Agent 不是少数厂商的前沿探索,而是整体赛道的共同收敛方向。#Z1 #D1
多 Agent 系统的吸引力非常直观:把复杂任务拆成多个角色,让它们并行搜索、互相审校、分工执行。但综述文献已经反复提醒,多 Agent 的价值并不来自“数量”,而来自协作机制本身。Tran 等人的 survey 把协作机制按多个维度拆解:actor(参与的 agent)、type(合作、竞争或 coopetition)、structure(点对点、中心化或分布式)、strategy(基于角色或基于模型)、coordination protocol。#S4 这些维度中任何一个选错,都会让多 Agent 系统退化成“多个模型互相扯皮”。
多 Agent 的常见协作模式包括:角色分工(如 MetaGPT、ChatDev 让不同 agent 扮演 PM、coder、reviewer)、辩论与审校(多个 agent 对同一问题给出不同答案,通过辩论收敛)、集中编排(一个 orchestrator 负责分配任务和仲裁冲突)、以及分布式协同(agent 之间通过消息传递自主协调)。#S4 每种模式适合不同场景,没有万能方案。
短期看,多 Agent 最适合三类场景:复杂研究、软件工程、企业流程编排。因为这三类任务都天然需要分工、审校和长程推进。微软在 Azure AI Foundry Agent Service 中把多 specialized agents orchestration 正式产品化,腾讯云 ADP 也公开强化 Multi-Agent 与 Agentic RAG,这表明多 Agent 已经从研究方向进入企业交付能力。#M2 #T1 #T2
但多 Agent 不会自动让系统更聪明。它也会引入 coordination overhead、成本上升、错误传播和状态管理复杂度。一个现实问题是:当 agent 数量增加时,agent 之间的通信开销和潜在冲突会呈非线性增长。长期稳定的多 Agent 系统,必须建立在更强的运行时、评测与可观测性之上。#S4 #S2
如果 Agent 要真正进入生产环境,它必须连接外部工具、数据源和企业系统。过去这件事通常依赖定制集成:每接一个新数据源就要写一套 connector,成本高、复用差、难迁移。Anthropic 于 2024-11-25 发布 MCP(Model Context Protocol),把它定义为连接 AI 系统与外部数据源的开放标准。MCP 的架构很简单:开发者通过 MCP server 暴露数据,AI 应用作为 MCP client 连接这些 server,实现安全的双向连接。#A1 这件事的重要性,不亚于为 Agent 生态提供了一个类似 USB 的统一接口层——过去每个设备需要自己的线,现在一个标准接口通吃。
更有指标意义的是,Anthropic 在 2025-12-09 宣布将 MCP 捐赠给 Linux Foundation 旗下 AAIF,并明确写到 ChatGPT、Gemini、Microsoft Copilot、VS Code 等产品已采用 MCP。这个事件意味着 MCP 从一家公司的提案,开始向跨厂商、跨生态的事实标准演进。#A3
微软在 Build 2025 里对 MCP 的高调支持、Google 在开发者工具层的接入、腾讯云的 MCP 广场与工具接入,都说明协议层竞争正在成为 Agent 时代最被低估、但最关键的战场之一。未来真正的 Agent 生态,不会建立在孤立产品上,而会建立在互操作协议之上。#M2 #G2 #T2
2025 年初 OpenAI 发布 Operator,是 Agent 从技术圈内部概念变成公共社会事件的重要节点。OpenAI 官方将其定义为能够在浏览器中执行任务的 agent,而媒体报道则把它的现实边界暴露得很清楚:它能点击、输入、滚动,也会在敏感信息处让用户接管,但复杂界面仍然不稳定。#O3 #N1
Google 的 Project Mariner 与 Microsoft Copilot Studio computer use 则说明 browser / computer use 不是一家公司独有的试验,而是整个行业在寻找“让 Agent 越过 API 缺失地带”的过渡方案。只要现实软件世界仍充满网页和 GUI,computer use 就会长期存在,而且会成为 legacy enterprise system 与 Agent 结合的重要桥梁。#G1 #M1
因此,未来一段时间的 Agent 竞赛,不会只在 reasoning benchmark 上进行,也会发生在谁能把 Agent 更稳地接进浏览器、桌面、移动端与企业应用中。#S2 #M1
Agent 与普通聊天模型最不同的一点,是它真的会“动手”。一旦系统能访问浏览器、文件、企业数据与凭据,风险就会迅速放大。Anthropic 对 Managed Agents 的讨论中已经把这个问题拆得很清楚:session、harness 与 sandbox 必须解耦,凭据不能暴露给执行环境,context 管理不能简单依赖模型上下文窗口。#A2 Anthropic 的具体做法是:agent 通过专门的 proxy 调用外部服务,proxy 从 vault 获取凭据,agent 本身永远不接触 token。这种结构性的安全设计,比靠模型拒绝有害请求要可靠得多,因为模型的安全判断可以被 prompt injection 绕过,而架构层面的隔离不会。
Microsoft 的 Copilot Studio computer use 文档同样体现出企业级安全逻辑:机器选择、连接方式、凭据存储、人类监督、访问控制都是一级配置项,而不是事后补丁。#M1 文档还明确支持两种凭据模式:maker-provided credentials(适合自主 agent)和 end-user credentials(适合需要用户身份的操作),以及基于 Azure Key Vault 的企业级密钥管理。这说明企业要的不是“能不能做”,而是“可不可以安全地允许它做”以及“出了问题能不能追溯”。
从评测角度看,Yehudai 等人的综述已经指出,Agent 评测正在从静态输出转向动态环境任务,同时把成本、安全、鲁棒性与长程任务成功率纳入更核心的位置。#S2 当前评测的关键缺口包括:缺乏标准化的安全评测方法、成本效率评测不成熟、长程任务的鲁棒性基准不足。换句话说,Agent 的未来不属于最会演示的系统,而属于最能被测量、被治理和被审计的系统。
在讨论 Agent 的未来时,必须诚实地面对一个可能性:Agent 是否只是当前模型能力不足时的过渡产物?如果未来模型足够强大,能够通过单次推理直接完成复杂任务,是否还需要今天这种多步规划、工具调用、环境交互的 Agent 架构?
这个质疑有合理之处。随着模型 reasoning 能力的增强,某些今天需要 agent loop 的任务,确实可能被更直接的推理方式解决。Google 在 Gemini API I/O 更新中提到的 Deep Think 模式就代表了这个方向:通过更长的推理时间换取更高质量的单次输出,减少对外部工具的依赖。#G2
但这个质疑也有明显的边界。首先,只要任务需要访问外部实时数据(如搜索、数据库查询),就必须有某种形式的 tool use。其次,只要任务需要在 GUI 或网页中操作,就必须有某种形式的 environment grounding。第三,只要任务涉及敏感操作,就必须有某种形式的人类审批和权限控制。这些需求不会因为模型变强而消失,只会因为模型变强而变得执行得更可靠。
因此,更可能的演化路径是:Agent 的某些组件会因为模型变强而简化,但 Agent 作为“模型 + 工具 + 环境 + 治理”的系统架构,会在相当长时间内持续存在。它可能不会永远叫“Agent”,但它代表的系统模式——认知内核 + 执行环境 + 安全治理——是 AI 进入真实世界的必要结构。
五条最可能固化的行业主线
- Agent 会成为 AI 的执行层。模型提供认知,Agent 负责把认知接入真实流程。#O1 #M2
- 协议标准化会继续加速。MCP 及类似机制会成为工具接入与数据互联的事实基础设施。#A1 #A3
- Browser / computer use 会持续扩张。它是 Agent 跨越传统 API 缺口的现实路径。#O3 #M1
- 企业平台会比单点产品更重要。长期壁垒更可能落在 orchestration、identity、governance、observability 和 data access 上。#G3 #M2
- 安全、评测与成本会成为主战场。谁能把 Agent 做到稳定、低成本、可治理,谁才更可能赢。#S2 #A2
把过去两年的变化压缩到底层,可以看到 Agent 时代真正重组的是三层基础设施。
- 模型层:谁能提供更稳的 reasoning、tool use、multimodal grounding 与 long-horizon capability。#S2
- 协议层:谁掌握工具接入、数据互联、身份与授权的开放标准。#A1 #A3
- 平台层:谁能把构建、部署、观测、安全、审批、运维和成本控制串成可生产化体系。#M2 #G3 #T1
因此,Agent 的未来不会只由一个“最强产品”决定,而会由谁掌握了这三层之间的耦合能力决定。
这一篇的核心结论
- 多模态 Agent 会成为默认形态。真实环境决定了 Agent 不可能长期停留在文本通道。#S3 #G1
- 多 Agent 会持续扩张,但前提是更强的编排与观测。协作不是免费午餐。#S4 #M2
- MCP 类协议是 Agent 时代最关键的基础设施之一。协议层正在变成新的竞争焦点。#A1 #A3
- Browser / computer use 是现实世界的重要过渡层。只要 GUI 仍是主流界面,它就会长期存在。#O3 #M1
- 最终胜负取决于可治理性。安全、评测、权限和成本,才是 Agent 大规模落地的真正门槛。#S2 #A2
参考来源
- #S2 — Yehudai et al., A Survey on Evaluation of LLM-based Agents, 2025
- #S3 — Xie et al., Large Multimodal Agents: A Survey, 2024
- #S4 — Tran et al., Multi-Agent Collaboration Mechanisms: A Survey of LLMs, 2025
- #A1 — Anthropic, Introducing the Model Context Protocol
- #A2 — Anthropic Engineering, Managed Agents
- #A3 — Anthropic, Donating MCP and establishing the Agentic AI Foundation, 2025-12-09
- #G1 — Google, Introducing Gemini 2.0: our new AI model for the agentic era
- #G2 — Google Developers Blog, Gemini API I/O updates, 2025-05-23
- #G3 — Google Cloud, Gemini Enterprise Agent Platform
- #M1 — Microsoft Learn, Copilot Studio computer use
- #M2 — Microsoft Build 2025: the age of AI agents and building the open agentic web
- #O1 — OpenAI Agents SDK documentation
- #O3 — OpenAI, Introducing Operator
- #T1 — 腾讯云智能体开发平台产品动态
- #T2 — 腾讯云 AI,智能体开发平台 3.0 文章
- #Z1 — 智谱开放平台新品发布文档
- #D1 — 字节 Seed2.0 官方模型页
- #N1 — The Verge, OpenAI’s new Operator AI agent can do things on the web for you, 2025-01-23