Agent 行业调研（三）：未来，多模态、多 Agent、协议、安全与趋势判断

2026/05/29 15:03:07

AIAgent·15 min read

Part 3

Agent 的未来，取决于它能否离开演示环境

Agent 今天最容易制造错觉的地方，在于演示视频常常展示的是“能做某件事”，而产业真正关心的是“能否稳定、可控、低成本地持续做这件事”。因此讨论 Agent 的未来，不能只看模型上限，而必须同时看协议、运行时、企业接入、安全、评测与社会反馈。#S2 #A2 #M2

从这个意义上说，Agent 的未来不是单线演进，而是三条线同时推进：能力继续增强，环境接入继续扩展，治理机制继续补齐。哪一条掉队，都会让 Agent 停留在 demo 阶段。#S2 #G3

多模态

多模态 Agent 会成为默认形态，而不是附加能力

Large Multimodal Agents 综述已经指出，多模态 Agent 的关键不只是“模型会看图”，而是把视觉、视频、音频、GUI 等输入真正纳入任务闭环。只要 Agent 需要在网页、桌面、文档、视频会议或移动端环境中行动，多模态能力就不再是增强选项，而会变成默认前提。#S3

Google 在 Gemini 2.0 博文中把 Project Astra、Project Mariner 与 Jules 串成一条清晰路线，实际上已经说明了这个趋势：未来 Agent 不会停留在文本通道里，而会持续延伸到浏览器、代码、设备、音视频和更复杂的环境交互。Google 后续又把 Mariner 的 browser control 能力带入 Gemini API 的 computer use tool，进一步确认了这条路线。#G1 #G2

国内模型也在沿着同一方向推进。智谱 GLM-5V-Turbo 明确强化 GUI Agent、Coding Agent 和多模态 tools；字节 Seed2.0 则公开强调视频、音频、视觉统一理解与复杂长链路 Agent 能力。这说明多模态 Agent 不是少数厂商的前沿探索，而是整体赛道的共同收敛方向。#Z1 #D1

多 Agent

多 Agent 协作会持续扩张，但不会自动带来更高质量

多 Agent 系统的吸引力非常直观：把复杂任务拆成多个角色，让它们并行搜索、互相审校、分工执行。但综述文献已经反复提醒，多 Agent 的价值并不来自“数量”，而来自协作机制本身。Tran 等人的 survey 把协作机制按多个维度拆解：actor（参与的 agent）、type（合作、竞争或 coopetition）、structure（点对点、中心化或分布式）、strategy（基于角色或基于模型）、coordination protocol。#S4 这些维度中任何一个选错，都会让多 Agent 系统退化成“多个模型互相扯皮”。

多 Agent 的常见协作模式包括：角色分工（如 MetaGPT、ChatDev 让不同 agent 扮演 PM、coder、reviewer）、辩论与审校（多个 agent 对同一问题给出不同答案，通过辩论收敛）、集中编排（一个 orchestrator 负责分配任务和仲裁冲突）、以及分布式协同（agent 之间通过消息传递自主协调）。#S4 每种模式适合不同场景，没有万能方案。

短期看，多 Agent 最适合三类场景：复杂研究、软件工程、企业流程编排。因为这三类任务都天然需要分工、审校和长程推进。微软在 Azure AI Foundry Agent Service 中把多 specialized agents orchestration 正式产品化，腾讯云 ADP 也公开强化 Multi-Agent 与 Agentic RAG，这表明多 Agent 已经从研究方向进入企业交付能力。#M2 #T1 #T2

但多 Agent 不会自动让系统更聪明。它也会引入 coordination overhead、成本上升、错误传播和状态管理复杂度。一个现实问题是：当 agent 数量增加时，agent 之间的通信开销和潜在冲突会呈非线性增长。长期稳定的多 Agent 系统，必须建立在更强的运行时、评测与可观测性之上。#S4 #S2

协议

MCP 类协议会成为 Agent 时代的关键基础设施

如果 Agent 要真正进入生产环境，它必须连接外部工具、数据源和企业系统。过去这件事通常依赖定制集成：每接一个新数据源就要写一套 connector，成本高、复用差、难迁移。Anthropic 于 2024-11-25 发布 MCP（Model Context Protocol），把它定义为连接 AI 系统与外部数据源的开放标准。MCP 的架构很简单：开发者通过 MCP server 暴露数据，AI 应用作为 MCP client 连接这些 server，实现安全的双向连接。#A1 这件事的重要性，不亚于为 Agent 生态提供了一个类似 USB 的统一接口层——过去每个设备需要自己的线，现在一个标准接口通吃。

更有指标意义的是，Anthropic 在 2025-12-09 宣布将 MCP 捐赠给 Linux Foundation 旗下 AAIF，并明确写到 ChatGPT、Gemini、Microsoft Copilot、VS Code 等产品已采用 MCP。这个事件意味着 MCP 从一家公司的提案，开始向跨厂商、跨生态的事实标准演进。#A3

微软在 Build 2025 里对 MCP 的高调支持、Google 在开发者工具层的接入、腾讯云的 MCP 广场与工具接入，都说明协议层竞争正在成为 Agent 时代最被低估、但最关键的战场之一。未来真正的 Agent 生态，不会建立在孤立产品上，而会建立在互操作协议之上。#M2 #G2 #T2

执行环境

Computer use 与 browser use 是 Agent 从“会说”到“会做”的显眼拐点

2025 年初 OpenAI 发布 Operator，是 Agent 从技术圈内部概念变成公共社会事件的重要节点。OpenAI 官方将其定义为能够在浏览器中执行任务的 agent，而媒体报道则把它的现实边界暴露得很清楚：它能点击、输入、滚动，也会在敏感信息处让用户接管，但复杂界面仍然不稳定。#O3 #N1

Google 的 Project Mariner 与 Microsoft Copilot Studio computer use 则说明 browser / computer use 不是一家公司独有的试验，而是整个行业在寻找“让 Agent 越过 API 缺失地带”的过渡方案。只要现实软件世界仍充满网页和 GUI，computer use 就会长期存在，而且会成为 legacy enterprise system 与 Agent 结合的重要桥梁。#G1 #M1

因此，未来一段时间的 Agent 竞赛，不会只在 reasoning benchmark 上进行，也会发生在谁能把 Agent 更稳地接进浏览器、桌面、移动端与企业应用中。#S2 #M1

安全

安全、治理与评测会成为 Agent 落地的真正门槛

Agent 与普通聊天模型最不同的一点，是它真的会“动手”。一旦系统能访问浏览器、文件、企业数据与凭据，风险就会迅速放大。Anthropic 对 Managed Agents 的讨论中已经把这个问题拆得很清楚：session、harness 与 sandbox 必须解耦，凭据不能暴露给执行环境，context 管理不能简单依赖模型上下文窗口。#A2 Anthropic 的具体做法是：agent 通过专门的 proxy 调用外部服务，proxy 从 vault 获取凭据，agent 本身永远不接触 token。这种结构性的安全设计，比靠模型拒绝有害请求要可靠得多，因为模型的安全判断可以被 prompt injection 绕过，而架构层面的隔离不会。

Microsoft 的 Copilot Studio computer use 文档同样体现出企业级安全逻辑：机器选择、连接方式、凭据存储、人类监督、访问控制都是一级配置项，而不是事后补丁。#M1 文档还明确支持两种凭据模式：maker-provided credentials（适合自主 agent）和 end-user credentials（适合需要用户身份的操作），以及基于 Azure Key Vault 的企业级密钥管理。这说明企业要的不是“能不能做”，而是“可不可以安全地允许它做”以及“出了问题能不能追溯”。

从评测角度看，Yehudai 等人的综述已经指出，Agent 评测正在从静态输出转向动态环境任务，同时把成本、安全、鲁棒性与长程任务成功率纳入更核心的位置。#S2 当前评测的关键缺口包括：缺乏标准化的安全评测方法、成本效率评测不成熟、长程任务的鲁棒性基准不足。换句话说，Agent 的未来不属于最会演示的系统，而属于最能被测量、被治理和被审计的系统。

反思

Agent 是否只是过渡形态？

在讨论 Agent 的未来时，必须诚实地面对一个可能性：Agent 是否只是当前模型能力不足时的过渡产物？如果未来模型足够强大，能够通过单次推理直接完成复杂任务，是否还需要今天这种多步规划、工具调用、环境交互的 Agent 架构？

这个质疑有合理之处。随着模型 reasoning 能力的增强，某些今天需要 agent loop 的任务，确实可能被更直接的推理方式解决。Google 在 Gemini API I/O 更新中提到的 Deep Think 模式就代表了这个方向：通过更长的推理时间换取更高质量的单次输出，减少对外部工具的依赖。#G2

但这个质疑也有明显的边界。首先，只要任务需要访问外部实时数据（如搜索、数据库查询），就必须有某种形式的 tool use。其次，只要任务需要在 GUI 或网页中操作，就必须有某种形式的 environment grounding。第三，只要任务涉及敏感操作，就必须有某种形式的人类审批和权限控制。这些需求不会因为模型变强而消失，只会因为模型变强而变得执行得更可靠。

因此，更可能的演化路径是：Agent 的某些组件会因为模型变强而简化，但 Agent 作为“模型 + 工具 + 环境 + 治理”的系统架构，会在相当长时间内持续存在。它可能不会永远叫“Agent”，但它代表的系统模式——认知内核 + 执行环境 + 安全治理——是 AI 进入真实世界的必要结构。

趋势判断

未来 2 到 5 年，Agent 最可能稳定下来的五条主线

五条最可能固化的行业主线

Agent 会成为 AI 的执行层。模型提供认知，Agent 负责把认知接入真实流程。#O1 #M2
协议标准化会继续加速。MCP 及类似机制会成为工具接入与数据互联的事实基础设施。#A1 #A3
Browser / computer use 会持续扩张。它是 Agent 跨越传统 API 缺口的现实路径。#O3 #M1
企业平台会比单点产品更重要。长期壁垒更可能落在 orchestration、identity、governance、observability 和 data access 上。#G3 #M2
安全、评测与成本会成为主战场。谁能把 Agent 做到稳定、低成本、可治理，谁才更可能赢。#S2 #A2

底层判断

这场竞争最终会落在哪三层

把过去两年的变化压缩到底层，可以看到 Agent 时代真正重组的是三层基础设施。

模型层：谁能提供更稳的 reasoning、tool use、multimodal grounding 与 long-horizon capability。#S2
协议层：谁掌握工具接入、数据互联、身份与授权的开放标准。#A1 #A3
平台层：谁能把构建、部署、观测、安全、审批、运维和成本控制串成可生产化体系。#M2 #G3 #T1

因此，Agent 的未来不会只由一个“最强产品”决定，而会由谁掌握了这三层之间的耦合能力决定。

结论

Part 3 小结

这一篇的核心结论

多模态 Agent 会成为默认形态。真实环境决定了 Agent 不可能长期停留在文本通道。#S3 #G1
多 Agent 会持续扩张，但前提是更强的编排与观测。协作不是免费午餐。#S4 #M2
MCP 类协议是 Agent 时代最关键的基础设施之一。协议层正在变成新的竞争焦点。#A1 #A3
Browser / computer use 是现实世界的重要过渡层。只要 GUI 仍是主流界面，它就会长期存在。#O3 #M1
最终胜负取决于可治理性。安全、评测、权限和成本，才是 Agent 大规模落地的真正门槛。#S2 #A2

上一篇市场格局、产品、框架与大厂布局当前篇未来：多模态、多 Agent、协议、安全与趋势

Agent 行业调研（三）

五条最可能固化的行业主线

这一篇的核心结论

参考来源