Agent 行业调研(二)
如果只按“有哪些 Agent 产品”来理解这个市场,最终很容易得到一份不断过时的清单。更有效的方式,是把 Agent 产业拆成三层:面向终端用户的产品层、面向开发者的框架层、以及面向企业与生态的 Agent 平台层。真正决定长期格局的,往往不是某个单点产品,而是谁掌握了这三层之间的衔接能力。#O1 #M2 #G3
从这个视角看,2024 到 2026 的竞争已经不再只是“谁的模型更强”,而是“谁能把模型变成可接入、可治理、可执行、可运营的 Agent 系统”。这也是 OpenAI、Anthropic、Google、Microsoft 与国内大厂都在向平台化演进的原因。#O2 #A2 #M2
| 层级 | 代表对象 | 核心价值 |
|---|---|---|
| 产品层 | Operator、Devin、Manus、Claude computer use | 直接替用户完成任务 |
| 框架层 | AutoGen、LangGraph、CrewAI、AutoGPT | 帮助开发者造 Agent |
| 平台层 | OpenAI Agents SDK、Google Agent Platform、Azure AI Foundry、百度 AgentBuilder、腾讯 ADP | 构建、部署、治理、观测 Agent |
产品层最容易吸引公众注意,框架层最能聚集开发者,平台层则最接近长期壁垒。产品可以被替换,框架可以被迁移,但企业一旦把权限、数据、流程和审计链路接入某个平台,切换成本就会迅速上升。#M2 #G3
OpenAI Operator 是 2025 年初最具公共事件意义的 Agent 产品之一。OpenAI 将其定位为能够在浏览器中为用户执行任务的 agent,The Verge 的同步报道则清楚展示了它的社会可见度、使用门槛与局限性:研究预览、先面向 Pro 用户、可点击输入滚动,但复杂界面仍不稳定。#O3 #N1
Operator 依赖 Computer-Using Agent 模型,结合 GPT-4o 的视觉能力与强化学习推理来操作 GUI。它通过截图"看到"网页,通过鼠标键盘动作"操作"网页,无需定制 API 集成。当遇到登录凭据等敏感信息时,会主动把控制权交还用户。OpenAI 后续还把 Operator 和 Deep Research 能力合并到统一的 ChatGPT Agent 路线中,说明 browser agent 与 deep research agent 正在融合。#O3 #N1
Devin 则把"Agent"推进到软件工程场景。Cognition 官方把它描述成能够计划、写代码、运行测试并在沙箱中独立推进工程任务的 AI teammate。Devin 发布时在 SWE-bench 上达到 13.86% 的端到端解决率,远超当时 1.96% 的 SOTA。#C1 这个数字本身并不惊人,但它代表了一个质变:Agent 开始能独立处理真实代码库中的 issue,而不只是做代码补全。coding agent 因此成为 Agent 市场中最强势的垂直品类之一。
Manus 强调的是"拥有自己计算机的虚拟同事"叙事。官方文档明确把它定位为 autonomous general AI agent,能在带网络、文件系统和软件安装能力的沙箱中交付完整工作成果。Manus 的独特之处在于它不是针对单一垂直场景(如 coding 或 browser),而是尝试做一个通用的任务执行体。#MN1
这类产品目前几乎都以闭源方式提供。原因并不复杂:它们真正的竞争力不只在模型,而在执行环境、工具编排、权限管理和任务恢复机制,这些能力很难被简单抽成单个开源仓库复制。#A2 #O1
AutoGen 是微软系最有代表性的开源 Agent 框架之一,明确面向多 Agent 应用与自主协作场景。它的意义不只是“能调模型”,而是把 agent 间消息传递、角色组织、编排模式带成了一个正式开发范式。#F1
LangGraph 则代表另一种路线:把 Agent 明确定义为状态化、可恢复、可编排的长期运行图。它的优势在于更清楚地处理长任务状态和工作流节点,而不只是做 prompt chaining。#F2
CrewAI 以角色协作叙事见长,强调多个角色型 Agent 分工合作。它降低了构造“AI 团队”式系统的门槛,因此在创业团队和 PoC 场景中传播很快。#F3
AutoGPT 虽然在今天的工程成熟度上已不一定最强,但它在舆论层面意义重大:它是最早把“autonomous AI agent”带入大众视野的开源象征项目之一。#F4
这一层基本以开源为主,因为开发者框架本身更依赖社区扩张、案例增长和生态兼容性。闭源在这里反而不占优势。#F1 #F2 #F3
OpenAI 的路线是从模型 API 走向完整的 Agent 开发与执行栈。Agents SDK 文档已经明确覆盖 agent definition、handoff、guardrails、results、sandbox 和 observability,而 Responses API 与 built-in tools 则在为 hosted tool use 打地基。#O1 OpenAI 的优势是模型与消费级入口,ChatGPT 的用户基数意味着任何 Agent 功能都能快速触达大量用户。问题则是企业治理层还需要继续补齐:权限、审计、合规、VPC 接入等能力目前不如 Microsoft 和 Anthropic 深入。#O2
Anthropic 的路线最像“系统软件公司”。MCP 解决工具与数据接入标准化,Managed Agents 解决 session、harness 与 sandbox 的结构设计。#A1 #A2 它的重点不是先做最热的消费 Agent,而是先定义 Agent 生态的协议与运行时。Anthropic 的 Managed Agents 博客用了一个非常有洞察力的类比:操作系统把硬件虚拟化为 process、file 等抽象,Managed Agents 则把 agent 组件虚拟化为 session、harness、sandbox 等抽象。这种设计哲学使得实现层可以自由替换,而接口保持稳定。
Google 试图把 Agent 织回自己的多模态与产品生态。Gemini 2.0 官方把 2024 年底定义为“agentic era”,并同时推出 Astra、Mariner、Jules 等原型。#G1 随后,Google 又把 Project Mariner 的 browser control 能力带进 Gemini API 的 computer use tool,并把企业平台进一步包装为 Gemini Enterprise Agent Platform。#G2 #G3 Google 的独特优势在于它同时拥有搜索、浏览器(Chrome)、办公套件(Workspace)、云平台(GCP)和移动端(Android)入口,这意味着它可以在多个环境层同时部署 Agent 能力。
Microsoft 的打法最偏企业组织。Build 2025 直接提出 open agentic web,并把 GitHub Copilot、Copilot Studio、Azure AI Foundry、MCP、A2A、observability、identity 和 enterprise controls 串成一个完整叙事。#M2 微软的核心优势不是单点炫技,而是企业 IT 渗透率、组织级治理和平台整合能力。Copilot Studio 的 computer use 功能可以同时支持 OpenAI CUA 和 Anthropic Claude 模型,这种模型中立策略使微软能同时利用多家模型供应商的能力,而不限定于单一模型路线。#M1
对比四家的路线可以看出一个有趣的分化:OpenAI 最强在消费级入口和模型能力,Anthropic 最强在协议与运行时架构,Google 最强在多模态环境入口,Microsoft 最强在企业组织渗透。#O1 #A2 #G3 #M2 这意味着未来 Agent 市场很可能不会出现一家通吃,而是每家在不同层占据优势,最终在企业客户的实际部署中形成混合方案。
国内厂商的 Agent 竞争与海外不同,它更像“模型能力 + 云平台 + 行业场景 + 流量生态”的复合竞争。单独看模型分数或单独看 Agent 产品都不够,要看它们如何把 Agent 嵌进自己的业务生态。
百度 已把 AgentBuilder 明确为文心体系下的智能体平台。官方文档直接将其描述为基于文心大模型的 Agent 平台,面向开发者按行业与场景构建智能体。#B1 百度的优势在于搜索流量、内容生态和云能力的结合,这使它的 Agent 平台天然有分发入口。
阿里 的路线是“开源模型家族 + 云平台 + Agent 工具 + agentic coding”。公开材料显示,阿里云百炼和 Model Studio 已支持 workflow、agent、多智能体协作和 direct call。#Y1 Qwen3-Coder 则进一步强调 agentic coding、browser-use 与 tool-use 场景,并且开源。阿里的策略是用开源模型(Qwen 系列)带动云平台使用量,同时用 Agent 能力提升企业客户的云消费深度。
腾讯 的公开路径很清楚地走向企业级智能体开发平台。腾讯云 ADP 的产品动态里已经出现 Agentic RAG、Claw 模式、Skills 广场、连接器与工具、Multi-Agent 模式、云部署服务等一整套能力。#T1 腾讯云 AI 文章对 ADP 3.0 的描述则更进一步,明确强调 RAG、Workflow、Multi-Agent、插件生态和企业场景落地,并且已经在制造业质检、智能巡检、媒体内容处理、营销增长等多个行业场景中落地。#T2 腾讯的独特优势是微信/企业微信生态,这让它的 Agent 平台能直接触达企业内部沟通和客户服务场景。
智谱 的公开文档已经把长程 Agent 任务作为模型定位的一部分。GLM-5 和 GLM-5.1 明确强调“长程 Agent 任务”和“从规划、执行到交付的完整闭环”,GLM-5.1 在官方文档中声称其综合能力对齐 Claude Opus 4.6。#Z1 AutoGLM-Phone 则是一个有意思的方向:把 Agent 能力推向移动端 GUI 操作,支持 50+ 主流中文应用场景。这说明智谱不满足于只做 API 模型,而是要直接进入端侧 Agent 场景。
Kimi / Moonshot 的公开 Agent 支持文档说明,其重点之一是让 Kimi 模型进入 Claude Code、Cline、RooCode 等 agentic loop 工具链。#K1 这种策略很务实:不自己造全套 Agent 平台,而是让自己的模型成为已有 Agent 工具链的可选后端。K2.5 模型专门做了 agentic loop 和工具调用可靠性优化,并提供了 K2 Vendor Verifier 来评测不同供应商的 API 质量,说明它在认真对待 Agent 场景的工程细节。
字节 Seed 则在 Seed2.0 公布中明确使用“通用 Agent 模型”定位,强调长链路任务、深度研究、coding、GUI、多模态理解和真实任务评测。#D1 Seed2.0 提供 Pro、Lite、Mini 三个尺寸的通用 Agent 模型加一个专门的 Code 模型,这种产品矩阵说明它在同时覆盖不同成本和延迟需求的 Agent 场景。字节的优势是豆包等 C 端产品的大规模用户基础,这让它的 Agent 模型天然有大规模验证场景。
这一篇的核心结论
- Agent 市场不能只看产品。真正稳定的结构是产品层、框架层、平台层三层并行。#O1 #M2
- 产品层大多闭源,框架层大多开源。前者竞争执行环境和交付体验,后者竞争开发者生态。#F1 #F4
- 海外四强路线各不相同。OpenAI 偏开发者入口,Anthropic 偏协议与运行时,Google 偏多模态和平台整合,Microsoft 偏企业组织级落地。#O1 #A1 #G3 #M2
- 国内竞争更像“模型 + 云 + 场景 + 生态”的复合竞争。真正的差异不只在模型能力,而在能否把 Agent 嵌进业务。#B1 #T1 #Y1 #Z1
参考来源
- #O1 — OpenAI Agents SDK documentation
- #O2 — OpenAI, New tools for building agents
- #O3 — OpenAI, Introducing Operator
- #A1 — Anthropic, Introducing the Model Context Protocol
- #A2 — Anthropic Engineering, Managed Agents
- #G1 — Google, Introducing Gemini 2.0: our new AI model for the agentic era
- #G2 — Google Developers Blog, Gemini API I/O updates, 2025-05-23
- #G3 — Google Cloud, Gemini Enterprise Agent Platform
- #M1 — Microsoft Learn, Copilot Studio computer use
- #M2 — Microsoft Build 2025: the age of AI agents and building the open agentic web
- #C1 — Cognition, Introducing Devin
- #MN1 — Manus documentation, Welcome
- #F1 — Microsoft AutoGen GitHub
- #F2 — LangGraph GitHub
- #F3 — CrewAI GitHub
- #F4 — AutoGPT GitHub
- #B1 — 百度文心智能体平台 AgentBuilder 文档
- #T1 — 腾讯云智能体开发平台产品动态
- #T2 — 腾讯云 AI,智能体开发平台 3.0 文章
- #Y1 — 阿里云 Model Studio / Agent 工具公开材料
- #Z1 — 智谱开放平台新品发布文档
- #K1 — Kimi 开放平台 Agent 支持文档
- #D1 — 字节 Seed2.0 官方模型页
- #N1 — The Verge, OpenAI’s new Operator AI agent can do things on the web for you, 2025-01-23