Agent 行业调研（二）：市场格局、产品、开源框架与大厂布局

2026/05/29 15:03:07

AIAgent·15 min read

Agent 开源框架 OpenAI Anthropic Google Microsoft 国产大模型

Part 2

为什么 Agent 市场格局不能只看产品名单

如果只按“有哪些 Agent 产品”来理解这个市场，最终很容易得到一份不断过时的清单。更有效的方式，是把 Agent 产业拆成三层：面向终端用户的产品层、面向开发者的框架层、以及面向企业与生态的 Agent 平台层。真正决定长期格局的，往往不是某个单点产品，而是谁掌握了这三层之间的衔接能力。#O1 #M2 #G3

从这个视角看，2024 到 2026 的竞争已经不再只是“谁的模型更强”，而是“谁能把模型变成可接入、可治理、可执行、可运营的 Agent 系统”。这也是 OpenAI、Anthropic、Google、Microsoft 与国内大厂都在向平台化演进的原因。#O2 #A2 #M2

分层

Agent 产业的三层结构

层级	代表对象	核心价值
产品层	Operator、Devin、Manus、Claude computer use	直接替用户完成任务
框架层	AutoGen、LangGraph、CrewAI、AutoGPT	帮助开发者造 Agent
平台层	OpenAI Agents SDK、Google Agent Platform、Azure AI Foundry、百度 AgentBuilder、腾讯 ADP	构建、部署、治理、观测 Agent

产品层最容易吸引公众注意，框架层最能聚集开发者，平台层则最接近长期壁垒。产品可以被替换，框架可以被迁移，但企业一旦把权限、数据、流程和审计链路接入某个平台，切换成本就会迅速上升。#M2 #G3

产品层

当前主流 Agent 产品：哪些是闭源，哪些更接近平台化入口

OpenAI Operator 是 2025 年初最具公共事件意义的 Agent 产品之一。OpenAI 将其定位为能够在浏览器中为用户执行任务的 agent，The Verge 的同步报道则清楚展示了它的社会可见度、使用门槛与局限性：研究预览、先面向 Pro 用户、可点击输入滚动，但复杂界面仍不稳定。#O3 #N1

Operator 依赖 Computer-Using Agent 模型，结合 GPT-4o 的视觉能力与强化学习推理来操作 GUI。它通过截图"看到"网页，通过鼠标键盘动作"操作"网页，无需定制 API 集成。当遇到登录凭据等敏感信息时，会主动把控制权交还用户。OpenAI 后续还把 Operator 和 Deep Research 能力合并到统一的 ChatGPT Agent 路线中，说明 browser agent 与 deep research agent 正在融合。#O3 #N1

Devin 则把"Agent"推进到软件工程场景。Cognition 官方把它描述成能够计划、写代码、运行测试并在沙箱中独立推进工程任务的 AI teammate。Devin 发布时在 SWE-bench 上达到 13.86% 的端到端解决率，远超当时 1.96% 的 SOTA。#C1 这个数字本身并不惊人，但它代表了一个质变：Agent 开始能独立处理真实代码库中的 issue，而不只是做代码补全。coding agent 因此成为 Agent 市场中最强势的垂直品类之一。

Manus 强调的是"拥有自己计算机的虚拟同事"叙事。官方文档明确把它定位为 autonomous general AI agent，能在带网络、文件系统和软件安装能力的沙箱中交付完整工作成果。Manus 的独特之处在于它不是针对单一垂直场景（如 coding 或 browser），而是尝试做一个通用的任务执行体。#MN1

这类产品目前几乎都以闭源方式提供。原因并不复杂：它们真正的竞争力不只在模型，而在执行环境、工具编排、权限管理和任务恢复机制，这些能力很难被简单抽成单个开源仓库复制。#A2 #O1

框架层

主流开源框架：谁在帮助开发者“造 Agent”

AutoGen 是微软系最有代表性的开源 Agent 框架之一，明确面向多 Agent 应用与自主协作场景。它的意义不只是“能调模型”，而是把 agent 间消息传递、角色组织、编排模式带成了一个正式开发范式。#F1

LangGraph 则代表另一种路线：把 Agent 明确定义为状态化、可恢复、可编排的长期运行图。它的优势在于更清楚地处理长任务状态和工作流节点，而不只是做 prompt chaining。#F2

CrewAI 以角色协作叙事见长，强调多个角色型 Agent 分工合作。它降低了构造“AI 团队”式系统的门槛，因此在创业团队和 PoC 场景中传播很快。#F3

AutoGPT 虽然在今天的工程成熟度上已不一定最强，但它在舆论层面意义重大：它是最早把“autonomous AI agent”带入大众视野的开源象征项目之一。#F4

这一层基本以开源为主，因为开发者框架本身更依赖社区扩张、案例增长和生态兼容性。闭源在这里反而不占优势。#F1 #F2 #F3

海外大厂

OpenAI、Anthropic、Google、Microsoft：四种不同的平台打法

OpenAI 的路线是从模型 API 走向完整的 Agent 开发与执行栈。Agents SDK 文档已经明确覆盖 agent definition、handoff、guardrails、results、sandbox 和 observability，而 Responses API 与 built-in tools 则在为 hosted tool use 打地基。#O1 OpenAI 的优势是模型与消费级入口，ChatGPT 的用户基数意味着任何 Agent 功能都能快速触达大量用户。问题则是企业治理层还需要继续补齐：权限、审计、合规、VPC 接入等能力目前不如 Microsoft 和 Anthropic 深入。#O2

Anthropic 的路线最像“系统软件公司”。MCP 解决工具与数据接入标准化，Managed Agents 解决 session、harness 与 sandbox 的结构设计。#A1 #A2 它的重点不是先做最热的消费 Agent，而是先定义 Agent 生态的协议与运行时。Anthropic 的 Managed Agents 博客用了一个非常有洞察力的类比：操作系统把硬件虚拟化为 process、file 等抽象，Managed Agents 则把 agent 组件虚拟化为 session、harness、sandbox 等抽象。这种设计哲学使得实现层可以自由替换，而接口保持稳定。

Google 试图把 Agent 织回自己的多模态与产品生态。Gemini 2.0 官方把 2024 年底定义为“agentic era”，并同时推出 Astra、Mariner、Jules 等原型。#G1 随后，Google 又把 Project Mariner 的 browser control 能力带进 Gemini API 的 computer use tool，并把企业平台进一步包装为 Gemini Enterprise Agent Platform。#G2 #G3 Google 的独特优势在于它同时拥有搜索、浏览器（Chrome）、办公套件（Workspace）、云平台（GCP）和移动端（Android）入口，这意味着它可以在多个环境层同时部署 Agent 能力。

Microsoft 的打法最偏企业组织。Build 2025 直接提出 open agentic web，并把 GitHub Copilot、Copilot Studio、Azure AI Foundry、MCP、A2A、observability、identity 和 enterprise controls 串成一个完整叙事。#M2 微软的核心优势不是单点炫技，而是企业 IT 渗透率、组织级治理和平台整合能力。Copilot Studio 的 computer use 功能可以同时支持 OpenAI CUA 和 Anthropic Claude 模型，这种模型中立策略使微软能同时利用多家模型供应商的能力，而不限定于单一模型路线。#M1

对比四家的路线可以看出一个有趣的分化：OpenAI 最强在消费级入口和模型能力，Anthropic 最强在协议与运行时架构，Google 最强在多模态环境入口，Microsoft 最强在企业组织渗透。#O1 #A2 #G3 #M2 这意味着未来 Agent 市场很可能不会出现一家通吃，而是每家在不同层占据优势，最终在企业客户的实际部署中形成混合方案。

国内布局

中国厂商：Agent 竞争更像“模型 + 云 + 场景 + 生态”

国内厂商的 Agent 竞争与海外不同，它更像“模型能力 + 云平台 + 行业场景 + 流量生态”的复合竞争。单独看模型分数或单独看 Agent 产品都不够，要看它们如何把 Agent 嵌进自己的业务生态。

百度已把 AgentBuilder 明确为文心体系下的智能体平台。官方文档直接将其描述为基于文心大模型的 Agent 平台，面向开发者按行业与场景构建智能体。#B1 百度的优势在于搜索流量、内容生态和云能力的结合，这使它的 Agent 平台天然有分发入口。

阿里的路线是“开源模型家族 + 云平台 + Agent 工具 + agentic coding”。公开材料显示，阿里云百炼和 Model Studio 已支持 workflow、agent、多智能体协作和 direct call。#Y1 Qwen3-Coder 则进一步强调 agentic coding、browser-use 与 tool-use 场景，并且开源。阿里的策略是用开源模型（Qwen 系列）带动云平台使用量，同时用 Agent 能力提升企业客户的云消费深度。

腾讯的公开路径很清楚地走向企业级智能体开发平台。腾讯云 ADP 的产品动态里已经出现 Agentic RAG、Claw 模式、Skills 广场、连接器与工具、Multi-Agent 模式、云部署服务等一整套能力。#T1 腾讯云 AI 文章对 ADP 3.0 的描述则更进一步，明确强调 RAG、Workflow、Multi-Agent、插件生态和企业场景落地，并且已经在制造业质检、智能巡检、媒体内容处理、营销增长等多个行业场景中落地。#T2 腾讯的独特优势是微信/企业微信生态，这让它的 Agent 平台能直接触达企业内部沟通和客户服务场景。

智谱的公开文档已经把长程 Agent 任务作为模型定位的一部分。GLM-5 和 GLM-5.1 明确强调“长程 Agent 任务”和“从规划、执行到交付的完整闭环”，GLM-5.1 在官方文档中声称其综合能力对齐 Claude Opus 4.6。#Z1 AutoGLM-Phone 则是一个有意思的方向：把 Agent 能力推向移动端 GUI 操作，支持 50+ 主流中文应用场景。这说明智谱不满足于只做 API 模型，而是要直接进入端侧 Agent 场景。

Kimi / Moonshot 的公开 Agent 支持文档说明，其重点之一是让 Kimi 模型进入 Claude Code、Cline、RooCode 等 agentic loop 工具链。#K1 这种策略很务实：不自己造全套 Agent 平台，而是让自己的模型成为已有 Agent 工具链的可选后端。K2.5 模型专门做了 agentic loop 和工具调用可靠性优化，并提供了 K2 Vendor Verifier 来评测不同供应商的 API 质量，说明它在认真对待 Agent 场景的工程细节。

字节 Seed 则在 Seed2.0 公布中明确使用“通用 Agent 模型”定位，强调长链路任务、深度研究、coding、GUI、多模态理解和真实任务评测。#D1 Seed2.0 提供 Pro、Lite、Mini 三个尺寸的通用 Agent 模型加一个专门的 Code 模型，这种产品矩阵说明它在同时覆盖不同成本和延迟需求的 Agent 场景。字节的优势是豆包等 C 端产品的大规模用户基础，这让它的 Agent 模型天然有大规模验证场景。

结论

Part 2 小结

这一篇的核心结论

Agent 市场不能只看产品。真正稳定的结构是产品层、框架层、平台层三层并行。#O1 #M2
产品层大多闭源，框架层大多开源。前者竞争执行环境和交付体验，后者竞争开发者生态。#F1 #F4
海外四强路线各不相同。OpenAI 偏开发者入口，Anthropic 偏协议与运行时，Google 偏多模态和平台整合，Microsoft 偏企业组织级落地。#O1 #A1 #G3 #M2
国内竞争更像“模型 + 云 + 场景 + 生态”的复合竞争。真正的差异不只在模型能力，而在能否把 Agent 嵌进业务。#B1 #T1 #Y1 #Z1

上一篇定义、历史与技术底座当前篇市场格局、产品、框架与大厂布局下一篇未来：多模态、多 Agent、协议、安全与趋势

Agent 行业调研（二）

这一篇的核心结论

参考来源