Web Agent
Web Agent 是 SAK 的网页行动层,用于让 Agent 在开放 web 上完成搜索、抽取、浏览器动作、追踪和受控任务执行。读完本组文档后,你可以为自己的应用接入 Web Agent,创建 session,提交 task,并通过事件流获取执行结果。
Web Agent 不是传统爬虫 SDK。它面向的是 LLM agent 的任务执行链路:开发者给出 instruction,Web Agent 管理运行时资源、页面状态、重试、结构化结果和任务生命周期。Console 和 SDK 都只是同一组 API 的客户端。
什么时候使用 Web Agent
- 你的 Agent 需要访问实时网页数据,而不是只依赖模型训练数据或固定知识库。
- 你需要把搜索、网页抽取、浏览器动作和长程任务封装成可审计的 API。
- 你希望 Console、SDK 和后端服务都走同一份 REST API 契约。
- 你需要通过 session / task 模型保存运行状态、订阅事件流,或处理需要人工确认的步骤。
什么时候不要使用 Web Agent
- 任务只需要调用你自己的后端 API,不需要访问开放 web。
- 你需要的是大规模离线爬取、数据仓库同步或搜索引擎索引构建。
- 目标站点的使用条款不允许自动化访问,且你没有取得必要授权。
- 你还没有定义 API key、project scope、任务预算和失败重试策略。
核心能力
| Capability | Description |
|---|---|
| DoAnything API | 给出自然语言 instruction,由 Web Agent 选择工具、执行步骤并返回结果。 |
| Shaped APIs | 对 DeepResearch、WebSearch、Track 等固定产物形态提供更明确的 API 契约。 |
| Session / Task model | 用 session 持有运行时资源,用 task 表达一次任务或后续动作。 |
| Event stream | 通过 SSE 订阅任务状态、输出片段、错误和人工确认请求。 |
| SDK and raw HTTP | Python、TypeScript 和 cURL 文档使用同一份 API 语义。 |
文档入口
- 什么是 WebAgent:理解 Web Agent 的定位、边界和 API 形态。
- Quickstart:用 Python、TypeScript 或 cURL 跑通第一个 task。
- 鉴权与 API key:了解
wa_key、project scope 和轮换策略。 - Sessions 与 Tasks:理解 session、task、event 和 profile 的生命周期。
- 错误与重试:查看错误码、重试策略和幂等处理。
- API 参考:查看 base URL、鉴权、错误、限流和分页约定。
- Vibecoding:把文档和 OpenAPI 交给 IDE 中的 LLM,生成集成代码。