什么是 WebAgent
WebAgent 是一个让 LLM agent 像人类开发者一样在网页上完成任务的 API。你给一句中文或英文 instruction,它挑工具(浏览器、沙箱、搜索……)、跑步骤、返回结果。
你能拿到什么
WebAgent 暴露若干用户面 API,分两类:
- DoAnything API —— 开放型;自由输入,agent 自己定路径。session/task 资源面 + 7 态状态机 + 长程任务
- 定型 API —— 知道产物形态时直接走对应 API,给定型契约 + 质量承诺:
- DeepResearch —— 研究 → 报告(final.md + citations + confidence)
- WebSearch —— 查询 → 结果(结构化 search results + 可选摘要)
- Track —— 监控 → snapshot 序列 + change notification
公共能力:
- Profiles —— 跨 session 复用登录态。不用每次重新登录
- Workspaces —— 持久文件系统,agent 可读可写
- Schedules —— cron / interval / event / autonomous(让 agent 自己决定何时再跑)
- SSE 事件流 —— Console 用的同一套
task.*事件,直接推到你代码里
它不是什么
- 不是 low-code 自动化平台。没有可视化画布。任务是用代码(或 Console 当作原型工具)写出来的
- 不是托管 LLM API。你把任务给 WebAgent,它替你挑模型并按 credits 计费
三种产品形态:Console / OpenAPI / SDK
这些 API 都通过同一组三种形态对外提供,三者能力 1:1 等价、共享同一份资源面 / 事件流 / 计费:
| 你用 …… | 来做 …… |
|---|---|
| REST API(OpenAPI) | 任何事。Console 与 SDK 都只是它的客户端。api.web-agent.asix.inc/v1/... + Authorization: Bearer wa_... |
| Python / TypeScript SDK | 同样的 API,更地道的类型 + 重试 + 流式 + wait_for_done |
| Console | 可视化原型;非开发者也能用;Get Code 对话框直接给可运行片段 |
API 开发者优先——产品本质是一组 API;Console 是便利层,不是独立产品形态;不给 Console 特权端点。
心智模型
Session (一个容器;持有浏览器、profile、workspace)
└── Task #1 status: completed (一条 instruction;生命周期 7 态)
└── Task #2 status: running (在同 session 里追加一条 instruction)
└── events: SSE 流 (status_changed, message, action.*, screenshot, …)Session 持有运行时资源(浏览器、profile、workspace)。每个 task 是一条 instruction;同一 session 里追加 task 会共享前一条 task 留下的状态。Task 有 7 个状态:pending / running / awaiting_input / paused / done / failed / canceled,详见 Sessions 与 Tasks。
Standalone API(DeepResearch)走 task 资源面但不暴露 session——一次性产出,不需要跨 task 复用浏览器状态。
接下来读哪
- Quickstart —— 5 分钟从注册到看到第一个 SSE 事件
- 鉴权与 API key ——
wa_key 怎么用、怎么轮换 - Sessions 与 Tasks —— 核心资源模型