让 AI 操作浏览器:截图、填表、点按钮——网页操作的终极自动化。

An image to describe post


为什么需要浏览器自动化?

想象这些场景:

场景 1:每天查看数据
每天早上登录后台,查看昨日数据,截图保存。

场景 2:自动填表
填写重复性表单,每次 20 分钟。

场景 3:监控网站变化
监控竞争对手价格,有变化时通知。

场景 4:自动化测试
每次部署后,手动点击测试流程。

OpenClaw 的浏览器工具能帮你自动化所有这些操作。


浏览器工具简介

OpenClaw 内置了 browser 工具,让 AI 能控制浏览器:

┌─────────────────────────────────────────────┐
│  你的指令:"打开 example.com,截图"          │
│                      ↓                      │
│           ┌─────────────────┐               │
│           │   OpenClaw AI   │               │
│           └────────┬────────┘               │
│                    ↓                        │
│           ┌─────────────────┐               │
│           │  browser 工具   │               │
│           │  - navigate     │               │
│           │  - screenshot   │               │
│           │  - click/type   │               │
│           └────────┬────────┘               │
│                    ↓                        │
│           ┌─────────────────┐               │
│           │  浏览器实例      │               │
│           │  (Chromium)     │               │
│           └─────────────────┘               │
└─────────────────────────────────────────────┘

基本操作

1. 导航到网页

你:打开 https://news.ycombinator.com

AI:正在打开 Hacker News...
(调用 browser navigate)

✓ 已加载 https://news.ycombinator.com
页面标题:Hacker News

2. 截图

你:截图保存到桌面

AI:正在截图...
(调用 browser screenshot)

✓ 截图已保存:~/Desktop/screenshot_2025-01-20.png

3. 获取页面信息

你:这个页面有什么内容?

AI:正在分析页面...
(调用 browser snapshot)

页面结构:
- 标题:Hacker News
- 主要内容:30 条新闻
- 导航栏:new, past, comments, ask, show, jobs
- 第一条新闻:"Show HN: I built..."

4. 点击元素

你:点击第一条新闻的标题

AI:正在点击...
(调用 browser click)

✓ 已点击,页面导航到文章详情

5. 输入文字

你:在搜索框输入 "OpenClaw"

AI:正在输入...
(调用 browser type)

✓ 已输入 "OpenClaw"