browser-use

SKILL.md

Browser-Use 浏览器自动化

何时用 Browser-Use vs 内置 browser tool

场景 内置 tool Browser-Use
截图/看页面/点一个按钮 ✅ 免费快 ❌ 杀鸡用牛刀
5步以上流程(登录→导航→填表→提交) ❌ 容易断
需要反检测(真Chrome)
批量重复操作

代价:Browser-Use 每步调一次外部 LLM(花钱+慢),简单操作用内置 tool。

执行流程

1. 检查环境

test -d ~/browser-use-env && echo "已安装" || echo "需要安装"

2. 首次安装(仅一次)

python3 -m venv ~/browser-use-env
source ~/browser-use-env/bin/activate
pip install browser-use playwright langchain-openai
playwright install chromium

3. 决定模式

  • 简单场景 / 不怕被检测:用内置 Chromium(模式A),直接跑
  • 需要反检测 / 用户已有登录态:连真 Chrome(模式B),需用户配合

模式B前置步骤——提示用户:

请先完全退出 Chrome(Mac: Cmd+Q),然后告诉我"关了"

用户确认后执行:

/Applications/Google\ Chrome.app/Contents/MacOS/Google\ Chrome --remote-debugging-port=9222 &
# Windows: "C:\Program Files\Google\Chrome\Application\chrome.exe" --remote-debugging-port=9222
# Linux: google-chrome --remote-debugging-port=9222 &

验证:curl -s http://127.0.0.1:9222/json/version

4. 写脚本并运行

脚本写到用户 workspace 下,然后:

source ~/browser-use-env/bin/activate
python3 脚本路径.py

5. 反馈结果

运行完把结果发给用户,失败则按故障决策树处理。

脚本模板

import asyncio
from browser_use import Agent, ChatOpenAI, Browser

async def main():
    # LLM — 任何 OpenAI 兼容 API 均可
    llm = ChatOpenAI(
        model="gpt-4o-mini",
        api_key="<YOUR_API_KEY>",
        base_url="https://api.openai.com/v1",  # 或其他兼容端点
    )

    # 模式A: 内置 Chromium
    browser = Browser(headless=False, user_data_dir="~/.browser-use/任务名-profile")
    # 模式B: 连真 Chrome
    # browser = Browser(cdp_url="http://127.0.0.1:9222")

    agent = Agent(
        task="详细的任务描述(见下方写法指南)",
        llm=llm,
        browser=browser,
        use_vision=True,
        max_steps=25,
    )
    result = await agent.run()
    print(result)

asyncio.run(main())

Task 写法指南(关键!)

✅ 好的写法:具体分步

task = """
1. 打开 https://www.reddit.com/login
2. 输入用户名: x_user
3. 输入密码: x_pass
4. 点击登录按钮
5. 如果遇到 CAPTCHA,等待30秒让用户手动完成
6. 登录成功后,导航到 https://www.reddit.com/r/xxx/submit
7. 在标题框输入: xxx
8. 在正文框输入: xxx
9. 点击发布按钮
"""

❌ 坏的写法:模糊笼统

task = "去Reddit发个帖子"

进阶技巧

  • 键盘导航兜底:task里加 "如果按钮点不了,用 Tab+Enter 键盘导航"
  • 错误恢复:加 "如果页面加载失败,刷新重试"
  • 敏感数据:用占位符 + sensitive_data 参数,密码不暴露给LLM

敏感数据处理

agent = Agent(
    task="登录网站,用户名 x_user,密码 x_pass",
    sensitive_data={"x_user": "真实用户名", "x_pass": "真实密码"},
    use_vision=False,  # 关闭截图防止LLM看到密码
    llm=llm, browser=browser,
)

关键参数速查

参数 说明 推荐
use_vision AI看截图 一般True,有密码时False
max_steps 最大步数 20-30
max_failures 最大重试 3(默认)
flash_mode 快速模式(跳过思考) 简单任务True
extend_system_message 追加系统提示 加特定指令
allowed_domains 限制访问域名 安全场景用
fallback_llm 备用LLM 主LLM不稳时设

故障决策树

被网站检测为自动化?
  └→ 换模式B连真Chrome

CAPTCHA人机验证?
  └→ 提示用户手动完成,task里写等待时间

LLM调用超时?
  └→ 设 fallback_llm 或换更快的模型

操作了但没效果(如帖子没发出)?
  └→ 1. 检查是否被平台反垃圾拦截(新账号常见)
     2. task里加更具体的确认步骤

网站UI变化导致找不到元素?
  └→ Browser-Use能自适应,但可在task里加备选路径

LLM兼容性

LLM 兼容 备注
GPT-4o / 4o-mini 最佳,推荐
Claude 好用
Gemini 结构化输出不兼容
Weekly Installs
7
GitHub Stars
3
First Seen
5 days ago
Installed on
opencode7
gemini-cli7
github-copilot7
codex7
amp7
cline7