什么是 Gemini 2.5 Computer Use,它和普通 AI 有什么不一样?
普通 AI(比如你在聊天框里问问题的那种)只能"说"——它告诉你该怎么做,但不会真的去做。
Gemini 2.5 Computer Use 是 Google 推出的浏览器自动化专用 AI 模型,它多了一个能力:AI 自动操控网页——看到屏幕,然后亲自点击、输入、滚动。
工作原理很直观:把浏览器截图发给 AI,AI 分析画面后告诉你"下一步点哪里、输入什么",执行完再截图,如此循环,直到任务完成。
这就是零代码自动化的底层逻辑——你不需要写脚本,只需要用自然语言描述任务目标。
这个循环让 AI 能完成以前只有人或专用脚本才能做的事——打开网页、登录账号、填表单、抓数据……全自动搞定。
你用它能做哪些事?3 个真实场景
别担心太抽象,下面三个场景都是真实可用的。
场景一:自动填写网页表单
你每天要往系统里录入固定格式的数据——比如报销单、进货记录、客户信息。以前要手动一条条填,现在把表格丢给 AI,它自动打开网页、逐项填入、点击提交,你只需要最后确认一下。
场景二:跨网站批量收集信息
你想比较 5 个电商平台上同一款商品的价格。以前要逐一打开页面手动记录,现在让 AI 依次访问各平台、截图分析、整理成表格。十几个商品的比价,几分钟就能出结果。
场景三:Web 应用自动化测试
开发者上线新功能后,要测试登录流程、表单提交、页面跳转是否正常。以前手动点一遍要几十分钟,现在让 Gemini 2.5 Computer Use 自动走一遍,错误直接标出来,省下大量回归测试时间。
准备工作:30 秒拿到免费 API Key
整个准备过程只需要一个谷歌账号,不需要绑卡,不需要翻墙工具(海外节点即可)。
打开 Google AI Studio
在浏览器地址栏输入 aistudio.google.com,回车访问。
用谷歌账号登录
点击页面右上角的「Sign in」,用你的 Gmail 账号完成登录。没有账号的话先免费注册一个即可。
创建 API Key
登录后,点击左侧菜单的「Get API key」,再点击「Create API key」,选择「Create API key in new project」,等几秒钟即可生成。
免费额度非常够用:5 次/分钟,100 次/天,250K tokens/分钟,个人学习和小规模自动化任务完全免费。
跑出第一个 Computer Use 任务(curl 版,5 行代码)
下面用最简单的方式验证 API 能跑通——用命令行发一个请求,让 AI 告诉你"下一步该点哪里"。
打开终端(Mac/Linux 用 Terminal,Windows 用 PowerShell),把下面的代码粘贴进去,把 YOUR_API_KEY 替换成你刚才复制的 Key:
curl -X POST \
"https://generativelanguage.googleapis.com/v1beta/models/gemini-2.5-computer-use-preview-10-2025:generateContent?key=YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"contents": [{
"role": "user",
"parts": [{
"text": "请帮我打开 google.com,然后在搜索框输入「AI tools」并点击搜索按钮。请告诉我第一步应该执行什么操作,使用哪个动作指令。"
}]
}],
"generationConfig": {
"maxOutputTokens": 1024
}
}'
参数说明:
-X POST:发送 POST 请求models/gemini-2.5-computer-use-preview-10-2025:指定使用 Computer Use 专用模型key=YOUR_API_KEY:填入你的 API Key,放在 URL 参数里text:用自然语言描述你想完成的任务maxOutputTokens:限制返回内容长度,1024 足够一次操作说明
candidates[0].content.parts[0].text 字段里会包含 AI 的操作建议,例如:「第一步应执行 open_web_browser 动作,打开 https://google.com」。这说明 API 已经通了,可以开始搭建完整的自动化流程。13 种操作指令一览(收藏备用)
Gemini 2.5 Computer Use 支持 13 种标准操作指令,覆盖了浏览器 AI 自动操控所需的绝大多数场景。
| 分类 | 指令名称 | 作用说明 |
|---|---|---|
| 导航 | open_web_browser |
打开浏览器并访问指定 URL |
navigate |
在当前浏览器中跳转到新 URL | |
go_back |
返回上一页(等同于浏览器后退按钮) | |
go_forward |
前进到下一页(等同于浏览器前进按钮) | |
| 交互 | click_at |
在指定坐标位置点击 |
hover_at |
将鼠标悬停在指定位置(触发 hover 效果) | |
type_text_at |
在指定位置输入文本内容 | |
drag_and_drop |
从起点拖拽到终点(适合排序、拖放上传) | |
| 滚动 | scroll_document |
滚动整个页面(向上或向下) |
scroll_at |
在指定元素区域内滚动 | |
| 其他 | key_combination |
执行键盘组合键(如 Ctrl+C、Enter) |
wait_5_seconds |
等待 5 秒(等页面加载或动画完成时用) | |
search |
在当前页面执行搜索操作 |
