AI工具教程2026年4月22日

AI 帮你自动操控电脑——Gemini 2.5 Computer Use 保姆级入门教程(2026最新版)

读完本文你能做到:拿到 Gemini 2.5 Computer Use 的免费 API Key,理解 AI 是怎么"看屏幕→点鼠标"的,并动手跑出第一个浏览器自动化任务。前置条件:一个谷歌账号。

#Gemini#Computer Use#浏览器自动化#Google AI Studio#AI自动操控
AI 帮你自动操控电脑——Gemini 2.5 Computer Use 保姆级入门教程(2026最新版)
Gemini 2.5 Computer Use 浏览器自动化入门教程

什么是 Gemini 2.5 Computer Use,它和普通 AI 有什么不一样?

普通 AI(比如你在聊天框里问问题的那种)只能"说"——它告诉你该怎么做,但不会真的去做。

Gemini 2.5 Computer Use 是 Google 推出的浏览器自动化专用 AI 模型,它多了一个能力:AI 自动操控网页——看到屏幕,然后亲自点击、输入、滚动。

工作原理很直观:把浏览器截图发给 AI,AI 分析画面后告诉你"下一步点哪里、输入什么",执行完再截图,如此循环,直到任务完成。

这就是零代码自动化的底层逻辑——你不需要写脚本,只需要用自然语言描述任务目标。

Gemini 2.5 Computer Use 工作循环
graph LR A["📸 截图\n浏览器当前画面"] --> B["🤖 AI 分析\nGemini 2.5 理解屏幕内容"] B --> C["📋 发出指令\n点击/输入/滚动"] C --> D["⚙️ 执行操作\n浏览器响应动作"] D --> E{"任务完成?"} E -- 否 --> A E -- 是 --> F["✅ 输出结果"] style A fill:#EFF6FF,stroke:#2563EB,color:#1D4ED8 style B fill:#EFF6FF,stroke:#2563EB,color:#1D4ED8 style C fill:#EFF6FF,stroke:#2563EB,color:#1D4ED8 style D fill:#EFF6FF,stroke:#2563EB,color:#1D4ED8 style E fill:#FFFBEB,stroke:#D97706,color:#92400E style F fill:#F0FDF4,stroke:#16A34A,color:#166534

这个循环让 AI 能完成以前只有人或专用脚本才能做的事——打开网页、登录账号、填表单、抓数据……全自动搞定。

你用它能做哪些事?3 个真实场景

别担心太抽象,下面三个场景都是真实可用的。

场景一:自动填写网页表单

你每天要往系统里录入固定格式的数据——比如报销单、进货记录、客户信息。以前要手动一条条填,现在把表格丢给 AI,它自动打开网页、逐项填入、点击提交,你只需要最后确认一下。

场景二:跨网站批量收集信息

你想比较 5 个电商平台上同一款商品的价格。以前要逐一打开页面手动记录,现在让 AI 依次访问各平台、截图分析、整理成表格。十几个商品的比价,几分钟就能出结果。

场景三:Web 应用自动化测试

开发者上线新功能后,要测试登录流程、表单提交、页面跳转是否正常。以前手动点一遍要几十分钟,现在让 Gemini 2.5 Computer Use 自动走一遍,错误直接标出来,省下大量回归测试时间。

准备工作:30 秒拿到免费 API Key

整个准备过程只需要一个谷歌账号,不需要绑卡,不需要翻墙工具(海外节点即可)。

1

打开 Google AI Studio

在浏览器地址栏输入 aistudio.google.com,回车访问。

2

用谷歌账号登录

点击页面右上角的「Sign in」,用你的 Gmail 账号完成登录。没有账号的话先免费注册一个即可。

3

创建 API Key

登录后,点击左侧菜单的「Get API key」,再点击「Create API key」,选择「Create API key in new project」,等几秒钟即可生成。

ℹ️
此时你应该看到一串以 AIza 开头的字符串——这就是你的 API Key。点击旁边的复制图标,妥善保存,不要泄露给他人。
💡
国内访问提示:aistudio.google.com 需要海外节点才能访问。建议使用稳定的代理工具,全程保持连接。API Key 拿到后,后续 API 调用同样需要海外节点。

免费额度非常够用:5 次/分钟,100 次/天,250K tokens/分钟,个人学习和小规模自动化任务完全免费。

跑出第一个 Computer Use 任务(curl 版,5 行代码)

下面用最简单的方式验证 API 能跑通——用命令行发一个请求,让 AI 告诉你"下一步该点哪里"。

打开终端(Mac/Linux 用 Terminal,Windows 用 PowerShell),把下面的代码粘贴进去,把 YOUR_API_KEY 替换成你刚才复制的 Key:

curl -X POST \
  "https://generativelanguage.googleapis.com/v1beta/models/gemini-2.5-computer-use-preview-10-2025:generateContent?key=YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{
      "role": "user",
      "parts": [{
        "text": "请帮我打开 google.com,然后在搜索框输入「AI tools」并点击搜索按钮。请告诉我第一步应该执行什么操作,使用哪个动作指令。"
      }]
    }],
    "generationConfig": {
      "maxOutputTokens": 1024
    }
  }'

参数说明:

  • -X POST:发送 POST 请求
  • models/gemini-2.5-computer-use-preview-10-2025:指定使用 Computer Use 专用模型
  • key=YOUR_API_KEY:填入你的 API Key,放在 URL 参数里
  • text:用自然语言描述你想完成的任务
  • maxOutputTokens:限制返回内容长度,1024 足够一次操作说明
ℹ️
正常返回格式是一段 JSON,其中 candidates[0].content.parts[0].text 字段里会包含 AI 的操作建议,例如:「第一步应执行 open_web_browser 动作,打开 https://google.com」。这说明 API 已经通了,可以开始搭建完整的自动化流程。
⚠️
注意:Gemini 2.5 Computer Use 目前是预览版(Preview),模型行为可能出现偏差或错误。不建议用于涉及真实资金、敏感账号、重要数据的操作。测试任务先在无关紧要的页面上跑。

13 种操作指令一览(收藏备用)

Gemini 2.5 Computer Use 支持 13 种标准操作指令,覆盖了浏览器 AI 自动操控所需的绝大多数场景。

分类 指令名称 作用说明
导航 open_web_browser 打开浏览器并访问指定 URL
navigate 在当前浏览器中跳转到新 URL
go_back 返回上一页(等同于浏览器后退按钮)
go_forward 前进到下一页(等同于浏览器前进按钮)
交互 click_at 在指定坐标位置点击
hover_at 将鼠标悬停在指定位置(触发 hover 效果)
type_text_at 在指定位置输入文本内容
drag_and_drop 从起点拖拽到终点(适合排序、拖放上传)
滚动 scroll_document 滚动整个页面(向上或向下)
scroll_at 在指定元素区域内滚动
其他 key_combination 执行键盘组合键(如 Ctrl+C、Enter)
wait_5_seconds 等待 5 秒(等页面加载或动画完成时用)
search 在当前页面执行搜索操作
💡
实际使用中,AI 会根据任务描述自动选择合适的指令组合,你不需要手动指定每一步用哪个指令。这张表主要用于排查问题时确认 AI 是否使用了正确的动作类型。

常见问题 FAQ

国内用户能用 Gemini 2.5 Computer Use 吗?
可以用,但需要稳定的海外节点。访问 aistudio.google.com 申请 API Key,以及后续调用 API,都需要保持海外节点连接。API Key 本身不绑定地区,所以拿到 Key 之后,只要网络通,就可以正常调用。
免费额度够用吗?有没有隐藏费用?
对于个人学习和小规模自动化,免费额度完全够用:每分钟 5 次调用、每天 100 次、每分钟 250K tokens,无需绑卡。如果是企业级高频调用,可以在 Google Cloud 控制台开通付费套餐,按量计费,不存在隐藏费用。
Gemini 2.5 Computer Use 和 GPT 的 Computer Use 有什么区别?
两者思路相近,都是"截图→AI分析→执行操作"的循环。差异主要在三点:①模型底座不同,Gemini 基于 Google 自研多模态架构;②指令集不同,Gemini 提供 13 种标准化动作,而 Anthropic 的 Computer Use 工具粒度更细;③生态不同,Gemini 与 Google Workspace、Android 的集成更紧密。综合来看,目前 Gemini 免费额度更慷慨,适合入门体验。
预览版什么时候转正式版?
Google 没有公布确切时间表。从历史经验看,Gemini 预览版通常在 3-6 个月内进入正式版或合并到主线模型。当前版本(gemini-2.5-computer-use-preview-10-2025)在正式废弃前 Google 会提前通知并提供迁移说明。建议关注 Google AI Studio 的官方公告。

下一步:延伸阅读

📚 继续探索 Gemini 生态

← 返回文章列表AI工具教程