AI 帮你自动操控电脑——Gemini 2.5 Computer Use 保姆级入门教程（2026最新版）

什么是 Gemini 2.5 Computer Use，它和普通 AI 有什么不一样？

普通 AI（比如你在聊天框里问问题的那种）只能"说"——它告诉你该怎么做，但不会真的去做。

Gemini 2.5 Computer Use 是 Google 推出的浏览器自动化专用 AI 模型，它多了一个能力：AI 自动操控网页——看到屏幕，然后亲自点击、输入、滚动。

工作原理很直观：把浏览器截图发给 AI，AI 分析画面后告诉你"下一步点哪里、输入什么"，执行完再截图，如此循环，直到任务完成。

这就是零代码自动化的底层逻辑——你不需要写脚本，只需要用自然语言描述任务目标。

Gemini 2.5 Computer Use 工作循环

graph LR A["📸 截图\n浏览器当前画面"] --> B["🤖 AI 分析\nGemini 2.5 理解屏幕内容"] B --> C["📋 发出指令\n点击/输入/滚动"] C --> D["⚙️ 执行操作\n浏览器响应动作"] D --> E{"任务完成？"} E -- 否 --> A E -- 是 --> F["✅ 输出结果"] style A fill:#EFF6FF,stroke:#2563EB,color:#1D4ED8 style B fill:#EFF6FF,stroke:#2563EB,color:#1D4ED8 style C fill:#EFF6FF,stroke:#2563EB,color:#1D4ED8 style D fill:#EFF6FF,stroke:#2563EB,color:#1D4ED8 style E fill:#FFFBEB,stroke:#D97706,color:#92400E style F fill:#F0FDF4,stroke:#16A34A,color:#166534

这个循环让 AI 能完成以前只有人或专用脚本才能做的事——打开网页、登录账号、填表单、抓数据……全自动搞定。

你用它能做哪些事？3 个真实场景

别担心太抽象，下面三个场景都是真实可用的。

场景一：自动填写网页表单

你每天要往系统里录入固定格式的数据——比如报销单、进货记录、客户信息。以前要手动一条条填，现在把表格丢给 AI，它自动打开网页、逐项填入、点击提交，你只需要最后确认一下。

场景二：跨网站批量收集信息

你想比较 5 个电商平台上同一款商品的价格。以前要逐一打开页面手动记录，现在让 AI 依次访问各平台、截图分析、整理成表格。十几个商品的比价，几分钟就能出结果。

场景三：Web 应用自动化测试

开发者上线新功能后，要测试登录流程、表单提交、页面跳转是否正常。以前手动点一遍要几十分钟，现在让 Gemini 2.5 Computer Use 自动走一遍，错误直接标出来，省下大量回归测试时间。

准备工作：30 秒拿到免费 API Key

整个准备过程只需要一个谷歌账号，不需要绑卡，不需要翻墙工具（海外节点即可）。

打开 Google AI Studio

在浏览器地址栏输入 aistudio.google.com，回车访问。

用谷歌账号登录

点击页面右上角的「Sign in」，用你的 Gmail 账号完成登录。没有账号的话先免费注册一个即可。

创建 API Key

登录后，点击左侧菜单的「Get API key」，再点击「Create API key」，选择「Create API key in new project」，等几秒钟即可生成。

ℹ️

此时你应该看到一串以 AIza 开头的字符串——这就是你的 API Key。点击旁边的复制图标，妥善保存，不要泄露给他人。

💡

国内访问提示：aistudio.google.com 需要海外节点才能访问。建议使用稳定的代理工具，全程保持连接。API Key 拿到后，后续 API 调用同样需要海外节点。

免费额度非常够用：5 次/分钟，100 次/天，250K tokens/分钟，个人学习和小规模自动化任务完全免费。

跑出第一个 Computer Use 任务（curl 版，5 行代码）

下面用最简单的方式验证 API 能跑通——用命令行发一个请求，让 AI 告诉你"下一步该点哪里"。

打开终端（Mac/Linux 用 Terminal，Windows 用 PowerShell），把下面的代码粘贴进去，把 YOUR_API_KEY 替换成你刚才复制的 Key：

curl -X POST \
  "https://generativelanguage.googleapis.com/v1beta/models/gemini-2.5-computer-use-preview-10-2025:generateContent?key=YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{
      "role": "user",
      "parts": [{
        "text": "请帮我打开 google.com，然后在搜索框输入「AI tools」并点击搜索按钮。请告诉我第一步应该执行什么操作，使用哪个动作指令。"
      }]
    }],
    "generationConfig": {
      "maxOutputTokens": 1024
    }
  }'

参数说明：

-X POST：发送 POST 请求
models/gemini-2.5-computer-use-preview-10-2025：指定使用 Computer Use 专用模型
key=YOUR_API_KEY：填入你的 API Key，放在 URL 参数里
text：用自然语言描述你想完成的任务
maxOutputTokens：限制返回内容长度，1024 足够一次操作说明

ℹ️

正常返回格式是一段 JSON，其中 candidates[0].content.parts[0].text 字段里会包含 AI 的操作建议，例如：「第一步应执行 open_web_browser 动作，打开 https://google.com」。这说明 API 已经通了，可以开始搭建完整的自动化流程。

⚠️

注意：Gemini 2.5 Computer Use 目前是预览版（Preview），模型行为可能出现偏差或错误。不建议用于涉及真实资金、敏感账号、重要数据的操作。测试任务先在无关紧要的页面上跑。

13 种操作指令一览（收藏备用）

Gemini 2.5 Computer Use 支持 13 种标准操作指令，覆盖了浏览器 AI 自动操控所需的绝大多数场景。

分类	指令名称	作用说明
导航	`open_web_browser`	打开浏览器并访问指定 URL
	`navigate`	在当前浏览器中跳转到新 URL
	`go_back`	返回上一页（等同于浏览器后退按钮）
	`go_forward`	前进到下一页（等同于浏览器前进按钮）
交互	`click_at`	在指定坐标位置点击
	`hover_at`	将鼠标悬停在指定位置（触发 hover 效果）
	`type_text_at`	在指定位置输入文本内容
	`drag_and_drop`	从起点拖拽到终点（适合排序、拖放上传）
滚动	`scroll_document`	滚动整个页面（向上或向下）
滚动	`scroll_at`	在指定元素区域内滚动
其他	`key_combination`	执行键盘组合键（如 Ctrl+C、Enter）
	`wait_5_seconds`	等待 5 秒（等页面加载或动画完成时用）
	`search`	在当前页面执行搜索操作

💡

实际使用中，AI 会根据任务描述自动选择合适的指令组合，你不需要手动指定每一步用哪个指令。这张表主要用于排查问题时确认 AI 是否使用了正确的动作类型。

常见问题 FAQ

国内用户能用 Gemini 2.5 Computer Use 吗？

可以用，但需要稳定的海外节点。访问 aistudio.google.com 申请 API Key，以及后续调用 API，都需要保持海外节点连接。API Key 本身不绑定地区，所以拿到 Key 之后，只要网络通，就可以正常调用。

免费额度够用吗？有没有隐藏费用？

对于个人学习和小规模自动化，免费额度完全够用：每分钟 5 次调用、每天 100 次、每分钟 250K tokens，无需绑卡。如果是企业级高频调用，可以在 Google Cloud 控制台开通付费套餐，按量计费，不存在隐藏费用。

Gemini 2.5 Computer Use 和 GPT 的 Computer Use 有什么区别？

两者思路相近，都是"截图→AI分析→执行操作"的循环。差异主要在三点：①模型底座不同，Gemini 基于 Google 自研多模态架构；②指令集不同，Gemini 提供 13 种标准化动作，而 Anthropic 的 Computer Use 工具粒度更细；③生态不同，Gemini 与 Google Workspace、Android 的集成更紧密。综合来看，目前 Gemini 免费额度更慷慨，适合入门体验。

预览版什么时候转正式版？

Google 没有公布确切时间表。从历史经验看，Gemini 预览版通常在 3-6 个月内进入正式版或合并到主线模型。当前版本（gemini-2.5-computer-use-preview-10-2025）在正式废弃前 Google 会提前通知并提供迁移说明。建议关注 Google AI Studio 的官方公告。

下一步：延伸阅读

📚 继续探索 Gemini 生态

手把手教你免费用上 Gemini 3.1 Pro — 从零开始申请 Gemini 3.1 Pro 访问权限，了解多模态能力和免费使用技巧。
免费用上谷歌 AI 编程助手！Gemini CLI 保姆级入门教程 — 在终端里直接调用 Gemini，用自然语言完成代码生成、文件处理、命令行自动化。