会操作电脑的 Agent:它真能替我点外卖吗?

下班路上突然想清楚的,赶紧记一下。
这几天我的朋友圈又炸了:Anthropic 放出了一个叫 computer use 的能力,演示视频里,模型自己截了张屏、把鼠标挪到了浏览器的搜索框、噼里啪啦敲了一串字,然后真的点了搜索按钮。
弹幕清一色都是「以后点外卖、订机票、填报销,全交给它了!」。作为一个被各种「全自动」吹嘘伤害过太多次的人,我先把激动的心摁下去,咱认真捋一捋:这玩意儿到底是真本事,还是又一场会翻车的魔术。
它跟以前的「自动化」差在哪
先说人话。过去我们让程序操作软件,靠的是接口——你得有个 API,或者写脚本去对准某个按钮的坐标、某个输入框的 id。本质上是「程序跟程序对暗号」,对方稍微改个版、挪个按钮,你的脚本当场表演原地爆炸。
computer use 走的是另一条路:它跟人看的是同一块屏幕。
flowchart LR
A["截屏<br/>看现在屏幕长啥样"] --> B["思考<br/>下一步该点哪"]
B --> C["操作<br/>挪鼠标 / 敲键盘 / 点击"]
C --> D{"任务完成?"}
D -- 没 --> A
D -- 完成 --> E["交活儿"]
看出门道了吗?这就是个「看一眼—想一下—动一下手」的循环。它不需要你给它专门的接口,它直接用图形界面,跟你我盯着屏幕戳来戳去没本质区别。这意味着,理论上凡是人能用鼠标键盘干的事,它都有机会上手——这正是大家激动的源头。
那它真能替我点外卖吗
能,也不能。先看它真香的场景:
- 重复、无聊、但路径固定的活:比如把一个老掉牙的内部系统里的数据一条条抄进 Excel,这种没 API、又烦人的破事,它不嫌累。
- 跨软件的搬运工:从这个网页复制,到那个表格粘贴,中间还要切几次窗口。人干十遍想骂街,它干一百遍面不改色。
- 允许你盯着的活:你在旁边看着,它跑偏了你随时叫停。
至于点外卖嘛……理论上它能帮你打开 App、搜「麻辣烫」、加购物车。但只要中间弹出一个「优惠券已过期」的弹窗、或者商家临时改了起送价,它就可能一脸自信地点了一份你根本不想要的套餐,还顺手帮你勾上了「不要餐具」——你说气不气。
翻车现场,提前预习
我对这类能力的一贯态度是:先想清楚它会怎么坏,再决定敢不敢用。computer use 的翻车,基本绕不开这几类。
flowchart TD
A["界面变了<br/>按钮挪位 / 弹窗乱入"] --> X["点错地方"]
B["看不准<br/>把灰色不可点当成能点"] --> X
C["误差累积<br/>第一步偏一点,后面全歪"] --> X
X --> Y["它毫不知情<br/>继续往下硬干"]
Y --> Z["最后交出一份<br/>自信的错误结果"]
最要命的还是那句老话:它最大的风险不是「做不到」,而是「做错了还特别自信」。一个会停下来说「这步我不确定,要不你看看」的 Agent,比一个闷头把订单提交了的 Agent 让人省心一百倍。
而且别忘了,它看的是屏幕、动的是真鼠标,这意味着它能点的东西可一点不虚拟——它能点「确认付款」,也能点「全部删除」。把它放进一个能乱花钱、能删文件的环境里,风险是实打实的。
| 场景 | 适合现在交给它吗 | 为啥 |
|---|---|---|
| 抄数据、填表格 | 比较稳 | 路径固定,错了也好查 |
| 整理截图 / 归档文件 | 还行 | 即使错了,损失可控 |
| 自动付款 / 下单 | 先别 | 一旦点错,真金白银 |
| 改生产环境配置 | 千万别 | 翻车成本你扛不起 |
所以现在该怎么用
我的建议还是那句朴素的话:别指望它替你做决定,指望它替你跑腿,而且这阵子最好把它关在一个「乱来也不会出大事」的地方——比如一台干净的测试机、一个没绑银行卡的账号。让它干那些「做错了大不了重来」的活,关键的「确认」「付款」「删除」这种动作,留给你自己点。
computer use 确实是个挺让人兴奋的进展:模型第一次像模像样地学会了用我们每天都在用的图形界面。但它现在更像一个刚拿到驾照、方向感还不太行的新手司机——能开,但你坐副驾时手最好别离手刹太远。
至于让它真正放心地满世界跑腿,还差的那一环是什么,我心里大概有数,但那是另一个值得好好聊的话题了。
这一篇就到这里。
原文链接:https://a.minifog.org.cn/2024/10/25/computer-use-agent/