智能体

会操作电脑的 Agent:它真能替我点外卖吗?

2024 年 10 月 25 日 约 1694 字 · 5 分钟 智能体
会操作电脑的 Agent:它真能替我点外卖吗?

下班路上突然想清楚的,赶紧记一下。

这几天我的朋友圈又炸了:Anthropic 放出了一个叫 computer use 的能力,演示视频里,模型自己截了张屏、把鼠标挪到了浏览器的搜索框、噼里啪啦敲了一串字,然后真的点了搜索按钮。

弹幕清一色都是「以后点外卖、订机票、填报销,全交给它了!」。作为一个被各种「全自动」吹嘘伤害过太多次的人,我先把激动的心摁下去,咱认真捋一捋:这玩意儿到底是真本事,还是又一场会翻车的魔术。

它跟以前的「自动化」差在哪

先说人话。过去我们让程序操作软件,靠的是接口——你得有个 API,或者写脚本去对准某个按钮的坐标、某个输入框的 id。本质上是「程序跟程序对暗号」,对方稍微改个版、挪个按钮,你的脚本当场表演原地爆炸。

computer use 走的是另一条路:它跟人看的是同一块屏幕

flowchart LR
  A["截屏<br/>看现在屏幕长啥样"] --> B["思考<br/>下一步该点哪"]
  B --> C["操作<br/>挪鼠标 / 敲键盘 / 点击"]
  C --> D{"任务完成?"}
  D -- 没 --> A
  D -- 完成 --> E["交活儿"]

看出门道了吗?这就是个「看一眼—想一下—动一下手」的循环。它不需要你给它专门的接口,它直接用图形界面,跟你我盯着屏幕戳来戳去没本质区别。这意味着,理论上凡是人能用鼠标键盘干的事,它都有机会上手——这正是大家激动的源头。

那它真能替我点外卖吗

能,也不能。先看它真香的场景:

  • 重复、无聊、但路径固定的活:比如把一个老掉牙的内部系统里的数据一条条抄进 Excel,这种没 API、又烦人的破事,它不嫌累。
  • 跨软件的搬运工:从这个网页复制,到那个表格粘贴,中间还要切几次窗口。人干十遍想骂街,它干一百遍面不改色。
  • 允许你盯着的活:你在旁边看着,它跑偏了你随时叫停。

至于点外卖嘛……理论上它能帮你打开 App、搜「麻辣烫」、加购物车。但只要中间弹出一个「优惠券已过期」的弹窗、或者商家临时改了起送价,它就可能一脸自信地点了一份你根本不想要的套餐,还顺手帮你勾上了「不要餐具」——你说气不气。

翻车现场,提前预习

我对这类能力的一贯态度是:先想清楚它会怎么坏,再决定敢不敢用。computer use 的翻车,基本绕不开这几类。

flowchart TD
  A["界面变了<br/>按钮挪位 / 弹窗乱入"] --> X["点错地方"]
  B["看不准<br/>把灰色不可点当成能点"] --> X
  C["误差累积<br/>第一步偏一点,后面全歪"] --> X
  X --> Y["它毫不知情<br/>继续往下硬干"]
  Y --> Z["最后交出一份<br/>自信的错误结果"]

最要命的还是那句老话:它最大的风险不是「做不到」,而是「做错了还特别自信」。一个会停下来说「这步我不确定,要不你看看」的 Agent,比一个闷头把订单提交了的 Agent 让人省心一百倍。

而且别忘了,它看的是屏幕、动的是真鼠标,这意味着它能点的东西可一点不虚拟——它能点「确认付款」,也能点「全部删除」。把它放进一个能乱花钱、能删文件的环境里,风险是实打实的。

场景适合现在交给它吗为啥
抄数据、填表格比较稳路径固定,错了也好查
整理截图 / 归档文件还行即使错了,损失可控
自动付款 / 下单先别一旦点错,真金白银
改生产环境配置千万别翻车成本你扛不起

所以现在该怎么用

我的建议还是那句朴素的话:别指望它替你做决定,指望它替你跑腿,而且这阵子最好把它关在一个「乱来也不会出大事」的地方——比如一台干净的测试机、一个没绑银行卡的账号。让它干那些「做错了大不了重来」的活,关键的「确认」「付款」「删除」这种动作,留给你自己点。

computer use 确实是个挺让人兴奋的进展:模型第一次像模像样地学会了用我们每天都在用的图形界面。但它现在更像一个刚拿到驾照、方向感还不太行的新手司机——能开,但你坐副驾时手最好别离手刹太远。

至于让它真正放心地满世界跑腿,还差的那一环是什么,我心里大概有数,但那是另一个值得好好聊的话题了。


这一篇就到这里。