AI

多模态:当模型既能看图、又能听声、还能贫嘴

2024 年 05 月 16 日 约 1380 字 · 4 分钟 AI
多模态:当模型既能看图、又能听声、还能贫嘴

下班路上突然想清楚的,赶紧记一下。

前几天看 GPT-4o 的发布演示,有个画面我盯了好久:你把手机摄像头对着一道数学题,它一边「看」着你写,一边用接近真人的语气陪你聊、还时不时打个岔。那一刻我脑子里冒出来一句话——这家伙不再只是个会读字的书呆子了,它长出了五官。

以前的模型,是个只会读字的偏科生

回想一下早期那些大模型,它们的世界其实窄得可怜:只认得文字

你想让它看图?对不起,得先有人把图片人工描述成一段文字喂给它;你想让它听语音?也得先用另一个工具把声音转成文字。它就像一个听不见、看不见、只能靠别人写纸条沟通的偏科天才——脑子很好,但所有信息进出都得经过「翻译成文字」这道关卡。

这道关卡的问题在哪?信息一翻译就漏。 一张图里那个人「皱着眉、嘴角却在笑」的微妙表情,一段语音里那句话「说到一半突然停顿」的犹豫,转成文字之后全没了。你给它的,永远是被压扁过的二手信息。

多模态,就是让信息别再绕路

所谓多模态(Multimodal),核心思想朴素得很:别再把图片、声音先翻译成文字了,让模型直接『吃』原始的图像和声音。

flowchart LR
  subgraph 旧路子
    A1["图片"] --> B1["先转成文字描述"]
    A2["语音"] --> B2["先转成文字"]
    B1 --> C1["模型只读文字"]
    B2 --> C1
  end
  subgraph 多模态
    D1["图片"] --> E1["统一模型直接理解"]
    D2["语音"] --> E1
    D3["文字"] --> E1
    E1 --> F1["边看边听边回话"]
  end

差别就像「看翻译稿」和「亲临现场」。翻译稿告诉你「他说他很开心」,现场你能听见他声音在发抖、看见他眼眶是红的——同一句话,信息量差着十万八千里。

GPT-4o 这次最唬人的地方,就是把这事做到了「实时」:你说话它当场接,你给它看东西它当场反应,中间那种「转文字→处理→再合成」的卡顿被压没了,于是聊起来不像在敲命令,更像在和一个反应飞快的人对话

「五官齐全」之后能干嘛

举几个我立马想到就觉得有戏的场景:

场景单一文字模型多模态模型
拍张冰箱照片问做啥菜你得自己打字描述有啥它自己看,直接报菜名
对着报错截图求助你得手敲一长串日志截图甩过去,它读
陪你练口语只能纠正文字语法能听出你发音和语气
给视障朋友描述路况做不到摄像头一开,实时解说

你发现没,这些场景的共同点是——人本来就是用眼睛和耳朵活着的,而不是用键盘。 多模态做的事,本质上是让模型适应人的交互习惯,而不是反过来逼人去适应「只能打字」的机器。

别急着上头,泼两滴冷水

按惯例,我得收着点别吹过头。多模态再香,眼下也有几个坑要心里有数:

  • 会自信地看错:它把图看岔、把声听错的概率,可不比读文字时低。看走眼了照样给你一本正经地分析半天,错得理直气壮。
  • 贵且重:又听又看又实时,背后的算力开销不是小数目,落到实际产品里成本得算明白。
  • 「能贫嘴」不等于「懂分寸」:语气拟人是把双刃剑,聊得顺滑的时候很爽,可一旦它在不该俏皮的场合俏皮,那种尴尬也是实打实的。

但话说回来,方向是对的。从「只会读字」到「五官齐全」,这一步迈出去,模型和我们之间那块冷冰冰的玻璃,确实被敲掉了一角。

下次你对着手机摄像头问它「这是啥」,不妨多想一秒:它到底是真『看懂』了,还是又在拿一张看走眼的图,给你绘声绘色地编故事。


断断续续写完的,可能有跳跃。