AI

蒸馏与小模型:为什么「越做越小」反而成了趋势

2025 年 02 月 08 日 约 1557 字 · 4 分钟 AI
蒸馏与小模型:为什么「越做越小」反而成了趋势

积压在草稿里很久了,发出来。

这阵子 AI 圈最热的词,从「谁家模型更大」悄悄换成了「谁家模型更便宜」。DeepSeek 上个月那一波,直接把「低成本」和「小模型」推到了聚光灯下,连带着一个略显技术的词也跟着出圈了——蒸馏(Distillation)

过去几年大家信奉的是「大力出奇迹」,参数越堆越多,仿佛越大就越聪明。怎么这阵子风向变了,开始比谁能「越做越小」了?今天咱就把蒸馏这事讲透。

一个比喻:名师把套路喂给学生

蒸馏听着玄乎,其实你上学时天天经历。

想象有位学识渊博的老教授(这就是「大模型」,也叫教师模型)。他什么都懂,但有个毛病:贵、慢,请他答一道题成本高得吓人。

于是学校安排了个机灵的学生(这就是「小模型」,也叫学生模型)跟在他身边。学生不去硬啃教授读过的那一整座图书馆,而是专盯着教授怎么解题——看他面对一道题,是怎么权衡、怎么取舍、最后给出怎样的判断。学生把这套「思路」学到手,慢慢地,常见的题他答得跟教授八九不离十,可他又快又便宜

这就是蒸馏:不让小模型从零自学,而是让它直接模仿大模型的输出和判断,把大模型肚子里的本事「提炼」一份精简版出来。

flowchart LR
  T["大模型<br/>教师:懂得多但贵又慢"] --> O["产出大量<br/>解题示范"]
  O --> S["小模型<br/>学生:模仿教师的判断"]
  S --> R["又快又便宜<br/>常见题答得八九不离十"]

为啥「学套路」比「自己啃」强

你可能会问:那小模型自己学不行吗,干嘛非要抄教授的?

关键在于,大模型的输出里藏着比标准答案丰富得多的信息。普通训练好比只告诉学生「这题选 C」;而蒸馏是让教授把「我觉得 C 的可能性 80%、B 也有 15%、A 基本排除」这套权衡的分寸一并展示出来。学生学到的不只是答案,更是那份判断的火候——这恰恰是自己闷头刷题最难悟到的东西。

flowchart TD
  A["普通训练<br/>只给标准答案"] --> B["学生只知道<br/>对错"]
  C["蒸馏<br/>给出教师的完整判断"] --> D["学生学到<br/>取舍的分寸"]
  D --> E["同样大小<br/>表现更好"]

所以蒸馏出来的小模型,常常比「同样大小、自己硬学」的小模型聪明不少——它站在了教授的肩膀上。

小模型凭啥成了趋势

把账摆开看,「越做越小」的诱惑实在太大:

维度大模型蒸馏出的小模型
跑起来的成本贵,烧钱便宜,省一大截
速度慢,得等快,体感顺滑
部署得上大集群有机会塞进单卡、甚至端侧
常见任务表现够用,差距没想象中大

说白了,大多数真实场景根本用不上一个无所不知的教授。你只是想让它帮你改个错别字、归个类、答个常见问题——这种活,请那位又贵又慢的老教授,纯属杀鸡用牛刀。一个学了套路、反应飞快的好学生,性价比高到离谱。

DeepSeek 这波之所以这么刺激,正是把这件事摆上了台面:原来不靠堆到天价的算力,靠把已有的好模型蒸馏精炼,也能做出又便宜又能打的东西。这等于把「玩得起 AI」的门槛往下拽了一大截。

当然,也别神化它

蒸馏不是魔法,它有天花板:学生再机灵,本事的上限通常压在老师头上。教授没见过的偏门怪题,学生大概率也抓瞎;教授要是教错了,学生还会一本正经地把错的学得有模有样。指望蒸馏出一个全面超越原版的小模型,多半是想美了。

但话说回来,技术的进步从来不只是「做得更强」,很多时候是「让强大变得人人用得起」。蒸馏干的正是后一件事——它把顶尖模型的本事,打包成普通人也消费得起的版本。

蒸馏这把火,烧出来的还有一个更大的问题:当好东西能被这么轻松地「提炼」走,那些花大价钱训出顶尖大模型的玩家,护城河还剩多少?这就够单开一篇好好算算了。