蒸馏与小模型：为什么「越做越小」反而成了趋势

积压在草稿里很久了，发出来。

这阵子 AI 圈最热的词，从「谁家模型更大」悄悄换成了「谁家模型更便宜」。DeepSeek 上个月那一波，直接把「低成本」和「小模型」推到了聚光灯下，连带着一个略显技术的词也跟着出圈了——蒸馏（Distillation）。

过去几年大家信奉的是「大力出奇迹」，参数越堆越多，仿佛越大就越聪明。怎么这阵子风向变了，开始比谁能「越做越小」了？今天咱就把蒸馏这事讲透。

一个比喻：名师把套路喂给学生

蒸馏听着玄乎，其实你上学时天天经历。

想象有位学识渊博的老教授（这就是「大模型」，也叫教师模型）。他什么都懂，但有个毛病：贵、慢，请他答一道题成本高得吓人。

于是学校安排了个机灵的学生（这就是「小模型」，也叫学生模型）跟在他身边。学生不去硬啃教授读过的那一整座图书馆，而是专盯着教授怎么解题——看他面对一道题，是怎么权衡、怎么取舍、最后给出怎样的判断。学生把这套「思路」学到手，慢慢地，常见的题他答得跟教授八九不离十，可他又快又便宜。

这就是蒸馏：不让小模型从零自学，而是让它直接模仿大模型的输出和判断，把大模型肚子里的本事「提炼」一份精简版出来。

flowchart LR
  T["大模型<br/>教师：懂得多但贵又慢"] --> O["产出大量<br/>解题示范"]
  O --> S["小模型<br/>学生：模仿教师的判断"]
  S --> R["又快又便宜<br/>常见题答得八九不离十"]

为啥「学套路」比「自己啃」强

你可能会问：那小模型自己学不行吗，干嘛非要抄教授的？

关键在于，大模型的输出里藏着比标准答案丰富得多的信息。普通训练好比只告诉学生「这题选 C」；而蒸馏是让教授把「我觉得 C 的可能性 80%、B 也有 15%、A 基本排除」这套权衡的分寸一并展示出来。学生学到的不只是答案，更是那份判断的火候——这恰恰是自己闷头刷题最难悟到的东西。

flowchart TD
  A["普通训练<br/>只给标准答案"] --> B["学生只知道<br/>对错"]
  C["蒸馏<br/>给出教师的完整判断"] --> D["学生学到<br/>取舍的分寸"]
  D --> E["同样大小<br/>表现更好"]

所以蒸馏出来的小模型，常常比「同样大小、自己硬学」的小模型聪明不少——它站在了教授的肩膀上。

小模型凭啥成了趋势

把账摆开看，「越做越小」的诱惑实在太大：

维度	大模型	蒸馏出的小模型
跑起来的成本	贵，烧钱	便宜，省一大截
速度	慢，得等	快，体感顺滑
部署	得上大集群	有机会塞进单卡、甚至端侧
常见任务表现	强	够用，差距没想象中大

说白了，大多数真实场景根本用不上一个无所不知的教授。你只是想让它帮你改个错别字、归个类、答个常见问题——这种活，请那位又贵又慢的老教授，纯属杀鸡用牛刀。一个学了套路、反应飞快的好学生，性价比高到离谱。

DeepSeek 这波之所以这么刺激，正是把这件事摆上了台面：原来不靠堆到天价的算力，靠把已有的好模型蒸馏精炼，也能做出又便宜又能打的东西。这等于把「玩得起 AI」的门槛往下拽了一大截。

当然，也别神化它

蒸馏不是魔法，它有天花板：学生再机灵，本事的上限通常压在老师头上。教授没见过的偏门怪题，学生大概率也抓瞎；教授要是教错了，学生还会一本正经地把错的学得有模有样。指望蒸馏出一个全面超越原版的小模型，多半是想美了。

但话说回来，技术的进步从来不只是「做得更强」，很多时候是「让强大变得人人用得起」。蒸馏干的正是后一件事——它把顶尖模型的本事，打包成普通人也消费得起的版本。

蒸馏这把火，烧出来的还有一个更大的问题：当好东西能被这么轻松地「提炼」走，那些花大价钱训出顶尖大模型的玩家，护城河还剩多少？这就够单开一篇好好算算了。