提示词工程是不是玄学？——能复现的才配叫工程

这篇憋了挺久，今天写出来。

这阵子我的收藏夹快被各种「ChatGPT 万能咒语合集」撑爆了。

什么「在提示词最后加一句『深呼吸，一步一步思考』，准确率暴涨」，什么「先让它扮演一位有 20 年经验的专家」，还有人正经卖起了「价值 999 的私藏提示词模板」。一时间，提示词工程师听起来像是个会念咒的赛博法师。

作为一个被各种「祖传咒语」坑过好几回的人，我想泼盆冷水：能稳定复现的才配叫工程，复现不了的，那叫烧香。

先分清：什么是玄学，什么是工程

判断标准其实特别朴素——换个人、换个时间、换个问题，它还灵不灵？

玄学的典型特征是：你照着某篇爆款帖子抄了一段咒语，第一次效果惊为天人，截图发群里收获一片膜拜；结果第二天换个问题再用，模型直接给你表演一个胡说八道。你以为是自己姿势不对，其实是这咒语本来就碰运气。

而工程的特征是：你能说清为什么这么写，换个场景照着同样的思路改一改，还是能稳定地好使。

flowchart TD
  A["一条提示词技巧"] --> B{"换问题、换人<br/>还稳定有效吗?"}
  B -- 是 --> C["能解释为什么<br/>= 工程"]
  B -- 偶尔灵偶尔不灵 --> D["说不清原因<br/>= 玄学/烧香"]
  C --> E["可沉淀、可复用"]
  D --> F["只能截图发群里膜拜"]

注意，玄学和工程并不是看技巧本身高不高级，而是看你能不能把它讲清楚、能不能复现。同一句「一步一步思考」，有人当咒语乱念，有人知道它是在引导模型把推理过程显式写出来——后者就把玄学用成了工程。

那些「魔法咒语」，为什么有时真的有用

这里得说句公道话：很多咒语不是纯骗人，它们偶尔真有效，只是没人告诉你背后的道理。

拿最火的「一步一步思考」举例。它之所以有时管用，是因为它逼着模型把中间推理过程写出来，而不是张嘴就报个答案。模型本质是顺着前文往下接的，前面把思路铺开了，后面接出正确答案的概率自然就高了。

再比如「你是一位资深律师」这种角色扮演。它的作用是把模型的回答往某个语境里拽——同一个问题，挂上「律师」的前缀，它就更倾向于用严谨、规避风险的措辞来回答。

流传的说法	玄学版理解	工程版理解
一步一步思考	念了就变聪明	让推理过程显式化，少跳步
你是某领域专家	召唤大神附体	把回答框定在特定语境
给几个例子	例子玄学加成	用样例校准输出的格式和风格

看出来没？把咒语翻译成「它实际在干嘛」，玄学的滤镜就碎了。 剩下的，才是你能反复使用的真功夫。

把提示词当菜谱来写

我自己琢磨出一个特别土的心法：好提示词就像一份靠谱的菜谱。

菜谱为什么靠谱？因为它把模糊的东西全给量化了——不是「放适量盐」，而是「放 3 克盐」；不是「炒到差不多」，而是「中火炒 2 分钟至变色」。换个人照着做，也能复现出八九不离十的味道。

提示词同理。「帮我写篇文章」就是「放适量盐」级别的废话，模型只能瞎蒙；而「写一篇 800 字、面向初学者、用生活化比喻、避免专业术语堆砌的科普文，结尾留个开放问题」——这就是一份能复现的菜谱。

我的几条朴素经验：

说清楚要什么，更要说清不要什么。「别用 Markdown」「别超过三段」这种负面约束往往比正面要求更立竿见影。
给例子胜过讲道理。你想要什么格式、什么语气，丢一两个样例进去，比写五百字解释管用得多。
能拆步骤就拆步骤。复杂任务别指望一句话搞定，分成「先做 A，再基于 A 做 B」，翻车率立降。
改一处测一处。别一次性堆十个技巧然后惊呼「变强了」，你根本不知道是哪句起了作用——这恰恰是玄学的温床。

收个尾

提示词工程当然是真东西，但它配得上「工程」二字的前提是：你得知道自己在干嘛，并且能把它复现给别人看。

那些「价值 999 的私藏咒语」，本质上是把「我也不知道为啥但好像有用」打包卖给你。真正的本事不在某句魔法句式，而在于你能不能像写菜谱一样，把一个模糊的需求拆成模型能稳定执行的、量化的指令。

所以下次再看到「一句话让 AI 智商翻倍」的标题，先别急着抄。问自己一句：换个问题它还灵吗？我能讲清它为啥灵吗？ 答不上来的，就当看个乐子——香火钱嘛，能省则省。