用少點 Token,不少點輸出:
我的 Prompt 節流實驗筆記
當你在開發自動化工作流時,那個不斷跳動的 API 計數器,比股票走勢還刺激。教你如何幫提示詞「減肥」,在不犧牲品質的前提下,守住你的錢包。
Executive Summary: 節流核心法則
- 戒除禮貌與廢話: 模型不需要你的「請問、謝謝、麻煩」。移除冗長的背景鋪陳,直接下達指令。
- 結構化取代敘述句: 把「希望你怎麼寫」的長句子,改成清晰的 1, 2, 3 步驟與格式限制。
- 嚴格控制輸出長度: Token 爆掉往往是因為模型「回答得太開心」。在每個任務中加上嚴格的字數或行數限制。
- 善用批次處理: 不要把 20 個小任務分成 20 次呼叫,把它們打包成一個大 Prompt,讓固定系統指令的成本被攤平。
01. 先講白:字數多不代表你比較專業
很多人寫 Prompt,有點像在公司寫信給主管交差:前情提要、背景鋪陳、客套問候,最後才進入主題,恨不得把所有細節一次倒給模型。
但請記住,對模型來說,其實只有三件事最重要:你要它做什麼、要用什麼形式回傳、有什麼具體限制。 剩下那些「不好意思打擾你」、「如果可以的話再麻煩幫我…」,全都是 Token 版的無效資訊。
自我檢查規則
每次送出 API 請求前,我會先問自己一句:「這一段如果刪掉,模型還會懂我要幹嘛嗎?」
如果答案是「會」,那就毫不留情地刪掉它。有時候你會驚訝地發現,只要把客套與重複的形容詞刪除,Prompt 的長度就直接少了一半,但模型回覆的品質不僅沒掉,反而因為指令變明確而更準確了。
02. 把「想說的廢話」變成「清楚的結構」
以前的我,很愛用一長串的「敘述句」來交代任務,就像在跟朋友講話一樣。這看起來很自然,但對模型解析來說非常混亂,因為你的要求散落在句子的各個角落。
| ❌ 傳統新手寫法 (冗長且發散) | ✅ 高階節流寫法 (結構化且精準) |
|---|---|
| 「可以請你幫我寫一段大概兩百字左右的產品介紹,語氣友善一點,不要太生硬,最好可以分段,讓讀者比較好閱讀,然後順便幫我列出幾個重點功能之類的,謝謝。」 | 「寫一段約 200 字的產品介紹。語氣:友善口語。 結構如下: 1. 開頭 1-2 句說明這是什麼、解決什麼痛點 2. 條列 3 項核心功能 3. 最後 1 句總結好處」 |
| * 英文版對比參考: “Could you please help me write a product description of around 200 words? Make it friendly and not too stiff…” |
* 英文版節流寫法 (業界標準 XML 標籤): “Write a 200-word product intro based on the <data>. Tone: Friendly. Format: 1. Hook. 2. Three bullet points. 3. Summary.” |
當你把廢話變成結構,特別是導入 XML 標籤(如 <text>)來區隔指令與資料時,你會發現:字數變少了、模型照做的機率變高了,而且在自動化串接時,也大幅降低了提示詞注入 (Prompt Injection) 的風險。
03. 控制輸出:不設限就是在放縱模型寫爽
有時候你月底一看帳單,發現 Token 爆掉的真兇其實不是你輸入的字太多,而是「模型輸出的字太多」 (Output Tokens)。在大多數 API 的計費標準中,輸出 Token 的單價往往比輸入 Token 更貴。
你明明只是問一句:「這個專業術語大概是什麼意思?」結果 AI 熱情地給你寫了一篇論文,從歷史背景一路講到未來展望。但你其實只想要兩句摘要而已。
為每個任務加上「煞車閥」
- 行數限制:
「請控制在 3-5 行以內 (Keep it under 5 lines)」 - 字數限制:
「總字數不超過 150 字 (Max 150 words)」 - 條列限制:
「列出最重要的 3 點就好,多的不寫 (Provide exactly 3 bullet points)」 - 防幻覺與廢話限制:
「如果不確定,直接回答『不知道』,絕對不要解釋 (If unsure, reply ONLY 'Unknown')」
你會發現,當你把限制收得很緊,回覆不僅變得集中好讀,那個可怕的 Output Token 用量也會直線往下掉。以前那種「隨便你寫」的狀態,反而容易產生無用的資訊噪音。
04. 上下文管理:2026 年的精準投餵與快取法則
現在很多頂規模型(例如 Gemini 3.1 Pro)都具備超大上下文視窗(Multi-million Context Window),甚至能一次吞下幾百萬個 Token。很多人一聽就興奮了:「那我是不是可以把整個專案、所有對話紀錄、整本幾百頁的 PDF 一次全丟進去讓它分析?」
技術上完全可以,但實務上這非常燒錢,而且往往沒必要。
精準投餵與 Context Caching (上下文快取)
在處理超大型文件時,我現在習慣採用兩階段策略:先用簡單的檢索機制,找出「跟這次問題最相關」的段落。然後只把這幾段精華 + 問題本身丟給 API。這不僅讓 Token 成本直接打折,模型也更不容易被無關的資訊搞混。
如果你真的必須在多輪對話中重複使用一份龐大的文件(例如公司長達萬字的品牌指南),請務必利用 Gemini 官方支援的 Context Caching (上下文快取) 技術。將固定的系統指令與參考文件快取在伺服器端後,後續呼叫時,你只需要支付極低的「快取讀取費」,這比每次重新計算標準 Input Token 便宜非常多。這是 2026 年開發者必備的成本控制技能。
05. 進階技巧:批次處理與讓 AI 幫你壓縮
如果你有大量重複的小任務,千萬不要傻傻地一個一個發送請求。學會「打包」,是高階玩家的必修課。
-
招式 A:把小任務打包成大任務 (Batch Processing)
想像你有 20 則社群留言,需要判斷每則是「正向/負向」。如果你發送 20 次 Prompt,你等於重複支付了 20 次「你是一位專業客服…請判斷情緒…」的系統指令成本。正確的做法是:一次把 20 則留言標上編號,統一貼在同一個 Prompt 裡,要求模型以 JSON 陣列格式一次輸出 20 筆結果。 這樣你的「固定指令成本」就被完美攤平了。
-
招式 B:反向利用 AI 幫你「壓縮 Prompt」
這是我最愛的自動化優化神技。當你寫出一個落落長、像在開會講需求一樣的複雜 Prompt 時,你可以把它丟給高階模型(如 Gemini 3.1 Pro 模型),然後下這道指令:
「下面這段是我目前在系統中使用的 Prompt,非常冗長。請幫我改寫成更短、更精準、更節省 Token 的英文版本。要求:絕對不要改變任務本質、保留所有邊界條件、刪除所有客套與模糊描述。原始 Prompt 如下:[...]」模型通常會吐給你一個極度乾淨俐落的版本。確認沒遺漏重要條件後,就把這個「瘦身版」存進你的代碼庫裡永久使用。
06. 總結:節流的本質是溝通升級
說到這裡,也許你會覺得:「哇,這也算得太精了吧?」
但我後來發現,執行 Prompt 節流其實會帶來三個層次的蝴蝶效應:
- 第一層(財務面): 帳單數字實實在在地變小了,自動化專案的運營壓力大幅降低。
- 第二層(效能面): 模型的 API 回覆速度變快了,因為它不需要再咀嚼與生成那麼多無效的字數。
- 第三層(個人面): 你被「強迫」要把需求想清楚。整個系統變得更穩定、更可控。
換句話說,減少 Token 的過程,其實是在鍛鍊我們「用最少的資源,把事情定義清楚」的架構能力。當你習慣了這種乾淨、高效的溝通方式,你會發現不僅是跟 AI 合作變順了,就連平常寫需求文件、跟同事溝通,邏輯也跟著升級了。