中文名稱:提示詞注入 英文名稱:Prompt Injection

📌 定義(Definition)

針對 AI 系統的攻擊手法,攻擊者透過外部輸入(例如用戶輸入的文字、連結參數等)夾帶惡意指令,將這些惡意提示詞「塞進」AI 模型的處理流程中,藉此誘導 AI 執行原本不該做的操作,比如洩漏敏感資料或做出危險行為。

⭐原理

歸根結底的原因是模型無法區分指令和用戶注入的提示詞。

全球應用安全組織 OWASP 指出提示詞注入之所以棘手,和 LLM 的特性有關:模型處理的是自然語言,而常見的設計會讓「指令」和「資料」一起被處理,缺乏清楚的分離,因此難以靠單一防線一次解決;即使用了 RAG 或 Fine-tuning,也無法完全消除提示詞注入風險。 ──From 數創電子報 Vol.29

案例

針對 Microsoft Copilot 的攻擊手法「Reprompt」

2026年年初,資安公司 Varonis 公開了針對 Microsoft Copilot 的攻擊手法「Reprompt」。其流程是,攻擊者會將惡意提示詞藏在連結的參數中(i.e., 網址後面那串像亂碼的字元),所以當使用者點擊這個看似合法,實質惡意的連結,惡意提示詞就會被注入 Copilot,把使用者的對話紀錄、讀過或編輯的文件、Email、行事曆資訊、以及任何 Copilot 有讀取權限的資料偷出來。更糟的是,即使使用者關掉 Copilot 視窗,資料仍在背景持續外洩。 Microsoft Copilot 本身就有降低資料外洩的保護機制,但攻擊者把多個看似正常的步驟串起來,引導系統偏離原本的安全邊界,最後繞過保護機制造成資料外流。 ──From 數創電子報 Vol.29

🔗 防範方式

  1. 入口過濾:先過濾輸入內容,阻擋明顯惡意指令與可疑字串。
  2. 系統提示詞加強:在系統層提示詞中明確規範「不外洩資料」及「不執行高風險指令」。
  3. 使用者二次確認:關鍵動作(寄信、刪除、對外分享)需使用者明確確認。
  4. 持續監控與異常偵測:即時監控行為,一旦偵測異常即刻修補。
  5. 採用縱深防禦策略:多層防護搭配權限控管與資料隔離,減少攻擊成功的損害範圍。

3 題模擬練習題

  1. 以下何者最能代表「提示詞注入」(Prompt Injection)的核心威脅?
    A. 利用系統漏洞侵伺服器硬體。
    B. 輸入自然語言指令誘使 AI 執行非預期操作。
    C. 利用DoS 攻擊癱瘓 AI 服務。
    D. AI 模型訓練資料以降低準確率。

答案:B **:提示詞注入是利用自然語言輸入「惡意指令」,誘使 AI 執行不該做的事,而非直接攻擊硬體或網路層面。

請說明何謂 提示詞注入