中文名稱：擴散模型英文名稱：Diffusion

定義（Definition）

Diffusion 模型是一種用來「生成影像」的人工智慧模型。它的工作方式像是在一張圖片上慢慢加入亂七八糟的噪點（就像被弄髒一樣），然後一步步「擦掉噪點」，最後把亂糟糟的圖片還原成一張漂亮的影像。同時，你可以用文字來告訴它想要什麼樣的圖片，它就會努力「擦」出符合你要求的內容。

這種技術很強大，可以在一般家用電腦的顯示卡上運行，做出很精美的圖片，廣泛用於繪圖、設計和創作。

原理與技術

潛在空間（Latent space）：為了減少運算量，Diffusion 模型會先把真實圖片「壓縮」成一個比較小的數據（像是圖片的精簡版本），然後只在這個小空間裡面去「加噪點」和「擦噪點」。這樣比直接對高解析度的圖片做處理，快很多且省資源。
噪點的加入與去除：訓練時，模型會學習如何從有大量噪點的數據中，一步步去掉這些噪點，把圖片恢復成原來的清晰樣子。
模型架構：常用的模型結構叫做 U-Net，它能同時抓住圖片的整體結構和細節，並且配合「殘差層」和「注意力機制」，確保生成內容一致且有細節。
文字控制：我們可以輸入文字描述（比如「夕陽下的山景」），文字會被轉換成一段特殊的數字向量，讓模型知道應該往哪個方向去還原圖片。這樣圖片就會根據你的文字要求生成。
調整參數與控制：
- CFG scale（條件引導強度）：調整模型對文字指令的遵從度，高一點圖片越接近文字意思，低一點則更隨機。
- 種子（Seed）：控制隨機狀態，可以讓你用同一個種子和條件多次生成一樣的圖片。
- 個人化微調：可以用稱為 LoRA、DreamBooth 或 Textual Inversion 的技術，讓模型記住特定的角色、風格或品牌形象，使生成的圖片更符合需求。
修圖與更多應用：
- ControlNet：可以透過邊緣線條、姿勢、深度等輔助信息，精準控制生成的構圖。
- Inpainting/Outpainting：可以局部修改圖片或擴展圖片範圍。
- Image-to-Image：根據一張圖片生成另一張相關圖片。

VAE vs GAN vs Diffusion（簡單比較表）

應用領域

繪圖與設計
快速生成插畫草稿、多風格版本，適合遊戲或電影的概念設計。
廣告與商品視覺
幫忙製作背景、道具圖片，減少拍攝工作量，還能快速修改細節。
照片修復與強化
舊照片上色、去除瑕疵、提高清晰度，結合輔助技術還可調整構圖。
角色與風格定制
利用微調技術，讓同一模型生成特定角色或固定風格，保證品牌一致性。
教學與研究
讓學生快速視覺化抽象概念，創意發想，還能進行數據增強。
醫療與工業影像
生成模擬影像，必須謹慎使用，避免偽造真實數據，需經嚴格審核。

3 題模擬練習題

為什麼 diffusion 模型可以在一般家用電腦跑？
- A. 因為不需要 GPU
- B. 在壓縮後的潛在空間跑，運算更省資源
- C. 完全不需要模型
- D. 只生成黑白圖
文字怎麼影響生成圖片？
- A. 文字無關，只靠隨機種子
- B. 文字轉成向量後進入模型引導圖片生成
- C. 把文字直接貼在圖片上
- D. 只能改變顏色
要讓模型記住特定角色或風格，通常怎麼做？
- A. 改變取樣器
- B. 用 LoRA 或 DreamBooth 做微調
- C. 只調高 CFG scale
- D. 只調種子

KBP的AI應用規劃師筆記

探索

擴散模型(Diffusion)

定義（Definition）

原理與技術

應用領域

3 題模擬練習題

關係圖譜

目錄

反向連結