中文名稱:擴散模型 英文名稱:Diffusion
定義(Definition)
Diffusion 模型是一種用來「生成影像」的人工智慧模型。它的工作方式像是在一張圖片上慢慢加入亂七八糟的噪點(就像被弄髒一樣),然後一步步「擦掉噪點」,最後把亂糟糟的圖片還原成一張漂亮的影像。同時,你可以用文字來告訴它想要什麼樣的圖片,它就會努力「擦」出符合你要求的內容。
這種技術很強大,可以在一般家用電腦的顯示卡上運行,做出很精美的圖片,廣泛用於繪圖、設計和創作。
/file-20260208112556727.png)
原理與技術
- 潛在空間(Latent space):為了減少運算量,Diffusion 模型會先把真實圖片「壓縮」成一個比較小的數據(像是圖片的精簡版本),然後只在這個小空間裡面去「加噪點」和「擦噪點」。這樣比直接對高解析度的圖片做處理,快很多且省資源。
- 噪點的加入與去除:訓練時,模型會學習如何從有大量噪點的數據中,一步步去掉這些噪點,把圖片恢復成原來的清晰樣子。
- 模型架構:常用的模型結構叫做 U-Net,它能同時抓住圖片的整體結構和細節,並且配合「殘差層」和「注意力機制」,確保生成內容一致且有細節。
- 文字控制:我們可以輸入文字描述(比如「夕陽下的山景」),文字會被轉換成一段特殊的數字向量,讓模型知道應該往哪個方向去還原圖片。這樣圖片就會根據你的文字要求生成。
- 調整參數與控制:
- CFG scale(條件引導強度):調整模型對文字指令的遵從度,高一點圖片越接近文字意思,低一點則更隨機。
- 種子(Seed):控制隨機狀態,可以讓你用同一個種子和條件多次生成一樣的圖片。
- 個人化微調:可以用稱為 LoRA、DreamBooth 或 Textual Inversion 的技術,讓模型記住特定的角色、風格或品牌形象,使生成的圖片更符合需求。
- 修圖與更多應用:
- ControlNet:可以透過邊緣線條、姿勢、深度等輔助信息,精準控制生成的構圖。
- Inpainting/Outpainting:可以局部修改圖片或擴展圖片範圍。
- Image-to-Image:根據一張圖片生成另一張相關圖片。
應用領域
- 繪圖與設計
快速生成插畫草稿、多風格版本,適合遊戲或電影的概念設計。 - 廣告與商品視覺
幫忙製作背景、道具圖片,減少拍攝工作量,還能快速修改細節。 - 照片修復與強化
舊照片上色、去除瑕疵、提高清晰度,結合輔助技術還可調整構圖。 - 角色與風格定制
利用微調技術,讓同一模型生成特定角色或固定風格,保證品牌一致性。 - 教學與研究
讓學生快速視覺化抽象概念,創意發想,還能進行數據增強。 - 醫療與工業影像
生成模擬影像,必須謹慎使用,避免偽造真實數據,需經嚴格審核。
3 題模擬練習題
-
為什麼 diffusion 模型可以在一般家用電腦跑?
- A. 因為不需要 GPU
- B. 在壓縮後的潛在空間跑,運算更省資源
- C. 完全不需要模型
- D. 只生成黑白圖
-
文字怎麼影響生成圖片?
- A. 文字無關,只靠隨機種子
- B. 文字轉成向量後進入模型引導圖片生成
- C. 把文字直接貼在圖片上
- D. 只能改變顏色
-
要讓模型記住特定角色或風格,通常怎麼做?
- A. 改變取樣器
- B. 用 LoRA 或 DreamBooth 做微調
- C. 只調高 CFG scale
- D. 只調種子