中文名稱:擴散模型 英文名稱:Diffusion

定義(Definition)

Diffusion 模型是一種用來「生成影像」的人工智慧模型。它的工作方式像是在一張圖片上慢慢加入亂七八糟的噪點(就像被弄髒一樣),然後一步步「擦掉噪點」,最後把亂糟糟的圖片還原成一張漂亮的影像。同時,你可以用文字來告訴它想要什麼樣的圖片,它就會努力「擦」出符合你要求的內容。

這種技術很強大,可以在一般家用電腦的顯示卡上運行,做出很精美的圖片,廣泛用於繪圖、設計和創作。

原理與技術

  • 潛在空間(Latent space):為了減少運算量,Diffusion 模型會先把真實圖片「壓縮」成一個比較小的數據(像是圖片的精簡版本),然後只在這個小空間裡面去「加噪點」和「擦噪點」。這樣比直接對高解析度的圖片做處理,快很多且省資源。
  • 噪點的加入與去除:訓練時,模型會學習如何從有大量噪點的數據中,一步步去掉這些噪點,把圖片恢復成原來的清晰樣子。
  • 模型架構:常用的模型結構叫做 U-Net,它能同時抓住圖片的整體結構和細節,並且配合「殘差層」和「注意力機制」,確保生成內容一致且有細節。
  • 文字控制:我們可以輸入文字描述(比如「夕陽下的山景」),文字會被轉換成一段特殊的數字向量,讓模型知道應該往哪個方向去還原圖片。這樣圖片就會根據你的文字要求生成。
  • 調整參數與控制
    • CFG scale(條件引導強度):調整模型對文字指令的遵從度,高一點圖片越接近文字意思,低一點則更隨機。
    • 種子(Seed):控制隨機狀態,可以讓你用同一個種子和條件多次生成一樣的圖片。
    • 個人化微調:可以用稱為 LoRA、DreamBooth 或 Textual Inversion 的技術,讓模型記住特定的角色、風格或品牌形象,使生成的圖片更符合需求。
  • 修圖與更多應用
    • ControlNet:可以透過邊緣線條、姿勢、深度等輔助信息,精準控制生成的構圖。
    • Inpainting/Outpainting:可以局部修改圖片或擴展圖片範圍。
    • Image-to-Image:根據一張圖片生成另一張相關圖片。

VAE vs GAN vs Diffusion(簡單比較表)

應用領域

  1. 繪圖與設計
    快速生成插畫草稿、多風格版本,適合遊戲或電影的概念設計。
  2. 廣告與商品視覺
    幫忙製作背景、道具圖片,減少拍攝工作量,還能快速修改細節。
  3. 照片修復與強化
    舊照片上色、去除瑕疵、提高清晰度,結合輔助技術還可調整構圖。
  4. 角色與風格定制
    利用微調技術,讓同一模型生成特定角色或固定風格,保證品牌一致性。
  5. 教學與研究
    讓學生快速視覺化抽象概念,創意發想,還能進行數據增強。
  6. 醫療與工業影像
    生成模擬影像,必須謹慎使用,避免偽造真實數據,需經嚴格審核。

3 題模擬練習題

  1. 為什麼 diffusion 模型可以在一般家用電腦跑?

    • A. 因為不需要 GPU
    • B. 在壓縮後的潛在空間跑,運算更省資源
    • C. 完全不需要模型
    • D. 只生成黑白圖
  2. 文字怎麼影響生成圖片?

    • A. 文字無關,只靠隨機種子
    • B. 文字轉成向量後進入模型引導圖片生成
    • C. 把文字直接貼在圖片上
    • D. 只能改變顏色
  3. 要讓模型記住特定角色或風格,通常怎麼做?

    • A. 改變取樣器
    • B. 用 LoRA 或 DreamBooth 做微調
    • C. 只調高 CFG scale
    • D. 只調種子