多模態AI

中文名稱:多模態人工智慧 英文名稱:Multimodal AI

定義(Definition)

同時處理與融合多種資料型態(文字、圖片、語音、影片、感測信號)的模型,透過共同表徵或跨模態注意力讓模型理解與生成跨模態內容,例如圖文對齊、影片問答、語音控制等。

原理與技術

多模態系統有三大步驟:

  1. 單模態編碼:各模態用專用編碼器,如 Vision Transformer/CNN 處理影像、Audio Transformer/CNN 處理聲音、文本用 Transformer/BERT,將輸入變為向量序列。
  2. 對齊與融合:常用 跨模態注意力(Cross-Attention)對比學習(Contrastive Learning,例 CLIP)共通嵌入空間,讓文字向量與影像/音訊向量在同一空間對齊;或用 Late Fusion(決策層結合)與 Early Fusion(特徵層結合)。
  3. 生成與解碼:若要輸出文字或圖片,會使用解碼器(如 GPT/擴散模型)接收融合後的條件向量,再產生結果。影片處理會加入時間維度注意力,語音則需聲學前處理。 訓練技巧:使用 配對資料(圖-文、音-文),並用 對比損失 讓正負樣本分開;大型模型可用 指令微調(Instruction Tuning) 讓模型遵從多模態指令。安全與合規需加 內容審核、版權檢查、拒答策略。效能優化可用 ** LoRA /Adapter** 微調、量化蒸餾 降低推論成本。資料標註成本高,常結合 半監督、合成資料增強偏差檢測

應用領域

  • 圖文理解與生成:圖像描述、看圖問答、企劃配圖;可用於無障礙輔助或電商商品標註。
  • 影片分析:影片摘要、分鏡生成、監控異常偵測,需同時處理畫面與時間關係。
  • 語音與文字交互:語音助理、會議摘要、語音控制機器人,會把聲音轉文字再交給語言模型,或直接用聲音特徵做意圖判斷。
  • 醫療與工業:結合影像(X 光、CT)與文本(報告、病歷),做診斷輔助;工業上結合感測器與影像判斷設備狀態。
  • 搜尋與推薦:多模態檢索(以圖搜圖、以文搜圖)、影音推薦,利用共同嵌入提升相似度計算。
  • AR/VR 與機器人:結合視覺、語音、定位資料理解環境並行動。 共通重點:資料對齊與安全審核是成功關鍵;須處理不同模態的時間/空間對齊、權限與隱私,並監控偏差與誤用。

3 題模擬練習題

  1. CLIP 的核心訓練方式?
    • A. 只看文字分類
    • B. 圖文對比學習,把配對樣本拉近、非配對拉遠
    • C. 卷積去噪
    • D. 只訓練解碼器
    • 正確答案:B;解析:CLIP 用對比損失對齊圖像與文字向量。
  2. 多模態模型常見的融合方式?
    • A. 只保留圖片
    • B. 早期融合(特徵層)或晚期融合(決策層)
    • C. 只用平均
    • D. 取消正規化
    • 正確答案:B;解析:依任務與資料而定,可在特徵或輸出階段融合。
  3. 在生成式多模態模型中,文字如何控制圖像生成?
    • A. 無法控制
    • B. 作為條件向量進入交叉注意力,引導解碼器/擴散模型
    • C. 先轉成二進位
    • D. 只決定解析度
    • 正確答案:B;解析:文本嵌入透過 Cross-Attention 影響每步生成方向。