多模態AI
中文名稱:多模態人工智慧 英文名稱:Multimodal AI
定義(Definition)
同時處理與融合多種資料型態(文字、圖片、語音、影片、感測信號)的模型,透過共同表徵或跨模態注意力讓模型理解與生成跨模態內容,例如圖文對齊、影片問答、語音控制等。
原理與技術
多模態系統有三大步驟:
- 單模態編碼:各模態用專用編碼器,如 Vision Transformer/CNN 處理影像、Audio Transformer/CNN 處理聲音、文本用 Transformer/BERT,將輸入變為向量序列。
- 對齊與融合:常用 跨模態注意力(Cross-Attention)、對比學習(Contrastive Learning,例 CLIP)、共通嵌入空間,讓文字向量與影像/音訊向量在同一空間對齊;或用 Late Fusion(決策層結合)與 Early Fusion(特徵層結合)。
- 生成與解碼:若要輸出文字或圖片,會使用解碼器(如 GPT/擴散模型)接收融合後的條件向量,再產生結果。影片處理會加入時間維度注意力,語音則需聲學前處理。 訓練技巧:使用 配對資料(圖-文、音-文),並用 對比損失 讓正負樣本分開;大型模型可用 指令微調(Instruction Tuning) 讓模型遵從多模態指令。安全與合規需加 內容審核、版權檢查、拒答策略。效能優化可用 ** LoRA /Adapter** 微調、量化蒸餾 降低推論成本。資料標註成本高,常結合 半監督、合成資料增強 與 偏差檢測。
應用領域
- 圖文理解與生成:圖像描述、看圖問答、企劃配圖;可用於無障礙輔助或電商商品標註。
- 影片分析:影片摘要、分鏡生成、監控異常偵測,需同時處理畫面與時間關係。
- 語音與文字交互:語音助理、會議摘要、語音控制機器人,會把聲音轉文字再交給語言模型,或直接用聲音特徵做意圖判斷。
- 醫療與工業:結合影像(X 光、CT)與文本(報告、病歷),做診斷輔助;工業上結合感測器與影像判斷設備狀態。
- 搜尋與推薦:多模態檢索(以圖搜圖、以文搜圖)、影音推薦,利用共同嵌入提升相似度計算。
- AR/VR 與機器人:結合視覺、語音、定位資料理解環境並行動。 共通重點:資料對齊與安全審核是成功關鍵;須處理不同模態的時間/空間對齊、權限與隱私,並監控偏差與誤用。
3 題模擬練習題
- CLIP 的核心訓練方式?
- A. 只看文字分類
- B. 圖文對比學習,把配對樣本拉近、非配對拉遠
- C. 卷積去噪
- D. 只訓練解碼器
- 正確答案:B;解析:CLIP 用對比損失對齊圖像與文字向量。
- 多模態模型常見的融合方式?
- A. 只保留圖片
- B. 早期融合(特徵層)或晚期融合(決策層)
- C. 只用平均
- D. 取消正規化
- 正確答案:B;解析:依任務與資料而定,可在特徵或輸出階段融合。
- 在生成式多模態模型中,文字如何控制圖像生成?
- A. 無法控制
- B. 作為條件向量進入交叉注意力,引導解碼器/擴散模型
- C. 先轉成二進位
- D. 只決定解析度
- 正確答案:B;解析:文本嵌入透過 Cross-Attention 影響每步生成方向。