多模態AI

中文名稱：多模態人工智慧英文名稱：Multimodal AI

定義（Definition）

同時處理與融合多種資料型態（文字、圖片、語音、影片、感測信號）的模型，透過共同表徵或跨模態注意力讓模型理解與生成跨模態內容，例如圖文對齊、影片問答、語音控制等。

多模態系統有三大步驟：

單模態編碼：各模態用專用編碼器，如 Vision Transformer/CNN 處理影像、Audio Transformer/CNN 處理聲音、文本用 Transformer/BERT，將輸入變為向量序列。
對齊與融合：常用 跨模態注意力(Cross-Attention)、對比學習(Contrastive Learning，例 CLIP)、共通嵌入空間，讓文字向量與影像/音訊向量在同一空間對齊；或用 Late Fusion（決策層結合）與 Early Fusion（特徵層結合）。
生成與解碼：若要輸出文字或圖片，會使用解碼器（如 GPT/擴散模型）接收融合後的條件向量，再產生結果。影片處理會加入時間維度注意力，語音則需聲學前處理。訓練技巧：使用 配對資料（圖-文、音-文），並用 對比損失 讓正負樣本分開；大型模型可用 指令微調(Instruction Tuning) 讓模型遵從多模態指令。安全與合規需加 內容審核、版權檢查、拒答策略。效能優化可用 ** LoRA /Adapter** 微調、量化蒸餾 降低推論成本。資料標註成本高，常結合 半監督、合成資料增強 與 偏差檢測。

圖文理解與生成：圖像描述、看圖問答、企劃配圖；可用於無障礙輔助或電商商品標註。
影片分析：影片摘要、分鏡生成、監控異常偵測，需同時處理畫面與時間關係。
語音與文字交互：語音助理、會議摘要、語音控制機器人，會把聲音轉文字再交給語言模型，或直接用聲音特徵做意圖判斷。
醫療與工業：結合影像（X 光、CT）與文本（報告、病歷），做診斷輔助；工業上結合感測器與影像判斷設備狀態。
搜尋與推薦：多模態檢索（以圖搜圖、以文搜圖）、影音推薦，利用共同嵌入提升相似度計算。
AR/VR 與機器人：結合視覺、語音、定位資料理解環境並行動。共通重點：資料對齊與安全審核是成功關鍵；須處理不同模態的時間/空間對齊、權限與隱私，並監控偏差與誤用。