中文名稱：Transformer 架構英文名稱：Transformer Architecture

定義（Definition）

Transformer 是一種用「注意力」機制來處理序列資料的模型，不用循環或卷積，能同時看到整個序列，速度快且效果好，廣泛用在語言和影像等 AI 領域。

原理與技術

Transformer 由 編碼器(Encoder) 與 解碼器(Decoder) 堆疊的多層 Block 組成（純 Encoder 用於 BERT，純 Decoder 用於 GPT）。單層包含：

因為 Transformer 可以同時處理整個序列，不用一個一個時間步慢慢算。

語言建模與生成：GPT 系列聊天、摘要、翻譯、程式生成；需要長上下文則用長序列注意力。
理解任務：BERT/DeBERTa 用於分類、問答、檢索重排序。
機器翻譯：原始 Transformer 架構即為翻譯設計，Encoder-Decoder 直接對齊源與目標句。
推薦與時間序列：用注意力捕捉用戶行為序列或市場序列的遠距關係。
電腦視覺：ViT、Swin Transformer 做分類、檢測、分割；可結合 CNN 抓局部細節。
多模態與語音：CLIP、Vision-Language、語音-文字模型皆以注意力融合不同模態。共通重點：注意力計算成本與序列長度平方成長，需挑選合適的長序列或稀疏策略；訓練需充足資料與正規化，推論可用量化與快取減少延遲。