LSTM

中文名稱：長短期記憶網路英文名稱：Long Short-Term Memory

定義（Definition）

一種改良的循環神經網路，加入輸入門、遺忘門、輸出門控制資訊流，能記住較長序列依賴，減少梯度消失，常用於語音、文字與時間序列。

原理與技術

LSTM 在每個時間步都有 細胞狀態(Cell State) 像「長期記憶軌道」，並用三個門控：

遺忘門(forget gate) 決定丟掉哪些舊資訊。
輸入門(input gate) 控制哪些新資訊寫入。
輸出門(output gate) 決定輸出哪些記憶到隱狀態。

門控由 Sigmoid/Tanh 組成，能保留梯度，減少長序列訓練時梯度消失。

變體門控循環單元 GRU(Gated Recurrent Unit) 把門合併成更新門與重置門，參數較少。

訓練時常用 截斷 BPTT、梯度裁剪、正規化(如 LayerNorm-LSTM)，並搭配 詞嵌入(Embedding) 或 卷積前處理。若序列很長，可採 雙向(BiLSTM) 捕捉前後文，或用 注意力(Attention) 聚焦關鍵位置。與 Transformer 相比，LSTM 序列依賴較強、推論延遲較長，但在小資料、時序規律明確或需要因果順序的場景仍有優勢。

應用領域

語音辨識與聲學建模：LSTM/GRU 處理頻譜特徵，能記錄發音連續性，常結合 CTC 或注意力解碼。
自然語言處理：早期的機器翻譯、情感分析、命名實體辨識都用 BiLSTM。即使有 Transformer，LSTM 仍常用在小型或低資源系統。
時間序列預測：電力負載、股價、流量預測，把歷史序列輸入 LSTM，掌握季節性與趨勢；可與 CNN/Attention 混合提升表現。
異常偵測：學習正常時序模式，推論時以重建誤差或預測誤差判定異常，如設備感測器、網路流量。
邊緣裝置與低延遲任務：小型 GRU/LSTM 參數少，適合嵌入式或移動端做關鍵字觸發、加速度計事件偵測。共通重點：序列長度、梯度穩定與計算延遲是設計關鍵；若需要更長依賴或並行化，可考慮 Transformer，否則 LSTM 在資料量有限時仍可靠。

3 題模擬練習題

LSTM 減少梯度消失的核心機制？
- A. 卷積核共享
- B. 透過細胞狀態與門控讓梯度能長距離傳遞
- C. 使用超大的學習率
- D. 只訓練第一層
- 正確答案：B；解析：Cell state 保留資訊，門控調節寫入/遺忘，減少梯度衰減。
GRU 相比 LSTM 的優點？
- A. 一定更準確
- B. 結構更簡化，參數更少，訓練速度快
- C. 不需要資料
- D. 可無限長序列不衰減
- 正確答案：B；解析：GRU 合併門控減少參數，常在小模型或實時需求時使用。
若序列非常長且需要並行計算，常見替代方案？
- A. 只用全連接層
- B. 改用 Transformer 或加注意力機制
- C. 不做任何處理
- D. 移除遺忘門
- 正確答案：B；解析：Transformer 支援並行並能捕捉遠距依賴，對超長序列較有優勢。

KBP的AI應用規劃師筆記

探索

長短期記憶網路（Long Short-Term Memory, LSTM）

LSTM

定義（Definition）

原理與技術

應用領域

3 題模擬練習題

關係圖譜

目錄

反向連結