LSTM

中文名稱:長短期記憶網路 英文名稱:Long Short-Term Memory

定義(Definition)

一種改良的循環神經網路,加入輸入門、遺忘門、輸出門控制資訊流,能記住較長序列依賴,減少梯度消失,常用於語音、文字與時間序列。

原理與技術

LSTM 在每個時間步都有 細胞狀態(Cell State) 像「長期記憶軌道」,並用三個門控:

  • 遺忘門(forget gate) 決定丟掉哪些舊資訊。
  • 輸入門(input gate) 控制哪些新資訊寫入。
  • 輸出門(output gate) 決定輸出哪些記憶到隱狀態。

門控由 Sigmoid/Tanh 組成,能保留梯度,減少長序列訓練時梯度消失。

變體 門控循環單元 GRU(Gated Recurrent Unit) 把門合併成更新門重置門,參數較少。

訓練時常用 截斷 BPTT梯度裁剪正規化(如 LayerNorm-LSTM),並搭配 詞嵌入(Embedding)卷積前處理。若序列很長,可採 雙向(BiLSTM) 捕捉前後文,或用 注意力(Attention) 聚焦關鍵位置。與 Transformer 相比,LSTM 序列依賴較強、推論延遲較長,但在小資料、時序規律明確或需要因果順序的場景仍有優勢。

應用領域

  • 語音辨識與聲學建模:LSTM/GRU 處理頻譜特徵,能記錄發音連續性,常結合 CTC 或注意力解碼。
  • 自然語言處理:早期的機器翻譯、情感分析、命名實體辨識都用 BiLSTM。即使有 Transformer,LSTM 仍常用在小型或低資源系統。
  • 時間序列預測:電力負載、股價、流量預測,把歷史序列輸入 LSTM,掌握季節性與趨勢;可與 CNN/Attention 混合提升表現。
  • 異常偵測:學習正常時序模式,推論時以重建誤差或預測誤差判定異常,如設備感測器、網路流量。
  • 邊緣裝置與低延遲任務:小型 GRU/LSTM 參數少,適合嵌入式或移動端做關鍵字觸發、加速度計事件偵測。 共通重點:序列長度、梯度穩定與計算延遲是設計關鍵;若需要更長依賴或並行化,可考慮 Transformer,否則 LSTM 在資料量有限時仍可靠。

3 題模擬練習題

  1. LSTM 減少梯度消失的核心機制?
    • A. 卷積核共享
    • B. 透過細胞狀態與門控讓梯度能長距離傳遞
    • C. 使用超大的學習率
    • D. 只訓練第一層
    • 正確答案:B;解析:Cell state 保留資訊,門控調節寫入/遺忘,減少梯度衰減。
  2. GRU 相比 LSTM 的優點?
    • A. 一定更準確
    • B. 結構更簡化,參數更少,訓練速度快
    • C. 不需要資料
    • D. 可無限長序列不衰減
    • 正確答案:B;解析:GRU 合併門控減少參數,常在小模型或實時需求時使用。
  3. 若序列非常長且需要並行計算,常見替代方案?
    • A. 只用全連接層
    • B. 改用 Transformer 或加注意力機制
    • C. 不做任何處理
    • D. 移除遺忘門
    • 正確答案:B;解析:Transformer 支援並行並能捕捉遠距依賴,對超長序列較有優勢。