LSTM
中文名稱:長短期記憶網路 英文名稱:Long Short-Term Memory
定義(Definition)
一種改良的循環神經網路,加入輸入門、遺忘門、輸出門控制資訊流,能記住較長序列依賴,減少梯度消失,常用於語音、文字與時間序列。
原理與技術
LSTM 在每個時間步都有 細胞狀態(Cell State) 像「長期記憶軌道」,並用三個門控:
- 遺忘門(forget gate) 決定丟掉哪些舊資訊。
- 輸入門(input gate) 控制哪些新資訊寫入。
- 輸出門(output gate) 決定輸出哪些記憶到隱狀態。
門控由 Sigmoid/Tanh 組成,能保留梯度,減少長序列訓練時梯度消失。
變體 門控循環單元 GRU(Gated Recurrent Unit) 把門合併成更新門與重置門,參數較少。
訓練時常用 截斷 BPTT、梯度裁剪、正規化(如 LayerNorm-LSTM),並搭配 詞嵌入(Embedding) 或 卷積前處理。若序列很長,可採 雙向(BiLSTM) 捕捉前後文,或用 注意力(Attention) 聚焦關鍵位置。與 Transformer 相比,LSTM 序列依賴較強、推論延遲較長,但在小資料、時序規律明確或需要因果順序的場景仍有優勢。
應用領域
- 語音辨識與聲學建模:LSTM/GRU 處理頻譜特徵,能記錄發音連續性,常結合 CTC 或注意力解碼。
- 自然語言處理:早期的機器翻譯、情感分析、命名實體辨識都用 BiLSTM。即使有 Transformer,LSTM 仍常用在小型或低資源系統。
- 時間序列預測:電力負載、股價、流量預測,把歷史序列輸入 LSTM,掌握季節性與趨勢;可與 CNN/Attention 混合提升表現。
- 異常偵測:學習正常時序模式,推論時以重建誤差或預測誤差判定異常,如設備感測器、網路流量。
- 邊緣裝置與低延遲任務:小型 GRU/LSTM 參數少,適合嵌入式或移動端做關鍵字觸發、加速度計事件偵測。 共通重點:序列長度、梯度穩定與計算延遲是設計關鍵;若需要更長依賴或並行化,可考慮 Transformer,否則 LSTM 在資料量有限時仍可靠。
3 題模擬練習題
- LSTM 減少梯度消失的核心機制?
- A. 卷積核共享
- B. 透過細胞狀態與門控讓梯度能長距離傳遞
- C. 使用超大的學習率
- D. 只訓練第一層
- 正確答案:B;解析:Cell state 保留資訊,門控調節寫入/遺忘,減少梯度衰減。
- GRU 相比 LSTM 的優點?
- A. 一定更準確
- B. 結構更簡化,參數更少,訓練速度快
- C. 不需要資料
- D. 可無限長序列不衰減
- 正確答案:B;解析:GRU 合併門控減少參數,常在小模型或實時需求時使用。
- 若序列非常長且需要並行計算,常見替代方案?
- A. 只用全連接層
- B. 改用 Transformer 或加注意力機制
- C. 不做任何處理
- D. 移除遺忘門
- 正確答案:B;解析:Transformer 支援並行並能捕捉遠距依賴,對超長序列較有優勢。