中文名稱:價值函數 英文名稱:Value Function

📌 定義(Definition)

在強化學習(Reinforcement Learning, RL)中,價值函數用來評估一個狀態(或狀態-行為對)未來能帶來的「回報」或「好處」。

  • 它會給出一個數值,代表當前狀態下,採取某行動後,未來預期能獲得的累積獎勵有多高。
  • 簡單說,價值函數告訴 AI「這個選擇有多好」,幫助 AI 做出最優決策。
  • 例如:在下棋中,價值函數會評估目前棋盤狀態勝利的機率。

⭐原理與技術

🔗 應用領域

3 題模擬練習題