中文名稱:價值函數 英文名稱:Value Function
📌 定義(Definition)
在強化學習(Reinforcement Learning, RL)中,價值函數用來評估一個狀態(或狀態-行為對)未來能帶來的「回報」或「好處」。
- 它會給出一個數值,代表當前狀態下,採取某行動後,未來預期能獲得的累積獎勵有多高。
- 簡單說,價值函數告訴 AI「這個選擇有多好」,幫助 AI 做出最優決策。
- 例如:在下棋中,價值函數會評估目前棋盤狀態勝利的機率。
中文名稱:價值函數 英文名稱:Value Function
在強化學習(Reinforcement Learning, RL)中,價值函數用來評估一個狀態(或狀態-行為對)未來能帶來的「回報」或「好處」。