增強學習算法

增強學習(Reinforcement Learning)要解決的是這樣的問題:一個能感知環境的自治agent,怎樣通過學習選擇能達到其目標的最優動作。

簡介

這個很具有普遍性的問題套用於學習控制移動機器人,在工廠中學習最優操作工序以及學習棋類對弈等。當agent在其環境中做出每個動作時,施教者會提供獎勵或懲罰信息,以表示結果狀態的正確與否。例如,在訓練agent進行棋類對弈時,施教者可在遊戲勝利時給出正回報,而在遊戲失敗時給出負回報,其他時候為零回報。agent的任務就是從這個非直接的,有延遲的回報中學習,以便後續的動作產生最大的累積效應。

學習算法(Q-Learning)

Q學習算法在確定性回報和動作假定下的Q學習算法:

(s表示狀態,a表示動作,Q(s,a)表示對狀態s下動作a得到的總體回報的一個估計,r為此動作的立即回報,γ為折扣因子,其中0≤γ<1)

1。對每個s,a初始化表項Q(s,a)為0

2。觀察當前狀態s

3。一直重複做:

選擇一個動作a並執行它,該動作為使Q(s,a)最大的a。

接收到立即回報r。

觀察新狀態s'。

對Q(s',a')按照下式更新表項:

Q(s,a)= r(s,a) +γ* max Q (s',a')。

s=s'。

基本原理

強化學習目的是構造一個控制策略,使得Agent行為性能達到最大。Agent從複雜的環境中感知信息,對信息進行處理。Agent通過學習改進自身的性能並選擇行為,從而產生群體行為的選擇,個體行為選擇和群體行為選擇使得Agent作出決策選擇某一動作,進而影響環境。

增強學習是指從動物學習、隨機逼近和最佳化控制等理論發展而來,是一種無導師線上學習技術,從環境狀態到動作映射學習,使得Agent根據最大獎勵值採取最優的策略;Agent感知環境中的狀態信息,搜尋策略(哪種策略可以產生最有效的學習)選擇最優的動作,從而引起狀態的改變並得到一個延遲回報值,更新評估函式,完成一次學習過程後,進入下一輪的學習訓練,重複循環疊代,直到滿足整個學習的條件,終止學習。

相關詞條

相關搜尋

熱門詞條

聯絡我們