【每周一本書】之《深入淺出強化學(xué)習(xí):原理入門》:零起點入門掌握AlphaGo的核心強化學(xué)習(xí)算法
原創(chuàng) abby | 2018-02-06 08:00
【數(shù)據(jù)猿導(dǎo)讀】 《深入淺出強化學(xué)習(xí):原理入門》試圖從最簡單的解決馬爾科夫決策過程的動態(tài)規(guī)劃算法,一路講解到最前沿的深度強化學(xué)習(xí)算法(Deep Q Network,DQN),單刀直入,全無枝枝蔓蔓之感。不僅解釋數(shù)學(xué)原理,而且注重編程實踐

來源:數(shù)據(jù)猿 作者:abby
強化學(xué)習(xí)是機器學(xué)習(xí)的一個重要分支,它試圖解決決策優(yōu)化的問題。所謂決策優(yōu)化,是指面對特定狀態(tài)(State,S),采取什么行動方案(Action,A),才能使收益最大(Reward,R)。很多問題都與決策優(yōu)化有關(guān),比如下棋、投資、課程安排、駕車,動作模仿等。
AlphaGo的核心算法,就是強化學(xué)習(xí)。AlphaGo不僅穩(wěn)操勝券地戰(zhàn)勝了當(dāng)今世界所有人類高手,而且甚至不需要學(xué)習(xí)人類棋手的棋譜,完全靠自己摸索,就在短短幾天內(nèi),發(fā)現(xiàn)并超越了一千多年來人類積累的全部圍棋戰(zhàn)略戰(zhàn)術(shù)。
最簡單的強化學(xué)習(xí)的數(shù)學(xué)模型,是馬爾科夫決策過程(Markov Decision Process,MDP)。之所以說MDP是一個簡單的模型,是因為它對問題做了很多限制。
1.面對的狀態(tài)st,數(shù)量是有限的。
2.采取的行動方案at,數(shù)量也是有限的。
3.對應(yīng)于特定狀態(tài)st,當(dāng)下的收益rt是明確的。
4.在某一個時刻t,采取了行動方案at,狀態(tài)從當(dāng)前的st轉(zhuǎn)換成下一個狀態(tài)st+1。下一個狀態(tài)有多種可能,記為 , i = 1... n。
換句話說,面對局面st,采取行動at,下一個狀態(tài)是 ,不是確定的,而是概率的,狀態(tài)轉(zhuǎn)換概率,記為P( | st, at )。但是狀態(tài)轉(zhuǎn)換只依賴于當(dāng)前狀態(tài)st,而與先前的狀態(tài)st-1, st-2 ...無關(guān)。
解決馬爾科夫決策過程問題的常用的算法,是動態(tài)規(guī)劃(Dynamic Programming)。
對馬爾科夫決策過程的各項限制,不斷放松,研究相應(yīng)的算法,是強化學(xué)習(xí)的目標(biāo)。例如對狀態(tài)st放松限制:
1.假如狀態(tài)st的數(shù)量,雖然有限,但是數(shù)量巨大,如何降低動態(tài)規(guī)劃算法的計算成本;
2.假如狀態(tài)st的數(shù)量是無限的,現(xiàn)有動態(tài)規(guī)劃算法失效,如何改進算法;
3.假如狀態(tài)st的數(shù)量不僅是無限的,而且取值不是離散的,而是連續(xù)的,如何改進算法;
4.假如狀態(tài)st不能被完全觀察到,只能被部分觀察到,剩余部分被遮擋或缺失,如何改進算法;
5.假如狀態(tài)st完全不能被觀察到,只能通過其他現(xiàn)象猜測潛在的狀態(tài),如何改進算法。
放松限制,就是提升問題難度。在很多情況下,強化學(xué)習(xí)的目標(biāo),不是尋找絕對的最優(yōu)解,而是尋找相對滿意的次優(yōu)解。
強化學(xué)習(xí)的演進,有兩個軸線:一個是不斷挑戰(zhàn)更難的問題,不斷從次優(yōu)解向最優(yōu)解逼近;另一個是在不嚴(yán)重影響算法精度的前提下,不斷降低算法的計算成本。
今天為大家推薦的《深入淺出強化學(xué)習(xí):原理入門》就試圖從最簡單的解決馬爾科夫決策過程的動態(tài)規(guī)劃算法,一路講解到最前沿的深度強化學(xué)習(xí)算法(Deep Q Network,DQN),單刀直入,全無枝枝蔓蔓之感。不僅解釋數(shù)學(xué)原理,而且注重編程實踐。
《深入淺出強化學(xué)習(xí):原理入門》用通俗易懂的語言深入淺出地介紹了強化學(xué)習(xí)的基本原理,覆蓋了傳統(tǒng)的強化學(xué)習(xí)基本方法和當(dāng)前炙手可熱的深度強化學(xué)習(xí)方法。開篇從最基本的馬爾科夫決策過程入手,將強化學(xué)習(xí)問題納入到嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)框架中,接著闡述了解決此類問題最基本的方法——動態(tài)規(guī)劃方法,并從中總結(jié)出解決強化學(xué)習(xí)問題的基本思路:交互迭代策略評估和策略改善?;谶@個思路,分別介紹了基于值函數(shù)的強化學(xué)習(xí)方法和基于直接策略搜索的強化學(xué)習(xí)方法。最后介紹了逆向強化學(xué)習(xí)方法和近年具有代表性、比較前沿的強化學(xué)習(xí)方法。
除了系統(tǒng)地介紹基本理論,書中還介紹了相應(yīng)的數(shù)學(xué)基礎(chǔ)和編程實例。因此,《深入淺出強化學(xué)習(xí):原理入門》既適合零基礎(chǔ)的人員入門學(xué)習(xí)、也適合相關(guān)科研人員作為研究參考。
目錄
第一篇:強化學(xué)習(xí)基礎(chǔ)
第二篇:基于值函數(shù)的強化學(xué)習(xí)方法
第三篇:基于直接策略搜索的強化學(xué)習(xí)方法
第四篇:強化學(xué)習(xí)研究及前沿
后記
推薦閱讀:
【每周一本書】之《從Excel到Power BI:商業(yè)智能數(shù)據(jù)分析》:讓你擺脫數(shù)據(jù)搬運工,成為數(shù)據(jù)分析師
【每周一本書】之《數(shù)據(jù)可視化與數(shù)據(jù)挖掘》:基于Tableau和SPSS Modeler圖形界面
點擊查看更多大數(shù)據(jù)書籍……
本書由 數(shù)據(jù)猿聯(lián)合電子工業(yè)出版社 共同推薦
【本欄目合作伙伴】:清華大學(xué)出版社、電子工業(yè)出版社、北京師范大學(xué)出版社、中國人民大學(xué)出版社。
歡迎更多合作伙伴加入!也歡迎勾搭小編,微信:wmh4178,備注“書”
刷新相關(guān)文章
我要評論
活動推薦more >
- 2018 上海國際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國際計算機網(wǎng)絡(luò)及信2018-12-03
- 中國國際信息通信展覽會將于2018-09-26
- 第五屆FEA消費金融國際峰會62018-06-21
- 第五屆FEA消費金融國際峰會2018-06-21
- “無界區(qū)塊鏈技術(shù)峰會2018”2018-06-14
不容錯過的資訊
-
1#后疫情時代的新思考#疫情之下,關(guān)于醫(yī)
-
2數(shù)據(jù)軟件產(chǎn)品和服務(wù)商DataHunter完成B輪
-
3眾盟科技獲ADMIC 2020金粲獎“年度汽車
-
4數(shù)據(jù)智能 無限未來—2020世界人工智能大
-
5#2020非凡大賞:數(shù)字化風(fēng)起云涌時,共尋
-
6#榜樣的力量#天璣數(shù)據(jù)大腦疫情風(fēng)險感知
-
7#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
8#榜樣的力量#實時新型肺炎疫情數(shù)據(jù)小程
-
9#榜樣的力量#華佗疫情防控平臺丨數(shù)據(jù)猿
-
10#后疫情時代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新