2022年02月16日,曾開發(fā)出AlphaGo的DeepMind公司在Nature上發(fā)表論文,宣布他們通過強化學習訓練了一個人工智能來成功控制核聚變,這一消息迅速引爆技術圈。
▲DeepMind在推特上發(fā)表消息
無論學術界還是工業(yè)界,強化學習的熱度一直居高不下,但它的學習難度也同樣不低。
不過GitHub上有一個熱門的強化學習教程“蘑菇書Easy RL”,它基于中科院、清華、北大的三位在讀碩士自學3門強化學習的經(jīng)典公開課時所作的筆記,獲得了1w+的下載和3.3k+的標星。
▲“蘑菇書”《Easy RL:強化學習教程》
如今,它的紙質書正式出版,讓更多想要入門強化學習的同學更加便捷。
01
自學難度大?
B站3門累計播放100w+的公開課很不錯!
為什么“蘑菇書Easy RL”能獲得這么高的關注度?
一方面是因為強化學習本身便具有熱度,它作用強、應用廣,對應的崗位高薪、前景廣闊,吸引了許多人學習。
另一方面是因為強化學習入門難,而這套教程則非常干貨。
它所基于的3門公開課——李宏毅老師的“深度強化學習”、周博磊老師的“強化學習綱要”和李科澆老師的“世界冠軍帶你從零實踐強化學習”,正是入門強化學習的熱門公開課,而這一本“蘑菇書”就涵蓋了3門大熱公開課的內(nèi)容,自然能夠收獲眾多學習者的支持和喜愛。
▲在B站搜索“強化學習”
● 李宏毅“深度強化學習”
相信大家對大名鼎鼎的“李宏毅機器學習”和“李宏毅深度學習”這兩門課都不陌生,而這門“深度強化學習”同樣出自這位李宏毅老師。他是臺灣大學副教授,研究方向為機器學習、深度學習及語音識別與理解。
▲
B站上李宏毅老師的機器學習和深度學習的公開課都擁有很高的播放量
李宏毅老師的“深度強化學習”,不但包含的理論知識豐富全面,而且課堂上總是充滿著歡聲笑語。這是因為他能巧用許多有趣的例子來講解強化學習理論。
比如他經(jīng)常會用玩雅達利游戲的例子來講解強化學習算法,這讓晦澀難懂的強化學習理論變得通俗易懂,從而吸引了很多人把李宏毅老師的公開課當作入門教程。
▲B站上李宏毅老師的“深度強化學習”課程下的網(wǎng)友好評
● 周博磊“強化學習綱要”
周博磊老師是加州大學洛杉磯分校(UCLA)的助理教授,他的研究方向為機器感知和智能決策,在人工智能頂級會議和期刊發(fā)表了50余篇學術論文,論文總引用量超過1萬次。
周博磊老師的這門課理論嚴謹、內(nèi)容豐富,全面介紹了強化學習領域,并且有相關的代碼實踐,補足了李宏毅老師課程中代碼和應用較少的遺憾。
▲
B站上周博磊老師的“強化學習綱要”課程下的網(wǎng)友好評
● 李科澆“世界冠軍帶你從零實踐強化學習”
李科澆老師是飛槳強化學習PARL團隊核心成員、百度高級研發(fā)工程師,她所在團隊曾兩度奪得神經(jīng)信息處理系統(tǒng)大會(NeurIPS)強化學習賽事的冠軍。
李科澆老師的這門課有一個特別突出的優(yōu)點,就是實戰(zhàn)性強,通篇課程使用大量的代碼來講解強化學習。
▲
B站上李科澆老師的“世界冠軍帶你從零實踐強化學習”課程廣受歡迎
這三門課學下來,不論是從理論、代碼還是實際應用,基本能讓學習者對強化學習有一個良好的把握。
02
“學完3門公開課后,我編寫了一套入門教程,并得到了3位公開課老師的認可”
不過,視頻課雖然便于學習,但是實時性很強,不如文字教程那樣便于查找知識點。因此,小異便想,要是有一本配套教材該多好啊。
這樣不僅能夠學得更加全面,還能自行規(guī)劃學習進度。令小異驚喜的是,萬能的網(wǎng)友們真的推薦了這樣一本寶書!
▲
B站網(wǎng)友推薦“目前見到過最好的李宏毅深度強化學習筆記”
這本寶書就是Datawhale開源學習組織在GitHub上發(fā)布的“蘑菇書Easy RL”。Datawhale就是去年出版了好評超高的“西瓜書的伴侶書”——“南瓜書”的團隊,他們致力于AI領域的學習。
“蘑菇書Easy RL”也繼承了“南瓜書”的高人氣,在線上發(fā)布9個月的時間內(nèi),就獲得了3.3k+的GitHub Star和1w+的下載。
▲“蘑菇書”獲得了3.3k+的GitHub Star
根據(jù)作者王琦、楊毅遠、江季的說明,“蘑菇書Easy RL”是他們在自學上述3門強化學習公開課的過程中,根據(jù)自身的理解整理優(yōu)化得來的,其內(nèi)容主要包括:
● 根據(jù)李宏毅老師的“深度強化學習”整理而來的策略梯度、近端策略優(yōu)化、深度Q 網(wǎng)絡、演員-評論員算法、稀疏獎勵、模仿學習;
● 根據(jù)周博磊老師的“強化學習綱要”凝練而成的強化學習緒論、馬爾可夫決策過程;
● 根據(jù)李科澆老師的“世界冠軍帶你從零實踐強化學習”總結而來的表格型方法、深度確定性策略梯度;
● 作者原創(chuàng)的AlphaStar論文解讀。
“蘑菇書Easy RL”的初稿完成后,為了更好地優(yōu)化這套教程,三位作者還把它作為教材,組織了上百人的組隊學習活動,不僅得到了一致好評,還根據(jù)學習者對于初版教程的上百次反饋,經(jīng)歷了1年多的開源協(xié)作修改,完成了這本書的優(yōu)化,并以“Easy RL:強化學習教程”為名得到了出版,昵稱“蘑菇書”。
“蘑菇書”《Easy RL:強化學習教程》
這本“蘑菇書”《Easy RL:強化學習教程》,因為是在權威且高好評的課程基礎上,由眾多“學習者”貢獻而成的,因此特別符合學習的思路,非常適合初學者用于強化學習的入門。
學習者既可以在觀看公開課的同時把它作為教輔使用,以深入理解并拓展公開課的內(nèi)容,也可以將它作為獨立教程進行學習。
不僅如此,這本書還得到了上面三門視頻課老師的推薦!
“在認識本書編著者之前,我就已經(jīng)在網(wǎng)絡上注意到他們的教程“Easy-RL”,因為“Easy-RL”有部分內(nèi)容改編自我在臺灣大學開授的“深度強化學習”上課視頻。當?shù)谝淮慰吹健癊asy-RL”時,我的第一個想法是:這群人把強化學習的知識整理得真好,不僅有理論說明,還加上了程序實例,同學們以后可以直接讀這套教程,這樣我上課也就不用再講強化學習的部分了。很高興王琦、楊毅遠、江季三位編著者能夠把“Easy-RL”以圖書的形式出版。”
——李宏毅,
臺灣大學副教授
“很欣喜三位編著者能整合和升華我與另外兩位老師的強化學習公開課資料,編著出這本實用的強化學習入門教程。這本教程專注于強化學習理論與實踐相結合,通過生動的例子和動手實踐幫助讀者深入理解各種算法。以強化學習為代表的機器智能決策是人工智能的重要方向之一,希望未來更多優(yōu)秀的同學可以通過這本教程和強化學習的公開課,開啟自己的研究之旅,實現(xiàn)類似于AlphaGo系列的開創(chuàng)性工作?!?/p>
——周博磊,
加利福尼亞大學洛杉磯分校(UCLA)助理教授
“還記得我當初自學強化學習的時候,中文資料少之又少,只能去啃國外的教材和論文;后來開設“世界冠軍帶你從零實踐強化學習”這門公開課,也是期望可以為強化學習中文社區(qū)添磚加瓦;所以很開心國內(nèi)的學生能自發(fā)地形成這種公開的、系統(tǒng)的強化學習中文入門課程筆記的整理、分享與社區(qū)討論的氛圍。看了“Easy-RL”倉庫以及編著者發(fā)來的這本書第1章的內(nèi)容,我發(fā)現(xiàn)這本書不僅是一個筆記合集,編著者有重點地梳理了理論,并配備了難度適中的習題實踐和面試題供讀者參考。我相信這本書的出版對于剛接觸強化學習的學生,以及準備轉行的在職人員都會有幫助。非常推薦強化學習初學者閱讀它?!?/p>
——李科澆,
飛槳強化學習PARL團隊核心成員,百度高級研發(fā)工程師
03
GitHub標星3.3k+的“學霸筆記”
——蘑菇書Easy RL
我們在上學的時候,都會希望能擁有一本學霸筆記,這樣能讓學習變得事半功倍。要是學霸還順帶幫你押了題,那簡直如有神助!
小異認為“蘑菇書”《Easy RL:強化學習教程》就是一本很典型的“學霸筆記”,既有老師上課畫的重點——3門公開課的精華內(nèi)容,還有學霸凝練的精華和擴展的內(nèi)容——作者們在大部分章末設置了原創(chuàng)的關鍵詞、習題和面試題,并提供Python代碼實現(xiàn),幫助讀者提高和鞏固對所學知識的清晰度和掌握度。
● 內(nèi)容系統(tǒng)全面,并通過關鍵詞鞏固學習
為了盡可能地降低閱讀門檻,作者們在“蘑菇書”中對3門公開課的精華內(nèi)容進行了選取和優(yōu)化,對所涉及的公式給出了詳細的推導過程,對較難理解的知識點進行了重點講解和強化,以方便讀者輕松入門。并且,為了豐富內(nèi)容,書中還補充了不少3門公開課之外的強化學習相關知識。
“蘑菇書”全書共13章,分為兩部分。第一部分介紹強化學習的基礎知識以及傳統(tǒng)強化學習算法,第二部分介紹深度強化學習算法及其常見問題的解決方法。
▲“蘑菇書”目錄
內(nèi)容雖多,但是作者們非常貼心地整理了強化學習中的大量關鍵詞,總結了對應章節(jié)的重點概念,以方便讀者高效地回憶并掌握核心內(nèi)容。
▲原創(chuàng)關鍵詞鞏固學習
● 精選習題和面試題,助力大廠offer
“蘑菇書”還拓展了習題和面試題:
習題部分以問答的形式闡述了相應章中出現(xiàn)的知識點,幫助讀者厘清知識脈絡;
面試題部分的內(nèi)容源于大廠的算法崗面試真題,通過還原真實的面試場景和面試問題,幫助讀者開闊思路,助力大家面試理想的崗位。
▲精選習題和面試題,助力理想offer
并且作者還為大家準備了習題和面試題的電子版答案,有疑問也可以通過Datawhale和作者進行溝通答疑。
● 理論與應用結合,基于Python實現(xiàn)強化學習
強化學習是一個理論與實踐相結合的學科,我們不僅要理解算法背后的原理,還要通過上機實踐來實現(xiàn)算法,讓理論知識得到實際的應用。
“蘑菇書”的作者深諳此道,精心為讀者準備了強化學習的Python代碼實現(xiàn),并且源代碼可以在購書后通過異步社區(qū)進行下載,讓大家親自動手實現(xiàn)各種經(jīng)典的強化學習算法,通過實戰(zhàn)更清晰地理解算法并快速應用。
▲案例生動形象,描述深入淺出,代碼簡潔易懂,注釋詳細
強化學習之路道阻且長,就讓這本從學習者角度出發(fā)、受到眾多專家聯(lián)合力薦的強化學習落地指南《Easy RL:強化學習教程》帶大家像采蘑菇一樣輕松學會強化學習吧!
文章編輯:羅夢婷、Gong 審校:Gong、劉鑫
參考來源:
《Easy RL:強化學習教程》前言、第一章
異步社區(qū)
https://xintu.nature.com/articles/s41586-021-04301-9
https://xintu.wired.com/story/deepmind-ai-nuclear-fusion/
推薦閱讀
▲點擊封面,進入購買界面
《Easy RL 強化學習教程》
強化學習作為機器學習及人工智能領域的一種重要方法,在游戲、自動駕駛、機器人路線規(guī)劃等領域得到了廣泛的應用。
本書結合了李宏毅老師的“深度強化學習”、周博磊老師的“強化學習綱要”、李科澆老師的“世界冠軍帶你從零實踐強化學習”公開課的精華內(nèi)容,在理論嚴謹?shù)幕A上深入淺出地介紹馬爾可夫決策過程、蒙特卡洛方法、時序差分方法、Sarsa、Q 學習等傳統(tǒng)強化學習算法,以及策略梯度、近端策略優(yōu)化、深度Q 網(wǎng)絡、深度確定性策略梯度等常見深度強化學習算法的基本概念和方法,并以大量生動有趣的例子幫助讀者理解強化學習問題的建模過程以及核心算法的細節(jié)。
此外,本書還提供較為全面的習題解答以及Python 代碼實現(xiàn),可以讓讀者進行端到端、從理論到輕松實踐的全生態(tài)學習,充分掌握強化學習算法的原理并能進行實戰(zhàn)。
本書適合對強化學習感興趣的讀者閱讀,也可以作為相關課程的配套教材。
掃描二維碼推送至手機訪問。
版權聲明:本文由信途科技轉載于網(wǎng)絡,如有侵權聯(lián)系站長刪除。