黃士傑:AlphaGo Zero 只用了三天,就走過人類幾千年圍棋研究的歷程
AlphaGo、DeepMind、人工智慧、圍棋、黃士傑
by 2017/11/10 李柏鋒
資料來源:https://www.inside.com.tw/2017/11/10/aja-alphago-zero
圖片來源:pixabay
DeepMind 資深研究員黃士傑博士(Aja Huang)今日回台在首屆人工智慧年會上發表以「AlphaGo:深度學習與強化學習的勝利」為題的演講,受到台灣產官學界的矚目,九點不到人潮就擠爆了中研院的演講廳。黃士傑除了分享自己在人工智慧與圍棋上的研究,也分享了最近發表的 AlphaGo Zero 如何不需要人類的知識就能自己學會圍棋,並且變得比打敗人類棋手的前一代版本更為強大。
從台灣博士生變成被 Google 併購的 DeepMind 員工
黃士傑是台師大資訊工程研究所第一屆的學生,從碩士念到博士,在博五的時候結婚,而黃士傑在博士班時所開發的圍棋軟體叫做 Erica,就是妻子的名字,當時以單機的版本打敗人工智慧圍棋領域最強、使用了六台機器的 Zen,也因此被 DeepMind 發覺他的能力,David Sliver 便力邀黃士傑加入,黃士傑也成了第 40 號員工。
在面試的時候,David Sliver 問黃士傑,開發出 Erica 的感覺是什麼?黃士傑回答:「很有成就感,可以自己做出一台 AI 來。」後來進了 DeepMind ,發現這其實是公司裡面共同的感覺,而 DeepMind 的夢想就是做出「通用的強人工智慧」。2014 年,DeepMind 被 Google 併購,進到了 Google 最大的好處就是擁有強大的運算資源。
又回到圍棋,AlphaGo 的誕生
不過成為 DeepMind 的研究員之後,黃士傑並沒有馬上開發 AlphaGo,而是到了 2014、2015 的時候才開始重啟圍棋的人工智慧計畫,但也並不是接續博士班時開發的 Erica,因為當時已經發現極限了,所以必須藉助深度學習的技術重新打造,並且持續延攬世界上最厲害的人才加入,包括加拿大 DNNresearch 的 Chris Maddison 和 Ilya Sutskever,同樣也被 Google 併購,因此就有機會一起合作。
人才、運算資源都齊備,AlphaGo 計畫也正式開始了。黃士傑分享,第一個突破是運用了神經網路的技術,原本還不確定是否會有效,沒想到實驗結果出來之後,對弈原始的版本竟然是 100% 的勝率,也讓團隊為之振奮。接著而來的第二個突破,則是價值網路的技術,其實當時的模擬,AlphaGo 如果上場比賽,勝率應該有七八成,可以算是世界第一了,但是 DeepMind 的目標遠高於此,所以持續擴充團隊,才有辦法做更多的研究,解決更多的問題。
黃士傑也分享,其實在開發 AlphaGo 的過程中,每天就是訓練神經網路、測試、看勝率、觀察看看是不是有效,有很多點子和問題需要不斷的測試,像是深度學習的深度到底要幾層?用什麼架構?訓練的資料有沒有問題?當然,最終檢驗的還是 AlphaGo 的棋力有沒有變強。
在觀察的過程中,也發現 AlphaGo 有 Overfitting 的問題,解決之後 AlphaGo 就變強了,再跟上一個版本對弈,勝率是 95%,這也是為什麼演講題目訂為 AlphaGo 的成功是深度學習與強化學習的勝利。
開始與人類對弈,並發表第一篇 Nature 論文
確認了 AlphaGo 的能力之後,DeepMind 決定與真人對弈,第一個對象是法國的二段棋士樊麾,在 2015 年 10 月,AlphaGo 五戰全勝,第五戰 Nature 期刊的編輯還到場觀戰,確認 AlphaGo 即將發表的論文是否真的這麼厲害。樊麾也成為第一位正式被 AI 打敗的職業棋士,但落敗後,樊麾認為 AI 的發展對圍棋是正面的,所以後來也給 AlphaGo 團隊很多幫助。
不過 DeepMind 這家公司與其說是「營利事業」,還不如說是「研究機構」。好不容易開發出一個可以打敗職業棋手的人工智慧,卻要發表論文將細節全部公開?而且贏了樊麾之後,正式對九段棋士李世乭宣戰,公開豈不是更處於劣勢?當時黃士傑其實也不解為何公司如此決定,總覺得應該要花時間在準備比賽而不是寫論文。
也就因為要發表論文,Nature 要求刊登前不能公開打敗樊麾的訊息,所以大眾是在好幾個月之後才知道。
黃士傑也再度提到,DeepMind 加入 Google 之後,Google 所提供的運算資源硬體設備幫助相當大,尤其後來 TPU 取代了 GPU 更是極大的幫助,不然有很多事情根本做不了。 AlphaGo 也算是在 Google 裡面第一個大量使用 TPU 的程式。關於細節,黃士傑表示在紀錄片《AlphaGo》裡面都有詳細描述。
從敗給李世乭找到弱點,再次強化學習能力
韓國之戰的結果大家都知道了。打敗李世乭之後,AlphaGo 是否就該喊停了呢?其實對弈過程中,第四戰 AlphaGo 就出現了明顯的問題,竟然出現了連業餘選手都不會犯的錯,當時負責落子的黃士傑甚至覺得自己來下說不定還比 AlphaGo 好,李世乭也訝異地看螢幕確認是不是黃士傑放錯位置。
既然 AlphaGo 還有問題,自然就要繼續研究下去,全面性的把問題解決掉,這個過程花了八個月,也找來生力軍 Karen Simonyan 加入團隊。其實解決的方法就是在深度學習和強化學習的技術上,把學習能力再加強。
第一步,先把原本 13 層的網路增加到 40 層,也改成 ResNet,第二步則是把 Policy Network 和 Value Network 結合成 Dual Network,讓 AlphaGo 的直覺和判斷一起訓練。第三步,把 Training Pipelines 也加強。除了人工智慧的學習能力,黃士傑也把模仿棋、循環劫等圍棋的問題也解決了,再跟打敗李世乭的版本對弈,可以讓三子(不貼目)還達到超過 50% 的勝率。
Master 在台南從低調下棋到舉世關注
在確定解決了所能找到的所有問題之後,AlphaGo 團隊決定低調上線找棋士對弈,其實也就是後來的 Master 版本,而當然不斷的贏棋之後,再也無法低調了,最後的結果是對戰中、日、韓、台的頂尖棋手,全勝。
當時,黃士傑回到台灣,在台南自己的房間裡面,開了一個新的帳號,邀請棋士對弈,知名棋士還拒絕,不過後來當然就變成是黃士傑拒絕別人了,而且每一盤棋也越來越多人觀戰。在對戰過程中,黃士傑一直觀察 AlphaGo 勝率圖表的變化,除了柯潔以外,已經沒有人有機會贏 AlphaGo 了。
AlphaGo Zero 只用三天,走過人類幾千年圍棋研究的歷程
AlphaGo 團隊當時已經兵分兩路,黃士傑忙著用 Master 與柯潔對戰,另一組人則開發 AlphaGo Zero,而黃士傑先負責把 AlphaGo 的圍棋知識全部拿掉,並且再三確認這件事情,因為 AlphaGo Zero 是一個完全不需要人類先備知識就能自我學習的人工智慧,所以只能有規則知識,不能有圍棋知識。
其實原本 AlphaGo 團隊也不確定能不能成功,不過後來 AlphaGo Zero 的確也擊敗了 Master,再度證明深度學習與強化學習真的很強大。AlphaGo Zero 一開始是徹底亂下,也常常學習之後就卡住了,經過一些調整之後才能再繼續,不過有了 Google 強大的運算資源,以 2000 顆 TPU 的運算,短短經過三天,AlphaGo Zero 就成功了。而且不只學習能力,AlphaGo Zero 下棋的時候耗電量比起對弈樊麾時的運算,降低很多。現在很多 Zero 所下的棋,黃士傑也看不懂了。
經過小蝠的調整和改進,AlphaGo 到中國與柯潔對弈。黃士傑也提到了比起在韓國很想要全贏,在中國對弈的氣氛是比較輕鬆的,因為勝負不再是重點(覺得不可能會輸了),而是已經是在探索人類與人工智慧之間如何互相合作,所以比賽的名稱也叫做「共創棋妙未來」。黃士傑表示,人工智慧已經不會輸給人類,但是這時候人工智慧的功能,是在擴展人類棋手的思路,和人類合作一起探索圍棋還未被發掘的領域。
結論:
總結這一路走來的收穫,除了發表兩篇 Nature 論文,參與兩次人機大戰與 60 局的網路對弈,更有機會讓人工智慧與圍棋兩個黃士傑最喜歡的領域都受到全世界的重視,還上了時代雜誌,也拍了一部紀錄片,黃士傑覺得非常滿足。而以下則是黃士傑在演講簡報上整理的五點結論:AlphaGo 的成功,是深度學習與強化學習的勝利
1.AlphaGo 的成功,是深度學習與強化學習的勝利
2.AlphaGo 從起始到結尾,證明了團結力量才會大
3.AlphaGo 的發展,TPU 與硬體資源扮演非常重要的角色
4.AlphaGo Zero 顯示了強化學習的巨大潛力人
5.工智慧在可見的未來,將成為人類重要的工具,與人類合作
而在問題時,有觀眾問到 AlphaGo Zero 的出現,是否意味著人類知識就沒有用了呢?黃士傑則表示,這是一個值得研究的問題,AlphaGo Zero 只回答了人工智慧可以不需要人類知識,但是需不需要人類知識,是現在還沒辦法回答的,其實有人類知識的確會縮短人工智慧學習的時間,但沒有人類知識,有沒有可能發展出截然不同的知識出來呢?
AlphaGo Zero 目前也沒有開源的計畫,但是黃士傑認為,在 Nature 發表的論文都寫得很詳細了,也有人看著論文做出 AlphaGo Zero 並且開源了,所以 DeepMind 是不是要開源,倒是沒有太大差異。