alphago

alphago

阿爾法圍棋(AlphaGo)是一款圍棋人工智慧程式,由谷歌旗下DeepMind公司的戴維·西爾弗、艾佳·黃和戴密斯·哈薩比斯與他們的團隊開發,這個程式利用“價值網路”去計算局面,用“策略網路”去選擇下子。“AlphaGo”程式利用“價值網路”去計算局面,用“策略網路”去選擇下子。訓練這些深度神經網路的,是對人類專業棋局的監督學習以及讓它和自己對弈的增強學習。2016年3月9日-2016年3月15日,谷歌AlphaGo與韓國圍棋棋手李世石展開世紀之戰,在最後一輪較量中,AlphaGo獲得勝利,最終人機大戰總比分定格在1:4,AlphaGo因此站獲得由韓國棋院頒發的九段棋手榮譽證書。2016年9月Google宣布即將把支持AlphaGo贏得圍棋人機大戰的深度神經網路套用於Google翻譯中,讓機器翻譯更加通順流暢,表意清晰,該系統僅套用於中文到英文的語言翻譯。2017年1月5日,Alphago擊敗古力九段。2017年5月27日,中國圍棋峰會人機大戰,最終,柯潔九段執白209手中盤負圍棋人工智慧AlphaGo。柯潔以0比3的總比分落敗。

基本信息

程式原理

深度學習

阿爾法圍棋阿爾法圍棋
阿爾法圍棋(AlphaGo)是一款圍棋人工智慧程式。其主要工作原理是“深度學習”。“深度學習”是指多層的人工神經網路和訓練它的方法。一層神經網路會把大量矩陣數字作為輸入,通過非線性激活方法取權重,再產生另一個數據集合作為輸出。這就像生物神經大腦的工作機理一樣,通過合適的矩陣數量,多層組織連結一起,形成神經網路“大腦”進行精準複雜的處理,就像人們識別物體標註圖片一樣。
阿爾法圍棋用到了很多新技術,如神經網路、深度學習、蒙特卡洛樹搜尋法等,使其實力有了實質性飛躍。美國臉書公司“黑暗森林”圍棋軟體的開發者田淵棟在網上發表分析文章說:“‘阿爾法圍棋’這個系統主要由幾個部分組成:一、走棋網路(PolicyNetwork),給定當前局面,預測/採樣下一步的走棋;二、快速走子(Fastrollout),目標和走棋網路一樣,但在適當犧牲走棋質量的條件下,速度要比走棋網路快1000倍;三、估值網路(ValueNetwork),給定當前局面,估計是白勝還是黑勝;四、蒙特卡洛樹搜尋(MonteCarloTreeSearch),把以上這三個部分連起來,形成一個完整的系統。”

兩個大腦

阿爾法圍棋(AlphaGo)是通過兩個不同神經網路“大腦”合作來改進下棋。這些大腦是多層神經網路跟那些Google圖片搜尋引擎識別圖片在結構上是相似的。它們從多層啟發式二維過濾器開始,去處理圍棋棋盤的定位,就像圖片分類器網路處理圖片一樣。經過過濾,13個完全連線的神經網路層產生對它們看到的局面判斷。這些層能夠做分類和邏輯推理。
這些網路通過反覆訓練來檢查結果,再去校對調整參數,去讓下次執行更好。這個處理器有大量的隨機性元素,所以人們是不可能精確知道網路是如何“思考”的,但更多的訓練後能讓它進化到更好。
第一大腦:落子選擇器(MovePicker)
阿爾法圍棋(AlphaGo)的第一個神經網路大腦是“監督學習的策略網路(PolicyNetwork)”,觀察棋盤布局企圖找到最佳的下一步。事實上,它預測每一個合法下一步的最佳機率,那么最前面猜測的就是那個機率最高的。這可以理解成“落子選擇器”。
第二大腦:棋局評估器(PositionEvaluator)
阿爾法圍棋(AlphaGo)的第二個大腦相對於落子選擇器是回答另一個問題。不是去猜測具體下一步,它預測每一個棋手贏棋的可能,再給定棋子位置情況下。這“局面評估器”就是“價值網路(ValueNetwork)”,通過整體局面判斷來輔助落子選擇器。這個判斷僅僅是大概的,但對於閱讀速度提高很有幫助。通過分類潛在的未來局面的“好”與“壞”,AlphaGo能夠決定是否通過特殊變種去深入閱讀。如果局面評估器說這個特殊變種不行,那么AI就跳過閱讀。

主要成績

對戰機器人

研究者讓“阿爾法圍棋”和其他的圍棋人工智慧機器人進行了較量,在總計495局中只輸了一局,勝率是99.8%。它甚至嘗試了讓4子對陣CrazyStone、Zen和Pachi三個先進的人工智慧機器人,勝率分別是77%、86%和99%。
對戰人類
2016年1月27日,國際頂尖期刊《自然》封面文章報導,谷歌研究者開發的名為“阿爾法圍棋”(AlphaGo)的人工智慧機器人,在沒有任何讓子的情況下,以5:0完勝歐洲圍棋冠軍、職業二段選手樊麾。在圍棋人工智慧領域,實現了一次史無前例的突破。電腦程式能在不讓子的情況下,在完整的圍棋競技中擊敗專業選手,這是第一次。
2016年3月9日到15日,阿爾法圍棋程式挑戰世界圍棋冠軍李世石的圍棋人機大戰五番棋在韓國首爾舉行。比賽採用中國圍棋規則,獎金是由Google提供的100萬美元。最終阿爾法圍棋以4比1的總比分取得了勝利。
2016年12月29日晚起到2017年1月4日晚,阿爾法圍棋在弈城圍棋網和野狐圍棋網以“大師”(Master)為註冊名,依次對戰數十位人類頂尖高手,取得60勝0負的輝煌戰績。
2017年5月23日,柯潔執黑迎戰谷歌AlphaGo,最終柯潔在收官階段不敵AlphaGo,第一局以失敗告終。 賽後,AlphaGo被中國圍棋協會授予職業圍棋九段稱號。

圍棋等級分

2016年7月18日,世界職業圍棋排名網站GoRatings公布最新世界排名,谷歌旗下DeepMind的人工智慧系統AlphaGo以3612分,超越3608分的柯潔成為新的世界第一。

機器遇見機器

2017年5月26日,AlphaGo配對賽開戰。對戰雙方為古力/AlphaGo組合和連笑/AlphaGo組合。比賽從上午8點半開始,最終古力舉牌中盤認輸,連笑/AlphaGo逆轉形勢獲得勝利,古力組的AlphaGo曾舉牌表示認輸。

設計團隊

阿爾法圍棋阿爾法圍棋
戴密斯·哈薩比斯(DemisHassabis),人工智慧企業家,DeepMindTechnologies公司創始人。4歲開始下西洋棋,8歲自學編程,13歲獲得西洋棋大師稱號。17歲進入劍橋大學攻讀計算機科學專業。在大學裡,他開始學習圍棋。2005年進入倫敦大學學院攻讀神經科學博士,選擇大腦中的海馬體作為研究對象。兩年後,他證明了5位因為海馬體受傷而患上健忘症的病人,在暢想未來時也會面臨障礙,並憑這項研究入選《科學》雜誌的“年度突破獎”。2011年創辦DeepMindTechnologies公司,以“解決智慧型”為公司的終極目標。
大衛·席爾瓦(DavidSilver),劍橋大學計算機科學學士、碩士,加拿大阿爾伯塔大學計算機科學博士,倫敦大學學院講師,GoogleDeepMind研究員。
除上述人員之外,阿爾法圍棋設計團隊核心人員還有黃士傑(AjaHuang)、施恩·萊格(ShaneLegg)和穆斯塔法·蘇萊曼(MustafaSuleyman)等。

發展方向

谷歌Deepmind執行長(CEO)戴密斯·哈薩比斯宣布“要將阿爾法圍棋(AlphaGo)和醫療機器人等進行結合”。因為它是人工智慧,會自己學習,只要給它資料就可以移植。
為實現該計畫,哈薩比斯2016年初在英國的初創公司“巴比倫”投資了2500萬美元。巴比倫正在開發醫生或患者說出症狀後,在網際網路上搜尋醫療信息、尋找診斷和處方的人工智慧APP(應用程式)。如果阿爾法圍棋(AlphaGo)和“巴比倫”結合,診斷的準確度將得到劃時代性提高 。

社會評論

中國圍棋職業九段棋手聶衛平:Master(即阿爾法圍棋)技術全面,從來不犯錯,這一點是其最大的優勢,人類要打敗它的話,必須在前半盤領先,然後中盤和官子階段也不容出錯,這樣固然很難,但客觀上也促進了人類棋手在圍棋技術上的提高。
復旦大學計算機科學技術學院教授、博士生導師危輝:人機大戰對於人工智慧的發展意義很有限。解決了圍棋問題,並不代表類似技術可以解決其他問題,自然語言理解、圖像理解、推理、決策等問題依然存在,人工智慧的進步被誇大了。

熱門詞條

聯絡我們