alphago人工智慧前景
A. ""阿爾法狗"的勝利,將成為人工智慧發展道路上一座重要的里程碑" 什麼意思
1、圍棋算最需要智力的一種游戲,機器戰勝人類最強棋手李世石,柯潔,說明人工智慧在一些方面已然超越人類,這可能是人工智慧領域的又一次突破和飛躍。
B. AlphaGo是否代表了人工智慧的成功和未來
AlphaGo這個系統主要由幾個部分組成:
走棋網路(Policy Network),給定當前局面,預測/采樣下一步的走棋。
快速走子(Fast rollout),目標和1一樣,但在適當犧牲走棋質量的條件下,速度要比1快1000倍。
估值網路(Value Network),給定當前局面,估計是白勝還是黑勝。
蒙特卡羅樹搜索(Monte Carlo Tree Search,MCTS),把以上這三個部分連起來,形成一個完整的系統。
我們的DarkForest和AlphaGo同樣是用4搭建的系統。DarkForest較AlphaGo而言,在訓練時加強了1,而少了2和3,然後以開源軟體Pachi的預設策略 (default policy)部分替代了2的功能。以下介紹下各部分。
1、走棋網路
走棋網路把當前局面作為輸入,預測/采樣下一步的走棋。它的預測不只給出最強的一手,而是對棋盤上所有可能的下一著給一個分數。棋盤上有361個點,它就給出361個數,好招的分數比壞招要高。
DarkForest在這部分有創新,通過在訓練時預測三步而非一步,提高了策略輸出的質量,和他們在使用增強學習進行自我對局後得到的走棋網路(RL network)的效果相當。當然,他們並沒有在最後的系統中使用增強學習後的網路,而是用了直接通過訓練學習到的網路(SL network),理由是RL network輸出的走棋缺乏變化,對搜索不利。
有意思的是在AlphaGo為了速度上的考慮,只用了寬度為192的網路,而並沒有使用最好的寬度為384的網路(見圖2(a)),所以要是GPU更快一點(或者更多一點),AlphaGo肯定是會變得更強的。
所謂的0.1秒走一步,就是純粹用這樣的網路,下出有最高置信度的合法著法。這種做法一點也沒有做搜索,但是大局觀非常強,不會陷入局部戰斗中,說它建模了「棋感」一點也沒有錯。我們把DarkForest的走棋網路直接放上KGS就有3d的水平,讓所有人都驚嘆了下。
可以說,這一波圍棋AI的突破,主要得益於走棋網路的突破。這個在以前是不可想像的,以前用的是基於規則,或者基於局部形狀再加上簡單線性分類器訓練的走子生成法,需要慢慢調參數年,才有進步。
當然,只用走棋網路問題也很多,就我們在DarkForest上看到的來說,會不顧大小無謂爭劫,會無謂脫先,不顧局部死活,對殺出錯,等等。有點像高手不經認真思考的隨手棋。因為走棋網路沒有價值判斷功能,只是憑「直覺」在下棋,只有在加了搜索之後,電腦才有價值判斷的能力。
2、快速走子
那有了走棋網路,為什麼還要做快速走子呢?有兩個原因,首先走棋網路的運行速度是比較慢的,AlphaGo說是3毫秒,我們這里也差不多,而快速走子能做到幾微秒級別,差了1000倍。所以在走棋網路沒有返回的時候讓CPU不閑著先搜索起來是很重要的,等到網路返回更好的著法後,再更新對應的著法信息。
其次,快速走子可以用來評估盤面。由於天文數字般的可能局面數,圍棋的搜索是毫無希望走到底的,搜索到一定程度就要對現有局面做個估分。在沒有估值網路的時候,不像國象可以通過算棋子的分數來對盤面做比較精確的估值,圍棋盤面的估計得要通過模擬走子來進行,從當前盤面一路走到底,不考慮岔路地算出勝負,然後把勝負值作為當前盤面價值的一個估計。
這里有個需要權衡的地方:在同等時間下,模擬走子的質量高,單次估值精度高但走子速度慢;模擬走子速度快乃至使用隨機走子,雖然單次估值精度低,但可以多模擬幾次算平均值,效果未必不好。所以說,如果有一個質量高又速度快的走子策略,那對於棋力的提高是非常有幫助的。
為了達到這個目標,神經網路的模型就顯得太慢,還是要用傳統的局部特徵匹配(local pattern matching)加線性回歸(logistic regression)的方法,這辦法雖然不新但非常好使,幾乎所有的廣告推薦,競價排名,新聞排序,都是用的它。
與更為傳統的基於規則的方案相比,它在吸納了眾多高手對局之後就具備了用梯度下降法自動調參的能力,所以性能提高起來會更快更省心。AlphaGo用這個辦法達到了2微秒的走子速度和24.2%的走子准確率。24.2%的意思是說它的最好預測和圍棋高手的下子有0.242的概率是重合的,相比之下,走棋網路在GPU上用2毫秒能達到57%的准確率。這里,我們就看到了走子速度和精度的權衡。
和訓練深度學習模型不同,快速走子用到了局部特徵匹配,自然需要一些圍棋的領域知識來選擇局部特徵。對此AlphaGo只提供了局部特徵的數目(見Extended Table 4),而沒有說明特徵的具體細節。我最近也實驗了他們的辦法,達到了25.1%的准確率和4-5微秒的走子速度,然而全系統整合下來並沒有復現他們的水平。
我感覺上24.2%並不能完全概括他們快速走子的棋力,因為只要走錯關鍵的一步,局面判斷就完全錯誤了;而圖2(b)更能體現他們快速走子對盤面形勢估計的精確度,要能達到他們圖2(b)這樣的水準,比簡單地匹配24.2%要做更多的工作,而他們並未在文章中強調這一點。
在AlphaGo有了快速走子之後,不需要走棋網路和估值網路,不藉助任何深度學習和GPU的幫助,不使用增強學習,在單機上就已經達到了3d的水平(見Extended Table 7倒數第二行),這是相當厲害的了。任何使用傳統方法在單機上達到這個水平的圍棋程序,都需要花費數年的時間。在AlphaGo之前,Aja Huang曾經自己寫過非常不錯的圍棋程序,在這方面相信是有很多的積累的。
3、估值網路
AlphaGo的估值網路可以說是錦上添花的部分,從Fig 2(b)和Extended Table 7來看,沒有它AlphaGo也不會變得太弱,至少還是會在7d-8d的水平。少了估值網路,等級分少了480分,但是少了走棋網路,等級分就會少掉800至1000分。特別有意思的是,如果只用估值網路來評估局面(2177),那其效果還不及只用快速走子(2416),只有將兩個合起來才有更大的提高。
我的猜測是,估值網路和快速走子對盤面估計是互補的,在棋局一開始時,大家下得比較和氣,估值網路會比較重要;但在有復雜的死活或是對殺時,通過快速走子來估計盤面就變得更重要了。考慮到估值網路是整個系統中最難訓練的部分(需要三千萬局自我對局),我猜測它是最晚做出來並且最有可能能進一步提高的。
關於估值網路訓練數據的生成,值得注意的是文章中的附錄小字部分。與走棋網路不同,每一盤棋只取一個樣本來訓練以避免過擬合,不然對同一對局而言輸入稍有不同而輸出都相同,對訓練是非常不利的。這就是為什麼需要三千萬局,而非三千萬個盤面的原因。對於每局自我對局,取樣本是很有講究的,先用SL network保證走棋的多樣性,然後隨機走子,取盤面,然後用更精確的RL network走到底以得到最正確的勝負估計。當然這樣做的效果比用單一網路相比好多少,我不好說。
一個讓我吃驚的地方是,他們完全沒有做任何局部死活/對殺分析,純粹是用暴力訓練法訓練出一個相當不錯的估值網路。這在一定程度上說明深度卷積網路(DCNN)有自動將問題分解成子問題,並分別解決的能力。
另外,我猜測他們在取訓練樣本時,判定最終勝負用的是中國規則。所以說三月和李世石對局的時候也要求用中國規則,不然如果換成別的規則,就需要重新訓練估值網路(雖然我估計結果差距不會太大)。至於為什麼一開始就用的中國規則,我的猜測是編程非常方便(我在寫DarkForest的時候也是這樣覺得的)。
4、蒙特卡羅樹搜索
這部分基本用的是傳統方法,沒有太多可以評論的,他們用的是帶先驗的UCT,即先考慮DCNN認為比較好的著法,然後等到每個著法探索次數多了,選擇更相信探索得來的勝率值。而DarkForest則直接選了DCNN推薦的前3或是前5的著法進行搜索。我初步試驗下來效果差不多,當然他們的辦法更靈活些,在允許使用大量搜索次數的情況下,他們的辦法可以找到一些DCNN認為不好但卻對局面至關重要的著法。
一個有趣的地方是在每次搜索到葉子節點時,沒有立即展開葉子節點,而是等到訪問次數到達一定數目(40)才展開,這樣避免產生太多的分支,分散搜索的注意力,也能節省GPU的寶貴資源,同時在展開時,對葉節點的盤面估值會更准確些。除此之外,他們也用了一些技巧,以在搜索一開始時,避免多個線程同時搜索一路變化,這部分我們在DarkForest中也注意到了,並且做了改進。
5、總結
總的來說,這整篇文章是一個系統性的工作,而不是一兩個小點有了突破就能達到的勝利。在成功背後,是作者們,特別是兩位第一作者David Silver和Aja Huang,在博士階段及畢業以後五年以上的積累,非一朝一夕所能完成的。他們能做出AlphaGo並享有現在的榮譽,是實至名歸的。
從以上分析也可以看出,與之前的圍棋系統相比,AlphaGo較少依賴圍棋的領域知識,但還遠未達到通用系統的程度。職業棋手可以在看過了寥寥幾局之後明白對手的風格並採取相應策略,一位資深游戲玩家也可以在玩一個新游戲幾次後很快上手,但到目前為止,人工智慧系統要達到人類水平,還是需要大量樣本的訓練的。可以說,沒有千年來眾多棋手在圍棋上的積累,就沒有圍棋AI的今天。
C. 為什麼說這次的alphago屬於真正的人工智慧
人機對戰更像人工智慧一場科技秀
雖然整場對弈還沒有結束,但是目前的情況顯然有些讓人出乎意料。有人認為,這是圍棋冠軍的一個挫敗,但卻是人類文明的勝利。因為人類是一個善於發明工具去協助自己變得更強大的生物。但是,這場人機對弈似乎有點被神話的意味。事實上,雖然人類在圍棋項目輸了,但這從本質上講,僅僅意味著人類單項競技智慧的頹敗,並不代表人工智慧已經全面超越人類。甚至,僅僅就圍棋這一單行競技中,人工智慧能夠對人類提供的幫助也是有限的。
在這場依舊正在進行中的人機博弈,結果依舊是難以預料的。但是不論最終結果如何,有一個事實是改變不了,那就是,圍棋作為一項競技項目,是有規則可尋的,而這些規則計算機的數據足夠全面,其實也可以在這些數據的基礎上找出規律,形成演算法。而機器的演算法早就已經超越了人類,即使是李世石處在圍棋巔峰,其邏輯運算能力到了計算機面前也根本是難以逾越的。像之前的國際象棋早已經被計算機的邏輯運算完全打敗,所以棋手都會和計算機下棋訓練,如今看來,圍棋這種人類競技項目也難逃這種宿命。
真正的人工智慧首先要有真正的分析推理能力,能夠協助人類去提高分析和決策效率。雖然有別於傳統計算機窮舉計算方式,「阿爾法狗」採用的是利用「價值網路」去計算局面,用「策略網路」去選擇下子。但是,阿爾法狗依舊處於一個弱人工智慧的水平。什麼是弱人工智慧?簡單的說,所謂弱人工智慧就是僅在單個領域比較牛的人工智慧程序。比如我們熟悉的蘋果Siri,就是一個會賣萌的弱人工智慧程序。而阿爾法狗根據這個標准,依舊在這個范圍以內。充其量,最多是人類圍棋的陪練。而這場人際對決,本質上更像是谷歌的一場科技秀。
D. 阿爾法狗在圍棋界大獲全勝,對於人工智慧發展有什麼意義
代表人工智慧已經進入了可以替代人類的部分。圍棋是非常考驗智力的。人工智慧已經完勝人類,則代表人工智慧已經可以替代人類了。
E. 簡述為什麼alphago離強人工智慧還很遠
首先,alphago不是真正的人工智慧。因為技術還沒有辦法實現真正的人工智慧。其次我們說人工智慧是工具,是為人類服務的工具。而alphago只是為某一個點而製作機器人,所以它離人工智慧還蠻遠的。
F. 人工智慧前景怎麼樣值得投入進來么
特別是這幾年,中央發文件,大力支持新興行業,特別是物聯網,人工智慧等等行業。信息化的時代,特別是5g的研發成功,無人汽車,無人飛機,等等跨時代產品都將發展起來,人工智慧作為他們的核心技術,前景當然是非常的宏大的。
G. AlphaGo的勝利=人工智慧已經超越人類了
說到深度學習,大家第抄一個想到的肯定是AlphaGo,通過一次又一次的學習、更新演算法,最終在人機大戰中打敗圍棋大師李世石。那麼AlphaGo的勝利真的意味著人工智慧已經超越人類了嗎?
答案是否定的。雖然我們看到了AlphaGo連連擊敗李世石,然而,AlphaGo只不過是在模擬專業圍棋選手的走子方案,而且這種模擬依賴於歷史比賽的記錄。
AlphaGo在演算法層面上並沒有太多新的東西,主要是通過把已有的技術整合在一起,並利用大量的訓練數據和計算資源來提高准確性。歸根結底,強大的計算平台和工程能力是核心。
深度學習作為人工智慧領域的一個應用分支,不管是從市面上公司的數量還是投資人投資喜好的角度來說,都是一個重要應用領域。目前深度學習在圖像識別和語音識別上得到了不錯的發展,也有不少專家非常看好在自然語言處理上的發展,比如智能助手等。
H. AlphaGo 擊敗李世石,是否促進了AI行業的發展
有意思的是曾經和史蒂芬霍金(Stephen Hawking)和其他的人工智慧專家聯名簽署了一封禁止開發人工智慧武器公開信的馬斯克還是開發Alphago公司Deepmind的早期投資者。馬斯克還因為擔心人工智慧會無比控制而傷害人類的言論而獲得「阻礙科技進步獎」。那麼離我們似乎並沒有那麼遙遠的人工智慧將會帶來哪些變革呢?以筆者的觀察,人工智慧將會對智能家居、無人駕駛等方面對人類的生活產生巨大的影響。
當被問到真正的智能家居何時才能到來的時候,王雄輝表示,「歐瑞博已經在經歷智能家居的第二個階段,我們已經實現了不同智能單品的聯動,比如門打開的時候自動打開燈光和電視,溫度高時自動打開空調等聯動控制,下一步我們計劃引入具備人工智慧能力的家用服務型機器人,來做家庭總管,全部管理你的家庭,當然這個階段需要5-10年的時間。」我們可以推測,人工智慧極有可能是打開智能家居的任督二脈的關鍵技術,實現真正「懂」你的智能家居,將極大的方便和舒適我們的家居生活。