DeepMind團隊:發明AlphaGo,不是為瞭戰勝人類

原標題:DeepMind團隊:發明AlphaGo,不是為瞭戰勝人類

搜狐科技 文/王羚捷

AlphaGo和柯潔的比賽還有兩場,機器圍棋的能力愈發得到肯定,“人機大戰”的噱頭也在慢慢退去,我們更關心的是,人工智能何以達到這種水平?未來的人工智能會如何發力?

5月24日中國烏鎮圍棋論壇的人工智能峰會上,DeepMind創始人兼CEO Demis Hassabis先生以及DeepMind資深研究員David Silver深入淺出講解AlphaGo的原理和未來。

哺乳維他命推薦

DeepMind 2010年在於倫敦創立,2014被Google收購,目前已經招募約500名電腦科學傢和研究員。

看完這篇文章,你會瞭解到:

為什麼挑戰計算機圍棋?

什麼是深度強化學習?

AlphaGo如何學習?

李世乭不是已經KO瞭嗎?為什麼還要再來?

戰勝瞭柯潔,阿老師的下一步是啥?

為什麼挑戰計算機圍棋?

一直以來,圍棋就被認為是傳統遊戲中對人工智能最具挑戰性的項目。這不僅僅是因為圍棋包含瞭龐大的搜索空間,更是因為對於落子位置的評估難度已遠遠超過瞭簡單的啟發式算法。自從上世紀IBM的深藍戰勝加裡·卡斯帕羅夫之後,圍棋被看作是“人類智慧最後的遮羞佈”。



1997年,深藍戰勝當時世界排名第一的國際象棋選手卡斯帕羅夫

計算機圍棋的難處在於,因為落子的可能性更多窮舉搜索的可能性幾乎不存在。對於純粹的計算機運算造成瞭兩項難題:第一是搜索空間過於龐大;其次,也是更為重要的一點,因為變數過多,難以寫出評估程序來決定輸贏。



國際象棋和圍棋的策略窮舉對比

相比於國際象棋,圍棋更靠直覺而非計算。如果你在復盤階段問一個棋手為什麼這麼下一步棋,他多半會告訴你“憑感覺”,反之國際象棋的職業棋手可能會告訴你他的一系列計算所得的判斷。因此,將圍棋的策略通過計算量化更為困難。

此外,圍棋中沒有等級關系,每一個棋子在結果計算中是平等的。而國際象棋中有不同的角色,對應不同的走法,每步棋的可選策略就大大減少。

和國際象棋不同,圍棋是一種築防關系,需要盤算未來關系,而國際象棋是棋子慢慢減少的過程。在棋子小於九個的時候,通過算數計算就可以判斷輸贏。因而,圍棋對於局勢的預估要求更高。

因為場景多變,在圍棋中,“一子可撼全局”的局面並不罕見,一舉“妙手”往往會對局勢產生至關重要的改變。

所有的這些圍棋的高度不確定性讓圍棋在之前的二十年一直成為計算機科學傢希望攀登的高峰。

什麼是深度強化學習?

科學傢將人工智能進一步分為狹義的人工智能和廣義的人工智能。上世紀著名的深藍電腦就是狹義人工智能的代表。深藍使用預設的國際象棋程序,通過直接輸入高手的策略,然後通過搜索來完成計算。在這裡,深藍其實是總結瞭歷史上的國際象棋棋手的所有知識,直接生搬硬套來做應用。這種方式獲得的機器知識,不能遷移到其他領域的學習中。

而Demis一直在思考的問題是:人腦是如何學會完成復雜任務的?電腦能否做到這一點?制造通用孕婦專用綜合維他命學習機器也正是DeepMind目前的工作目標。

不依賴於人類的原生知識而最終獲取知識的人工智能就屬於廣義的人工智能領域。機器直接從輸入和經驗中學習,沒有既定的程序或者規則可循,系統需要從原始數據自己進行學習。這種算法註重於機器本身的知識習得過程,會產生屬於機器的“直覺”和“創造力”,科幻一點說,是機器本身的意識形成過程。因為沒有規則的限制,在更多的領域可以有所應用。



附:一些術語:

監督學習和無監督學習這兩者往往共同出現。監督學習需要人類知識的介入,在給機器輸入數據時打上標簽,機器通過學習標簽和數據的關系,輸出新數據的標簽預測。而無監督學習的數據輸入中不帶標簽,機器自行學習數據的特性。有無前置的標簽輸入是區分監督學習和無監督學習的標志。

強化學習涉及到智能體和環境之間的互動。智能體(agent)通過觀察,建立有關環境的模型,繼而建立行動計劃,確定最好的行動。在行動改變環境之後,重復“觀察——行動”這一循環。因為在實際的操作環境中,智能體需要觀察的環境往往存在噪音,因此智能體的合理行為是在慢慢強化接近設定目標的過程。

神經網絡學習:這是實現深度學習的一種算法。它從信息處理角度對人腦神經元網絡進行抽象,建立簡單模型,通過輸入、輸出、節點關系和權重來表達邏輯策略,用保健食品ptt以解決問題。

深度學習:深度學習的概念源於人工神經網絡的研究,通過組合低層特征形成更加抽象的高層表示屬性類別或特征,是實現人工智能的一種方式。

AlphaGo如何學習?

AlphaGo的學習策略可以總結為深度強化學習,同時結合瞭深度學習和強化學習。

為瞭應對圍棋的巨大復雜性,AlphaGo的算法結合瞭監督學習和強化學習的優勢。通過訓練形成一個策略網絡(policy network),將棋盤上的局勢作為輸入信息,並對所有可行的落子位置生成一個概率分佈。這一部分,初代的AlphaGo借鑒瞭幾百年的圍棋棋譜,也就是有人類原生知識的介入,因而屬於監督學習。

然後,AlphaGo通過強化學習訓練出一個價值網絡(value network),對自我對弈進行預測,,預測所有可行落子位置的結果,以 -1(對手的絕對勝利)到1(AlphaGo的絕對勝利)來表示。至此,AlphaGo能夠在棋局中判斷每步棋局未來的取勝概率分佈。



上述是AlphaGo的訓練過程,在實際的對弈過程中,獲取棋局信息後,AlphaGo 會根據策略網絡探索哪個位置同時具備高潛在價值和高可能性,進而決定最佳落子位置。在分配的搜索時間結束時,模擬過程中被系統最頻繁考察的位置將成為 AlphaGo 的最終選擇。

這樣的計算量依然很大,AlphaGo通過兩種方法來哺乳媽媽鈣片推薦減少整體的神經網絡計算量。

第一是通過策略網絡減少窮舉搜索的寬度。在每一次進行落子計算時,它隻參考通過深度學習獲得的人類落子選項。換句話說,人類爸爸不幹,我也不幹。

其二是,用價值網絡減少窮舉搜索的深度。它不追求那一子落步能夠達到100%的最優,而是通過建立打分體系,選擇風險更低而勝率更高的落子之處。

去年不是已經PK過李世乭瞭嗎?為什麼還要再來?

Demis在演講中明確瞭AlphaGo的三個版本:AlphaGo Fan(2015年10月與樊麾對弈的版本)、AlphaGo Lee(2016年3月與李世乭對弈的版本)、AlphaGo Master(2017年1月網上Master以及此次對弈柯潔的版本)。



從棋力的對比來說,目前版本的AlphaGo能讓李世石版本三個子,李世石版本的AlphaGo可以讓樊麾版本三個子,樊麾版AlphaGo則能讓zen/瘋石圍棋四個子。承讓三子在高手對決中已經是極大的優勢。



這是微博上柯潔對於“讓三子”的解讀

從算法的角度來說,久坐影響新版本的AlphaGo不再需要外在的棋譜輸入,在設定目標(AlphaGo的學習目標是取得盡可能大的獲勝幾率)之後,站在AlphaGo Lee版本的知識上,從自己的搜索中學習,依靠自我博弈來進行訓練。這種自我學習的能力,未來將會更多的自我迭代。

新一代AlphaGo算法的優越性還體現在硬件配備方面,他在電能消耗和硬件調動的需求上都是李世乭版本AlphaGo的十分之一。2015年的AlphaGo Fan基於GPU運行,2016年的AlphaGo Lee是通過谷歌雲上的50個TPU同時運作,每秒搜索50個棋步10000個位置,而今年的AlphaGo Master在谷歌雲的單臺機器4個TPU上運行,這一效率的提高十分驚人。不過David Silver很誠懇地表示,這是第一代TPU而不是上周在谷歌I/O大會上發佈的第二代TPU(哎呀這發TPU的安利不夠到傢啊)

戰勝瞭柯潔,阿老師的下一步是啥?

Demis把公司的願景稱為人工智能的“阿波羅計劃”。他們希望為測試人工智能算法搭建一個有效的平臺,最終目的是把這些算法應用到更多的領域中,為社會所服務。這也是AlphaGo從棋譜學習進化為自我學習的動力所在。

當今學界和業界解決問題面臨的一個巨大挑戰就是信息過載,以至於難以找到其中的規律和結構,從疾病診斷到氣候變暖都是如此。

Demis認為人工智能是解決這些問題的一個潛在方式。而事實上,DeepMind公司已經利用AlphaGo的部分算法優化谷歌的數據中心,減少瞭50%的能源消耗。

至於機器的自我意識,Demis Hassabis表示,這種科幻片裡的場景恐怕在幾十年內都不會出現,人工智能還有很多的關鍵問題沒有攻克下來。

返回搜狐,查看更多

責任編輯:

聲明:本文由入駐搜狐號的作者撰寫,除搜狐官方賬號外,觀點僅代表作者本人,不代表搜狐立場。

閱讀 ()

台灣電動床工廠 電動床

台灣電動床工廠 電動床

AUGI SPORTS|重機車靴|重機車靴推薦|重機專用車靴|重機防摔鞋|重機防摔鞋推薦|重機防摔鞋

AUGI SPORTS|augisports|racing boots|urban boots|motorcycle boots

一川抽水肥清理行|台中抽水肥|台中市抽水肥|台中抽水肥推薦|台中抽水肥價格|台中水肥清運

arrow
arrow

    tpj199p5p1 發表在 痞客邦 留言(0) 人氣()