close

自學3天100:0碾壓舊版後,新版AlphaGo還能做什麼?

AlphaGo宣佈退役後,谷歌DeepMind在圍棋上的探索並沒有停止。

今年5月的烏鎮大會的 人機對局 中,中國棋手、世界冠軍柯潔9段以0:3不敵AlphaGo。在隨後幾天AlphaGo和世界頂尖圍棋選手的群戰後,世界冠軍時越這樣評價AlphaGo和人類的對弈: 這是我前所未見的,就像是我想象中來自遙遠未來的棋局一樣。

DeepMind聯合創始人兼 CEO Demis Hassabis在賽後宣佈,AlphaGo將永久退出競技舞臺,不再進行比賽。不過他表示: 我們計劃在今年稍晚時候發佈最後一篇學術論文,詳細介紹我們在算法效率上所取得的一系列進展,以及應用在其他更全面領域中的可能性。我們希望更多的開發者能夠接過接力棒,利用這些全新的進展開發出屬於自己的強大圍棋程序。

10月19日,Hassabis兌現瞭他的承諾。DeepMind如約在《自然》雜志(Nature)上發表論文。在這篇名為《Mastering the game of Go without human knowledge》(《不使用人類知識掌握圍棋》)的論文中,DeepMind展示瞭他們更強大的新版本圍棋程序AlphaGo Zero,經過3天的自我學習,以100:0的比分完勝對陣李世石版AlphaGo。這驗證瞭即使在像圍棋這樣最具挑戰性的領域,人工智能也可以通過純強化學習的方法自我完善達到目的。

這令曾和AlphaGo交過手的人類棋手柯潔在微博感慨: 一個純凈、純粹自我學習的alphago是最強的...對於alphago的自我進步來講...人類太多餘瞭。

不止於圍棋,AlphaGo的研發團隊已經開始把精力投入到其它重大挑戰中,研發出更為高級的通用算法,幫助科學傢們解決最復雜的問題,包括找到新的疾病治療方法、顯著降低能源消耗、發明革命性的新材料等。

從強化學習走向自學習

在威盛電子語音交互部門總監張國峰眼裡: 谷歌DeepMind已經把人工智能做到瞭極致。但是即使是最新版本的AlphaGo,也仍然是基於強化學習,它的先進之處是過去需要人類給他喂數據,做大量訓練,現在不用瞭,機器自己就能基於經驗做決策,這是一大進步。下一步就是要發展純的自主學習瞭。

人工智能的長期目標是通過後天的自主學習,在一個具有挑戰性的領域創造出超越人類的精通程度學習的算法。最新的論文顯示,AlphaGo Zero可以僅基於強化學習的算法,而不需攪拌機推薦要人類提供數據、指導和規則。這意味著AlphaGo已經能成為自己的老師,這一神經網絡被訓練用於預測AlphaGo自己的落子選擇,提高瞭搜索算法的強度,使得落子質量更高,具有更強的自我對弈迭代能力。

此前AlphaGo已經完成瞭百萬次高水準的自我訓練。相比之前使用人類對弈的數據,新版本的算法訓練時間更短,僅用3天時間就達到瞭擊敗李世石的AlphaGo Lee的水平,21天達到瞭之前擊敗柯潔的AlphaGo Master的水平。

而AlphaGo Zero不僅發現瞭人類數千年來已有的許多圍棋策略,還設計瞭人類玩傢以前未知的的策略。在3天內,也就是AlphaGo Zero在擊敗此前版本的AlphaGo之前,曾進行過490萬次自我對弈練習。 相比之下,此前版本的AlphaGo的訓練時間長達數月之久。

從一塊白板(blank slate)開始,我們的新程序AlphaGo Zero表現驚人,並以100:0擊敗瞭此前版本的Alpha Go。而且無需使用人類專傢下棋的數據進行監督學習。 DeepMind AlphaGo Zero項目領導人David Silver說道。

張國峰向第一財經記者解釋道: 類似AlphaGo的算法,隻要在執行中能夠得到對輸出結果優劣反饋的系統,都可以用強化學習。 他還表示,除瞭圍棋遊戲,強化學習還能用於射擊類遊戲,以及貪吃蛇等遊戲;另外生產流水線上的機器人訓練,如果使用強化學習,就可以很快讓機器人找到最佳移動路徑;股票交易也可以使用類似的訓練方法。

解決更復雜的科學難題

在談到AlphaGo的項目時,此前谷歌大中華區總裁石博盟告訴第一財經記者,原本谷歌認為在人機對弈的時候,圍棋選手可能會有壓力,但是他們非常高興地看到,包括柯潔在內的圍棋選手對於人工智能是一種接受和擁抱的態度。

他們將人工智能看作是一種能夠幫助他們揭示圍棋的奧妙、突破思維局限的途徑。 石博盟在接受第一財經記者專訪時說道, AlphaGo所代表的人工智能實際上幫助圍棋選手在對弈的過程當中發現瞭下圍棋新新招數和新思路,他們把這些作為個人知識的補充和視野擴展的方式,我覺得這是最完美的一個結合。

DeepMind的論文還顯示,過去的幾個月中,AlphaGo的研發團隊已經開始把精力投入到其它重大挑戰中,研發出更為高級的通用算法,幫助科學傢們解決最復雜的問題,包括找到新的疾病治療方法、顯著降低能源消耗、發明革命性的新材料等。DeepMind稱,如果人工智能在上述領域發現新的知識和策略,它的突破將十分可觀。

毫無疑問,人工智能擁有探索新知識的潛能,這點將讓全人類受益。DeepMind也強調,AlphaGo與人類的關系絕不是對立的,反而是能夠啟發人類把這些新發現應用到其他新領域,以解決當前我們正面臨的一些最重要最迫切的科學挑戰。

Hassabis表示,AlphaGo的項目能夠為社會的基礎科研提供有關思維模式的解決方案。他還稱,AlphaGo團隊已經在做一些能夠把這項技術應用到其它領域的項目。

他舉例稱,AlphaGo會成為一個從復雜數據中進行搜索提煉的機器。他解釋道: 由於AlphaGo Zero並不僅僅是為瞭理解圍棋而設計的,因此它可以發現其它領域的數據,比如藥物的發現,蛋白質折疊,量子化學,粒子物理以及材料設計等等。




Hassabis暗示下一代的AlphaGo Zero將被用來作為室溫超導體 這是一種能夠讓電流通過而不損失能量的物質,將極大地提高能耗效率。目前的超導體隻能夠在超低溫下工作,就像英特爾剛剛發佈的量子芯片。 這種室溫超導體在我小的時候就好像是一個遙不可及的夢,但是可能它就是存在的。 Hassbis表示。

不過值得指出的是,圍棋和很多棋盤類的遊戲一樣,它的規則是有限的,不含運氣成分,也沒有隱藏的信息,因此計算機相對容易理解。但是如果要運用到其它領域,AlphaGo的局限性就會展現出來,DeepMind目前還沒有創造出一個魔術的 思考機器 。Hassabis說道: AlphaGo是一個不錯的開端。我們需要分兩步走:第一步,解決智能的問題;第二步,讓世界變得更美好。我們正在試圖構建通用的算法,這隻完成瞭第一步,但是激動人心的一步。



本文來源:第一財經日報

責任編輯:王曉易_NE0011

食品機械台中分料機

台灣電動床工廠 電動床

台灣電動床工廠 電動床

AUGI SPORTS|重機車靴|重機車靴推薦|重機專用車靴|重機防摔鞋|重機防摔鞋推薦|重機防摔鞋

AUGI SPORTS|augisports|racing boots|urban boots|motorcycle boots

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 tth937vh11 的頭像
    tth937vh11

    少少的預購清單

    tth937vh11 發表在 痞客邦 留言(0) 人氣()