科技改變生活 · 科技引領未來
谷歌(google)旗下的DeepMind發表了一篇新論文,概述了團隊如何利用創造了AlphaGo的機器學習系統,建立了一個處理國際象棋和圍棋的新系統,并在每一場比賽中擊敗頂級程序。這個名為AlphaZero的程序也擊敗了它的前身AlphaGo Zero。
對于DeepMind來說,這是一個合乎邏輯的下一步行動。國際象棋和圍棋(起源于日本的一種類似于國際象棋的棋盤游戲)都是電腦程序的游戲,已經打敗了人類頂級棋手。AlphaZero擊敗了斯托克菲什和埃爾莫,前者在國際象棋中處于領先地位,后者是與shogi對弈的最佳程序。
這個程序被訓練成只玩它自己,通過一個被稱為強化學習的過程,除了關于每個游戲規則的某些關鍵信息外,沒有任何預先知識,比如每個棋子如何移動。AlphaGo(包括AlphaGo Zero,它依賴于自我游戲強化學習來進行訓練)是專門為圍棋開發的,而AlphaZero的設計則要靈活得多。
這種通用架構可以為開發未來的AI系統提供藍圖,既可以用來玩游戲,也可以用來解決其他有明確規則和目標的問題,比如設計藥物。
DeepMind訓練了三個AlphaZero的獨立實例,分別用于圍棋、圍棋和國際象棋。國際象棋系統對自己下了4400萬盤,而shogi系統下了2400萬盤,圍棋系統下了2100萬盤。
AlphaZero的統治地位并不確定。圍棋和DeepMind選擇的另外兩款游戲之間有一些關鍵的區別。國際象棋和shogi都對不同棋子的移動方式有限制,而且棋盤也不像圍棋那樣是獨立旋轉的。更重要的是,在shogi中捕獲的棋子可以被對手放置在棋盤上。
張同東