人工智慧下棋不稀奇?最新版"MuZero"還會打遊戲?!(上)
比打敗人類棋王的AlphaGo更強!無師自通的人工智慧MuZero誕生
2016 年,DeepMind 開發的人工智慧圍棋軟體 AlphaGo 打敗了韓國棋王李世乭,成為第一個擊敗人類棋手的 AI。2018 年,它的繼任者 AlphaZero 從零開始,靠自學學會西洋棋、將棋、圍棋。
近日,DeepMind 發表超越 AlphaGo、AlphaZero 的人工智慧系統 MuZero,就算不知道規則也能精通西洋棋、圍棋、將棋,以及 57 款雅達利(Atari)遊戲,甚至還能用來壓縮影片。
▲ 來源:DeepMind 官網。
AlphaGo還需靠真人來訓練,MuZero卻能自我摸索出規則
DeepMind 過去研發出的幾款人工智慧,都在各種棋類遊戲上展現出壓倒性的優勢。但不管是 AlphaGo、AlphaGo Zero 或 AlphaZero,都是基於已知規則,再加上人類資料訓練或是自我學習訓練而成。
而最新登場的 MuZero 與其他的 AI「前輩」們最大的不同在於,它在事先並未輸入任何的已知規則,在未知的動態環境下能自行摸索出規則,並作出最佳的判斷。ˋ
MuZero 的拿手範圍不只圍棋、西洋棋和將棋等棋類遊戲,其中還包含經典電腦遊戲公司雅達利(Atari)出品的 57 款遊戲,而且都拿出了亮眼的表現。
跟人類一樣的「規劃能力」 MuZero 以有限資訊做出最佳決策
2019 年 DeepMind 就曾透露過 MuZero 的存在,但直到 2020 年底才正式於《自然》期刊發表論文,詳細介紹它的能力與原理。DeepMind 表示,MuZero 最大的突破在於表現了「對未知環境的掌握能力」。
「我們只是告訴人工智慧:用你自己建構的認知,去了解這個世界怎麼運作。」曾任 AlphaGo 與 AlphaZero 首席研究科學家、現正領導 DeepMind 強化學習研究小組的 David Silver 表示,「只要內部的理解成功對上了某個現實事物,那我們就滿意了。」
▲ MuZero 不需要先備知識與規則,就能精通更多的領域。來源:DeepMind 官網。
與 AlphaGo、AlphaZero 相似,MuZero 也使用蒙地卡羅樹搜尋法(Monte Carlo tree search,MCTS),匯總神經網路的預測,並選擇適合當前環境的動作。
MCTS 是一種「最佳優先」的樹狀搜尋演算法,與傳統方法(如廣度、深度優先)相比,最佳優先搜尋利用啟發式估算法,使其在未知的搜索空間中也可以找到有效的解決方案。簡單來說,該演算法不使用學習模型,而是找出「最好的下一步是什麼」。
MCTS 的每個迴圈包括四個步驟:選擇(Selection)、擴充(Expansion)、仿真(Simulation)和反向傳播(Backpropagation)。通過重覆執行這些步驟逐步建構出樹狀圖。
▲ 蒙地卡羅樹搜尋法應用於 MuZero 的示意圖。來源:DeepMind 官網
更簡單地來說,MuZero 會對依照三種要素建立樹狀模型:1. 當前位置、狀況的好壞;2. 最好的下一步是什麼,3. 最後會有怎樣的結果。
DeepMind 比喻,MuZero 的運作邏輯就像是「知道雨傘能讓人不被淋濕,比對雨滴建模更有用」,它只對重要的資訊進行建模,不但讓 MuZero 不懂規則也能掌握遊戲,也讓它能保持高效率、高性能。MuZero 在棋類遊戲的性能與 AlphaZero 匹敵,在雅達利遊戲上的表現更大幅超越現有的最佳系統 DQN、R2D2 與 Agent57。
▲ 雅達利曾視為家用遊戲主機的代表。來源:Lorenzo Herrera on Unsplash
其實人類生活在真實世界時,也常要解決沒有規則可循、沒有指南可看的問題,但人類有規劃能力,能在混沌又複雜的世界制定出下一步該怎麼走。當你看到天空烏雲密布,於是決定攜帶雨具出門,這就是一種規劃能力,因為你預測到了可能會下雨。
David Silver 說:「這是我們第一次打造這種系統,它能建立對世界如何運作的理解,並用這種理解做複雜的規劃,例如下西洋棋。」
在下棋時,MuZero 也可以用較少的運算量,達到與 AlphaZero 同樣甚至更好的結果;在需當機立斷、可以立即做出行動的遊戲像是小精靈(Pac-Man)中,MuZero 不需要算出所有可能性才能行動,如果限制它的每個行動只能選擇 6、7 個規畫模擬,依舊能取得亮眼的成績。
除了下棋⋯⋯人工智慧 MuZero 還可以做什麼來降低 YouTube 成本?下集請點此接續看下去!
更多閱讀:
生物學最大謎團被人工智慧 破解!DeepMind 攻克「蛋白質折疊」奧秘
外貌影響面試?新人工智慧機器人 Tengai 面試不再以貌取人