人工智慧下棋不稀奇?最新版"MuZero"還會打遊戲?!(上)

1月 19, 2021

人工智慧下棋不稀奇?最新版"MuZero"還會打遊戲?!(上)

人工智慧下棋不稀奇?最新版"MuZero"還會打遊戲?!(上)

比打敗人類棋王的AlphaGo更強！無師自通的人工智慧MuZero誕生

2016 年，DeepMind 開發的人工智慧圍棋軟體 AlphaGo 打敗了韓國棋王李世乭，成為第一個擊敗人類棋手的 AI。2018 年，它的繼任者 AlphaZero 從零開始，靠自學學會西洋棋、將棋、圍棋。

近日，DeepMind 發表超越 AlphaGo、AlphaZero 的人工智慧系統 MuZero，就算不知道規則也能精通西洋棋、圍棋、將棋，以及 57 款雅達利（Atari）遊戲，甚至還能用來壓縮影片。

▲ 來源：DeepMind 官網。

AlphaGo還需靠真人來訓練，MuZero卻能自我摸索出規則

DeepMind 過去研發出的幾款人工智慧，都在各種棋類遊戲上展現出壓倒性的優勢。但不管是 AlphaGo、AlphaGo Zero 或 AlphaZero，都是基於已知規則，再加上人類資料訓練或是自我學習訓練而成。

而最新登場的 MuZero 與其他的 AI「前輩」們最大的不同在於，它在事先並未輸入任何的已知規則，在未知的動態環境下能自行摸索出規則，並作出最佳的判斷。ˋ

MuZero 的拿手範圍不只圍棋、西洋棋和將棋等棋類遊戲，其中還包含經典電腦遊戲公司雅達利（Atari）出品的 57 款遊戲，而且都拿出了亮眼的表現。

跟人類一樣的「規劃能力」　MuZero 以有限資訊做出最佳決策

2019 年 DeepMind 就曾透露過 MuZero 的存在，但直到 2020 年底才正式於《自然》期刊發表論文，詳細介紹它的能力與原理。DeepMind 表示，MuZero 最大的突破在於表現了「對未知環境的掌握能力」。

「我們只是告訴人工智慧：用你自己建構的認知，去了解這個世界怎麼運作。」曾任 AlphaGo 與 AlphaZero 首席研究科學家、現正領導 DeepMind 強化學習研究小組的 David Silver 表示，「只要內部的理解成功對上了某個現實事物，那我們就滿意了。」

▲ MuZero 不需要先備知識與規則，就能精通更多的領域。來源：DeepMind 官網。

與 AlphaGo、AlphaZero 相似，MuZero 也使用蒙地卡羅樹搜尋法（Monte Carlo tree search，MCTS），匯總神經網路的預測，並選擇適合當前環境的動作。

MCTS 是一種「最佳優先」的樹狀搜尋演算法，與傳統方法（如廣度、深度優先）相比，最佳優先搜尋利用啟發式估算法，使其在未知的搜索空間中也可以找到有效的解決方案。簡單來說，該演算法不使用學習模型，而是找出「最好的下一步是什麼」。

MCTS 的每個迴圈包括四個步驟：選擇（Selection）、擴充（Expansion）、仿真（Simulation）和反向傳播（Backpropagation）。通過重覆執行這些步驟逐步建構出樹狀圖。

▲ 蒙地卡羅樹搜尋法應用於 MuZero 的示意圖。來源：DeepMind 官網

更簡單地來說，MuZero 會對依照三種要素建立樹狀模型：1. 當前位置、狀況的好壞；2. 最好的下一步是什麼，3. 最後會有怎樣的結果。

DeepMind 比喻，MuZero 的運作邏輯就像是「知道雨傘能讓人不被淋濕，比對雨滴建模更有用」，它只對重要的資訊進行建模，不但讓 MuZero 不懂規則也能掌握遊戲，也讓它能保持高效率、高性能。MuZero 在棋類遊戲的性能與 AlphaZero 匹敵，在雅達利遊戲上的表現更大幅超越現有的最佳系統 DQN、R2D2 與 Agent57。

▲ 雅達利曾視為家用遊戲主機的代表。來源：Lorenzo Herrera on Unsplash

其實人類生活在真實世界時，也常要解決沒有規則可循、沒有指南可看的問題，但人類有規劃能力，能在混沌又複雜的世界制定出下一步該怎麼走。當你看到天空烏雲密布，於是決定攜帶雨具出門，這就是一種規劃能力，因為你預測到了可能會下雨。

David Silver 說：「這是我們第一次打造這種系統，它能建立對世界如何運作的理解，並用這種理解做複雜的規劃，例如下西洋棋。」

在下棋時，MuZero 也可以用較少的運算量，達到與 AlphaZero 同樣甚至更好的結果；在需當機立斷、可以立即做出行動的遊戲像是小精靈（Pac-Man）中，MuZero 不需要算出所有可能性才能行動，如果限制它的每個行動只能選擇 6、7 個規畫模擬，依舊能取得亮眼的成績。

除了下棋⋯⋯人工智慧 MuZero 還可以做什麼來降低 YouTube 成本？下集請點此接續看下去！

更多閱讀:

生物學最大謎團被人工智慧破解！DeepMind 攻克「蛋白質折疊」奧秘

秀程式設計也能交女友！工程師專屬交友App：VSinder

外貌影響面試？新人工智慧機器人 Tengai 面試不再以貌取人

測試員"微痛"轉職前端工程師,現在切版和網站開發一把罩!

人工智慧再度刷新三觀!連熊臉也能輕鬆辨識?!

人工智慧創新食譜!滿足每位吃貨的心!

人工智慧即時預測敗血症!救命黃金期就靠它!

搜尋...

準IT人的-自我學習筆記

人工智慧下棋不稀奇?最新版"MuZero"還會打遊戲?!(上)

比打敗人類棋王的AlphaGo更強！無師自通的人工智慧MuZero誕生

AlphaGo還需靠真人來訓練，MuZero卻能自我摸索出規則

跟人類一樣的「規劃能力」　MuZero 以有限資訊做出最佳決策

熱門文章

"我們不一樣!"三分鐘了解前端工程師與後端工程師的差別!

達內教育評價真實性? 親自上過就知真假!!

只要改一下CSS就能使背景固定?前端工程師說其實沒那麼難!

網頁設計之HTML5初級教學(11)-善用SVG取代點陣圖

Python課程學員說共用Netflix帳號要小心,因為...

五種超常用的CSS邊框,連前端工程師也說讚!

影片最夯十種文字特效教學!讓你輕鬆搞定網路行銷!

人人都想去的IT工作!NVIDIA竟排行第一名?!(上)

程式語言Python基礎(一)-加減乘除四則運算

接著的小記 | 達內教育評價

人工智慧下棋不稀奇?最新版"MuZero"還會打遊戲?!(上)

比打敗人類棋王的AlphaGo更強！無師自通的人工智慧MuZero誕生

AlphaGo還需靠真人來訓練，MuZero卻能自我摸索出規則

跟人類一樣的「規劃能力」 MuZero 以有限資訊做出最佳決策

熱門文章

跟人類一樣的「規劃能力」　MuZero 以有限資訊做出最佳決策