OpenAI Five
OpenAI Five是由OpenAI开发的计算机程序,专门用来游玩5对5的电子游戏《Dota 2》。该系统于2017年首次公开亮相,在一场现场一对一比赛中与职业玩家Dendi进行对战,最终使其落败。隔年,该系统已发展为完整的五人队伍,开始与职业战队对抗,并展现出击败职业战队的能力。
由于OpenAI选择以《Dota 2》这款复杂游戏作为机器学习研究对象,该公司认为此举能更精确地捕捉现实世界中存在的不确定性与连续性,从而构建出更具普遍性的问题解决系统。最终,OpenAI Five 采用的算法及程式码被该公司研发中的另一个神经回路借用,该神经网络用以控制一只实体机械手。OpenAI Five曾与其他类似人工智能案例相比较,例如在电子游戏《星际争霸2》中与人类对战的 AlphaStar、在围棋中与人类对弈的AlphaGo 、在国际象棋中与人类对弈的深蓝以及在电视游戏节目《危险边缘》中的华生 。
历史
[编辑]自2016年11月起,OpenAI开始开发机器人所采用的算法。由于《Dota 2》是一款在直播平台Twitch上广受欢迎、具有原生Linux支援且提供应用程序界面(API)。 [1]
在组成完整五人队伍之前,该系统于2017年8月在年度冠军赛2017年Dota2国际邀请赛中首次公开展示;在一场现场一对一比赛中,乌克兰职业玩家 Dendi输给了一个OpenAI机器人。[2][3]比赛结束后,首席技术官格雷格·布罗克曼解释称,该机器人经过两周实时自我对战后完成学习,而此学习软件被视为迈向开发能处理复杂任务(例如外科手术)的软件的一步。[4][5]
强化学习的的方法,使得这些机器人在数月内每日进行数百次自我对战后逐步学习,并对击杀敌人或摧毁防御塔等行动给予奖励。[6][7][8]
到2018年6月,这些机器人的能力已扩展为能以完整五人队伍协同作战,并能击败业余及半职业玩家组成的队伍。[9][6][10][11]在2018年Dota2国际邀请赛中,OpenAI Five 参与了两场对抗职业战队的比赛,一场对阵总部位于巴西的paiN Gaming,另一场则面对由前中国籍选手组成的全明星队伍。[12][13]尽管机器人在两场比赛中皆告失利,OpenAI 仍认为此举具备成功价值,指出与《Dota 2》中部分最佳选手对战,使得他们能够针对未来比赛进行算法的分析与调整。[14]
2019年4月,机器人最后一次公开展示,当时在旧金山举行的一场现场活动中,机器人以三局两胜制的比赛中击败了2018年国际邀请赛冠军OG 。[15]同月,举办了一场为期四天的公开线上活动,供大众与机器人对战。[16]在该活动中,机器人共参与42,729场公开比赛,胜率达 99.4%。[17]
建构
[编辑]每个OpenAI Five机器人都是一个神经网络,该网络包含一个单层 4096 单元的LSTM[18] ,用来观察从Dota 开发者 API 提取的当前游戏状态。这个神经网络通过众多可能的行动头(不涉及任何人类数据)来执行动作,而且每个行动头都有其特定意义。例如,决定动作延迟的刻数、选择哪个动作——以及该动作在单位周围网格中的 X 或 Y 坐标。此外,各个行动头都是独立计算的。该 AI 系统将世界视为一个包含 20,000 个数字的列表,并通过生成一个包含八个枚举值的列表来采取行动。同时,它还会选择不同的动作和目标,以了解如何编码每个动作并观察世界。[19]
OpenAI Five 以“Rapid”基础架构为平台,发展成一套通用的强化学习训练系统。Rapid 由两个层级组成:第一层负责启动数千台机器并协助它们彼此通讯;第二层则负责执行软件。到 2018 年,OpenAI Five 在256颗GPU与 128,000个 CPU核心的运算环境下,累计进行了约180年时间的强化学习游戏,[20]采用了一种称为近端策略优化的策略梯度方法。 [19][21]
OpenAI 1v1 机器人(2017 年) | OpenAI Five(2018 年) | |
---|---|---|
CPU | Microsoft Azure上有 60,000 个 CPU 核心 | Google Cloud Platform (GCP) 上的 128,000 个可抢占 CPU 核心 |
GPU | Azure 上有 256 个 K80 GPU | GCP 上有 256 个 P100 GPU |
收集的经验 | 每天约 300 年 | 每天约 180 年 |
观察的大小 | ~3.3kB | ~36.8kB |
每秒游戏观察次数 | 10 | 7.5 |
批次大小 | 8,388,608 条观察结果 | 1,048,576 条观察结果 |
每分钟批次数 | ~20 | ~60 |
与其他游戏AI系统的比较
[编辑]在OpenAI Five之前,其他AI对抗人类的实验和系统已经成功运作,例如使用Watson的《危险边缘》,使用深蓝的国际象棋以及使用AlphaGo的围棋。 [22][23][24]与与其他曾使用 AI 系统与人类玩家对战的游戏相比,Dota 2的不同之处如下所述[19]:
长期观察:机器人以每秒30帧运行,而一场平均比赛持续45分钟,这使得每场比赛包含 80,000次运算。OpenAI Five每四帧观察一次,从而产生20,000个动作。相比之下,国际象棋通常在不到40步就结束,而围棋则不到150步。
部分观察到的游戏状态:玩家及其盟友只能看到直接围绕他们的地图,其余部分则被“战争迷雾”覆盖,迷雾会隐藏敌方单位及其动向。因此,进行《Dota 2》游戏需要根据这些不完整的资料进行推断,并同时预测对手可能采取的行动。相比之下,国际象棋与围棋是“完全资讯游戏”,因为它们不会对对手隐藏任何资讯。[25]
连续动作空间:在《Dota 2》游戏中,每个可操作的角色(英雄)可以执行数十种动作,这些动作的目标可以是另一个单位或一个位置。OpenAI Five 的开发者将每个英雄的动作空间设置为 170,000 种可能的动作。不计算游戏中那些持续性的因素,每个 tick 平均有约 1,000 种有效动作。相比之下,国际象棋的平均动作数为 35,而围棋则为 250。
连续观察空间:《Dota 2》是在一个大型地图上进行的游戏,地图上有十位英雄(每队五位),以及数十座建筑和非玩家角色(NPC)单位。OpenAI 系统透过开发者提供的 bot API 观察游戏状态,并将其表示为 20,000 个数字,这些数字构成了人类所能获取的所有资讯。一个棋盘大约由 70 个列表表示,而一个围棋盘则有大约 400 个枚举数据。
评价
[编辑]OpenAI Five获得了人工智能、科技和电子游戏界的广泛认可。微软创办人比尔·盖茨称其为“一项重大突破”,因为它们的胜利“需要团队合作与协作”[8][26]曾在1997年败给深蓝的国际象棋冠军加里·卡斯帕罗夫表示 ,尽管 OpenAI Five 在 2018 年国际邀请赛表现不佳,但这些机器人最终“一定会达成目标,而且比预期还要快”。[27]
在《麻省理工技术评论》的采访中,AI 专家们也认为OpenAI Five 系统是一项重大成就,因为他们指出Dota 2是一款“极其复杂的游戏”,因此即使能够击败非职业玩家也已经相当令人印象深刻。[25] 《PC Gamer》则表示,OpenAI Five 战胜职业玩家是一个机器学习领域的重要里程碑。[28]
相比之下,《Motherboard》则认为这场胜利“基本上是在作弊”,原因包括双方英雄池被大幅简化,以及机器人能够直接存取 API,而非像人类玩家一样透过电脑视觉来解析萤幕上的像素。[29] 《The Verge》则写道,这些机器人证明了 OpenAI 在强化学习方面的研究方向以及其 AI 发展理念正在“产生重要的里程碑式成果”。[16]
2019年,DeepMind 推出了类似《星海争霸2》的AI机器人——AlphaStar。与 OpenAI Five 一样,AlphaStar 采用了强化学习和自我对弈技术。《The Verge》报导称:“这类 AI 研究的目标不仅仅是为了在人类玩家面前取得压倒性胜利,以证明其可行性。相反,它的目标是证明,只要投入足够的时间、精力和资源,先进的 AI 软件几乎可以在任何竞争性的认知挑战中击败人类,无论是桌游还是现代电子游戏。”他们还补充说,DeepMind和OpenAI的胜利也证明了强化学习在某些应用场景下的强大潜力。[30]
OpenAI 希望该技术能够应用于数位领域以外的范畴。2018年,该公司成功将 OpenAI Five 所使用的强化学习算法及训练程式码,重新运用于Dactyl 项目,此项目研发出一只具有人形特征的机械手,搭载神经网络以操控实体物体。[31]2019年,Dactyl破解了魔术方块。 [32]
参考资料
[编辑]- ^ OpenAI. OpenAI Five. openai.com/five. [2018-10-10]. (原始内容存档于2018-09-01).
- ^ Savov, Vlad. My favorite game has been invaded by killer AI bots and Elon Musk hype. The Verge. 2017-08-14 [2018-06-25]. (原始内容存档于2018-06-26).
- ^ Frank, Blair Hanley. OpenAI's bot beats top Dota 2 player so badly that he quits. Venture Beat. [2017-08-12]. (原始内容存档于2017-08-12) (英语).
- ^ OpenAI. Dota 2. blog.openai.com. 2017-08-11 [2017-09-11]. (原始内容存档于2017-09-11) (英语).
- ^ OpenAI. More on Dota 2. blog.openai.com. 2017-08-16 [2017-08-16]. (原始内容存档于2017-08-16) (英语).
- ^ 6.0 6.1 Simonite, Tom. Can Bots Outwit Humans in One of the Biggest Esports Games?. Wired. 2018-06-25 [2018-06-25]. (原始内容存档于2018-06-25).
- ^ Kahn, Jeremy. A Bot Backed by Elon Musk Has Made an AI Breakthrough in Video Game World. Bloomberg.com. 2018-06-25 [2018-06-27]. (原始内容存档于2018-06-27).
- ^ 8.0 8.1 Bill Gates says gamer bots from Elon Musk-backed nonprofit are 'huge milestone' in A.I.. CNBC. 2018-06-28 [2018-06-28]. (原始内容存档于2018-06-28) (英语).
- ^ OpenAI. OpenAI Five Benchmark. blog.openai.com. 2018-07-18 [2018-08-26]. (原始内容存档于2018-08-26) (英语).
- ^ Vincent, James. AI bots trained for 180 years a day to beat humans at Dota 2. The Verge. 2018-06-25 [2018-06-25]. (原始内容存档于2018-06-25) (英语).
- ^ Savov, Vlad. The OpenAI Dota 2 bots just defeated a team of former pros. The Verge. 2018-08-06 [2018-08-07]. (原始内容存档于2018-08-07) (英语).
- ^ Simonite, Tom. Pro Gamers Fend off Elon Musk-Backed AI Bots—for Now. Wired. 2018-08-24 [2018-08-25]. (原始内容存档于2018-08-24).
- ^ Quach, Katyanna. Game over, machines: Humans defeat OpenAI bots once again at video games Olympics. The Register. [2018-08-25]. (原始内容存档于2018-08-25) (英语).
- ^ OpenAI. The International 2018: Results. blog.openai.com. 2018-08-24 [2018-08-25]. (原始内容存档于2018-08-24) (英语).
- ^ Wiggers, Kyle. OpenAI Five defeats professional Dota 2 team, twice. Venture Beat. 2019-04-13 [2019-04-13]. (原始内容存档于2019-04-13).
- ^ 16.0 16.1 Statt, Nick. OpenAI's Dota 2 AI steamrolls world champion e-sports team with back-to-back victories. The Verge (Vox Media). 2019-04-13 [2019-04-15]. (原始内容存档于2019-04-15) (英语).
- ^ Wiggers, Kyle. OpenAI's Dota 2 bot defeated 99.4% of players in public matches. Venture Beat. 2019-04-22 [2019-04-22]. (原始内容存档于2019-07-11) (英语).
- ^ Dota 2 with Large Scale Deep Reinforcement Learning (PDF). OpenAI. [2024-09-29]. (原始内容存档 (PDF)于2024-09-26).
- ^ 19.0 19.1 19.2 OpenAI. OpenAI Five. blog.openai.com. 2018-06-25 [2018-06-25]. (原始内容存档于2018-06-25) (英语).
- ^ Why are AI researchers so obsessed with games?. QUARTZ. 2018-08-04 [2018-08-04]. (原始内容存档于2018-08-04) (英语).
- ^ Schulman, John; Wolski, Filip. Proximal Policy Optimization Algorithms. arXiv:1707.06347
[cs.LG].
- ^ Gabbatt, Adam. IBM computer Watson wins Jeopardy clash. The Guardian. 2011-02-17 [2011-02-17]. (原始内容存档于2013-09-21).
- ^ Chess grandmaster Garry Kasparov on what happens when machines 'reach the level that is impossible for humans to compete'. Business Insider. [2017-12-29]. (原始内容存档于2017-12-29).
- ^ DeepMind's Go-playing AI doesn't need human help to beat us anymore. Verge. 2017-10-18 [2017-10-18]. (原始内容存档于2017-10-18).
- ^ 25.0 25.1 Knight, Will. A team of AI algorithms just crushed humans in a complex computer game. MIT Tech Review. 2018-06-25 [2018-06-25]. (原始内容存档于2018-06-26) (英语).
- ^ Bill Gates hails 'huge milestone' for AI as bots work in a team to destroy humans at video game 'Dota 2'. Business Insider. [2018-06-27]. (原始内容存档于2018-06-27) (英语).
- ^ Garry Kasparov's Twitter. 2018-08-24 [2018-08-24]. (原始内容存档于2020-07-09) (英语).
- ^ Park, Morgan. How the OpenAI Five tore apart a team of Dota 2 pros. PC Gamer. 2018-10-11 [2020-05-25]. (原始内容存档于2019-12-25) (英语).
- ^ Gault, Matthew. OpenAI Is Beating Humans at 'Dota 2' Because It's Basically Cheating. Vice. 2018-08-17 [2020-05-25]. (原始内容存档于2020-05-28) (英语).
- ^ Statt, Nick. DeepMind's StarCraft 2 AI is now better than 99.8 percent of all human players. The Verge. 2019-10-30 [2020-05-25]. (原始内容存档于2020-02-26) (英语).
- ^ OpenAI; Andrychowicz, Marcin. Learning Dexterous In-Hand Manipulation. 2019. arXiv:1808.00177v5
[cs.LG].
- ^ OpenAI; Akkaya, Ilge. Solving Rubik's Cube with a Robot Hand. 2019. arXiv:1910.07113v1
[cs.LG].