首页 > 游戏 >

OpenAI改良增强学习技术激发好奇心,让AI玩游戏胜过人类

2018-11-07 03:02:40 网络整理 阅读:202 评论:0

OpenAI发表了RND(Random Network Distillation),以基于预测的方法,透过好奇心带领增强学习代理人探索环境。OpenAI提到,,这是首次人工智能游玩《蒙特祖马的复仇(Montezuma's Revenge)》这款游戏,能够超过人类的平均表现,而且不需要人类示范,就能完成第一关。

OpenAI改良增强学习技术激发好奇心,让AI玩游戏胜过人类

OpenAI提到,要让人工智能代理人实现预设的目标,必须要使其探索环境中可能存在的属性以及完成目标的元素。不少游戏的奖励讯号都提供了一个课程(Curriculum),只要简单的探索策略就可以实现游戏目标,而之所以《蒙特祖马的复仇》对于人工智能是一个重要的指标,是因为在应用DQN算法中,《蒙特祖马的复仇》是唯一一款远低于人类平均得分的游戏,只使用简单的探索策略,是无法在游戏中收集到任何奖励的,或是仅能探索游戏世界24个房间的一小部分。

在2016年,OpenAI透过将DQN结合基于计数的探索奖励,而使整体结果大幅前进,让人工智能代理人可以探索15个房间,最高获得6.6K的分数,平均达3.7K,但从那之后,增强学习代理所获得明显的分数改进,都来自于人类专家的展示或是存取模拟器的基础状态。

OpenAI改良增强学习技术激发好奇心,让AI玩游戏胜过人类

而RND的发展,再次大幅推进了成果,让人工智能游玩《蒙特祖马的复仇》的分数正式超过人类,而且还能完整探索24个房间。OpenAI以1,024个Workers进行了大规模的RND实验,在9次的实验中平均分数达10K,最佳平均值达14.5K,每次实验都能发现20到22个房间。另外,OpenAI还进行了一个较小规模但时间较长的实验,人工智能最佳分数达17.5K,通过第一级关卡并且探索完24个房间,OpenAI提到,这像是个好奇心的机制,可驱使人工智能代理人发现新房间,并找到提高游戏分数的方法。

在开发出这个好奇心的机制之前,OpenAI使用之前与柏克莱本科一同研发基于预测的奖励方法,代理人从经验中学习下一个状态的预测模型,并使用预测误差作为内在奖励。Google在不久前,发表了基于情境记忆模型,以提供增强学习获得类似好奇心的奖励以探索环境,扩展增强学习可以解决问题的范围,Google提到,基于预测的内在奖励机制,有机会让代理人产生自我放纵获取即时满足感的现象。

OpenAI改良增强学习技术激发好奇心,让AI玩游戏胜过人类

OpenAI特别解释,虽然基于预测的好奇心模型,在Unity的模拟迷宫中,的确会在电视机关中发生问题,透过不停预测随机的电视频道以获得高内在奖励,但是该算法应用在《蒙特祖马的复仇》这类大型确定性的环境仍是没有问题的,好奇心会驱使代理人发现新房间,并且与物体互动。

相关文章