OpenAI改良增强学习技术激发好奇心，让AI玩游戏胜过人类

2018-11-07 03:02:40 网络整理阅读：202 评论：0

OpenAI发表了RND（Random Network Distillation），以基于预测的方法，透过好奇心带领增强学习代理人探索环境。OpenAI提到，，这是首次人工智能游玩《蒙特祖马的复仇（Montezuma's Revenge）》这款游戏，能够超过人类的平均表现，而且不需要人类示范，就能完成第一关。

OpenAI提到，要让人工智能代理人实现预设的目标，必须要使其探索环境中可能存在的属性以及完成目标的元素。不少游戏的奖励讯号都提供了一个课程（Curriculum），只要简单的探索策略就可以实现游戏目标，而之所以《蒙特祖马的复仇》对于人工智能是一个重要的指标，是因为在应用DQN算法中，《蒙特祖马的复仇》是唯一一款远低于人类平均得分的游戏，只使用简单的探索策略，是无法在游戏中收集到任何奖励的，或是仅能探索游戏世界24个房间的一小部分。

在2016年，OpenAI透过将DQN结合基于计数的探索奖励，而使整体结果大幅前进，让人工智能代理人可以探索15个房间，最高获得6.6K的分数，平均达3.7K，但从那之后，增强学习代理所获得明显的分数改进，都来自于人类专家的展示或是存取模拟器的基础状态。

OpenAI改良增强学习技术激发好奇心，让AI玩游戏胜过人类

而RND的发展，再次大幅推进了成果，让人工智能游玩《蒙特祖马的复仇》的分数正式超过人类，而且还能完整探索24个房间。OpenAI以1,024个Workers进行了大规模的RND实验，在9次的实验中平均分数达10K，最佳平均值达14.5K，每次实验都能发现20到22个房间。另外，OpenAI还进行了一个较小规模但时间较长的实验，人工智能最佳分数达17.5K，通过第一级关卡并且探索完24个房间，OpenAI提到，这像是个好奇心的机制，可驱使人工智能代理人发现新房间，并找到提高游戏分数的方法。

在开发出这个好奇心的机制之前，OpenAI使用之前与柏克莱本科一同研发基于预测的奖励方法，代理人从经验中学习下一个状态的预测模型，并使用预测误差作为内在奖励。Google在不久前，发表了基于情境记忆模型，以提供增强学习获得类似好奇心的奖励以探索环境，扩展增强学习可以解决问题的范围，Google提到，基于预测的内在奖励机制，有机会让代理人产生自我放纵获取即时满足感的现象。

OpenAI改良增强学习技术激发好奇心，让AI玩游戏胜过人类