单人游戏可以很自然地被翻译成MDP(the moment during which the player is in control)。状态代表玩家控制的时刻,来自这些状态的观测值是状态之间累积的所有信息(例如控制帧之间所有的像素帧),动作是玩家可以使用的所有命令(在Doom游戏中是上、右、左、射击等)。 强化学习也可以自己玩对抗游戏:代理和自身对抗。在这种环境中,经常会存在纳什均衡,这样一来,你的对手就像一个完美的玩家,它总是符合你的兴趣。以对其有意义的国际象棋为例。给定一个棋盘布局,对阵一位象棋大师的一步好棋对于初学者来说依然是一步好棋。不管代理目前的水平如何,通过和自己比赛,代理依然能够知道它之前移动的质量(如果它赢了,就视为好动作,如果它输了,则视为坏动作)。 当然,如果从一开始就直接与一个非常好的代理较量,那么在神经网络的上下文中梯度信息的质量更高。但是,一个代理可以通过和自己,一个同样水平的代理比赛来学习提高自己的水平,这真是令人惊讶。这实际上是 AlphaGo(来自DeepMind公司,击败了世界冠军的围棋代理)采用的训练方法。该策略以大师下棋的数据集为起点(最初训练),之后它使用强化学习以及与自己下棋的方式来进一步提高水平(用Elo算法评分量化),最后代理变得比它从原始数据集中学到的策略更好,毕竟它战胜了大师。为了计算最终的策略,AlphaGo团队动用巨大的计算能力,并将策略梯度与蒙特卡洛搜索树相结合。 这个设置与从像素学习有点不同。首先,因为输入没有高维,所以流形更接近它的嵌入空间。然而在这种情况下,仍然使用卷积层来高效利用一些子网格棋盘布局的局部性。再则,因为AlphaGo不是无模型的(它是确定性的)。