type
status
password
date
slug
summary
category
URL
tags
icon
不完全观测问题

图11.1的例子是让智能体走迷宫。图11.1(a)中智能体可以完整观测到迷宫;这种问题最容易解决。图11.1(b)中智能体只能观测到自身附近一小块区域,这属于不完全观测问题,这种问题较难解决。如图11.1(c)所示,一种更合理的办法是让智能体记住过去的观测,这样的话对状态的观测会越来越完整,做出的决策会更合理。
策略网络
对于星际争霸、扑克牌、麻将等不完全观测的游戏,人类玩家也需要记忆;人类玩家的决策不止依赖于当前时刻的观测,而且依赖于过去所有的观测。把从初始到时刻为止的所有观测记作:
可以用代替状态,作为策略网络的输入,那么策略网络就记作:
基于RNN的策略网络
在第时刻,观测到,用卷积网络提取特征,得到向量。循环层把作为输入,然后输出。是从 中提取出的特征,是对所有观测 的一个概要。全连接网络(输出层激活函数是softmax)把 作为输入,然后输出向量 ,作为时刻决策的依据。的维度是动作空间的大小,它的每个元素对应一个动作,表示选择该动作的概率。
