机器学习算法Q-learning本页总览QLearner 描述: 一个简单的强化学习框架,可用于使用Q-learning算法学习马尔可夫决策过程的最优策略。 Q-learning是一种无模型强化学习算法,通过反复更新一对状态和动作下计算的Q值,获得最优动作评估值的函数。 类对象:QLearner Class。 继承自:Object。 matrix 类型: 只读成员变量。 描述: 存储状态、动作和Q值的矩阵。 签名: const matrix: {{ --[[state]] integer, --[[action]] integer, --[[Q-value]] number }} update 类型: 函数。 描述: 根据收到的奖励值更新一对状态和动作下的Q值。 签名: update: function(self: QLearner, state: integer, action: integer, reward: number) 参数: 参数名类型描述stateinteger表示状态的整数。actioninteger表示动作的整数。必须为大于0的整数。rewardnumber表示在状态中采取行动获得的奖励值。 getBestAction 类型: 函数。 描述: 基于当前Q值返回给定状态的最佳动作。 签名: getBestAction: function(self: QLearner, state: integer): integer 参数: 参数名类型描述stateinteger当前状态。 返回值: 返回类型描述integer给定状态下具有最高Q值的动作。返回0表示没有动作。 load 类型: 函数。 描述: 从状态-动作对的矩阵中加载Q值。 签名: load: function(self: QLearner, values: {{ --[[state]] integer, --[[action]] integer, --[[Q-value]] number }}) 参数: 参数名类型描述values{{integer 状态, integer 动作, number 状态-动作对的Q值}}要加载的状态-动作对的矩阵。