跳到主要内容

QLearner

描述:

  一个简单的强化学习框架,可用于使用Q-learning算法学习马尔可夫决策过程的最优策略。 Q-learning是一种无模型强化学习算法,通过反复更新一对状态和动作下计算的Q值,获得最优动作评估值的函数。

类对象:QLearner Class

继承自:Object

matrix

类型: 只读成员变量。

描述:

  存储状态、动作和Q值的矩阵。

签名:

const matrix: {{
--[[state]] integer,
--[[action]] integer,
--[[Q-value]] number
}}

update

类型: 函数。

描述:

  根据收到的奖励值更新一对状态和动作下的Q值。

签名:

update: function(self: QLearner, state: integer, action: integer, reward: number)

参数:

参数名类型描述
stateinteger表示状态的整数。
actioninteger表示动作的整数。必须为大于0的整数。
rewardnumber表示在状态中采取行动获得的奖励值。

getBestAction

类型: 函数。

描述:

  基于当前Q值返回给定状态的最佳动作。

签名:

getBestAction: function(self: QLearner, state: integer): integer

参数:

参数名类型描述
stateinteger当前状态。

返回值:

返回类型描述
integer给定状态下具有最高Q值的动作。返回0表示没有动作。

load

类型: 函数。

描述:

  从状态-动作对的矩阵中加载Q值。

签名:

load: function(self: QLearner, values: {{
--[[state]] integer,
--[[action]] integer,
--[[Q-value]] number
}})

参数:

参数名类型描述
values{{integer 状态, integer 动作, number 状态-动作对的Q值}}要加载的状态-动作对的矩阵。