关于强化学习的三件事
来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-10-26
让我们考虑这个示例:您正在通话,并且移动网络的信号强度很弱
您会搜索位置,直到与您交谈的人能正确听到您的声音为止,然后您说是的,您处于良好的网络区域。附近没有迹象告诉您有关该位置的信息-您是通过反复试验发现该位置的,这类似于强化学习的工作原理。您会听到代理商,奖励和环境这两个词。为了更好地理解这些术语,我们将使用相同的示例。
代理商:寻找好的移动网络的人
奖励:强大的移动网络信号
环境:周边
该代理在其测试环境中不断走动,以寻找强大的信号强度。如果信号强度良好,则奖励被认为是积极的,而较差的信号则被视为消极的。信号越强,奖励就越积极。
在这种强化学习系统中,我们旨在程度地提高正面奖励。在此示例中,学习究竟如何进行?
当您终找到一个良好的网络区域时,您可能会记得该位置。将来,如果您再打一个电话,您会选择直接去那个地点还是会再次重复寻找强信号强度的过程?通过返回“好地方”,您可以节省时间和精力。这就是学习发生的方式-从经验和结果。在强化学习中,作为记忆添加的体验(搜索)越多,获得目标结果(强信号点)的速度就越快。
考虑x代表位置,R(x)是座席将根据当前位置x获得的奖励
在强化学习系统中,模型没有意识到它将获得的奖励,另外,该模型不受监督–也就是说,没有告知执行什么操作,由模型决定在其环境中探索不同的x值并观察所得的奖励R,而且,没有固定的x值集,座席负责选择位置x,并且座席不断从错误中学习(在我们的示例中,选择错误的信号位置),该模型保留执行的动作,获得的奖励的历史记录,并做出决策并采取相应的行动。
这就是强化学习用于训练模型的方式
常见的强化学习技巧,Q学习是一种脱离政策的强化学习技术(Q代表质量),在非策略方法中,没有固定状态(例如我们的单元信号示例中的运动方向),代理可以从一个州移动到任何其他状态(即,从一个位置移动到另一位置,例如从北到南/东/西/东北/西北/等),在Q学习中,对代理进行迭代式培训,以使其在任何情况或状态下执行的操作获得的回报。该代理使用Q值并将它们存储在一个表中的形式Q(S,A)(其中,小号代表状态和一个代表动作)。
基本上,代理在每个间隔中重复执行以下操作:
1、观察当前的状态小号
2、执行动作一
3、检查结果状态s
4、立即获得奖励
基于哪个更新间隔的Q值。
您会搜索位置,直到与您交谈的人能正确听到您的声音为止,然后您说是的,您处于良好的网络区域。附近没有迹象告诉您有关该位置的信息-您是通过反复试验发现该位置的,这类似于强化学习的工作原理。您会听到代理商,奖励和环境这两个词。为了更好地理解这些术语,我们将使用相同的示例。
代理商:寻找好的移动网络的人
奖励:强大的移动网络信号
环境:周边
该代理在其测试环境中不断走动,以寻找强大的信号强度。如果信号强度良好,则奖励被认为是积极的,而较差的信号则被视为消极的。信号越强,奖励就越积极。
在这种强化学习系统中,我们旨在程度地提高正面奖励。在此示例中,学习究竟如何进行?
当您终找到一个良好的网络区域时,您可能会记得该位置。将来,如果您再打一个电话,您会选择直接去那个地点还是会再次重复寻找强信号强度的过程?通过返回“好地方”,您可以节省时间和精力。这就是学习发生的方式-从经验和结果。在强化学习中,作为记忆添加的体验(搜索)越多,获得目标结果(强信号点)的速度就越快。
考虑x代表位置,R(x)是座席将根据当前位置x获得的奖励
在强化学习系统中,模型没有意识到它将获得的奖励,另外,该模型不受监督–也就是说,没有告知执行什么操作,由模型决定在其环境中探索不同的x值并观察所得的奖励R,而且,没有固定的x值集,座席负责选择位置x,并且座席不断从错误中学习(在我们的示例中,选择错误的信号位置),该模型保留执行的动作,获得的奖励的历史记录,并做出决策并采取相应的行动。
这就是强化学习用于训练模型的方式
常见的强化学习技巧,Q学习是一种脱离政策的强化学习技术(Q代表质量),在非策略方法中,没有固定状态(例如我们的单元信号示例中的运动方向),代理可以从一个州移动到任何其他状态(即,从一个位置移动到另一位置,例如从北到南/东/西/东北/西北/等),在Q学习中,对代理进行迭代式培训,以使其在任何情况或状态下执行的操作获得的回报。该代理使用Q值并将它们存储在一个表中的形式Q(S,A)(其中,小号代表状态和一个代表动作)。
基本上,代理在每个间隔中重复执行以下操作:
1、观察当前的状态小号
2、执行动作一
3、检查结果状态s
4、立即获得奖励
基于哪个更新间隔的Q值。
代理从这些Q值中学习,从而确定策略。