人工智能这场饕餮盛宴每道菜你都认识吗?
·状态:代理在任何实例中的有效位置称为状态。代理人可以通过执行操作从一个状态转换到另一个状态。避免采取行动,无论这种状态是否正确,都有奖励。 ·奖励:奖励是指环境为特定行为定义的结果。如果行动正确,奖励是积极的,否则就是消极的。 任何代理人的长期目标都是理解环境以最大化奖励。奖励可以被最大化,只要它是积极的奖励,反过来是对该状态的正确行动的结果。所以最大化问题可以用简单的术语来处理以下顺序: ·给定一个有效的状态si,产生一个随机动作ai。 ·假设动作是正确的并且转换到下一个随机状态si + 1。 ·计算转换的奖励ri。 ·如果奖励是积极的,记住该状态的行动,因为它是适当的行动,但不是最佳行动。 ·如果奖励是消极的,则放弃该行为。 ·从获得的一组最佳行动中,确定最大奖励的最佳行动。 ·为环境中的每个状态执行此操作。 该等式给出如下: 意思是,Q值即状态动作值取决于旧值+新信息与旧信息之间的差异。旧信息已经存在于记忆中,而新信息是通过最大化从行动中学到的奖励而获得的。因此,在许多强化学习问题中,我们构建了一个可以学习状态与行为之间映射的神经网络,如果行动是积极的。一旦训练结束,我们可以部署网络,以便为任何有效的状态创建正确的行为,从而最大限度地获得回报。 MountainCar示例: Open AI gym 提供了一套代理人可以接受训练的环境,Mountain Car是一个很好的例子,可以通过强化学习来学习优化加速。这场比赛的目标是训练一辆车成功爬山。 我们可以从零开始实施Q学习,或者我们可以简单地使用Kears-rl。 Krars-rl只是一组API,可以使用预先编写的算法。
如图所示。到4000结束时,汽车已经学会了产生足够的加速度来爬山。 代码: 有关强化学习的更多示例,请参阅我的GitHub配置文件:https://github.com/Narasimha1997 (编辑:威海站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |