人工智能这场饕餮盛宴每道菜你都认识吗？

发布时间：2018-05-05 22:29:36 所属栏目：教程来源：李佳惠

导读：【资讯】首先，什么是人工智能? 人工智能是计算机科学(或科学)的一个分支，它是处理智能系统的创建。而智能系统就是像人类一样拥有智能的系统。人工智能科学其实并不新鲜，这个术语在古希腊和埃及的手稿中已经提到。希腊人相信上帝赫菲斯托斯，也被称为铁

　　·状态：代理在任何实例中的有效位置称为状态。代理人可以通过执行操作从一个状态转换到另一个状态。避免采取行动，无论这种状态是否正确，都有奖励。

人工智能这场饕餮盛宴每道菜你都认识吗？

　　·奖励：奖励是指环境为特定行为定义的结果。如果行动正确，奖励是积极的，否则就是消极的。

　　任何代理人的长期目标都是理解环境以最大化奖励。奖励可以被最大化，只要它是积极的奖励，反过来是对该状态的正确行动的结果。所以最大化问题可以用简单的术语来处理以下顺序：

　　·给定一个有效的状态si，产生一个随机动作ai。

　　·假设动作是正确的并且转换到下一个随机状态si + 1。

　　·计算转换的奖励ri。

　　·如果奖励是积极的，记住该状态的行动，因为它是适当的行动，但不是最佳行动。

　　·如果奖励是消极的，则放弃该行为。

　　·从获得的一组最佳行动中，确定最大奖励的最佳行动。

　　·为环境中的每个状态执行此操作。

　　该等式给出如下：

人工智能这场饕餮盛宴每道菜你都认识吗？

　　意思是，Q值即状态动作值取决于旧值+新信息与旧信息之间的差异。旧信息已经存在于记忆中，而新信息是通过最大化从行动中学到的奖励而获得的。因此，在许多强化学习问题中，我们构建了一个可以学习状态与行为之间映射的神经网络，如果行动是积极的。一旦训练结束，我们可以部署网络，以便为任何有效的状态创建正确的行为，从而最大限度地获得回报。

　　MountainCar示例：

　　Open AI gym 提供了一套代理人可以接受训练的环境，Mountain Car是一个很好的例子，可以通过强化学习来学习优化加速。这场比赛的目标是训练一辆车成功爬山。

　　我们可以从零开始实施Q学习，或者我们可以简单地使用Kears-rl。 Krars-rl只是一组API，可以使用预先编写的算法。

人工智能这场饕餮盛宴每道菜你都认识吗？
▲汽车学习产生最佳加速度