通过元强化学习分解实现无奖励自适应

发布时间：2021-05-22 21:42:49 所属栏目：大数据来源：互联网

导读：没有人喜欢家务一我们可以制造机器人来帮我们做这些家务吗？例如做饭。训练执行各种任务的智能体的一个通常范式就是针对每个特定的任务利用强化学习的方法训练一个单独的智能体，可是在人们的家中利用强化学习的方式从头开始训练一个智能体将会完全失败，

没有人喜欢家务一我们可以制造机器人来帮我们做这些家务吗？例如做饭。训练执行各种任务的智能体的一个通常范式就是针对每个特定的任务利用强化学习的方法训练一个单独的智能体，可是在人们的家中利用强化学习的方式从头开始训练一个智能体将会完全失败，因为这（训练过程）将会导致许多的灾难（例如厨房火灾），而且采用强化学习的方式从头开始训练一个智能体需要来自每个人大量的监督，从而对机器人成功做出一顿饭给出奖励，并且这也会花费大量的时间（从头学习每一个简单的任务都需要强化学习智能体数百万次尝试）。

相反，理想的做法是，如果一个机器人首先在机器人厨师工厂中首次训练完成之后，我们就可以训练它使其能够快速适应各种各样的家庭厨房。直观地说，这应该是可能的，因为不同的任务和环境都拥有大量相似结构（例如，在一个厨房里做比萨饼类似于在另一个厨房里做汉堡包），这可以使学习每一项任务变得更容易和更有效率。

幸运的是，在对许多相似的任务进行了第一次训练之后，元强化学习寻找的确切目标是通过对新任务很少的交互来训练智能体使其适应新任务,那么, 为什么今天没有机器人在我们的厨房做饭呢? 为了回答这个问题, 我们将把注意力转向元探索的问题: 如何最好的利用这些很少的交互来探索新的任务. 例如, 为了适应一个新的厨房, 一个机器人厨师理想的情况下应该花很少的互动来探索新厨房来寻找配料(烹饪原料), 这允许它能够作出一顿饭(解决这个任务). 在这篇博文中, 我们将讨论并解决关于的元探索的两个关键挑战, 这两个挑战让人类留在厨房(意思就是机器人不能正常工作)。

（编辑：常州站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

如何使用大数据驱动业	交通领域的物联网如何
2022大数据十大关键词	区块链为大数据分析提