递归分类在强化学习中用示例代替奖励 - 绿色生活

TUhjnbcbe - 2021/6/23 17:17:00

发布人：GoogleResearch学生研究员BenjaminEysenbach

机器人研究的总体目标是设计出这样的系统：能够协助人类完成各种可以改善日常生活的任务。大多数用于教导智能体执行新任务的强化学习算法都需要使用奖励函数(RewardFunction)。该函数在智能体采取的行动可以带来良好结果时，会向智能体提供正向反馈。

然而，在实际当中，这些奖励函数的指定过程相当繁琐，并且在没有明确目标的情况下非常难以定义，例如房间是否干净或门是否关得够严实。即使是容易描述的任务，要去实际衡量其完成情况也很困难，可能需要在机器人环境中添加许多传感器。

添加许多传感器