基于深度强化学习的机器人仿真自监督抓取文献综述

 2022-09-29 11:11:39

  1. 文献综述(或调研报告):

Andy Zeng等人实现了机器人通过自监督学习, 让机器人选择使用“推”或“抓”动作。在仿真和现实环境下,机器人用“推”来改变工作台的物体分布,从而改善“抓”的成功率。最终机器人能将工作台的所有物体抓到存储位置,或经过多步动作物体分布无明显变化而终止动作尝试。记录结果表明,该抓取模型有非常优秀的成功率。[1]此外,Andy Zeng等人还实现了机器人通过自监督学习,从多种不同的抓取方式进行选择,抓取桌面上的物体,经过自监督学习,能将物体识别为学习到的不同模式,并放入不同的箱子中。[2]

L. Pinto和A. Gupta对特定的末端执行器定义18个方向的抓取窗口,也即是18个采样窗口。相机图像经过处理后,输出以待抓取物体为中心的采样图像。然后用CNN接FC对这18个方向的采样进行分析,以抓取成功与否提供误差反馈,其效果等同于18个方向的二元分类。[3]

Jeffrey Mahler等人用GQ-CNN对物体的点云数据进行模型拟合,然后通过训练学习到抓取价值最高的方式。[4]

Marcus Gualtieri等人则存储了数千种抓取方式,然后依照许多种抓取方式移动机械臂,尝试将物体的点云数据包含在末端“手指”之间,以此进行抓取方式的初筛;然后用CNN来评价候选抓取方式。[5]

机器人抓取的研究,从早期的硬编码,到数据驱动式学习;从依赖于标签的监督学习,到不依赖标签的自监督学习;从只考虑“抓”的动作,到同时考虑“抓”和“推”的动作,经历了长足的发展。

[1] Zeng A , Song S , Welker S , et al. Learning Synergies between Pushing and Grasping with Self-supervised Deep Reinforcement Learning[J]. 2018.

[2] Andy Zeng, Shuran Song, Kuan-Ting Yu, et al. Robotic Pick-and-Place of Novel Objects in Clutter with Multi-Affordance Grasping and Cross-Domain Image Matching[J]. 2018

[3] L. Pinto, A. Gupta. Supersizing self-supervision: Learning to grasp from 50k tries and 700 robot hours[J]. 2016.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。