DeepMind研究人员研发出了一种解决机器人控制问题的混合方案
2020-01-10 13:21:04爱云资讯725
机器人技术的基本问题既涉及离散变量(比如控制模式或齿轮切换的选择),又涉及连续变量(比如速度设定点和控制增益)。通常来说,由于算法或控制策略并不总是适合的,因此这些问题很难解决。这就是为什么谷歌母公司Alphabet的DeepMind的研究人员最近提出了一种技术:连续-离散混合学习,即可以同时优化离散和连续动作,以其本来的形式处理混合问题。

在预印本服务器Arxiv.org上发表的一篇论文详细介绍了他们的工作,这篇论文也在去年10月日本大阪的第三届机器人学习会议上被人接受。作者写道:“许多先进的方法都进行了优化,它们能很好处理离散的或是连续的动作空间,但是却很少有方法能同时处理。能够使用同一算法强大地处理离散和连续动作空间,使我们能够针对任何给定问题都能选择最自然的解决方案策略,而不是让算法上的便利性来决定做出哪种选择。”
团队研发的无模型算法,是指利用强化学习或者奖励实现目标的自主代理人的培训技术,通过连续和离散动作空间来解决控制问题,并通过受控和自主切换来解决混合最优控制问题。此外,这种算法通过使用“元动作”或其他类似方案来扩大动作空间(分别定义了代理人可能感知和采取的状态和动作的范围),从而为解决现有的机器人问题提供了新颖的解决方案,并使策略可以解决类似人工智能训练期间的机械磨损等挑战
。

来源:DeepMind
DeepMind机器人技术
研究人员在一系列模拟和现实基准测试中验证了他们的方法,包括Rethink Robotics公司的Sawyer机器人手臂。据称,基于给定的到达、抓取和拿起魔方的任务,其中奖励是三个子任务的总和,因此他们的算法要优于无法解决任务的现有方法。
那是因为到达魔方需要代理人打开手臂的抓具,而抓取方块需要关闭抓具。作者写道:“一开始,基线将大部分概率集中在较小的动作值上,因此很难移动抓具的手指来看到任何奖励,从而解释了学习曲线上的平稳期。另一方面,这个算法能始终以全速操作抓具,因此改进了探查性,使机器人可以完全完成任务。”
在一个单独的实验中,团队将其算法设置为参数化动作空间马尔可夫决策过程(PAMDP)或一个分层问题,其中,代理人首先选择离散动作,然后为该动作选择一组连续的参数集。在这种情况下,代理人的任务是操纵机器人手臂,以便将钉子插入孔中,然后根据孔的位置和运动学来计算奖励。
研究人员表示,他们的方法比精细方法和粗略方法获得了更大的回报,并且这种算法将来可以作为基础应用到更多的混合强化学习中。论文中写道:“对于专业设计师而言,事先选择合适的模式可能很困难。而我们的方法是很有用的,因为它只需要一个实验,而别的方法都需要通过消融来进行验证。”
相关文章
- 欧洲手术台上的中国方案:术锐®机器人开启中国原创技术全球输出新纪元
- 【预登记从速】NEPCON China 2025上海世博展览馆4月22-24日邀您共探人形机器人、AI、汽车电子、低空飞行、半导体、新能源各大亮点展区
- 2025中关村论坛|云迹科技出席京港科技创新论坛,与香港诺达机器人签署战略合作协议
- 均胜电子聚焦经营质量提升,“汽车+机器人”双线布局建新增长曲线
- 人形机器人产业爆发在即,NEPCON China 2025首设人形机器人核心零部件拆解区,解锁万亿市场新机遇
- 擎朗智能发布首款人形具身服务机器人XMAN-R1,以岗位力推动具身智能机器人商业化落地
- 魔法原子“千景共创计划”再下一城:人形机器人小麦成为全球首个音乐节服务机器人
- 优艾智合-西安交大具身智能机器人研究院公布人形机器人矩阵
- 云迹科技与奇安信达成战略合作 共筑机器人服务智能体安全防线
- 普渡机器人发布全球首款商用类人形具身智能服务机器人闪电匣Arm
- 家电圈神仙组合!宇树网红机器人x松下最美洗衣机的双向奔赴
- 达明机器人携合作伙伴亮相上海三展,以科技赋能智能制造升级
- AI保保重构保险销售新范式:首个可面客智能销售机器人AI保保面世
- 智能打磨机器人技术突破,破解汽车模具行业难题
- 人形机器人场景落地持续加速 魔法原子总裁吴长征:出货量有望达400台
- 云迹科技机器人服务智能体落地锦江集团多家酒店 提升用户体验