ICRA 2023 | 基于神经交互场与模板的物体操控_学术资讯

ICRA 2023 | 基于神经交互场与模板的物体操控

阅读： 2023/5/6 9:06:54

以下文章来源于深圳大学可视计算研究中心，作者黄泽宇
导读
本文是VCC黄泽宇同学对论文 NIFT: Neural Interaction Field and Template for Object Manipulation 的解读，该工作来自深圳大学可视计算研究中心并已被机器人学顶级会议 ICRA 2023 接收。
项目主页：
https://vcc.tech/research/2023/NIFT
该工作提出了一种具有强描述性和鲁棒性的交互表达，该表达可以用于物体操控的模仿学习和交互生成。
I
引言
通过少量示例来教会机器人完成人类任务一直是机器人学的一个长期目标。理想情况下，机器人应该能够从少量任务示例中学习，并能够泛化到新的任务目标。以机器人抓手拿起杯子或将其挂在架子上的物体操控任务为例，我们希望机器人能够模仿给定示例中的交互，对新的物体执行和示例中类似的操作或交互，从而完成物体操控任务。如果我们将该任务中始终不变的机器人抓手和架子称为锚点物体，将示例中被操控的物体称为示例物体，将新的物体称为目标物体，那么我们的任务就是要生成锚点物体和目标物体之间的交互，使其和示例中锚点物体和示例物体的交互相似。我们一般通过优化锚点物体与新的目标物体的相对位姿来模仿示例中的交互。要达成这一目的，我们需要解决如何表达和优化交互，以及如何度量目标交互和示例交互之间的相似性的问题。其中最关键的则是找到合适的交互表达，该表达要能准确编码物体与物体之间的交互信息，并对物体形状变化具有鲁棒性。
本次论文介绍了一种新的交互表达方式——神经交互场与模板（NIFT）。给定几个物体操控示例，NIFT 通过在新物体的神经交互场（NIF）中匹配从示例交互中提取的神经交互模板（NIT），指导生成对新物体的模仿交互。实验表明，该NIFT解决方案在物体操控方面优于目前最先进的模仿学习方法，并且可以更好地泛化到新的物体类别。
II
技术贡献
本文主要贡献是提出了神经交互场与模板 (NIFT)，以解决交互的模仿学习中如何表达交互和度量交互相似性的问题。该方法旨在有效地指导交互模仿的特征匹配，将交互适配到不同形状的新的目标物体上。
如图1所示，本文提出特征场NIF能够准确的度量相同类别不同物体空间点的相似性。
图1目标特征场和示例点特征相似度对比（越蓝越相似）
如图2所示，本文提出的基于IBS的交互表达交互模板NIT能够更有效的指导交互的优化。
图2 不同特征点的交互优化对比
III
方法介绍
神经交互场（NIF）的计算
NIF是一个神经特征场，它编码了空间中任意点和给定物体之间的复杂空间关系，如图3所示。类似于神经描述场（NDF）[1]，本文首先训练一个隐式神经网络来预测物体空间中任意一点的空间特征。与NDF使用点相对于物体的占用值作为网络输出不同，本文用点到物体的球面距离函数的球谐分解系数所构成的SCF特征[2]作为网络的预测目标。网络训练完成后，该点的NIF特征则被定义为隐式神经网络解码器每层激活值的串联结果。从图1可以看出，该特征相比于原始SCF和NDF能更好地刻画相同类别不同物体空间点的相似性，非常适合作为交互模仿学习的交互特征。
图3 NIF的计算
神经交互模板（NIT）的提取
对于给定的示例交互，其NIT则由一组在示例物体的NIF中采样的空间点及其相应的NIF特征定义。为了更好地刻画交互，这组采样点将从交互平分面（IBS）[3]上进行采样。IBS面由与到两个交互物体等距的点组成，被广泛用于交互表达。如图5左图所示，对于给定的示例，本文首先计算交互示例中锚点物体和示例物体之间的IBS，然后基于重要性采样一组IBS点作为神经交互模板的特征点。结合IBS点在示例物体的NIF特征，得到NIT。
图4 NIT的提取（左）与匹配（右）
模仿交互的优化
为了在目标物体上模仿示例交互，本文求解一个位姿变换T，使得变换后NIT的IBS点在目标物体的NIF中的特征与在示例物体的NIF中的特征匹配，如图4右图所示。记示例物体为，目标物体为，示例交互的IBS点为，模仿交互的优化即求解以下特征匹配能量最小化问题：
更多方法的细节请参考原论文。
IV
部分结果展示
本文通过在虚拟物理环境中的物体操控成功率来评估交互模仿学习方法。如表1所示，对于三种不同的同类物体操控任务，在给定相同的示例交互情况下，本文提出的基于IBS点和NIF特征的方法在直立的目标物体和随机旋转的目标物体上都取得了最高的模仿学习成功率。而在示例物体和目标物体属于不同类别的物体操控模仿学习任务中，本文方法相比其他方法也能更有效地进行泛化。
表1相同类别物体的操控模仿学习成功率对比
本文还在真实环境下测试了所提出的方法的可用性，如图5所示。
图5 算法在真机环境下的验证结果
V
总结与展望
本文提出了神经交互场与模板 (NIFT)，以提供强描述能力和鲁棒性的交互表达，指导物体操控的模仿学习。实验表明，适合表达交互的特征点和点特征设计对于模仿学习的性能都是必不可少的，通过结合使用IBS和NIF得到的交互模板NIT与目前最先进的方法相比，可以显著提高模仿学习的性能。
本文提出的 NIF 是一种数据驱动的神经网络特征场，尽管它已经比实验中所示的 NDF 提供了更丰富的空间点与物体的交互信息，但它可能仍然不能很好地泛化到形状差异较大的不同类别物体上，因此探索其他类别无关的可微特征设计是一个有趣的未来方向。此外，本文物体操控中使用的锚点物体都是刚体，例如机器人抓手和和架子，探索铰链式或可变形的锚点物体的物体操控模仿学习方法也是值得研究的未来工作。
VI
思考与讨论
Q: 物体大小是否会影响NIF计算以及图1的结果？
A: 本文和其他基于物体全局特征的隐式神经场相同，会将输入的点云进行归一化缩放到一个直径为1的球内。同时，本文使用的球面距离函数编码的是相对距离信息，因此本文提出NIF对于不同大小的物体也是鲁棒的，更多细节可以参考原论文。
Q: 本文是否有生成物体操控过程中的交互序列？
A: 因为本文的物体操控任务的操控过程中，锚点物体和目标物体其实是相对静止的，所以本文实际上只生成了物体操控的起始状态和终止状态的两个关键帧，而操控过程则是使用现成的运动规划算法来生成。要生成更自然合理的交互序列，也可以使用强化学习来学习物体操控策略。
转自：“arXiv每日学术速递”微信公众号
如有侵权，请联系本站删除！

浏览(213)

点赞(0)

收藏(0)
上一篇：CVPR 2023 | UniDexGrasp：通用灵巧手抓取算法

下一篇：CVPR'23｜CV任务新backbone！DependencyVit：用反向自注意力实现捕捉视觉依赖