在NeurlPS2021上,跨维智能的算法研究团队提出了一个新颖的3D空间物体姿态估计算法——稀疏姿态可控卷积(SS-Conv)。SS-Conv 利用稀疏张量极大地加速了姿态可控卷积,同时也在特征学习中严格保持 SE(3) 等变性。
通过对实例级与类别级姿态估计任务进行实验,结果表明与现有的几种3D卷积相比,基于 SS-Conv 的模型在准确性和高效性上均有显著的提升。
研究动机
SE(3) 等变网络是 3D 语义分析领域中非常重要的一类网络,广泛应用于3D物体识别。3D 姿态可控卷积神经网络是其中最具代表性的网络,采用姿态可控卷积(ST-Conv)逐层学习姿态等变特征,以保留3D输入的姿态信息。因此,SE(3)变换可直接通过在特征空间中进行转向来实现,而无需对输入进行变换。
ST-Conv将特征域限定在 3D 体素数据的规则网格上,这种对3D卷积的兼容性简化了ST-Conv的实现,但也导致其不能高效处理稀疏且不规则的3D点云数据,从而限制其在3D语义分析的其他任务中的应用。
本研究工作希望设计一种基于稀疏张量的姿态可控卷积(SS-Conv)以解决上述缺点,加快运算速度且保持SE(3)等变性,并探索其在3D空间物体姿态估计任务中的应用。
方法描述
本研究通过基于球形谐波的基核的线性组合来建立卷积核,使其满足 SE(3) 等变卷积应遵循的旋转可控约束条件,同时基于稀疏张量在激活的特征位置上利用 GPU 上的矩阵加乘操作实现快速卷积。
实现分为3个步骤:1)构造旋转可控卷积核,假设卷积核是一个离散的立方体;2)定义位置状态获得哈希表;3)稀疏卷积获得特征矩阵。同时与传统CNN一样,SS-Conv也需要归一化和激活。
▲ SE(3) 等变性:(a)ST-Conv;(b)SS-Conv。箭头表示 3D 场中有向的特征向量。
3D空间物体姿态估计的应用
本研究基于SS-Conv设计了一个3D空间物体姿态估计的通用框架,分为两阶段:
1)使用SS-Conv构建主干网络,堆叠多层 SS-Conv 提取 SE(3) 等变特征,然后通过 Tenso-to-Point 模块将体素特征转变为观测物体的逐点特征,以初步估计物体姿态。
2)通过特征操控模块(Feature-Steering module),基于初步估计的物体姿态对等变的体素特征进行变换,同样将其转为逐点特征来学习物体残差姿态,从而优化初始预测。该过程可以不断迭代来对姿态进行持续优化。
▲ 基于 SS-Conv 的物体姿态估计的通用框架
为验证该框架,本研究对三类姿态估计任务进行了对比实验:
1)实例级6D物体姿态估计,即根据RGB-D图像估计已知物体在相机坐标系下的6D pose。数据使用LineMOD数据库。
2)类别级6D物体姿态及尺寸估计,即估计未知物体的6D pose和三维尺寸。数据使用REAL275 数据库,
3)类别级6D物体姿态跟踪,即估计两帧相邻RGB-D图像中6D pose的微小变化,数据使用REAL275 数据库。
实验结果
SS-Conv的性能、速度与显存占用
通过在实例级6D物体姿态估计任务中对比不同3D卷积的表现,SS-Conv在准确性与高效性均占有优势。对照对象为传统密集连接的 3D 卷积(Dense-Conv)、非 SE(3) 等变的稀疏卷积(SP-Conv)及3D 姿态可控卷积(ST-Conv)。
1)准确性
SS-Conv 在 ADD(S) 指标上的表现与 ST-Conv一样出色,均远高于 Dense-Conv 及 SP-Conv,充分显示了 SE(3) 等变特征学习在姿态估计上的重要作用。
2)高效性
SS-Conv 比 ST-Conv速度更快,占用GPU 显存更少。在 Plain12 中 batch size 为 32 的情况下,SS-Conv 的速度约为 ST-Conv 的 2.7 倍。使用更多不同大小的数据 batch 进行测试,显卡最大显存为 12G 。其中,ST-Conv 的极限 batch size 为 48,而 SS-Conv 在 batch size 为 512时依旧可以运行,且速度可达到 725 FPS。实验结果表明,batch size更大时,SS-Conv 的速度更快。
此外,本研究在两个更深的网络Plain24 和 ResNet50上对 ST-Conv 和 SS-Conv 进行了比较,结果与Plain12一致,验证了SS-Conv的高效性。
SS-Conv在三类姿态估计任务中的表现
1)实例级6D物体姿态估计
基于SS-Conv的3D空间物体姿态估计框架在ADD(S)指标上的表现比目前已有的其他方法都要好,平均可达到99.2%。通过第二阶段特征操控模块进行姿态优化的效果非常显著。
2)类别级6D物体姿态及尺寸估计
实验结果验证了SS-Conv在高精度指标的优越性,在5°5cm指标上mAP从35.9% 提高到了 43.4%。可以观察到,第二阶段特征操控模块的姿态优化在这个任务上同样发挥着巨大的作用。
3)类别级6D物体姿态跟踪
通过与6-PACK方法进行比较,SS-Conv在全部指标上均获得了更好的表现。
总结
本研究提出的SS-Conv在保持了SE(3)等变性的同时,显著提高了运算速度,使其能够在3D空间姿态估计任务中发挥重要作用。基于SS-Conv的两阶段姿态估计框架,在实例级与类别级姿态估计任务中的表现均优于现有的其他方法。