Fig. 1. Research purpose oriented map
Fig. 2. Scene information observation perspective map
Fig. 3. Development history of 3D shape complementation methods based on deep learning
Fig. 4. Comparison of the results of some shape completion methods
Fig. 5. Development history of 3D scene complementary methods
Fig. 6. Model fitting scenario
Fig. 7. Scene generation complementary
Fig. 8. Comparison of the results of some scenario complementary methods
Fig. 9. Development history of 3D semantic scene complementation methods
Fig. 10. TSDF variants
Fig. 11. HHA map
Fig. 12. Comparison of the results of some semantic scene completion methods
数据集 | 年份 | 类型 | 来源 | 简要描述 |
---|
ShapeNet-Part | 2015 | 合成 | - | ShapeNet-Part1数据集是ShapeNet数据集[48]的子集,ShapeNet是大规模CAD模型注释的形状存储库。不同补全方法使用数据集的类别数目(8类、16类、34类、55类)有所不同,但都来自ShapeNet数据集,为了简明,统一用ShapeNet-Part表示。数据形式包括网格、体素和点云。点云是CAD模型经采样得到,采样方法包括最远点采样(Farthest Point Sampling,FPS)、均匀采样(Uniform Sampling,US)和泊松圆盘采样(Poisson Disk Sampling,PDS)。 | KITTI[50] | 2012 | 真实 | LiDAR传感器+灰度相机+彩色相机+GPS | KITTI数据集是面向自动驾驶的场景点云数据集。它包含7 481个图像点云对用于训练,7 518个图像点云对用于测试,共包含80 256个标记对象。 | ScanNet[51] | 2017 | 真实 | RGB-D深度相机 | ScanNet数据集是RGB-D室内视频数据集,包括场景实例分割、语义分割标注和相机姿态信息,共采集21个类别对象,1 513个场景数据。 | Matterport3D[52] | 2017 | 真实 | 3D扫描仪 | Matterport3D数据集包含10 800张尺寸相同的全景图(RGB+深度图像)。 | DFAUST[52] | 2017 | 真实 | 3D扫描仪 | DFAUST数据集是以60帧每秒速度捕获运动人体的高分辨率4D扫描数据集。 | MHAD[53] | 2013 | 真实 | RGB-D深度相机 | MHAD数据集提供来自2个视角RGB-D相机获取的人体动作数据。 | SUNCG[33] | 2017 | 合成 | - | SUNCG数据集是一个合成的具有密集体素标注的三维室内场景数据集,包含超过45 622个室内场景。 | NYUv2[54] | 2012 | 真实 | RGB-D深度相机 | NYUv2数据集是由Kinect深度相机记录的室内场景数据集。由26个场景类中的464个不同室内场景中拍摄获取的RGB和深度图像组成,包含894个不同的语义类别,共1 449张拥有语义标签标注的RGB-D图片以及407 204张未标注图片。 | tabletop[31] | 2016 | 真实 | GB-D深度相机 | tabletop数据集包含90个桌面对象的完整场景。 | Fandisk[49] | 2001 | 合成 | 万维网 | Fandisk数据集2来源于万维网上下载的三维模型库中的Fandisk模型,经过采样得到点云数据。 | Raptor[49] | 2001 | 合成 | 万维网 | Raptor数据集2来源于万维网上下载的三维模型库中的Raptor模型,经过采样得到点云数据。 |
|
Table 1. 3D completion related datasets
数据集 | 年份 | 类型 | 来源 | 简要描述 |
---|
NYUCAD[31] | 2013 | 合成 | — | NYUCAD数据集是NYUv2数据集的衍生版,将网格标注数据渲染为深度图。 | Semantic KITTI[35] | 2019 | 真实 | LiDAR-64 | Semantic KITTI数据集是基于KITTI Vision Benchmark里程计数据集的大型户外点云数据集,包括城内交通、住宅区、高速路和乡村道路场景,提供23 201个完整的3D扫描场景用于训练,20 351个场景用于测试。 | SemanticPOSS[37] | 2020 | 真实 | LiDAR-40 | SemanticPOSS数据集包含2 988个复杂的雷达扫描场景,有大量的动态实例。 |
|
Table 1. 3D completion related datasets
3D形状补全 | 代表性方法 | 描述及局限性 | 评估 数据集 | 是否监督 |
---|
基于点 | PCN[10] | 点云补全开创性工作,遵循编码器-解码器范式,细节生成能力欠缺 | ShapeNet-Part(point cloud)、KITTI | 是 | TopNet[23] | 引入树形解码器进行点云生成,细节信息丢失,需要足够冗余空间 | ShapeNet-Part(point cloud) | 是 | PF-Net[24] | 引入多分辨率编码器和金字塔解码器,仅补全缺失部分,缺乏泛化性 | ShapeNet-Part(point cloud) | 是 | LAKe-Net[68] | 引入非对称关键点定位器和递归细化模块生成细粒度点云,缺乏泛化性 | ShapeNet-Part(point cloud) | 是 | 基于卷积 | 3D-EPN[69] | 分辨率和计算资源呈现正相关,体素表达缺乏细节纹理 | ShapeNet-Part(mesh) | 是 | GRNet[70] | 引入体素作为点云的中间表示,点云体素化过程不可避免导致信息丢失 | ShapeNet-Part(point cloud)、KITTI | 是 | VE-PCN[71] | 引入高频边缘结构信息注入到形状补全分支,计算量大 | ShapeNet-Part(point cloud)、KITTI | 是 | MRAC-Net[72] | 引入各向异性卷积编码器同时提取全局特征和局部特征,计算量大 | ShapeNet-Part(point cloud) | 是 | 基于图 | GCNet[56] | 引入带有图卷积的变分自动编码器学习潜在空间表示,缺乏泛化性 | DFAUST、MHAD | 是 | PC-RGNN[73] | 引入基于注意力的多尺度图卷积模块辅助三维检测,缺乏泛化性 | KITTI | 是 | GGDNet[75] | 引入图引导变形模块优化点云补全任务,缺乏泛化性 | ShapeNet-Part(mesh)、KITTI | 是 | LSLS-Net[76] | 引入不同缺失点云共享完整编码的掩码机制,缺乏细节性、忠实性 | ShapeNet-Part(point loud)、KITTI | 否 |
|
Table 2. Comparison of the main methods of 3D shape completion based on deep learning
3D形状补全 | 代表性方法 | 描述及局限性 | 评估数据集 | 是否监督 |
---|
基于生成对抗 | RL-GAN-Net[77] | 引入AE、RL和GAN多阶段协作,补全细节不足 | ShapeNet-Part (point cloud) | 是 | CRNet[78] | 引入级联细化策略和块判别器提升点云的生成质量,缺乏泛化性 | ShapeNet-Part (point cloud) | 是 | Cycle4.[81] | 引入双向循环的无监督点云补全算法,训练过程不易,缺乏细节性 | ShapeNet-Part(point cloud)、KITTI | 否 | ShapeInve.[60] | 将GAN逆映射引入到点云补全,需要额外的生成模型,缺乏泛化性 | ShapeNet-Part(point cloud)、KITTI、Matterport3D | 否 | 基于Transformer | PointTr[82] | 引入Transformer进行位置编码,计算量大、部署较难、泛化性差 | ShapeNet-Part (point cloud) | 是 | SDTNet[83] | 引入骨架-细节Transformer,遵循由粗到细生成策略,缺乏泛化性 | ShapeNet-Part(point cloud)、KITTI | 是 | 其他 | VRC-Net[84] | 引入概率建模和关系增强子网络,细节生成能力提升,缺乏泛化性 | ShapeNet-Part(point cloud)、KITTI、ScanNet | 是 | ViPC[85] | 引入额外的单张图像信息辅助点云补全,缺乏泛化性 | ShapeNet-ViPC | 是 | DeepSDF[65] | 引入连续符号距离函数生成密集的形状表面,推理速度慢 | ShapeNet-Part(mesh) | 是 |
|
Table 3. Comparison of the main methods of 3D shape completion based on deep learning
代表性方法 | 是否监督 | 飞机 | 橱柜 | 汽车 | 椅子 | 台灯 | 沙发 | 桌子 | 船舰 | 平均值 |
---|
PCN[10] | 是 | 9.79 | 22.70 | 12.43 | 25.41 | 22.72 | 20.26 | 20.27 | 11.73 | 18.16 | TopNet[23] | 是 | 9.29 | 18.79 | 11.57 | 18.44 | 14.69 | 18.63 | 13.45 | 8.65 | 14.19 | ECG[74] | 是 | 4.99 | 15.09 | 8.95 | 12.86 | 10.65 | 12.90 | 10.03 | 6.08 | 10.19 | MSN[67] | 是 | 4.91 | 13.04 | 10.87 | 10.62 | 11.75 | 11.90 | 8.72 | 9.53 | 10.17 | GRNet[70] | 是 | 6.13 | 16.90 | 8.27 | 12.23 | 10.22 | 14.93 | 10.08 | 5.86 | 10.57 | CRNet[70] | 是 | 3.38 | 13.17 | 8.31 | 10.62 | 10.00 | 12.86 | 9.16 | 5.80 | 9.16 | VRCNet[84] | 是 | 3.94 | 10.93 | 6.44 | 9.32 | 8.32 | 11.35 | 8.60 | 5.78 | 8.09 | PointTr[82] | 是 | 4.77 | 10.45 | 8.68 | 9.39 | 7.77 | 10.83 | 7.91 | 7.19 | 8.37 | SDTNet[83] | 是 | 4.60 | 10.05 | 8.16 | 9.15 | 8.12 | 10.65 | 7.64 | 7.66 | 8.25 | Cycle4.[81] | 是 | 5.23 | 14.77 | 12.41 | 18.09 | 17.32 | 21.06 | 18.90 | 11.54 | 14.92 | ShapeInve.[60] | 是 | 5.65 | 16.11 | 13.05 | 15.42 | 18.06 | 24.64 | 16.27 | 10.13 | 14.91 | LSLS-Net[76] | 是 | 3.90 | 13.50 | 8.70 | 13.90 | 15.80 | 14.80 | 17.10 | 10.00 | 12.21 |
|
Table 3. Quantitative results of partial methods on the Completion3D dataset
3D场景补全 | 代表性方法 | 输入数据 | 描述及局限性 | 数据集 | 是否监督 |
---|
早期方法 | RAPter[26] | Points | 引入平面排列规则,速度慢,补全面积小 | Real-world Scans | 是 | Poisson[16] | Points | 引入带筛选的泊松方程,补全面积小,补全质量较低 | Fandisk、Raptor | 是 | 模型拟合 | Scan2CAD[28] | RGB-D→SDF | 引入三维卷积学习对应嵌入关系,存在自身局限制,仅能粗略补全 | ShapeNet、ScanNet | 是 | RALNet[29] | RGB-D→TSDF | 引入全卷积网络预测9自由度对齐,模型存在自身局限性 | ShapeNet、ScanNet | 是 | JENet[30] | RGB-D→Occ.Grid | 引入沙漏网络进行场景对象分离学习共享嵌入空间,存在局限性 | ShapeNet、ScanNet | 是 | 生成式 | SCNet[25] | RGB-D→TSDF | 遵循由粗到细的场景补全策略,面对其他数据集泛化性差 | ScanNet、SUNCG | 是 | Voxlets[31] | Depth | 引入结构化随机森林,适用于桌面大小场景,场景补全面积受限 | NYUv2、tabletop | 是 | O-CNN[95] | Points | 引入输出引导的跳跃连接策略,缺乏泛化性 | ShapeNet、SUNCG | 是 | SG-NN[32] | RGB-D→TSDF | 引入作用于真实数据的自监督场景补全方法,补全分辨率受限 | Matterport3D | 否 | SPSG[97] | RGB-D→TSDF | 同时补全场景几何和颜色信息的自监督方法,补全分辨率受限 | ShapeNet、Matterport3D | 否 | CIRCLE[98] | RGB-D→Points | 引入SDF解码器和可微分隐式渲染,缺乏语义信息辅助 | Matterport3D | 否 |
|
Table 4. Comparison of the main methods of 3D scene completion
代表性方法 | L1误差(整体) | L1误差(未观测空间) | L1误差(目标) | L1误差(预测) |
---|
Poisson[16] 3D-EPN[69] SCNet[25] SG-NN[32] | 0.53 0.25 0.18 0.15 | 0.51 0.30 0.23 0.16 | 1.70 0.65 0.53 0.50 | 1.18 0.47 0.42 0.28 |
|
Table 5. Quantitative results of partial methods on the SUNCG dataset
3D语义 场景补全 | 代表性方法 | 描述及局限性 | 数据集评估 | 是否监督 |
---|
深度图 | SSCNet[33] | 引入扩展3D卷积和翻转f-TSDF编码,输出分辨率受限 | NYUv2、SUNCG | 是 | VV-Net[38] | 将2D卷积提取的几何特征作为先验信息,输出分辨率较低 | NYUv2、SUNCG | 是 | VD-CRF[39] | 引入密集条件随机场进行有效推理,输出分辨率较低 | NYUv2、SUNCG、NYUCAD | 是 | ASSCNet[118] | 引入多个对抗损失函数学习特征关联,输出分辨率较低 | NYUv2、SUNCG | 是 | ESSCNet[40] | 引入高效空间分组卷积降低网络参数量,输出分辨率较低 | NYUv2、SUNCG | 是 | CCPNet[41] | 引入级联金字塔策略和基于引导的残差细化模块,输出分辨率较低 | NYUv2、SUNCG | 是 | ForkNet[103] | 引入多分支结构生成器和多个判别器模块,输出分辨率较低 | NYUv2、SUNCG | 是 | RTSSC[104] | 引入分阶段的特征聚合策略与条件预测模块,输出分辨率较低 | NYUv2、SUNCG、NYUCAD | 是 | PAL-Net[105] | 引入位置重要性感知损失函数,输出分辨率较低 | NYUv2、NYUCAD | 是 | 深度图+ RGB图像 | TS3D[106] | 引入双流卷积网络结构,计算量大,在室外场景受限 | NYUv2、NYUCAD | 是 | DDRNet[107] | 引入轻量级的维度分解残差模块降低网络参数,室外场景受限 | NYUv2、NYUCAD | 是 | AICNet[108] | 引入各向异性卷积模块获取自适应感受野,室外场景受限 | NYUv2、NYUCAD | 是 | GRFNet[109] | 构建具有自主选择和自适应记忆保存的特征融合模块,室外场景受限 | NYUv2、NYUCAD | 是 | 3DSketch[119] | 引入深度信息的几何嵌入策略,室外场景受限 | NYUv2、SUNCG、NYUCAD | 是 | SISNet[110] | 引入场景到实例与实例到场景的迭代策略,室外场景受限 | NYUv2、SUNCG、NYUCAD | 是 | AMFNet[111] | 引入注意力机制的多模态融合策略,室外场景受限 | NYUv2、SUNCG | 是 | 点云 | S3CNet[114] | 点云的语义场景补全,可用于室外场景,缺乏RGB纹理 | Semantic KITTI | 是 | JS3C-Net[115] | 引入上下文形状先验信息,可用于室外,缺乏RGB纹理 | Semantic KITTI、SemanticPOSS | 是 | IPF-SPCNet[116] | 融合RGB图像纹理与点云几何信息,室外场景待验证 | NYUv2、NYUCAD | 是 | LMSCNet[117] | 使用局部深度隐式函数构建场景,可用于室外,不确定性估计待提升 | Semantic KITTI | 是 |
|
Table 6. Comparison of the main methods of 3D semantic scene completion
代表性方法 | 分辨率 | 天花板 | 地板 | 墙 | 窗 | 椅子 | 床 | 沙发 | 桌子 | 电视 | 家具 | 电视 | mIoU |
---|
SSCNet[33] | 240×60 | 15.1 | 94.7 | 24.4 | 0.0 | 12.6 | 32.1 | 35.0 | 13.0 | 7.8 | 27.1 | 10.1 | 24.7 | ESSCNet[40] | 240×60 | 17.5 | 75.4 | 25.8 | 6.7 | 15.3 | 53.8 | 42.4 | 11.2 | 0 | 33.4 | 11.8 | 26.7 | DDRNet[107] | 60×60 | 21.1 | 92.2 | 33.5 | 6.8 | 14.8 | 48.3 | 42.3 | 13.2 | 13.9 | 35.3 | 13.2 | 30.4 | VV-Net[38] | 120×60 | 19.3 | 94.8 | 28.0 | 12.2 | 19.6 | 57.0 | 50.5 | 17.6 | 11.9 | 35.6 | 15.3 | 32.9 | AICNet[108] | 60×60 | 23.2 | 90.8 | 32.3 | 14.8 | 18.2 | 51.1 | 44.8 | 15.2 | 22.4 | 38.3 | 15.7 | 33.3 | TS3D[106] | 240×60 | 9.7 | 93.4 | 25.5 | 21.0 | 17.4 | 55.9 | 49.2 | 17.0 | 27.5 | 39.4 | 19.3 | 34.1 | ForkNet[103] | 80×80 | 36.2 | 93.8 | 29.2 | 18.9 | 17.7 | 61.6 | 52.9 | 23.3 | 19.5 | 45.4 | 20.0 | 37.1 | CCPNet[41] | 240×240 | 23.5 | 96.3 | 35.7 | 20.2 | 25.8 | 61.4 | 56.1 | 18.1 | 28.1 | 37.8 | 20.1 | 38.5 | 3DSketch[119] | 60×60 | 43.1 | 93.6 | 40.5 | 24.3 | 30.0 | 57.1 | 49.3 | 29.2 | 14.3 | 42.5 | 28.6 | 41.1 | GRFNet[109] | 60×60 | 24.0 | 91.7 | 33.3 | 19.0 | 18.1 | 51.9 | 45.5 | 13.4 | 13.3 | 37.3 | 15.0 | 32.9 | ISNet[110] | 60×60 | 54.7 | 93.8 | 53.2 | 41.9 | 43.6 | 66.2 | 61.4 | 38.1 | 29.8 | 53.9 | 40.3 | 52.4 |
|
Table 7. Quantitative results of partial methods on the NYUv2 dataset