• Optics and Precision Engineering
  • Vol. 31, Issue 5, 667 (2023)
Haihong XIAO1, Qiuxia WU2, Yuqiong LI3, and Wenxiong KANG1,*
Author Affiliations
  • 1School of Automation Science and Engineering, South China University of Technology, Guangzhou50640, China
  • 2School of Software of Engineering, South China University of Technology, Guangzhou510006, China
  • 3National Microgravity Laboratory, Insituate of Mechanics, Chinese Academy of Sciences, Beijing100190, China
  • show less
    DOI: 10.37188/OPE.20233105.0667 Cite this Article
    Haihong XIAO, Qiuxia WU, Yuqiong LI, Wenxiong KANG. Key techniques for three-dimensional completion: a review[J]. Optics and Precision Engineering, 2023, 31(5): 667 Copy Citation Text show less
    Research purpose oriented map
    Fig. 1. Research purpose oriented map
    Scene information observation perspective map
    Fig. 2. Scene information observation perspective map
    Development history of 3D shape complementation methods based on deep learning
    Fig. 3. Development history of 3D shape complementation methods based on deep learning
    Comparison of the results of some shape completion methods
    Fig. 4. Comparison of the results of some shape completion methods
    Development history of 3D scene complementary methods
    Fig. 5. Development history of 3D scene complementary methods
    Model fitting scenario
    Fig. 6. Model fitting scenario
    Scene generation complementary
    Fig. 7. Scene generation complementary
    Comparison of the results of some scenario complementary methods
    Fig. 8. Comparison of the results of some scenario complementary methods
    Development history of 3D semantic scene complementation methods
    Fig. 9. Development history of 3D semantic scene complementation methods
    TSDF variants
    Fig. 10. TSDF variants
    HHA map
    Fig. 11. HHA map
    Comparison of the results of some semantic scene completion methods
    Fig. 12. Comparison of the results of some semantic scene completion methods
    数据集年份类型来源简要描述
    ShapeNet-Part2015合成-ShapeNet-Part1数据集是ShapeNet数据集[48]的子集,ShapeNet是大规模CAD模型注释的形状存储库。不同补全方法使用数据集的类别数目(8类、16类、34类、55类)有所不同,但都来自ShapeNet数据集,为了简明,统一用ShapeNet-Part表示。数据形式包括网格、体素和点云。点云是CAD模型经采样得到,采样方法包括最远点采样(Farthest Point Sampling,FPS)、均匀采样(Uniform Sampling,US)和泊松圆盘采样(Poisson Disk Sampling,PDS)。
    KITTI502012真实LiDAR传感器+灰度相机+彩色相机+GPSKITTI数据集是面向自动驾驶的场景点云数据集。它包含7 481个图像点云对用于训练,7 518个图像点云对用于测试,共包含80 256个标记对象。
    ScanNet512017真实RGB-D深度相机ScanNet数据集是RGB-D室内视频数据集,包括场景实例分割、语义分割标注和相机姿态信息,共采集21个类别对象,1 513个场景数据。
    Matterport3D522017真实3D扫描仪Matterport3D数据集包含10 800张尺寸相同的全景图(RGB+深度图像)。
    DFAUST522017真实3D扫描仪DFAUST数据集是以60帧每秒速度捕获运动人体的高分辨率4D扫描数据集。
    MHAD532013真实RGB-D深度相机MHAD数据集提供来自2个视角RGB-D相机获取的人体动作数据。
    SUNCG332017合成-SUNCG数据集是一个合成的具有密集体素标注的三维室内场景数据集,包含超过45 622个室内场景。
    NYUv2542012真实RGB-D深度相机NYUv2数据集是由Kinect深度相机记录的室内场景数据集。由26个场景类中的464个不同室内场景中拍摄获取的RGB和深度图像组成,包含894个不同的语义类别,共1 449张拥有语义标签标注的RGB-D图片以及407 204张未标注图片。
    tabletop312016真实GB-D深度相机tabletop数据集包含90个桌面对象的完整场景。
    Fandisk492001合成万维网Fandisk数据集2来源于万维网上下载的三维模型库中的Fandisk模型,经过采样得到点云数据。
    Raptor492001合成万维网Raptor数据集2来源于万维网上下载的三维模型库中的Raptor模型,经过采样得到点云数据。
    Table 1. 3D completion related datasets
    数据集年份类型来源简要描述
    NYUCAD312013合成NYUCAD数据集是NYUv2数据集的衍生版,将网格标注数据渲染为深度图。
    Semantic KITTI352019真实LiDAR-64Semantic KITTI数据集是基于KITTI Vision Benchmark里程计数据集的大型户外点云数据集,包括城内交通、住宅区、高速路和乡村道路场景,提供23 201个完整的3D扫描场景用于训练,20 351个场景用于测试。
    SemanticPOSS372020真实LiDAR-40SemanticPOSS数据集包含2 988个复杂的雷达扫描场景,有大量的动态实例。
    Table 1. 3D completion related datasets
    3D形状补全代表性方法描述及局限性

    评估

    数据集

    是否监督
    基于点PCN10点云补全开创性工作,遵循编码器-解码器范式,细节生成能力欠缺ShapeNet-Part(point cloud)、KITTI
    TopNet23引入树形解码器进行点云生成,细节信息丢失,需要足够冗余空间ShapeNet-Part(point cloud)
    PF-Net24引入多分辨率编码器和金字塔解码器,仅补全缺失部分,缺乏泛化性ShapeNet-Part(point cloud)
    LAKe-Net68引入非对称关键点定位器和递归细化模块生成细粒度点云,缺乏泛化性ShapeNet-Part(point cloud)
    基于卷积3D-EPN69分辨率和计算资源呈现正相关,体素表达缺乏细节纹理ShapeNet-Part(mesh)
    GRNet70引入体素作为点云的中间表示,点云体素化过程不可避免导致信息丢失ShapeNet-Part(point cloud)、KITTI
    VE-PCN71引入高频边缘结构信息注入到形状补全分支,计算量大ShapeNet-Part(point cloud)、KITTI
    MRAC-Net72引入各向异性卷积编码器同时提取全局特征和局部特征,计算量大ShapeNet-Part(point cloud)
    基于图GCNet56引入带有图卷积的变分自动编码器学习潜在空间表示,缺乏泛化性DFAUST、MHAD
    PC-RGNN73引入基于注意力的多尺度图卷积模块辅助三维检测,缺乏泛化性KITTI
    GGDNet75引入图引导变形模块优化点云补全任务,缺乏泛化性ShapeNet-Part(mesh)、KITTI
    LSLS-Net76引入不同缺失点云共享完整编码的掩码机制,缺乏细节性、忠实性ShapeNet-Part(point loud)、KITTI
    Table 2. Comparison of the main methods of 3D shape completion based on deep learning
    3D形状补全代表性方法描述及局限性评估数据集是否监督
    基于生成对抗RL-GAN-Net77引入AE、RL和GAN多阶段协作,补全细节不足

    ShapeNet-Part

    (point cloud)

    CRNet78引入级联细化策略和块判别器提升点云的生成质量,缺乏泛化性

    ShapeNet-Part

    (point cloud)

    Cycle4.81引入双向循环的无监督点云补全算法,训练过程不易,缺乏细节性ShapeNet-Part(point cloud)、KITTI
    ShapeInve.60将GAN逆映射引入到点云补全,需要额外的生成模型,缺乏泛化性ShapeNet-Part(point cloud)、KITTI、Matterport3D
    基于TransformerPointTr82引入Transformer进行位置编码,计算量大、部署较难、泛化性差

    ShapeNet-Part

    (point cloud)

    SDTNet83引入骨架-细节Transformer,遵循由粗到细生成策略,缺乏泛化性ShapeNet-Part(point cloud)、KITTI
    其他VRC-Net84引入概率建模和关系增强子网络,细节生成能力提升,缺乏泛化性ShapeNet-Part(point cloud)、KITTI、ScanNet
    ViPC85引入额外的单张图像信息辅助点云补全,缺乏泛化性ShapeNet-ViPC
    DeepSDF65引入连续符号距离函数生成密集的形状表面,推理速度慢ShapeNet-Part(mesh)
    Table 3. Comparison of the main methods of 3D shape completion based on deep learning
    代表性方法是否监督飞机橱柜汽车椅子台灯沙发桌子船舰平均值
    PCN109.7922.7012.4325.4122.7220.2620.2711.7318.16
    TopNet239.2918.7911.5718.4414.6918.6313.458.6514.19
    ECG744.9915.098.9512.8610.6512.9010.036.0810.19
    MSN674.9113.0410.8710.6211.7511.908.729.5310.17
    GRNet706.1316.908.2712.2310.2214.9310.085.8610.57
    CRNet703.3813.178.3110.6210.0012.869.165.809.16
    VRCNet843.9410.936.449.328.3211.358.605.788.09
    PointTr824.7710.458.689.397.7710.837.917.198.37
    SDTNet834.6010.058.169.158.1210.657.647.668.25
    Cycle4.815.2314.7712.4118.0917.3221.0618.9011.5414.92
    ShapeInve.605.6516.1113.0515.4218.0624.6416.2710.1314.91
    LSLS-Net763.9013.508.7013.9015.8014.8017.1010.0012.21
    Table 3. Quantitative results of partial methods on the Completion3D dataset
    3D场景补全代表性方法输入数据描述及局限性数据集是否监督
    早期方法RAPter26Points引入平面排列规则,速度慢,补全面积小Real-world Scans
    Poisson16Points引入带筛选的泊松方程,补全面积小,补全质量较低Fandisk、Raptor
    模型拟合Scan2CAD28RGB-D→SDF引入三维卷积学习对应嵌入关系,存在自身局限制,仅能粗略补全ShapeNet、ScanNet
    RALNet29RGB-D→TSDF引入全卷积网络预测9自由度对齐,模型存在自身局限性ShapeNet、ScanNet
    JENet30RGB-D→Occ.Grid引入沙漏网络进行场景对象分离学习共享嵌入空间,存在局限性ShapeNet、ScanNet
    生成式SCNet25RGB-D→TSDF遵循由粗到细的场景补全策略,面对其他数据集泛化性差ScanNet、SUNCG
    Voxlets31Depth引入结构化随机森林,适用于桌面大小场景,场景补全面积受限NYUv2、tabletop
    O-CNN95Points引入输出引导的跳跃连接策略,缺乏泛化性ShapeNet、SUNCG
    SG-NN32RGB-D→TSDF引入作用于真实数据的自监督场景补全方法,补全分辨率受限Matterport3D
    SPSG97RGB-D→TSDF同时补全场景几何和颜色信息的自监督方法,补全分辨率受限ShapeNet、Matterport3D
    CIRCLE98RGB-D→Points引入SDF解码器和可微分隐式渲染,缺乏语义信息辅助Matterport3D
    Table 4. Comparison of the main methods of 3D scene completion
    代表性方法L1误差(整体)L1误差(未观测空间)L1误差(目标)L1误差(预测)

    Poisson16

    3D-EPN69

    SCNet25

    SG-NN32

    0.53

    0.25

    0.18

    0.15

    0.51

    0.30

    0.23

    0.16

    1.70

    0.65

    0.53

    0.50

    1.18

    0.47

    0.42

    0.28

    Table 5. Quantitative results of partial methods on the SUNCG dataset

    3D语义

    场景补全

    代表性方法描述及局限性数据集评估是否监督
    深度图SSCNet33引入扩展3D卷积和翻转f-TSDF编码,输出分辨率受限NYUv2、SUNCG
    VV-Net38将2D卷积提取的几何特征作为先验信息,输出分辨率较低NYUv2、SUNCG
    VD-CRF39引入密集条件随机场进行有效推理,输出分辨率较低NYUv2、SUNCG、NYUCAD
    ASSCNet118引入多个对抗损失函数学习特征关联,输出分辨率较低NYUv2、SUNCG
    ESSCNet40引入高效空间分组卷积降低网络参数量,输出分辨率较低NYUv2、SUNCG
    CCPNet41引入级联金字塔策略和基于引导的残差细化模块,输出分辨率较低NYUv2、SUNCG
    ForkNet103引入多分支结构生成器和多个判别器模块,输出分辨率较低NYUv2、SUNCG
    RTSSC104引入分阶段的特征聚合策略与条件预测模块,输出分辨率较低NYUv2、SUNCG、NYUCAD
    PAL-Net105引入位置重要性感知损失函数,输出分辨率较低NYUv2、NYUCAD

    深度图+

    RGB图像

    TS3D106引入双流卷积网络结构,计算量大,在室外场景受限NYUv2、NYUCAD
    DDRNet107引入轻量级的维度分解残差模块降低网络参数,室外场景受限NYUv2、NYUCAD
    AICNet108引入各向异性卷积模块获取自适应感受野,室外场景受限NYUv2、NYUCAD
    GRFNet109构建具有自主选择和自适应记忆保存的特征融合模块,室外场景受限NYUv2、NYUCAD
    3DSketch119引入深度信息的几何嵌入策略,室外场景受限NYUv2、SUNCG、NYUCAD
    SISNet110引入场景到实例与实例到场景的迭代策略,室外场景受限NYUv2、SUNCG、NYUCAD
    AMFNet111引入注意力机制的多模态融合策略,室外场景受限NYUv2、SUNCG
    点云S3CNet114点云的语义场景补全,可用于室外场景,缺乏RGB纹理Semantic KITTI
    JS3C-Net115引入上下文形状先验信息,可用于室外,缺乏RGB纹理Semantic KITTI、SemanticPOSS
    IPF-SPCNet116融合RGB图像纹理与点云几何信息,室外场景待验证NYUv2、NYUCAD
    LMSCNet117使用局部深度隐式函数构建场景,可用于室外,不确定性估计待提升Semantic KITTI
    Table 6. Comparison of the main methods of 3D semantic scene completion
    代表性方法分辨率天花板地板椅子沙发桌子电视家具电视mIoU
    SSCNet33240×6015.194.724.40.012.632.135.013.07.827.110.124.7
    ESSCNet40240×6017.575.425.86.715.353.842.411.2033.411.826.7
    DDRNet10760×6021.192.233.56.814.848.342.313.213.935.313.230.4
    VV-Net38120×6019.394.828.012.219.657.050.517.611.935.615.332.9
    AICNet10860×6023.290.832.314.818.251.144.815.222.438.315.733.3
    TS3D106240×609.793.425.521.017.455.949.217.027.539.419.334.1
    ForkNet10380×8036.293.829.218.917.761.652.923.319.545.420.037.1
    CCPNet41240×24023.596.335.720.225.861.456.118.128.137.820.138.5
    3DSketch11960×6043.193.640.524.330.057.149.329.214.342.528.641.1
    GRFNet10960×6024.091.733.319.018.151.945.513.413.337.315.032.9
    ISNet11060×6054.793.853.241.943.666.261.438.129.853.940.352.4
    Table 7. Quantitative results of partial methods on the NYUv2 dataset
    Haihong XIAO, Qiuxia WU, Yuqiong LI, Wenxiong KANG. Key techniques for three-dimensional completion: a review[J]. Optics and Precision Engineering, 2023, 31(5): 667
    Download Citation