Key techniques for three-dimensional completion： a review

Haihong XIAO; Qiuxia WU; Yuqiong LI; Wenxiong KANG

doi:10.37188/OPE.20233105.0667

数据集

年份

类型

来源

简要描述

ShapeNet-Part

2015

合成

ShapeNet-Part¹数据集是ShapeNet数据集^［48］的子集，ShapeNet是大规模CAD模型注释的形状存储库。不同补全方法使用数据集的类别数目（8类、16类、34类、55类）有所不同，但都来自ShapeNet数据集，为了简明，统一用ShapeNet-Part表示。数据形式包括网格、体素和点云。点云是CAD模型经采样得到，采样方法包括最远点采样（Farthest Point Sampling，FPS）、均匀采样（Uniform Sampling，US）和泊松圆盘采样（Poisson Disk Sampling，PDS）。

KITTI^［50］

2012

真实

LiDAR传感器+灰度相机+彩色相机+GPS

KITTI数据集是面向自动驾驶的场景点云数据集。它包含7 481个图像点云对用于训练，7 518个图像点云对用于测试，共包含80 256个标记对象。

ScanNet^［51］

2017

真实

RGB-D深度相机

ScanNet数据集是RGB-D室内视频数据集，包括场景实例分割、语义分割标注和相机姿态信息，共采集21个类别对象，1 513个场景数据。

Matterport3D^［52］

2017

真实

3D扫描仪

Matterport3D数据集包含10 800张尺寸相同的全景图（RGB+深度图像）。

DFAUST^［52］

2017

真实

3D扫描仪

DFAUST数据集是以60帧每秒速度捕获运动人体的高分辨率4D扫描数据集。

MHAD^［53］

2013

真实

RGB-D深度相机

MHAD数据集提供来自2个视角RGB-D相机获取的人体动作数据。

SUNCG^［33］

2017

合成

SUNCG数据集是一个合成的具有密集体素标注的三维室内场景数据集，包含超过45 622个室内场景。

NYUv2^［54］

2012

真实

RGB-D深度相机

NYUv2数据集是由Kinect深度相机记录的室内场景数据集。由26个场景类中的464个不同室内场景中拍摄获取的RGB和深度图像组成，包含894个不同的语义类别，共1 449张拥有语义标签标注的RGB-D图片以及407 204张未标注图片。

tabletop^［31］

2016

真实

GB-D深度相机

tabletop数据集包含90个桌面对象的完整场景。

Fandisk^［49］

2001

合成

万维网

Fandisk数据集²来源于万维网上下载的三维模型库中的Fandisk模型，经过采样得到点云数据。

Raptor^［49］

2001

合成

万维网

Raptor数据集²来源于万维网上下载的三维模型库中的Raptor模型，经过采样得到点云数据。

数据集

年份

类型

来源

简要描述

NYUCAD^［31］

2013

合成

—

NYUCAD数据集是NYUv2数据集的衍生版，将网格标注数据渲染为深度图。

Semantic KITTI^［35］

2019

真实

LiDAR-64

Semantic KITTI数据集是基于KITTI Vision Benchmark里程计数据集的大型户外点云数据集，包括城内交通、住宅区、高速路和乡村道路场景，提供23 201个完整的3D扫描场景用于训练，20 351个场景用于测试。

SemanticPOSS^［37］

2020

真实

LiDAR-40

SemanticPOSS数据集包含2 988个复杂的雷达扫描场景，有大量的动态实例。

3D形状补全

代表性方法

描述及局限性

评估

数据集

是否监督

基于点

PCN^［10］

点云补全开创性工作，遵循编码器-解码器范式，细节生成能力欠缺

ShapeNet-Part（point cloud）、KITTI

是

TopNet^［23］

引入树形解码器进行点云生成，细节信息丢失，需要足够冗余空间

ShapeNet-Part（point cloud）

是

PF-Net^［24］

引入多分辨率编码器和金字塔解码器，仅补全缺失部分，缺乏泛化性

ShapeNet-Part（point cloud）

是

LAKe-Net^［68］

引入非对称关键点定位器和递归细化模块生成细粒度点云，缺乏泛化性

ShapeNet-Part（point cloud）

是

基于卷积

3D-EPN^［69］

分辨率和计算资源呈现正相关，体素表达缺乏细节纹理

ShapeNet-Part（mesh）

是

GRNet^［70］

引入体素作为点云的中间表示，点云体素化过程不可避免导致信息丢失

ShapeNet-Part（point cloud）、KITTI

是

VE-PCN^［71］

引入高频边缘结构信息注入到形状补全分支，计算量大

ShapeNet-Part（point cloud）、KITTI

是

MRAC-Net^［72］

引入各向异性卷积编码器同时提取全局特征和局部特征，计算量大

ShapeNet-Part（point cloud）

是

基于图

GCNet^［56］

引入带有图卷积的变分自动编码器学习潜在空间表示，缺乏泛化性

DFAUST、MHAD

是

PC-RGNN^［73］

引入基于注意力的多尺度图卷积模块辅助三维检测，缺乏泛化性

KITTI

是

GGDNet^［75］

引入图引导变形模块优化点云补全任务，缺乏泛化性

ShapeNet-Part（mesh）、KITTI

是

LSLS-Net^［76］

引入不同缺失点云共享完整编码的掩码机制，缺乏细节性、忠实性

ShapeNet-Part（point loud）、KITTI

否

3D形状补全

代表性方法

描述及局限性

评估数据集

是否监督

基于生成对抗

RL-GAN-Net^［77］

引入AE、RL和GAN多阶段协作，补全细节不足

ShapeNet-Part

（point cloud）

是

CRNet^［78］

引入级联细化策略和块判别器提升点云的生成质量，缺乏泛化性

ShapeNet-Part

（point cloud）

是

Cycle4.^［81］

引入双向循环的无监督点云补全算法，训练过程不易，缺乏细节性

ShapeNet-Part（point cloud）、KITTI

否

ShapeInve.^［60］

将GAN逆映射引入到点云补全，需要额外的生成模型，缺乏泛化性

ShapeNet-Part（point cloud）、KITTI、Matterport3D

否

基于Transformer

PointTr^［82］

引入Transformer进行位置编码，计算量大、部署较难、泛化性差

ShapeNet-Part

（point cloud）

是

SDTNet^［83］

引入骨架-细节Transformer，遵循由粗到细生成策略，缺乏泛化性

ShapeNet-Part（point cloud）、KITTI

是

其他

VRC-Net^［84］

引入概率建模和关系增强子网络，细节生成能力提升，缺乏泛化性

ShapeNet-Part（point cloud）、KITTI、ScanNet

是

ViPC^［85］

引入额外的单张图像信息辅助点云补全，缺乏泛化性

ShapeNet-ViPC

是

DeepSDF^［65］

引入连续符号距离函数生成密集的形状表面，推理速度慢

ShapeNet-Part（mesh）

是

代表性方法

是否监督

飞机

橱柜

汽车

椅子

台灯

沙发

桌子

船舰

平均值

PCN^［10］

是

9.79

22.70

12.43

25.41

22.72

20.26

20.27

11.73

18.16

TopNet^［23］

是

9.29

18.79

11.57

18.44

14.69

18.63

13.45

8.65

14.19

ECG^［74］

是

4.99

15.09

8.95

12.86

10.65

12.90

10.03

6.08

10.19

MSN^［67］

是

4.91

13.04

10.87

10.62

11.75

11.90

8.72

9.53

10.17

GRNet^［70］

是

6.13

16.90

8.27

12.23

10.22

14.93

10.08

5.86

10.57

CRNet^［70］

是

3.38

13.17

8.31

10.62

10.00

12.86

9.16

5.80

9.16

VRCNet^［84］

是

3.94

10.93

6.44

9.32

8.32

11.35

8.60

5.78

8.09

PointTr^［82］

是

4.77

10.45

8.68

9.39

7.77

10.83

7.91

7.19

8.37

SDTNet^［83］

是

4.60

10.05

8.16

9.15

8.12

10.65

7.64

7.66

8.25

Cycle4.^［81］

是

5.23

14.77

12.41

18.09

17.32

21.06

18.90

11.54

14.92

ShapeInve.^［60］

是

5.65

16.11

13.05

15.42

18.06

24.64

16.27

10.13

14.91

LSLS-Net^［76］

是

3.90

13.50

8.70

13.90

15.80

14.80

17.10

10.00

12.21

3D场景补全

代表性方法

输入数据

描述及局限性

数据集

是否监督

早期方法

RAPter^［26］

Points

引入平面排列规则，速度慢，补全面积小

Real-world Scans

是

Poisson^［16］

Points

引入带筛选的泊松方程，补全面积小，补全质量较低

Fandisk、Raptor

是

模型拟合

Scan2CAD^［28］

RGB-D→SDF

引入三维卷积学习对应嵌入关系，存在自身局限制，仅能粗略补全

ShapeNet、ScanNet

是

RALNet^［29］

RGB-D→TSDF

引入全卷积网络预测9自由度对齐，模型存在自身局限性

ShapeNet、ScanNet

是

JENet^［30］

RGB-D→Occ.Grid

引入沙漏网络进行场景对象分离学习共享嵌入空间，存在局限性

ShapeNet、ScanNet

是

生成式

SCNet^［25］

RGB-D→TSDF

遵循由粗到细的场景补全策略，面对其他数据集泛化性差

ScanNet、SUNCG

是

Voxlets^［31］

Depth

引入结构化随机森林，适用于桌面大小场景，场景补全面积受限

NYUv2、tabletop

是

O-CNN^［95］

Points

引入输出引导的跳跃连接策略，缺乏泛化性

ShapeNet、SUNCG

是

SG-NN^［32］

RGB-D→TSDF

引入作用于真实数据的自监督场景补全方法，补全分辨率受限

Matterport3D

否

SPSG^［97］

RGB-D→TSDF

同时补全场景几何和颜色信息的自监督方法，补全分辨率受限

ShapeNet、Matterport3D

否

CIRCLE^［98］

RGB-D→Points

引入SDF解码器和可微分隐式渲染，缺乏语义信息辅助

Matterport3D

否

代表性方法

L₁误差（整体）

L₁误差（未观测空间）

L₁误差（目标）

L₁误差（预测）

Poisson^［16］

3D-EPN^［69］

SCNet^［25］

SG-NN^［32］

0.53

0.25

0.18

0.15

0.51

0.30

0.23

0.16

1.70

0.65

0.53

0.50

1.18

0.47

0.42

0.28

3D语义

场景补全

代表性方法

描述及局限性

数据集评估

是否监督

深度图

SSCNet^［33］

引入扩展3D卷积和翻转f-TSDF编码，输出分辨率受限

NYUv2、SUNCG

是

VV-Net^［38］

将2D卷积提取的几何特征作为先验信息，输出分辨率较低

NYUv2、SUNCG

是

VD-CRF^［39］

引入密集条件随机场进行有效推理，输出分辨率较低

NYUv2、SUNCG、NYUCAD

是

ASSCNet^［118］

引入多个对抗损失函数学习特征关联，输出分辨率较低

NYUv2、SUNCG

是

ESSCNet^［40］

引入高效空间分组卷积降低网络参数量，输出分辨率较低

NYUv2、SUNCG

是

CCPNet^［41］

引入级联金字塔策略和基于引导的残差细化模块，输出分辨率较低

NYUv2、SUNCG

是

ForkNet^［103］

引入多分支结构生成器和多个判别器模块，输出分辨率较低

NYUv2、SUNCG

是

RTSSC^［104］

引入分阶段的特征聚合策略与条件预测模块，输出分辨率较低

NYUv2、SUNCG、NYUCAD

是

PAL-Net^［105］

引入位置重要性感知损失函数，输出分辨率较低

NYUv2、NYUCAD

是

深度图+

RGB图像

TS3D^［106］

引入双流卷积网络结构，计算量大，在室外场景受限

NYUv2、NYUCAD

是

DDRNet^［107］

引入轻量级的维度分解残差模块降低网络参数，室外场景受限

NYUv2、NYUCAD

是

AICNet^［108］

引入各向异性卷积模块获取自适应感受野，室外场景受限

NYUv2、NYUCAD

是

GRFNet^［109］

构建具有自主选择和自适应记忆保存的特征融合模块，室外场景受限

NYUv2、NYUCAD

是

3DSketch^［119］

引入深度信息的几何嵌入策略，室外场景受限

NYUv2、SUNCG、NYUCAD

是

SISNet^［110］

引入场景到实例与实例到场景的迭代策略，室外场景受限

NYUv2、SUNCG、NYUCAD

是

AMFNet^［111］

引入注意力机制的多模态融合策略，室外场景受限

NYUv2、SUNCG

是

点云

S3CNet^［114］

点云的语义场景补全，可用于室外场景，缺乏RGB纹理

Semantic KITTI

是

JS3C-Net^［115］

引入上下文形状先验信息，可用于室外，缺乏RGB纹理

Semantic KITTI、SemanticPOSS

是

IPF-SPCNet^［116］

融合RGB图像纹理与点云几何信息，室外场景待验证

NYUv2、NYUCAD

是

LMSCNet^［117］

使用局部深度隐式函数构建场景，可用于室外，不确定性估计待提升

Semantic KITTI

是

代表性方法

分辨率

天花板

地板

墙

窗

椅子

床

沙发

桌子

电视

家具

电视

mIoU

SSCNet^［33］

240×60

15.1

94.7

24.4

0.0

12.6

32.1

35.0

13.0

7.8

27.1

10.1

24.7

ESSCNet^［40］

240×60

17.5

75.4

25.8

6.7

15.3

53.8

42.4

11.2

33.4

11.8

26.7

DDRNet^［107］

60×60

21.1

92.2

33.5

6.8

14.8

48.3

42.3

13.2

13.9

35.3

13.2

30.4

VV-Net^［38］

120×60

19.3

94.8

28.0

12.2

19.6

57.0

50.5

17.6

11.9

35.6

15.3

32.9

AICNet^［108］

60×60

23.2

90.8

32.3

14.8

18.2

51.1

44.8

15.2

22.4

38.3

15.7

33.3

TS3D^［106］

240×60

9.7

93.4

25.5

21.0

17.4

55.9

49.2

17.0

27.5

39.4

19.3

34.1

ForkNet^［103］

80×80

36.2

93.8

29.2

18.9

17.7

61.6

52.9

23.3

19.5

45.4

20.0

37.1

CCPNet^［41］

240×240

23.5

96.3

35.7

20.2

25.8

61.4

56.1

18.1

28.1

37.8

20.1

38.5

3DSketch^［119］

60×60

43.1

93.6

40.5

24.3

30.0

57.1

49.3

29.2

14.3

42.5

28.6

41.1

GRFNet^［109］

60×60

24.0

91.7

33.3

19.0

18.1

51.9

45.5

13.4

13.3

37.3

15.0

32.9

ISNet^［110］

60×60

54.7

93.8

53.2

41.9

43.6

66.2

61.4

38.1

29.8

53.9

40.3

52.4

Haihong XIAO, Qiuxia WU, Yuqiong LI, Wenxiong KANG. Key techniques for three-dimensional completion： a review[J]. Optics and Precision Engineering, 2023, 31(5): 667

Download Citation

Tools

Save the article for my favorites

Paper Information

微信扫一扫：分享

微信扫一扫：分享