DETR with Improved DeNoising Training for Multi-Scale Oriented Object Detection in Optical Remote Sensing Images (Invited)

Ruijiao Jin; Kun Wang; Minhao Liu; Xichao Teng; Zhang Li; Qifeng Yu

doi:10.3788/LOP240502

Configuration

Model

Operating system

Ununtu 20.0.4

GPU

NVIDIA GeForce RTX-4080Ti GPU

Hardware configuration

i9-10920X

Environment

Python 3.8，PyTorch1.7.1，CUDA11.2

Category

One-stage

Two-stage

DETR-like

Rotated RetinaNet（3×）

R3Det

（3×）

Rotated FCOS（3×）

GWD

（3×）

KLD

（3×）

Rotated Faster R-CNN（3×）

ReDet

（3×）

ARS-DETR

（3×）

AO²DINO

（1×）

AO²DINO

（3×）

mAP

54.83

61.91

63.21

60.31

64.63

63.41

63.81

65.90

60.54

65.94

APL

59.54

62.55

62.31

69.68

66.52

63.07

63.22

65.82

63.93

68.78

APO

25.03

43.44

42.18

28.83

46.80

40.22

44.18

53.40

42.21

48.83

70.08

71.72

75.34

74.32

71.76

71.89

72.11

74.22

73.24

74.32

81.01

81.84

81.32

81.49

81.43

81.36

81.26

81.11

83.57

84.49

28.26

36.49

39.26

29.62

40.81

39.67

43.83

42.13

40.39

41.62

72.02

72.63

74.89

72.67

78.25

72.51

72.72

76.23

63.65

72.67

ESA

55.35

79.50

77.42

76.45

79.23

79.19

79.10

82.24

64.91

76.45

ETS

56.77

64.41

68.67

63.14

66.63

69.45

69.78

71.52

68.98

69.14

DAM

21.26

27.02

26.00

27.13

29.01

26.00

28.45

38.90

33.45

34.13

65.70

77.36

73.94

77.19

78.68

77.93

78.69

75.91

71.24

71.19

GTF

70.28

77.17

78.73

78.94

80.19

82.28

77.18

77.91

77.03

78.94

30.52

40.53

41.28

39.11

44.88

46.91

48.24

33.03

42.67

43.11

44.37

53.33

54.19

42.18

57.23

53.90

56.81

57.02

66.65

66.18

77.02

79.66

80.61

79.10

80.91

81.03

81.17

84.82

85.43

86.10

STA

59.01

69.22

66.92

70.41

74.17

75.77

69.17

69.71

69.80

70.41

STO

59.39

61.10

69.17

58.69

68.02

62.54

62.73

72.20

62.34

62.69

81.18

81.54

87.20

81.52

81.48

81.42

80.33

72.98

81.66

38.43

52.18

52.31

47.78

54.63

54.50

54.90

58.91

54.55

55.78

39.10

43.57

47.08

44.47

47.80

43.17

44.04

51.52

49.80

50.47

61.58

64.13

65.21

62.36

64.41

65.73

66.37

70.73

68.21

69.36

Method

Epoch

DOTAv1.0

DIOR-R

R3Det

3×

86.48

77.52

79.66

43.57

64.13

ReDet

3×

87.44

74.26

81.17

44.04

66.37

ARS-DETR

3×

87.40

78.38

84.82

51.52

70.73

AO²DINO

3×

85.87

79.92

86.10

50.47

69.36

AO²DINO

1×

84.54

77.43

85.43

49.80

68.21

AO²DINO-ms

1×

88.90

79.98

87.57

50.66

70.68

CDN

MS-RDA

SAA

KFIoU

AP₅₀ /%

AP₇₅ /%

√

67.12

33.35

√

68.90（+1.78）

38.70（+5.35）

√

71.06（+3.94）

40.15（+6.80）

√

70.29（+3.17）

36.65（+3.30）

√

72.16（+5.04）

41.80（+8.45）

Baseline

Scale

ResNet50

Swin-T

AP₅₀ /%

AP₇₅ /%

AO²DINO

4 scale

√

72.16

41.80

√

72.50

42.10

5 scale

√

72.54

41.73

√

72.68

42.21

multi-scale

√

75.77

44.29

Loss function

DOTAv1.0

DIOR-R

L1 loss

67.12

53.50

GWD

70.01

55.56

KLD

69.82

55.91

KFIoU

70.29

56.02

Ruijiao Jin, Kun Wang, Minhao Liu, Xichao Teng, Zhang Li, Qifeng Yu. DETR with Improved DeNoising Training for Multi-Scale Oriented Object Detection in Optical Remote Sensing Images (Invited)[J]. Laser & Optoelectronics Progress, 2024, 61(2): 0211023

Download Citation

Set citation alerts for the article

Tools

Set citation alerts for the article

Save the article for my favorites

Paper Information

微信扫一扫：分享

微信扫一扫：分享