Anti-Spoofing Detection Method for Contact Lens Irises Based on Recurrent Attention Mechanism

Mengling Lu; Yuqing He; Junkai Yang; Weiqi Jin; Lijun Zhang

doi:10.3788/AOS202242.2315001

Abstract

Iris textures are easily hidden or even forged by textured contact lenses, which further threatens the security of the iris recognition system. Considering the tiny differences in the optical properties and texture features of authentic irises and irises forged by textured contact lenses, this paper proposes an anti-spoofing detection method for contact lens irises based on recurrent attention, namely recurrent attention iris net (RAINet). Specifically, the recurrent attention mechanism is employed to locate the key regions that can be used to distinguish authentic irises from forged ones in an unsupervised manner, and multi-level feature fusion is applied to improve the anti-spoofing detection accuracy. An end-to-end anti-spoofing detection network is built for the direct detection of authentic and forged features without image pre-processing. MobileNetV2 is used as the feature classification network to reduce the number of parameters and amount of computation of the network in addition to maintaining the detection accuracy. Experimental verification is performed on two public databases (IIITD CLI and ND series) containing both authentic iris samples and contact lens iris samples. The results show that the proposed RAINet outperforms other anti-spoofing detection networks in detection accuracy. Its average correct classification rates under intra-sensor, inter-sensor, and inter-database experimental conditions reach 99.93%, 97.31%, and 97.86%, respectively.

Keywords

iris anti-spoofing detection machine vision multi-level feature fusion recurrent attention mechanism textured contact lens

Key Laboratory of Photoelectronic Imaging Technology and System, Ministry of Education, School of Optics and Photonics, Beijing Institute of Technology, Beijing 100081, China

1　引言

虹膜识别具有唯一性、稳定性和非接触性等优势，已在金融、海关和公安等重要的身份认证场景中得到广泛应用^［1］。基于近红外光能穿透虹膜并被结缔组织和色素细胞吸收的光学特性，虹膜传感器普遍会在近红外波段中采集虹膜纹理^［2］。佩戴隐形眼镜会对进入人眼及其反射的光线产生影响，透明隐形眼镜基本不改变虹膜纹理，而纹理隐形眼镜会使虹膜覆盖上隐形眼镜印刷的纹理和色彩。由于隐形眼镜的透光特性，故佩戴纹理隐形眼镜仍然能在虹膜传感器上获得带有纹理的虹膜图像，从而可以隐藏甚至伪造虹膜纹理。防伪检测是保证生物特征识别安全性的重要环节^［3］。文献［4］指出，佩戴纹理隐形眼镜是目前隐蔽性最好、检测难度最大的虹膜伪造手段，会严重影响虹膜识别系统的安全性，故针对是否佩戴纹理隐形眼镜进行虹膜防伪检测尤为重要。

传统虹膜防伪检测方法基于虹膜的光学特性或纹理特征进行检测。He等^［5］利用虹膜在不同波段光照下的反射率特性差异，通过计算虹膜与巩膜的反射率比来区分真实虹膜和隐形眼镜伪造虹膜，但该方法需要使用多波段光源并多次采集虹膜图像，实时性较差。Lee等^［6］通过检测眼睑曲率、眨眼反应和瞳孔缩放等多种人眼光学特性来综合判别真伪虹膜，但该方法需要进行虹膜定位分割预处理，在效率和成本方面并无优势。Daugman^［7］使用傅里叶变换分析虹膜图像的频谱，可以区分真实虹膜和隐形眼镜伪造虹膜，但该方法无法处理离焦或模糊的图像，也无法应对多层印刷的隐形眼镜。He等^［8］先将归一化后的虹膜图像划分出子区域，再提取子区域的局部二进制特征，利用AdaBoost选择有效特征进行活体虹膜分类。Doyle和Bowyer^［9］提取了虹膜图像中的二进制统计图像特征，以支持向量机（SVM）进行真伪虹膜分类。Lovish等^［10］提出了基于局部相位量化和二进制Gabor模式的虹膜纹理检测方法。Agarwal等^［11］根据归一化虹膜图像的特点，设计了基于中心像素和六边形邻域的特征描述子LBH_XEP，再结合SVM进行真伪虹膜分类。这些利用纹理特征检测的方法对图像质量有一定的要求，在跨传感器、跨数据库检测时性能有所降低。

随着深度学习在生物特征识别领域中的发展，研究人员陆续提出了一些能自适应提取深度特征的虹膜防伪检测网络。Raghavendra等^［12］设计了基于深度卷积神经网络（CNN）的隐形眼镜检测网络ContlensNet，先通过圆检测对虹膜环状区域进行定位分割，再将分割后的区域归一化成矩形并分解为小块依次输入到15层的卷积神经网络中，最后平均所有小块的结果进行综合判别。Chen和Ross^［13］提出了多任务卷积神经网络（MTCNN），该网络可以对虹膜图像同时进行目标检测和活体检测。Gupta等^［14］通过改变网络连接方式设计了并行结构的虹膜防伪检测网络MVANet，利用多分支分类提升了跨数据库检测真伪虹膜的效果。Singh等^［15］提出了具有通用性的分层隐形眼镜检测网络GHCLNet，使用了两个相同的ResNet-50构建，该网络可以直接检测未经定位分割预处理的原始虹膜图像。Choudhary等^［16］利用基于DenseNet + SVM的密集连接隐形眼镜检测网络DCLNet对原始虹膜图像进行直接检测，并在网络层之间采用密集连接以学习到更丰富的虹膜特征信息。基于深度学习的虹膜防伪检测网络无需手动设计和提取特征描述子^［17］，不仅提高了训练优化效率，还提升了准确率，但仍存在一定的局限性：1）部分网络需要输入虹膜环状区域定位分割、分块等预处理后的虹膜图像，会对网络的实时性和泛化性产生影响^［16］；2）部分网络将未经预处理的虹膜图像直接输入，会在网络传播过程中产生冗余的背景信息，在一定程度上会影响网络的准确性和泛化性；3）为了提升网络的检测精度，部分网络使用较为复杂的结构，这对硬件设备的算力和内存都提出了很高的要求，导致网络难以在小型化、低功耗的边缘计算设备上应用部署^［18］。

鉴于上述背景，本文提出了一种基于循环注意力卷积神经网络（RACNN）^［19］的循环注意力隐形眼镜虹膜防伪检测网络（RAINet）。将解决细粒度图像分类问题的循环注意力机制应用于纹理隐形眼镜伪造虹膜的防伪检测中，该网络能对可以区分真伪虹膜的关键区域进行无监督定位，并融合多层级尺度特征以实现对真实虹膜和纹理隐形眼镜伪造虹膜的有效判别。考虑实际应用需求，在特征提取部分采用轻量级CNN（MobileNetV2）^［20］，以更好地平衡网络的检测精度和运算成本。在两个公开数据库（IIITD CLI和ND系列）上验证了RAINet的可行性与先进性。

2　RAINet网络设计

2.1　设计思路

虹膜传感器采集到的同一人的真实虹膜图像和纹理隐形眼镜虹膜图像，如图1所示。在原始虹膜图像中，真实虹膜与纹理隐形眼镜伪造虹膜非常相似，虽然真实虹膜与纹理隐形眼镜伪造虹膜的特征差异非常微小，但是两者还是存在一定的特征差异^［18］：1）纹理隐形眼镜边缘存在一定的过渡区域，该区域与巩膜的交界处会产生比真实虹膜边缘更显著的灰度变化；2）纹理隐形眼镜印刷的特征一般是有规律性的散状或点状纹理，而真实虹膜的纹理特征是一些随机生成的不规则形状纹理。因此，对纹理隐形眼镜虹膜进行防伪检测的关键在于如何有效检测这些微小特征差异。

Figure 1.Real iris and textured contact lens iris. (a) Real iris; (b) textured contact lens iris

为了有效地针对关键区域的特征差异进行防伪检测，将纹理隐形眼镜虹膜防伪检测看作细粒度图像分类进行处理。真实虹膜与纹理隐形眼镜伪造虹膜的相似度极高，且图像中大部分区域被相近的巩膜、眼睑和睫毛等背景特征占据^［21］，从而使得虹膜图像的类间差异较小。虹膜传感器的非接触采集受到光照、角度、姿态和遮挡等方面的影响，使得虹膜图像的类内差异较大，故真伪虹膜图像与细粒度图像的特点一致。另外，基于图像纹理特征的传统虹膜防伪检测方法使用经过虹膜定位分割预处理后的归一化虹膜图像进行特征提取和检测，这与细粒度图像分类的原理相同。因此，所提防伪检测网络RAINet主要借鉴了RACNN的思想^［19］：利用区域定位和特征提取之间存在的相互关联性，通过多次循环对网络的定位能力和提取能力进行交替训练，从而达到相互强化的目的，最终使网络聚焦于对关键区域的微小特征差异进行检测。

2.2　网络框架

RAINet的网络框架如图2所示，特征分类网络（FCN）和注意力网络（APN）构成循环网络结构，并分别使用不同的损失函数优化，其中（ $x_{t}$ ， $y_{t}$ ）为虹膜区域的中心坐标， $l_{t}$ 为虹膜区域边长的一半，（ $x_{t}^{'}$ ， $y_{t}^{'}$ ）为纹理区域的中心坐标， $l_{t}^{'}$ 为纹理区域边长的一半。该网络在RACNN的基础上，针对虹膜防伪检测任务的特殊性进行了改进：1）在特征提取部分使用MobileNetV2替换VGG16，降低网络的运算成本；2）在网络输出部分舍弃全局特征分类网络G-FCN的预测结果，避免了网络受到原始虹膜图像中眼睑、睫毛等背景特征的干扰。RAINet对真伪虹膜图像进行了三级尺度特征的防伪检测，各级特征尺度的输入图像分别记为 $X_{t}$ （ $t$ = 1，2，…，n）、 $X_{t}^{'}$ 和 $X_{t}^{″}$ ，其中 $X_{t}$ 代表第 $t$ 张虹膜图像。首先，将图像输入到各级特征分类网络中进行特征提取，得到特征图 $F_{t}$ 、 $F_{t}^{'}$ 和 $F_{t}^{″}$ 。然后，在对特征图 $F_{t}$ 和 $F_{t}^{'}$ 进行分类预测的同时，将其输入到注意力网络中以定位关键区域，结合关键区域的图像掩膜与当前特征尺度的输入图像生成下一级特征尺度的输入图像。最后，对虹膜特征分类网络I-FCN和纹理特征分类网络T-FCN的预测结果进行平均，输出RAINet的真伪判别结果 $Y_{t}$ 。

Figure 2.RAINet iris anti-spoofing detection network framework

2.3　实现原理

RAINet中包含三级特征分类网络：全局特征分类网络G-FCN、虹膜特征分类网络I-FCN和纹理特征分类网络T-FCN，均采用了MobileNetV2的特征层结构，但各自拥有独立的参数。MobileNetV2使用深度可分离卷积进行特征提取，将计算复杂度减少为使用标准卷积的 $1 / k^{2}$ （ $k$ 为卷积核的尺寸）。如表1所示，MobileNetV2相较于RACNN中使用标准卷积的VGG16网络大幅减少了网络的参数量（Params）和浮点计算量（FLOPs），可以减少防伪检测网络的运算成本，更有利于防伪检测网络在虹膜识别系统中的集成部署。

Network	Params /MB	FLOPs / $10^{9}$
VGG16	134.28	61.75
MobileNetV2	2.22	1.28

Table 1. Comparison of MobileNetV2 and VGG16

View all Tables

MobileNetV2的特征层由Conv2d和Bottleneck组成，具体结构参数如表2所示。其中，Bottleneck使用的是倒残差结构，既能增加特征的重复利用率，使模型提取到更多的特征信息^［22］，又能提升计算效率，降低网络的内存占用。

Input	Operator	Factor	Output	Frequency	Step
224×224×3	Conv2d		32	1	2
112×112×32	Bottleneck	1	16	1	1
112×112×16	Bottleneck	6	24	2	2
56×56×24	Bottleneck	6	32	3	2
28×28×32	Bottleneck	6	64	4	2
14×14×64	Bottleneck	6	96	3	1
14×14×96	Bottleneck	6	160	1	1
7×7×160	Bottleneck	6	320	1	1

Table 2. Structural parameters of MobileNetV2 feature layer

View all Tables

Bottleneck的工作原理如图3所示，首先输入图像经过1×1的逐点卷积将通道数扩张6倍，然后使用3×3的深度卷积在高维进行特征提取，最后使用1×1的逐点卷积将通道数压缩还原。当卷积步长为1时，尺寸相同的输入图像和输出图像之间进行残差连接。此外，Bottleneck还将最后一个逐点卷积的激活函数由ReLU6替换为Linear，以解决在低维度进行非线性激活会导致特征信息损失的问题。因此，MobileNetV2利用Bottleneck的倒残差结构和线性激活层可以在控制运算成本的同时对虹膜特征进行有效提取。

Figure 3.Inverse residual block of Bottleneck

RAINet中引入了RACNN的循环注意力机制^［19］，在各级特征分类网络之间循环插入I-APN和T-APN，先后对原始虹膜图像的虹膜区域和纹理区域进行无监督定位，模拟人眼的视觉特性使特征分类网络的注意力集中到图像中的虹膜及其纹理部分。

虹膜是一个近似同心圆的圆环状结构，理想情况下定位到的虹膜区域和纹理区域应该是正方形，长宽比约为1∶1。如图4所示，虹膜注意力网络I-APN通过两个全连接层将特征图映射为虹膜区域的位置参数（ $x_{t}$ ， $y_{t}$ ， $l_{t}$ ），其中（ $x_{t}$ ， $y_{t}$ ）是区域的中心坐标， $l_{t}$ 是区域边长的一半，纹理注意力网络T-APN操作相同。

Figure 4.Location parameters of feature region. (a) Location parameters of iris region; (b) location parameters of texture region;(c) texture region after interpolation

以虹膜注意力网络I-APN为例，将虹膜图像的左上角设为坐标系的原点，其 $x$ 轴和 $y$ 轴分别从左到右和自上到下定义。根据虹膜区域位置参数（ $x_{t}$ ， $y_{t}$ ， $l_{t}$ ），可以获得虹膜区域左上角点坐标 $(x_{t l}, y_{t l})$ 和右下角点坐标 $(x_{b r}, y_{b r})$ ，计算公式为

\{\begin{matrix} x_{t l} = x_{t} - l_{t} \\ y_{t l} = y_{t} - l_{t} \\ x_{b r} = x_{t} + l_{t} \\ y_{b r} = y_{t} + l_{t} \end{matrix}

。（1）

根据虹膜区域的顶点坐标，使用图像掩模函数 $M (\cdot)$ 与虹膜图像 $X_{t}$ 进行逐像素相乘的裁剪操作，即可得到裁剪后的虹膜区域图像 $X_{t}^{'}$ ，即

X_{t}^{'} = X_{t} ⊙ M (x_{t l}, y_{t l}, x_{b r}, y_{b r})

。（2）

常规的图像裁剪方法是根据区域坐标生成一个二值图像掩模，该方法虽然操作简单且计算量小，但掩模函数 $M (\cdot)$ 是一个阶跃函数，在网络训练优化的过程中无法进行反向传播。因此，定义一个连续可导的掩模函数

\begin{array}{l} M_{n e w} (\cdot) = [σ (x - x_{t l}) - σ (x - x_{b r})] \cdot \\ [σ (y - y_{t l}) - σ (y - y_{b r})] \end{array}

，（3）

式中： $σ (\cdot)$ 为Sigmoid函数，其取值范围为0~1。如图5所示，只有位于虹膜区域（纹理区域）内的像素点（满足 $x \in [x_{t l}, x_{b r}]$ 和 $y \in [y_{t l}, y_{b r}]$ ）才能使 $M_{n e w} (\cdot)$ 的结果趋近于1，其他像素点的结果都趋近于0，由此生成一个近似的二值图像掩模。裁剪后的虹膜区域图像 $X_{t}^{'}$ 和纹理区域图像 $X_{t}^{″}$ 经过双线性插值上采样后，分别作为下一级特征尺度的输入图像。

Figure 5.Image masks of feature region. (a) Image masks of iris region; (b) image masks of texture region

RAINet使用两个不同的损失函数进行优化：对特征分类网络使用分类损失函数；对注意力网络使用排序损失函数^［19］。RAINet总体损失函数的定义为

L (X_{t}) = \sum_{s = 1}^{3} L_{c l s} [Y_{t}^{*}, Y_{t}^{(s)}] + \sum_{s = 1}^{2} L_{r a n k} [p_{t}^{(s)}, p_{t}^{(s + 1)}]

，（4）

式中： $s$ 为第 $s$ 级特征尺度； $L_{c l s} (\cdot)$ 为分类损失函数； $L_{r a n k} (\cdot)$ 为排序损失函数； $Y_{t}^{*}$ 为样本的标签值； $Y_{t}^{(s)}$ 为第 $s$ 级特征分类网络对样本的预测值； $p_{t}^{(s)}$ $和 p_{t}^{(s + 1)}$ 为第s级和第 $s + 1$ 级特征分类网络对真实标签的预测概率。

分类损失使用交叉熵损失函数进行计算， $L_{c l s} (\cdot)$ 的计算公式为

L_{c l s} [Y_{t}^{*}, Y_{t}^{(s)}] = Y_{t}^{*} \cdot l n Y_{t}^{(s)} + (1 - Y_{t}^{*}) \cdot l n [1 - Y_{t}^{(s)}]

，（5）

使用交叉熵损失函数可以避免网络出现梯度弥散问题，使特征分类网络的预测结果有效地向真实标签收敛。

排序损失通过相邻两级特征分类网络对真实标签的预测误差进行计算， $L_{r a n k} (\cdot)$ 的计算公式为

L_{r a n k} [p_{t}^{(s)}, p_{t}^{(s + 1)}] = m a x [0, p_{t}^{(s)} - p_{t}^{(s + 1)} + m_{a r g i n}]

，（6）

式中： $m_{a r g i n}$ 为间隔差值，将其设置为0.05。当 $p_{t}^{(s + 1)} > p_{t}^{(s)} + m_{a r g i n}$ 时，损失较小，说明注意力网络所定位到的特征区域位置更有利于检测真伪虹膜的微小特征差异，能让下一级特征分类网络预测得更准确。

RAINet的训练目的是让特征分类网络和注意力网络相互促进，训练过程为：固定两个注意力网络的各层参数，训练三级特征分类网络直至收敛；固定三级特征分类网络的各层参数，训练两个注意力网络直至收敛。在每个训练轮次中迭代交替进行直至两种网络的损失都收敛。

3　实验结果与分析

实验的硬件设备为：中央处理器（CPU）型号为Intel Xeon Silver 4110，图形处理单元（GPU）型号为NVIDA Quadro GV100，内存为 32GB。软件环境为：Centos7操作系统、Python3.6开发环境和Pytorch1.4深度学习框架。

3.1　实验数据集

实验选用包含真实虹膜样本和隐形眼镜虹膜样本的两个公开数据库IIITD CLI^［23-24］和ND系列^{［9，25-26］}对RAINet进行训练和测试，数据样本的人种分布覆盖了欧美地区和亚洲，隐形眼镜来自强生、视康、博士伦等不同品牌，确保了数据样本的多样性。相关实验表明，虽然佩戴透明隐形眼镜会提高虹膜识别的拒识率（FRR），但是对虹膜识别的误识率（FAR）影响较小^［10］，因此主要关注纹理隐形眼镜。在构建数据集的过程中剔除了透明隐形眼镜虹膜样本，将真实虹膜视为正样本，纹理隐形眼镜虹膜视为负样本。

IIITD CLI数据库由印度理工学院德里分校提供，包含来自101位实验者的6570张样本图像，图像分辨率为640 pixel×480 pixel。图6为IIITD CLI数据库中的样本图像示例。由于图像是通过Cogent和Vista两种虹膜传感器独立采集的，故可划分为Cogent和Vista两个数据集：Cogent数据集包含1153张真实虹膜样本图像和1192张纹理隐形眼镜虹膜样本图像；Vista数据集包含1000张真实虹膜样本和1050张纹理隐形眼镜虹膜样本图像。

Figure 6.Sample images from IIITD CLI database. (a) Real iris from Cogent; (b) textured contact lens iris from Cogent; (c) real iris from Vista; (d) texture contact lens iris from Vista

ND系列数据库来自美国圣母大学的计算机视觉实验室，该系列中有三个不同时期的图像数据库ND Contact、NDCLD15和NDSPI19（NDSPI19是从NDCLD15中筛选出来的），共计18196张样本图像，图像分辨率为640 pixel×480 pixel。图7为ND系列数据库的样本图像示例。由于ND系列数据库的图像是由LG4000和AD100两种虹膜传感器采集的，故根据实验需要划分为NDC LG4000、NDC AD100、ND15和ND19 4个数据集：NDC LG4000数据集包含1390张真实虹膜样本图像和1409张纹理隐形眼镜虹膜样本图像；NDC AD100数据集包含300张真实虹膜样本图像和300张纹理隐形眼镜虹膜样本图像；ND15数据集由挑选的1500张真实虹膜样本图像和1500张纹理隐形眼镜虹膜样本图像组成；ND19数据集包含1400张真实虹膜样本图像和2664张纹理隐形眼镜虹膜样本图像。

Figure 7.Sample images from ND series databases. (a) Real iris from NDC LG4000; (b) textured contact lens iris from NDC LG4000; (c) real iris from NDC AD100; (d) textured contact lens iris from NDC AD100; (e) real iris from NDCLD15; (f) textured contact lens iris from NDCLD15

为了对数据样本进行批量化的训练和测试，先将各个数据集的样本图像归一化为448 pixel×448 pixel，再按照7∶3的比例将数据集随机划分为训练集和测试集。

3.2　训练参数与评价指标

在训练阶段中，先加载经过ImageNet预训练的MobileNetV2对三级特征分类网络进行初始化，再采用带动量的批量随机梯度下降算法（BSGD）更新网络参数，由一个批次的数据样本共同决定梯度的更新方向，既能降低梯度下降的随机性，又能降低梯度更新的时间成本。引入动量可以使参数更新方向与此前积累的更新方向关联，进而达到加速收敛和缓解震荡的目的。在网络训练过程中，将学习率的初始值设为0.001，动量因子设为0.9，权重衰减设为0.0005，批尺寸设为32，迭代次数设为50。

测试阶段使用正确分类率（CCR）和受试者工作特性曲线（ROC）作为衡量检测精度的评价指标^［27］，使用参数量和浮点计算量作为衡量运算成本的评价指标^［28］。CCR又称为准确率，表示正确分类的样本数占总样本数的比例，样本比例均衡时CCR越高，说明网络的分类精度越高，CCR的计算公式为

V_{C C R} = \frac{N_{T P} + N_{T N}}{N_{T P} + N_{T N} + N_{F P} + N_{F N}}

，（7）

式中： $N_{T P}$ 表示正确预测的正样本数量； $N_{T N}$ 表示正确预测的负样本数量； $N_{F P}$ 表示错误预测的正样本数量； $N_{F N}$ 表示错误预测的负样本数量。

ROC曲线是以真正率（TPR）为纵坐标，假正率（FPR）为横坐标绘制而成的曲线，是反映网络灵敏性和特异性连续变化的综合性指标。ROC曲线的线下面积（AUC）越大，说明网络的分类效果越好。TPR和FPR的计算公式为

V_{T P R} = \frac{N_{T P}}{N_{T P} + N_{F N}}

，（8）

V_{F P R} = \frac{N_{F P}}{N_{T N} + N_{F P}}

。（9）

Params为网络所有参数层的权重参数量，主要包括卷积层、批归一化层和全连接层等，可用于衡量网络的空间复杂度，网络整体的Params越小，说明网络参数量越少，内存占用越小。FLOPs是指浮点运算数，可用于衡量网络的时间复杂度，FLOPs越小，说明网络的计算量越小，计算速度越快消耗越小。

3.3　实验结果

在同传感器、跨传感器和跨数据库三种不同实验条件下进行多组实验，评估RAINet的检测精度与运算成本，并将其与循环注意力卷积神经网络RACNN^［19］、虹膜防伪检测网络GHCLNet^［15］和DCLNet^［16］进行对比。

3.3.1　消融实验

RAINet与RACNN使用相同的循环网络结构，但对网络融合策略进行了改进，为验证RAINet的循环网络结构和输出策略改进所产生的效果，对虹膜注意力网络I-APN、纹理注意力网络T-APN和网络融合策略进行消融实验。实验结果如表3所示，其中 $V_{C C R, c}$ 代表纹理隐形眼镜虹膜样本的准确率， $V_{C C R, i}$ 代表真实虹膜样本的准确率， $V_{C C R, a}$ 代表所有样本的准确率，RAINet3代表网络的输出结果是对三级特征分类网络G-FCN、I-FCN和T-FCN的预测结果（对正负样本的预测概率）求均值而得到的，RAINet代表在RAINet3的基础上舍弃了全局特征分类网络G-FCN。

Database	Network	$V_{C C R, c}$	$V_{C C R, i}$	$V_{C C R, a}$
Cogent （intra-sensor）	G-FCN	100.00	99.15	99.57
	I-FCN	100.00	99.43	99.71
	T-FCN	100.00	99.70	99.85
	RAINet3	100.00	99.43	99.71
	RAINet	100.00	99.70	99.85
Cogent/Vista （inter-sensor）	G-FCN	100.00	98.03	99.02
	I-FCN	100.00	100.00	100.00
	T-FCN	100.00	99.48	99.74
	RAINet3	100.00	99.34	99.67
	RAINet	100.00	99.68	99.84
Cogent/NDC LG4000 （inter-database）	G-FCN	91.25	100.00	95.62
	I-FCN	96.22	100.00	98.11
	T-FCN	96.45	100.00	98.22
	RAINet3	94.56	100.00	97.27
	RAINet	96.93	100.00	98.46

Table 3. Results of ablation experiments

View all Tables

消融实验的结果表明：使用全局特征分类网络G-FCN对原始虹膜图像直接进行分类，检测精度并不理想；使用结构相同的虹膜特征分类网络I-FCN对虹膜注意力网络I-APN定位到的虹膜区域图像进行分类，检测精度有明显的提升；进一步使用结构相同的纹理特征分类网络T-FCN对纹理注意力网络T-APN定位到的纹理区域图像进行分类，在同传感器和跨数据库条件下的检测精度略有提升。融合多层级特征进行分类可以充分利用图像的特征信息，但因G-FCN的分类效果不佳而影响了RAINet3的检测精度。在舍弃了G-FCN的预测结果后，RAINet的准确率相较于RAINet3有所提升，说明在虹膜防伪检测任务中减少背景特征的干扰，也有利于提升检测精度。

3.3.2　对比实验

1）同传感器检测实验

用同一传感器采集的样本图像对网络进行训练与测试，训练样本和测试样本的光照亮度、采集角度等成像参数均保持一致。实验的数据集为Cogent、Vista、NDC LG4000和NDC AD100，得到的4组实验结果如表4和图8所示。从表4可以看出，RAINet对同传感器样本的检测精度要优于其他网络，在各个数据集下的 $V_{C C R, a}$ 接近100%， $V_{C C R, c}$ 与其他网络相当， $V_{C C R, i}$ 较RACNN提升了约1个百分点，较GHCLNet提升了7个百分点，较DCLNet提升了7.37个百分点。从图8的ROC曲线可以看出，当使用Cogent数据集进行测试时，RAINet、RACNN的AUC可达到1.0000，高于其他两个防伪检测网络。

Database	Network	$V_{C C R, c}$	$V_{C C R, i}$	$V_{C C R, a}$
Cogent	RACNN	100.00	99.24	99.62
	GHCLNet	100.00	89.86	94.98
	DCLNet	99.10	94.19	96.64
	RAINet	100.00	99.70	99.85
Vista	RACNN	100.00	97.72	98.86
	GHCLNet	100.00	94.60	97.30
	DCLNet	100.00	93.19	96.60
	RAINet	100.00	100.00	100.00
NDC LG4000	RACNN	100.00	99.21	99.60
	GHCLNet	99.75	95.24	97.50
	DCLNet	99.93	92.86	96.40
	RAINet	100.00	99.78	99.89
NDC AD100	RACNN	100.00	99.52	99.76
	GHCLNet	100.00	91.67	95.84
	DCLNet	98.50	89.49	94.00
	RAINet	100.00	100.00	100.00

Table 4. Comparison of CCR under intra-sensor detection unit: %

View all Tables

Figure 8.ROC curves under intra-sensor detection

2）跨传感器检测实验

用同一数据库中不同传感器采集的样本图像对网络进行训练与测试，训练样本和测试样本的光照亮度、采集角度等成像参数有所不同。实验将Cogent数据集和Vista数据集成对使用，将NDC LG4000数据集和NDC AD100数据集成对使用，得到的4组实验结果如表5和图9所示。从表5可以看出，RAINet对跨传感器样本的检测性能相较于同传感器样本的检测精度有所下降，但仍然优于其他网络。当使用样本数量较多的Cogent数据集和NDC LG4000数据集进行训练时，RAINet保持了出色的检测精度，较其他防伪检测网络提升了5个百分点左右。然而，在交换用于训练和测试的数据集后，因训练样本数量偏少，RAINet的 $V_{C C R, a}$ 分别下降为96.03%和93.36%，但比其他网络仍高出3~5个百分点。从图9的ROC曲线可以看出，当使用Cogent数据集训练再使用Vista数据集进行测试时，RAINet与RACNN的AUC仍能达到1.0000，高于其他两个防伪检测网络。

Database	Network	$V_{C C R, c}$	$V_{C C R, i}$	$V_{C C R, a}$
Cogent/Vista	RACNN	100.00	99.68	99.84
	GHCLNet	99.25	93.40	96.33
	DCLNet	99.83	89.55	94.69
	RAINet	100.00	99.68	99.84
Vista/Cogent	RACNN	90.21	96.17	93.19
	GHCLNet	85.36	96.74	91.05
	DCLNet	99.82	81.43	90.63
	RAINet	94.54	97.48	96.03
NDC LG4000/AD100	RACNN	100.00	97.33	98.66
	GHCLNet	98.00	91.90	94.95
	DCLNet	100.00	92.00	96.00
	RAINet	100.00	100.00	100.00
NDC AD100/LG4000	RACNN	100.00	84.18	92.09
	GHCLNet	100.00	81.25	90.63
	DCLNet	97.92	83.00	90.46
	RAINet	100.00	86.76	93.36

Table 5. Comparison of CCR under inter-sensor detection

View all Tables

Figure 9.ROC curves under inter-sensor detection

3）跨数据库检测实验

用不同数据库中不同传感器采集的样本图像对网络进行训练与测试，训练样本和测试样本在成像参数上有所不同，且样本源的人种分布、眼镜品牌也有差别。实验将Cogent数据集和ND系列的三个数据库集两两配对，得到的6组实验结果如表6和图10所示。从表6可以看出，RAINet对跨数据库样本的检测精度是所有网络中最高的：将Cogent数据集和ND系列数据集分别用于训练和测试时，RAINet的 $V_{C C R, a}$ 分别为98.46%、96.10%和96.95%，相较于其他网络大约提升了3个百分点；当使用ND系列数据集进行训练和测试时，RAINet的 $V_{C C R, a}$ 分别为99.30%、99.91%和96.45%，相较其他网络提升了1~2个百分点。从图10的ROC曲线可以看出，当使用Cogent数据集训练再使用ND19数据集测试时，RAINet与RACNN的AUC值大体相当，高于其他两个防伪检测网络。

Database	Network	$V_{C C R, c}$	$V_{C C R, i}$	$V_{C C R, a}$
Cogent/NDC LG4000	RACNN	93.12	100.00	96.56
	GHCLNet	90.07	100.00	95.02
	DCLNet	87.94	100.00	93.95
	RAINet	96.93	100.00	98.46
Cogent/ND 15	RACNN	100.00	88.80	94.40
	GHCLNet	90.07	100.00	95.02
	DCLNet	100.00	81.40	90.70
	RAINet	100.00	92.20	96.10
Cogent/ND 19	RACNN	92.70	99.80	96.15
	GHCLNet	90.17	99.76	93.46
	DCLNet	88.68	100.00	92.57
	RAINet	93.90	100.00	96.95
NDC LG4000/ND 15	RACNN	98.00	98.80	98.40
	GHCLNet	99.60	95.60	97.60
	DCLNet	98.80	99.40	99.10
	RAINet	99.40	99.20	99.30
NDC LG4000/ND 19	RACNNt	100.00	99.52	99.77
	GHCLNet	100.00	94.05	97.96
	DCLNet	100.00	89.76	96.49
	RAINet	100.00	99.76	99.91
ND 15/ND 19	RACNN	92.82	100.00	96.43
	GHCLNet	93.03	100.00	95.42
	DCLNet	92.41	100.00	95.02
	RAINet	92.91	100.00	96.45

Table 6. Comparison of CCR under inter-database detection

View all Tables

Figure 10.ROC curves under inter-database detection

4）检测成本实验

对比RAINet与RACNN和其他防伪检测网络的运算成本，实验结果如表7所示。可以看出，使用循环网络结构的RAINet和RACNN相较于使用标准网络结构的GHCLNet和DCLNet在Params方面并不占优，但RAINet仍可将Params控制在100 MB以内。此外，由于RAINet在特征提取部分的特征分类网络均使用MobilNetV2的特征层结构，故FLOPs降低到了1.87× $10^{9}$ 。

Network	Params /MB	FLOPs / $10^{9}$
RACNN	373.34	92.65
GHCLNet	23.51	4.12
DCLNet	6.96	2.88
RAINet	86.96	1.87

Table 7. Comparison of calculated costs for each network

View all Tables

对比实验的结果表明：相比于其他防伪检测网络，RAINet能够有效提取出真实虹膜与纹理隐形眼镜之间微小的特征差异并进行精确检测；即使在训练样本不足或跨数据库检测等特殊条件下，RAINet仍有较好的表现，证明了RAINet的有效性和泛化性；虽然RAINet的Params高于GHCLNet和DCLNet，但FLOPs低于GHCLNet和DCLNet，而计算量是决定运算成本的主要因素；相比于RACNN，改进后的RAINet更适用于虹膜防伪检测任务，显著降低运算成本的同时，还能保持良好的检测精度。因此，综合考虑网络的检测精度和运算成本，RAINet具有更优的综合性能。

4　结论

为有效对真实虹膜与纹理隐形眼镜虹膜之间微小的特征差异进行防伪检测，将纹理隐形眼镜虹膜防伪检测问题视为细粒度图像分类问题进行处理，提出了一种循环注意力隐形眼镜虹膜防伪检测方法RAINet。首先，RAINet引入循环注意力机制先后对原始虹膜图像的虹膜区域和纹理区域进行无监督定位，使网络能模拟人眼的视觉特性，进而不断聚焦于关键区域的特征差异以进行防伪检测。其次，RAINet采用MobileNetV2对特征分类网络进行轻量化处理，解决了使用循环网络结构导致的运算成本过高的问题。此外，RAINet作为端到端网络无需图像预处理或人工标注，能够方便地集成到虹膜识别系统中。在IIITD CLI数据库和ND系列数据库上进行的实验表明：RAINet可以针对真伪虹膜之间关键区域的微小特征差异进行检测，相比于其他虹膜防伪检测网络具有更好的准确性和泛化性；RAINet控制了运算成本，相比于RACNN更符合在边缘计算设备上应用部署的条件。后续的研究可以对网络的损失函数进行进一步优化，以提升防伪检测精度。

References

[1] Li H Q, Sun Z N, Tan T N et al. Progress and trends in iris recognition[J]. Journal of Information Security Research, 2, 40-43(2016).

[2] Chen R, Lin X R, Ding T H. Liveness detection for iris recognition using multispectral images[J]. Pattern Recognition Letters, 33, 1513-1519(2012).

[3] Wu L F, Ma Y K, Zhou P et al. Review of biometric template protection[J]. Chinese Journal of Scientific Instrument, 37, 2407-2420(2016).

[4] Das P, Mcfiratht J, Fang Z Y et al. Iris liveness detection competition (LivDet-Iris) - the 2020 edition[C](2020).

[5] He Y Q, Hou Y S, Li Y J et al. Liveness iris detection method based on the eye's optical features[J]. Proceedings of SPIE, 7838, 236-243(2010).

[6] Lee J, Lee S H, Park J I. Detection of abnormal iris authentication[C](2019).

[7] Daugman J. Demodulation by complex-valued wavelets for stochastic pattern recognition[J]. International Journal of Wavelets, Multiresolution and Information Processing, 1, 1-17(2003).

[8] He Z F, Sun Z N, Tan T N et al. Efficient iris spoof detection via boosted local binary patterns[M]. Tistarelli M, Nixon M S. Advances in biometrics, 5558, 1080-1090(2009).

[9] Doyle J S, Bowyer K W. Robust detection of textured contact lenses in iris recognition using BSIF[J]. IEEE Access, 3, 1672-1683(2015).

[10] Lovish, Nigam A, Kumar B et al. Robust contact lens detection using local phase quantization and binary Gabor pattern[M]. Azzopardi G, Petkov N. Computer analysis of images and patterns, 9256, 702-714(2015).

[11] Agarwal R, Jalal A S, Arya K V. Local binary hexagonal extrema pattern (LBHXEP): a new feature descriptor for fake iris detection[J]. The Visual Computer, 37, 1357-1368(2021).

[12] Raghavendra R, Raja K B, Busch C. ContlensNet: robust iris contact lens detection using deep convolutional neural networks[C], 1160-1167(2017).

[13] Chen C J, Ross A. A multi-task convolutional neural network for joint iris detection and presentation attack detection[C], 44-51(2018).

[14] Gupta M, Singh V, Agarwal A et al. Generalized iris presentation attack detection algorithm under cross-database settings[C], 5318-5325(2021).

[15] Singh A, Mistry V, Yadav D et al. GHCLNet: a generalized hierarchically tuned contact lens detection network[C](2018).

[16] Choudhary M, Tiwari V, Venkanna U. An approach for iris contact lens detection and classification using ensemble of customized DenseNet and SVM[J]. Future Generation Computer Systems, 101, 1259-1270(2019).

[17] Yu F S, Yu J, Lu Y F et al. Gender classification of iris image based on residual network[J]. Laser & Optoelectronics Progress, 58, 1610022(2021).

[18] Agarwal R, Jalal A S. Presentation attack detection system for fake Iris: a review[J]. Multimedia Tools and Applications, 80, 15193-15214(2021).

[19] Fu J L, Zheng H L, Mei T. Look closer to see better: recurrent attention convolutional neural network for fine-grained image recognition[C], 4476-4484(2017).

[20] Sandler M, Howard A, Zhu M L et al. MobileNetV2: inverted residuals and linear bottlenecks[C], 4510-4520(2018).

[21] Yuan W Q, Bai Y, Ke L. Analysis of relationship between region of iris and the accuracy rate[J]. Acta Optica Sinica, 28, 937-942(2008).

[22] Zhang W X, Zhu Z C, Zhang Y H et al. Cell image segmentation method based on residual block and attention mechanism[J]. Acta Optica Sinica, 40, 1710001(2020).

[23] Kohli N, Yadav D, Vatsa M et al. Revisiting iris recognition with color cosmetic contact lenses[C](2013).

[24] Yadav D, Kohli N, Doyle J S et al. Unraveling the effect of textured contact lenses on iris recognition[J]. IEEE Transactions on Information Forensics and Security, 9, 851-862(2014).

[25] Doyle J S, Bowyer K W, Flynn P J. Variation in accuracy of textured contact lens detection based on sensor and lens pattern[C](2013).

[26] Czajka A, Fang Z Y, Bowyer K. Iris presentation attack detection based on photometric stereo features[C], 877-885(2019).

[27] Silva P, Luz E, Baeta R et al. An approach to iris contact lens detection based on deep image representations[C], 157-164(2015).

[28] You X A, Zhao P, Mu X D et al. Heterogeneous noise iris segmentation based on attention mechanism and dense multiscale features[J]. Laser & Optoelectronics Progress, 59, 0410006(2022).