视频和图像显著性检测模型
2017-03-17

对人类视觉系统(HVS)研究发现,当人们观察一个场景时(视频/图像),通常会把大部分注意力集中在视觉聚焦点周围一个很小的区域内,这个小区域会有很高的分辨率。而对于聚焦点外围的区域,往往以低分辨率的形式呈像给人。正因为这种机制,人们才可以避免处理过量的视觉信息。而预测人眼视觉关注区域的过程,就叫做显著性检测。显著性检测以显著图的形式输出,显著图中每个像素的值代表这个像素可能受到关注的程度。近年来,显著性检测被广泛应用于计算机视觉的许多领域,比如物体检测,物体识别,图片重定位,图片质量评估和视频/图像压缩。思科公司的预测报告指出,2018年网络视频流量将会是每月80EB,而现在主流视频压缩方法正是依靠显著图。

我们分别针对图像和视频进行显著性检测研究,二者区别在于人们通常会有更长的时间观察一张图片,所以关注的区域相对于视频比较分散,图片的显著性检测完全由空间与特征主导。而视频则更依赖于时序的变化和相关性,视频显著性检测算法在考虑空间域特征的同时需要考虑时域特征。

人脸图片显著性检测:图像显著性检测方面,团队其中一个工作主要针对人脸图片。尽管现有方法考虑了人脸在显著性检测中的重要性,但是它没有研究在人脸区域内部关注点的分布情况。如图1所示,人脸尺度比较小时,各向同性的高斯模型在描述人脸区域的显著性分布时表现出了明显的局限性;人脸尺度比较大时,因为关注点会聚集在脸部特征区域(如眼睛等),单高斯的模型已经不再适用,因此团队采用基于学习的混合高斯模型来进行显著性检测。由图1d)可以明显观察到基于学习的混合高斯分布与真实分布最为接近。具体来说,单个各向异性的高斯分布更加适用于人脸尺度小的情况,而多个高斯核的混合高斯分布吻合人脸尺度大的情况。

根据图片中人脸尺度的大小,本文提出的模型可以通过机器学习得到不同的混合高斯分布预测图片的显著性。

 

 

 

1 团队的模型和Zhao et al.中模型的显著图比较示例

 

为了分析人脸图片具体区域的显著性情况,团队构建了一个人脸图片的数据库,包含510张人脸图片,关注点数据采集于24个志愿观测者。通过分析该数据库,发现了以下三点:

1.  人脸图片中脸部吸引的关注点明显多于背景区域;

2.  随着人脸尺度的增大,脸部区域吸引的关注点增多;

3.  随着人脸尺度的增大,脸部特征区域吸引的关注点增多。

 

 

 

2 算法框架

 

我们提出了基于学习的混合高斯模型来拟合人脸图片显著性检测中的人脸通道和人脸特征通道显著值分布。模型结合了由下而上的特征(颜色、灰度和方向)和基于学习的混合高斯模型计算的自上而下的特征(脸部和脸部特征)。与其他利用人脸通道的方法不同,此方法考虑了在不同人脸尺度下利用学习的混合高斯模型预测人脸和脸部特征区域的显著性值。

自然图片显著性检测:此外,为了更好地检测自然图像的显著性,团队提出了一个新的底层特征(SR-LTA)和方法(OSDL)。对于那些没有语义物体的自然图像,我们发现无论是显著区域还是非显著区域,在图像块的纹理结构上都有着一定的相似性。如图3所示,第一行框出来的图像块是已知的(通过眼动仪实验得到)普遍受人关注的显著区域,他们的纹理十分相似且可以由一系列的基本纹理结构表示出来。第二行的非显著图像块也有类似特征。

为此,团队用字典学习的方法,对训练集中的显著区域(正样本)和非显著区域(负样本)分别进行学习,得出各自的基本元素集。当输入测试集样本时,通过稀疏表示的方法对样本进行重构,根据重构误差构造SR-LTA特征用于显著性检测。具体的,我们在字典学习的过程中加入了考虑到中心偏置(一种人类视觉机制)的优化项,并设计了学习算法OSDL去求解优化式,并结合亮度和对比度这两个已有底层特征,提出了稀疏度优化的方法使得特征图更为合理,最终将三个通道结合得到显著图。整个算法框图如图4所示。

 

 

 

3 显著与非显著图片块的纹理一致性

 

 

 

4 算法框图

 

实验结果表明,在常用的模型评估方法ROCAUCCCNSS和卡方距离上,该方法优于9个目前最先进的底层显著性检测算法。

压缩域视频显著性检测:在视频显著性检测方面,团队实现了在压缩域直接检测视频的显著性,也就是说,可以在比特流层面(浅层解码)进行操作得到显著图,而不用对视频进行完全解码。由于几乎所有视频都是以比特流的形式压缩后进行存储的,这一方法在实际应用中可以极大提高时间和存储效率。针对当下最先进的高效视频编码标准HEVC,团队对经过HEVC编码后的视频比特流进行浅层解码,可以得到3个基本特征,它们分别是图5(a)中的CTU分割深度,5(b)中的比特分配情况和5(c)中的运动矢量。可以看到,人眼真实关注区域(5(d)中的热点图)和这三个基本特征有密切的相关性。同时图6中的统计结果也指出,人们的聚焦点更趋于这三个基本特征值大的区域。

 

 

 

5 HEVC特征与人眼关注区域的相关性

 

 

 

6 人眼聚焦点落在不同特征值区间的比例

 

基于上述发现,我们在三个HEVC基本特征的基础上,分别构造时域残差特征和空间域特征残差特征,用于表示CTU分割,比特分配和运动矢量在时域和空间域上的变化情况。特别地,在求运动矢量相关特征以及三个时域特征时,我们设计了一个投票算法,对视频的摄像机运动进行检测和补偿,使得特征的物理意义更明确。特征提取的框图如图7所示。

 

 

 

7 特征提取部分框图

 

团队在训练集上训练出了基于支持向量机(SVM)的线性分类器,用于将之前提取的特征线性整合在一起,得到最终的显著图。图8为该视频显著性检测模型的总体框图。经过大量实验,团队证明了单个特征的有效性,以及整体模型的有效性。在AUCCCNSSKLEER等评估手段中,该视频显著性检测算法超过了7个最先进的对比算法。

 

 

 

8 整体框架图

 

徐迈,电子信息工程学院,副教授,卓越百人,E-mail: maixu@buaa.edu.cn

 

 

参考文献

[1] T. Judd, K. Ehinger, F. Durand, and A. Torralba. Learning to predict where humans look. In ICCV, pages 2106–2113, 2009. 1, 2, 6, 8.

[2] Yufan Liu, Haoji Hu, Mai Xu*. Subjective rate-distortion optimization in HEVC with perceptual model of multiple faces. 2015 Visual Communications and Image Processing (VCIP).

[3] Yun Ren, Mai Xu*, Ruihan Pan, Zulin Wang. Learning Gaussian mixture model for saliency detection on face images. 2015 IEEE International Conference on Multimedia and Expo (ICME).

[4] Mai Xu*, Yun Ren, Zulin Wang. Learning to Predict Saliency on Face Images. 2015 Proceedings of the IEEE International Conference on Computer Vision.

[5] Lai Jiang, Mai Xu*, Zhaoting Ye, Zulin Wang. Image Saliency Detection with Sparse Representation of Learnt Texture Atoms. 2015 Proceedings of the IEEE International Conference on Computer Vision Workshops.

[6] Mai Xu, Lai Jiang, Zhaoting Ye, Zulin Wang*. Bottom-up saliency detection with Sparse Representation of Learnt Texture Atoms. 2016.5 Pattern Recognition.

[7] Mai Xu*, Lai Jiang, Xiaoyan Sun, Zhaoting Ye, Zulin Wang. Learning to Detect Video Saliency With HEVC Features. 2016.11 IEEE Transactions on Image Processing.