从空域到时空域:视频显著(主要)物体分割
2018-03-23

 

显著物体分割是计算机视觉领域的经典问题之一。近年来,随着卷积神经网络、堆栈式自编码器等新型机器学习技术的快速发展,图像显著物体分割技术取得了令人瞩目的巨大进步。现有技术已经能够在复杂场景和多干扰物的情况下,将图像中的显著物体精确地分割出来。然而,在分割视频中最为显著的物体序列时,即视频主要物体(Primary Video Object),由于存在运动、遮挡、形变、镜头变化等挑战(如图1所示),现有的视频显著物体分割技术往往难以取得令人满意的结果。其原因主要有二:
1)视频显著物体难以定义,不能简单沿用图像显著物体的定义;
2)缺少大规模视频显著物体数据集,难以训练复杂模型,特别是深度模型。
 
 
 
1视频显著物体分割存在运动、遮挡、形变等多种挑战。
 
针对上述问题,本课题组构建了一个包含200个真实场景视频的大规模数据集VOS[1],用于视频显著(主要)物体分割。为了减少标注歧义,在VOS数据集构建过程中采集了两类用户数据,包括由4位被试手工标注七千余张视频关键帧中所有物体和区域的蒙板(Mask),以及由23位被试观看视频时通过眼动仪记录的注视点(Fixation)。通过组合上述数据,可以将视频显著物体序列精确标注出来,并最大限度地避免标注歧义。同时,通过观测上述两类标注数据及其特征规律,课题组提出将视频显著物体定义为“在视频中能够持续吸引人类视觉关注(注视点密度)”的主要物体,为构建视频显著物体分割模型提供了理论支持。该数据集是领域最大的视频显著物体分割数据集,目前可在课题组网站公开下载(cvteam.net)。
在此基础上,课题组提出了近邻可逆的视频主要物体分割方法[2]。该方法主要包括空域和时域两个模块,在空域模块中,首先提出一种互补深度卷积神经网络,并利用图像显著物体分割领域现有的大规模数据集进行训练。该网络包括两个互补输出分支,分别侧重于前景区域检测和背景区域检测,如图2所示,该互补网络可以将视频帧中最为明显的前景区域和背景区域分割出来,而模棱两可区域则表现为互补分支输出结果融合图上的“黑洞”。为了填补这些黑洞,在时域模块中提出一种具备近邻可逆特性的帧间关系构建方法。该方法通过双向的K近邻计算,能够在时域跨度较远的帧中找到精确对应的超象素块。通过将空域预测结果在上述近邻可逆流中迭代传播,可以利用时域信息修正空域预测结果中的“黑洞”,并改进预测效果。在VOS等数据集上的实验证明,该方法能够高效、精准地分割视频主要物体,其性能超出了18种国际前沿方法。
 
 
 
2近邻可逆的视频显著物体序列分割方法
 
 
李甲,计算机学院,副教授,卓越百人,E-mail:jiali@buaa.edu.cn
 
参考文献
[1]Jia Li, Changqun Xia and Xiaowu Chen. A Benchmark Dataset and Saliency-Guided Stacked Autoencoders for Video-Based Salient Object Detection. IEEE Transactions on Image Processing, 27(1), pp. 349-364, Jan. 2018.
[2]Jia Li, Anlin Zheng, Xiaowu Chen and Bin Zhou. Primary Video Object Segmentation via Complementary CNNs and Neighborhood Reversible Flow. International Conference on Computer Vision (ICCV), 2017.