智能视频编码
2015-06-16
科研亮点
课题组面向视频传输中带宽受限的需求,针对视频压缩的基本问题,以“计算换取带宽”为出发点,开展多学科交叉的共同研究,扩展了传统多媒体编码理论,最终实现了对话类视频的智能编码,将下一代视频编码的压缩效率提升3倍。
科研背景与出发点
随着iPhone、Android 智能终端的发展及微信、在线视频等各类新型业务的普及,多媒体将面临大数据挑战,通信网络带宽供求矛盾将日益尖锐。为解决带宽供需矛盾,视频通信可从编码理论上寻求突破。传统编码理论一直沿着数字信号处理的思路演进,难以突破“边际效应”。事实上,当前终端计算能力飞速发展,为利用机器视觉等智能计算工具拓展编码理论提供契机。具体研究路线如图1所示。



图1智能视频编码技术路线图

科学问题
1) 对话类视频的图像内容感知:课题组探索了人类的视觉认知机理,利用机器视觉的计算工具来识别构成图像的物体,感知图像内容并提取图像关键区域。最终,为去除图像的视觉冗余以致大幅提升视频压缩效率奠定基础。在实际应用中,本课题组提出:对话类视频的图像内容感知可以通过机器视觉中的人脸识别与脸部特征定位技术来计算实现。其算法示意图如图2所示。



图2对话类视频的图像内容感知算法示意图

2) 基于图像内容的感知视频压缩:课题组对高清视频压缩的质量与复杂度问题,在上述图像内容感知的计算方法基础上,构建了视频压缩的率-失真-复杂度模型,将计算与通信相结合,重点展开了感知视频压缩关键技术研究,实现高清视频的快速高效压缩。具体来说,围绕一定码率下的质量提升问题,开展码率分配技术的研究。具体地,在下一代视频压缩标准H.265的平台下,课题组针对感知视频压缩的码率分配与复杂度控制问题,提出了率-失真-优化的计算模型。针对该优化模型,本课题组提出了回归的凸优化算法求解该问题,实现了面向用户体验的感知视频编码。在保证一定的主观质量前提下,将H.265的压缩倍数提升3倍,压缩复杂度减少一半。
学术贡献
一年多来,课题组发表包括IEEE J-STSP、TCSVT、PRL在内的SCI期刊论文五篇,其中一篇获IEEE TCSVT期刊的最佳论文奖提名。此外,相关成果被邀请在多媒体领域顶级会议ICME上做大会宣讲(录用率为13.5%)。

徐迈,电子信息工程学院,副教授,卓越百人,E-mail: maixu@buaa.edu.cn


参考文献
[1] Mai Xu, Xin Deng, Shengxi Li and Zulin Wang: Region-of-Interest Based Conversational HEVC Coding with Hierarchical Perception Model of Face,” IEEE Journal of Selected Topics on Signal Processing, vol.8 (3), 2014. (IF=3.8, IEEE J-STSP 热点论文).
[2] Shengxi Li, Mai Xu, Xin Deng, and Zulin Wang: A Novel Weight-Based URQ Scheme for Perceptual Video Coding of Conversational Video in HEVC, the Proceeding of IEEE International Conference on Multimedia and Expo (ICME), 2014. (Oral, acceptance rate =13.5%)