摘 要: 数字视频在当前通信世界中被认为是一种重要而有效的媒体,广泛应用于新闻、短视频和有线网络广播视频节目中。 随着计算机与互联网技术的发展,数字视频内容容易被侵权使用者肆意复制和传播,如何保护视频版权日益成为人们关注的问题。 鲁棒视频水印是实现视频版权保护的一种有效手段。 作为数字视频水印的分支, 鲁棒视频水印是一种通过特定算法在需要被保护的视频对象中嵌入秘密信息———水印来证明版权归属的技术。本文对当前的视频水印技术进行了概述,对视频水印的概念、应用场景、分类方式、设计要求、发展历程和相关经典方法进行了介绍和梳理。 本文归纳总结了 2016—2021 年鲁棒视频水印相关研究工作,包括基于内容的、基于码流的、基于深度学习和其他类型视频水印,并对其中部分工作进行了相应的性能比较和分析。 其中,基于内容的视频水印方法将视频看做帧序列,由于在每一帧上应用水印算法,不考虑视频的编解码过程,这类方法实现简单,计算效率高;基于码流的视频水印方法将水印嵌入到编码比特流中,该方案更快速,故可支持实时视频水印应用;基于深度学习的方法取代了依靠手工设计的特征来提高水印的性能。 最后分析了鲁棒视频水印的未来发展趋势。
关键词:版权保护;信息隐藏;数字水印;视频水印;鲁棒视频水印
0 引 言
目前,数字视频在通信世界中被认为是一种重要而有效的媒体,广泛应用于新闻、短视频和有线网络广播视频节目中(Ayubi 等,2021)。 随着互联网的发展和视频处理工具的不断进步,侵权者可以更快速容易地下载、篡改、复制以及非法分发视频,这使得数字盗版越发泛滥。 为了保护和声明视频的所有权,人们提出了多种解决方法,数字视频水印是其中一种重要的技术手段(Asikuzzaman 和 Pickering,2018)。 数字视频水印是指将秘密消息以不可见的形式嵌入在视频中的一种信息隐藏技术(Pexaras 等,2019)。
从应用场景上来看,视频水印主要用于视频版权保护。 无论是全球媒体公司还是自由摄影师,都有对视频进行版权保护的需求 ( 李智和陈孝威, 2010)。 在视频内容被转发以及通过互联网传播时,版权保护应用会将水印隐藏在视频内容中,隐藏的水印可以被检测器检测出来,从而确定视频内容的唯一所属身份。 除了版权保护,视频水印也可以应用在内容保护、内容认证、内容过滤、广播监控、在线查找等方面。 在内容保护方面,通过在数字媒体上嵌入水印来阻止未经授权的内容使用和在线数字分发。 在内容认证方面,取证应用将接收者身份嵌入到视频副本中,当发现或怀疑泄漏时,从泄漏副本中检索到的取证水印可提供证据。 在内容过滤方面,数字水印可用于阻止特定内容,在提取水印并识别特定内容片段后,可阻止该内容播放。 在广播监控方面,通过在制作或广播时在视频内容中嵌入数字水印,允许内容所有者精确地识别内容何时何地广播以及持续多长时间(刘丽 等,2014)。 在线查找方面,使用互联网搜索服务不断在网络上爬取含水印的内容并采取相应的行动。
数字视频水印算法根据不同的分类标准有不同的划分方式,如图 1 所示,可根据水印属性进行分类,也可根据载体对象分类。
水印的主要属性有嵌入容量、可察觉性和鲁棒性,可依据这些属性进行种类划分。 根据是否存在嵌入容量,即是否修改载体数据以嵌入水印,可将视频水印分为零水印和非零水印。 零水印是提取视频本身的一些特征为水印,对原始载体不做任何修改, 对载体的质量没有影响。 为了使水印具有可验证性,零水印通常需将提取的特征注册后交由第三方保管。 非零水印是将多比特长的水印信息嵌入视频中,这不可避免的会造成视频比特流增加、视频质量降低,且水印易受到各类攻击的影响。 根据可察觉性可将视频水印分为可见水印与不可见水印。 如果作者将水印放在视频的非核心部分,水印则很容易通过裁剪、遮挡等手段被移除,因此是脆弱的。 不可见水印是将隐藏的信息以不可见的方式嵌入宿主视频中,更加安全。 据鲁棒性的强弱,可将视频水印划分为鲁棒视频水印、半脆弱视频水印以及脆弱视频水印。 对于鲁棒视频水印,含水印视频在经历有意或无意的攻击后仍能正确提取水印,适用于版权保护。 脆弱视频水印和半脆弱视频水印通常作为认证水印,即利用嵌入在宿主视频中的水印来检查视频内容的真实性(付剑晶和陈德人,2018)。 脆弱视频水印的鲁棒性是所有级别中最弱的,这意味着可以很容易地删除嵌入的信息。 半脆弱数字水印可以确保水印信号不会被轻易地改变(曾骁 等,2010),对无意的信号处理攻击具有较强的鲁棒性,同时对篡改攻击具有脆弱性,能够容忍常见的数据操作,并可以识别恶意篡改。
载体视频的格式主要有 2D 视频、3D 视频和虚拟现实(VR)视频,其中 2D 视频是目前视频的主流格式,应用最为广泛。 2D 视频水印又可基于嵌入方法和提取方法进一步分类,其中基于嵌入方法可分为基于内容的视频水印和基于码流的视频水印,具体内容将在第 2 节详细介绍。 根据水印的提取方法可以分为非盲提取、盲检测和半盲提取。 非盲提取是一种利用原始视频信息在接收端与含水印视频进行比对以提取水印的方法,但原始视频并不容易获得,且所需要的数据库储存过大,增加了实现的复杂性和成本。 解决这一问题的方法是采用盲检测,可在接收端不使用水印的原始信息来提取水印,更加适合实际应用。 半盲提取是指提取时虽不需要庞大的原始视频数据,但需要原始水印信息或其他额外的数据用于提取,是一种折中方案。
对于一个水印系统而言,其嵌入容量、保真度和鲁棒性 3 个属性的参数之间存在着复杂的权衡关系,如图 2 所示(Mareen 等,2019)。 嵌入容量即视频中嵌入信息的长度,嵌入信息的比特越多表明嵌入容量越大。 保真度是指嵌入水印后的视频与原始视频的接近程度,嵌入水印的过程必然会引起视频失真,如果这种失真对人类观察者来说是无法察觉的,就称其具有高保真度。 鲁棒性是指水印具有抵抗攻击的能力,即含水印视频即使受到攻击,仍然能够从中提取出嵌入的水印。 对于某一确定的水印算法,如果需要良好的保真度,就需要避免对视频内容进行过多的修改。 这样一来,嵌入容量就会减少,同时也会导致算法的鲁棒性降低。 如果水印需要具有良好的鲁棒性,可增大嵌入的强度,但会降低水印的不可感知性;或使用扩频和编码技术嵌入额外冗余信息,这样会造成嵌入容量下降。 从理论上讲,设计一种能同时达到这 3 种最优的水印是不可能的。 因此,有必要根据实际情况,实现三者之间的权衡。
根据不同应用的特定要求,设计水印时关注的重点有所不同。 例如,版权保护水印设计时重点考虑的要素是鲁棒性,屏幕注释水印设计时重点考虑的要素是嵌入容量,医用水印设计时重点考虑的要素是保真度。 其中,用于版权保护的鲁棒视频水印是本文介绍的重点。 因此,下面介绍鲁棒视频水印常面临的攻击类型。 针对视频水印的攻击可分为信号处理攻击、集合攻击、时间同步攻击以及压缩编码攻击。 几何攻击指干扰视频像素的几何同步性,例如裁剪、旋转、缩放等。 信号处理攻击包含由传输视频信号引起的噪声、滤波、直方图均衡等。 时间同步攻击是指在嵌入端和提取端丢失帧同步的过程,例如帧重复、帧丢失、帧增加、帧交换、帧率转换等。 视频在传播和储存过程中,是以压缩码流的格式进行的,对于不同的信道通常还会以不同的强度对视频码流重压缩,因此视频水印需要可以抵抗压缩编码攻击。 压缩编码攻击包括对原始含水印视频的压缩和对含水印码流的重压缩两种攻击。
1 经典视频水印方法
视频水印的概念出现在二十世纪九十年代,最早提出的方法是基于 LSB(least signficant bit)、基于扩频等空域视频水印方法,该类方法容量较低,对各种视频攻击鲁棒性不好,因此后来发展了能抵抗各种攻击的变换域视频水印。 空域方法和变换域方法都是直接在每一帧上执行相同的水印嵌入操作,可统称为基于内容的视频水印方法。 随着压缩标准推陈出新,基于码流的视频水印方法也被学者们纷纷提出。
1. 1 基于内容的视频水印
基于内容的视频水印是将视频视为一系列图像,并在每一帧上使用水印算法,可以分为基于空域的视频水印和基于变换域的视频水印。 基于空域的水印为嵌入水印,一般通过直接修改帧像素的方式 (刘瑞祯和谭铁牛,2000),由于水印不经过任何变换直接嵌入到帧中,方法简单,计算效率高。
基于 空 域 的 视 频 水 印 经 典 方 法 如 下。 van Schyndel 等人(1994) 提出基于 LSB 的数据嵌入方法,将水印序列嵌入到图像重要程度最低的像素中, 由于图像在遭受攻击时很容易丢失不重要的像素, 故该方案的鲁棒性不好。 Bender 等人(1996) 提出基于 patchwork 的水印算法,对帧中的随机像素点对的其中一个点的亮度值加 1,另一个点的亮度值减 1,在维持整体帧亮度值不变的情况下将水印序列嵌入。 Cox 等人(1997)提出基于扩频的水印方法,通过将水印信号与 DCT(discrete cosine transform)幅值最大的前 n 个系数以一个尺度因子为系数线性相加,再应用逆 DCT 变换得到加水印帧。 由于该方法将水印嵌入在低频系数上,故对几何攻击和信号处理攻击具有鲁棒性。 Chen 和 Wornell(2001)提出基于 QIM( quantization index modulation)的水印方法, 首先使用水印序列选择量化器,再使用量化器对量化视频帧完成水印嵌入。 然而,基于空域的水印的信息隐藏能力相对较低,且对多种视频攻击的鲁棒性很不佳,因此基于变换域的水印受到了更多的关注。
基于变换域的水印在水印嵌入前,先将视频序列中的帧转换为新的域,通过对变换域系数进行修改完成水印嵌入,再对修改后的系数进行反变换,生成含水印视频。 目前存在奇异值分解( singular value decomposition, SVD)、离散傅里叶变换( discrete Fourier transform, DFT )、 离 散 小 波 变 换 ( discrete wavelet transformation, DWT)、 离散余弦变换 ( discrete cosine transform,DCT)、双树复小波变换( dualtree complex wavelet transform,DT CWT)等多种变化域方法,每种变换域都有其特有的优缺点。 例如, DT CWT 具有良好的重构能力、近似的移位不变性和良好的方向选择性。 DWT 具有考虑分辨率和分解层次的数据结构相似性的优点。 DCT 变换具有无损的、对称的等优点。 基于变换域的水印技术相较于空域水印具有很强的鲁棒性,但仍然存在较高的复杂性问题。 它们通常可用于版权保护应用,因为它们对非恶意攻击具有较高的鲁棒性。
基于变换域的视频水印经典方法如下。 Lin 等人(2001)通过对图像进行傅里叶变换,将 DFT 变换生成的幅值采样为对数极坐标,再沿对数半径轴对这些幅值积分以嵌入水印,该方案能实现对旋转、缩放和平移具有鲁棒性。 Liu 和 Tan(2002)提出基于 SVD 的水印算法,将水印表示为矩阵并添加到宿主帧矩阵中,对新生成的矩阵执行 SVD 变换生成新的奇异值矩阵 S,将原始 U 矩阵、原始 V 矩阵以及新生成的 S 矩阵相乘获得加水印的帧。 由于在视频帧中加入不同程度的干扰后,受攻击帧的奇异值同未受攻击帧的奇异值基本保持一致,故该方案对低通滤波、JPEG(joint photographic experts group)压缩等多种攻击鲁棒。 Wang 和 Pearmain(2006)提出将水印嵌入低频 DCT 系数中,由于在帧的空间域中降低分辨率与在 DCT 域中消除高频段大致相似,故该方案对分辨率降低具有鲁棒性。 但是低频 DCT 系数的变化会严重降低水印视频的视觉质量。 Lai 和 Tsai(2010)提出将 SVD 仅应用于 1 级 DWT 的 LH 和 HL 子带,而不是整个帧,将水印分成两部分并分别嵌入到 LH 和 HL 的奇异值中。 最后,使用原始奇异值从这两个子带中提取水印。 Asikuzzaman 等人 (2014)等人提出了 3 个版本的基于 DT CWT 的数字视频水印算法,其中第 1 个和第 2 个版本使用相同的密钥进行水印嵌入和检测,第 3 个版本不需要密钥来提取水印。 在第 1 个版本中,水印嵌入和提取是在 U 通道的第 3 级 DT CWT 系数上执行的,对 H. 264 / AVC 压缩以及几何攻击具有鲁棒性,但无法抵抗帧率转换和分辨率降低攻击。 第 2 个版本可从任何一级的系数中提取水印,如果解码器需要相同的随机水印生成密钥来提取水印,它仍然容易受到帧速率转换攻击。 第 3 个版本是一种无密钥检测方法,仅使用帧内的信息从帧中提取水印,水印提取不受时间去同步的影响,故对丢帧/ 插入或帧速率转换鲁棒。
相关知识推荐:查重率20%能发表吗
基于内容的水印利用成熟的图像水印技术,尤其是图像变换技术,直接处理视频帧像素嵌入水印, 保真度和鲁棒性高,适用于电影版权保护、广播监控等场景。 然而,由于基于变换域的视频水印的复杂性高,且无法很好地结合视频编码过程,处理速度较慢,不适用于视频点播等实时应用场景。
1. 2 基于码流的视频水印
最早提出的一系列视频水印方法建议先对视频流完全解压缩,再嵌入水印并对水印视频进行编码。这个过程需要大量的处理时间来解压、嵌入和重新压缩视频对象。 为了使系统更快速、更实用,建议在压缩过程中嵌入版权信息,即提出了基于码流的视频水印方法,也称为压缩域水印(李淑芝 等,2015)。此类方案的实际好处是支持实时视频水印应用,其中嵌入过程与压缩并行运行,例如视频直播、在线点播。 在过去的十年里,视频编码标准一直在进步,以提供更好的数据压缩,同时保持高质量的视觉分辨率。 压缩域水印嵌入算法在满足鲁棒性和视觉质量的要求时,还需符合视频压缩标准。 根据目前常用的不同压缩标准,可将基于码流的视频水印分为 MPEG( moving picture experts group)-2 视频水印、 MPEG-4 视频水印、H. 264 视频水印和 HEVC( high efficiency video coding)视频水印 4 种类型。
MPEG-2 标准广泛应用于数字电视视频中。 学者们提出了很多种针对 MPEG-2 标准的视频水印方法。 例如,Biswas 等人(2005) 提出一种自适应的 MPEG-2 视频水印方法,通过修改 DCT 系数直接将空域扩频水印嵌入压缩码流中,并基于局部图像特性自适应调整嵌入强度,可抵抗缩放、旋转、帧平均、滤波等攻击。 Wang 和 Pearmain(2006) 将 MPEG-2 编码中的分块 DCT 组合为全局 DCT,并在低频系数中嵌入水印,使算法对比特率降低、裁剪、去除任意行、下采样和帧删除等攻击具有鲁棒性。
MPEG-4 标准的亮点之一是低带宽,这里的低带宽通常指小于 1 Mbit / s 比特率。 在 MPEG-2 标准的基础上进一步优化了压缩效果。 针对 MPEG-4 的视频水印方案有很多。 例如,Alattar 等人(2003)提出了一种 MPEG-4 压缩域视频水印方法,将空域扩频水印嵌入到压缩的 MPEG-4 比特流中,并结合了增益控制算法和漂移补偿器,在降低水印对视觉质量影响的情况下,使水印对转码、缩放、旋转和降噪等攻击具有鲁棒性。 Barni 等人(2005)提出一种面向 MPEG-4 对象的视频水印方法,通过调整帧内和帧间宏块之间的 DCT 系数关系嵌入水印,可抵抗比特率降低的转码和帧删除攻击。
H. 264 / AVC 标准是 MPEG-4 的进阶版,融合了能提高视频压缩效率的各种新技术,具有更好的视频质量和更低的码率(张维纬 等,2012),目前广泛应用于高清电视广播、摄像机、视频监控、视频存储等。 有很多针对 H. 264 标准的视频水印方案。 例如,Noorkami 和 Mersereau(2007) 建立了 H. 264 中 4 × 4 DCT 块的人类视觉模型,并基于此模型嵌入水印,在提高容量和鲁棒性的同时限制了视觉失真。但是,该方法不是可读水印,即只可检测出视频含水印,而无法提取具体的可读信息。 Mansouri 等人 (2010)基于压缩比特流的语法元素提出了一种可读的 H. 264 压缩域视频盲水印方案,该方案不需要完全解码压缩的视频流。 由于该方法选择在具有高非零变换系数个数的宏块中嵌入水印,因此在提高了水印的鲁棒性的同时没有造成视觉质量的明显降低,且防止了比特率的增加。
H. 265 / HEVC 是针对现有视频储存和传输需求的新压缩标准。 与 H. 264 标准相比,它能够以两倍的效率压缩视频,并生成具有相似感知质量的视频。 面向 H. 265 标准的视频水印方案也开始被研究。 例如,Swati 等人(2014) 在 HEVC 编码过程中将水印嵌入量化变换系数的最低有效位中,虽具有较好的比特率保持性及较高的水印负载。
基于码流的视频水印具有更快的计算速度,所需计算资源更少,适用于视频点播、在线分发、即付即看等实时应用。 但是,此类方法受到编码器本身的限制,保真度和鲁棒性相对基于内容的视频水印较低,难以满足非法摄录、医用水印应用等要求。——论文作者:王翌妃,周杨铭,钱振兴∗ ,李晟,张新鹏
* 稍后学术顾问联系您