用AI做视频编解码器现在有点野了。
插帧,过拟合,语义感知,GAN你有没有想过这些脑洞或者AI算法也可以用在编解码器上
比如原算法压缩到每帧16.4KB后,森林开始变得极度模糊。
但是使用GAN后,不仅画面更清晰,而且每帧图像也更小,只需要14.5KB!
例如,将帧插入的思想与神经编解码器相结合,可以使最新的压缩算法更好.
这一系列算法背后的原理是什么,使用AI制作编解码器的潜力有多大。
我们采访了高通工程技术副总裁,AI研究方向负责人侯继磊博士,了解了高通部分AI编解码器的算法细节和原理。
编解码器逐渐被引入。
当然,在了解AI算法的原理之前,我们需要知道视频是如何压缩的。
没有压缩,每秒30帧,8—8位单通道色深的480p视频每秒会传输80 Mbps的数据,在互联网上实时观看高清视频几乎是不可能的。
目前,压缩方法主要有色度二次采样,帧内预测和帧间预测。
色度子采样主要是基于我们的眼睛对亮度比对颜色更敏感的原理,对图像的颜色数据进行压缩,但在视觉上仍能保持接近原始图像的效果。
帧内预测使用同一帧中的大量相同颜色块来预测图像中相邻像素的值,使得结果比原始数据更容易压缩。
帧间预测是一种用于消除相邻帧之间大量重复数据的方法。使用称为运动补偿的方法,通过使用运动矢量和预测值来计算两个帧之间的像素差:
这些针对视频编解码器的视频压缩方法,有大量的压缩工作要做,包括分区,量化,熵编码等。
但据侯吉磊博士介绍,从H.265到H.266,虽然压缩性能提升了30%左右,但这是在编码复杂度增加30倍,解码复杂度增加2倍的情况下实现的。
这意味着编解码标准逐渐进入内卷化状态,提升的压缩效果本质上是与编解码的复杂度交换的,并不是真正的创新。
因此,高通从现有压缩方法的原理和编解码器的构造出发,开发了几种有趣的AI视频编码和解码方法。
提高3个方向的压缩性能。
具体来说,目前的AI研究包括三个方向:帧间预测方法,降低解码复杂度和提高压缩质量。
预测了乙帧的预测
从帧间预测的角度来看,高通提出了B帧编解码的新思路,论文已在《ICCV 2021》上发表。
I :帧内编码帧,P :前向预测编码帧和B :双向插值预测编码帧。
目前大部分编解码器都侧重于I帧和P帧,而B帧则采用I帧和P帧的双向运动补偿来提高压缩性能,这在H.265中是官方支持的。
虽然使用B帧后视频压缩性能更好,但仍然存在两个问题。
一是视频需要提前加载,另一个是仍然会有冗余如果I帧和P帧高度相关,使用双向运动补偿是很浪费的
例如,如果视频中只有一个球在距离I帧,B帧和P帧一定距离的直线上移动,如果使用双向运动补偿,将会浪费33,360。
在这种情况下,使用帧插入似乎更好,并且可以通过时间戳直接预测对象运动的状态,并且编码计算也更低。
但是,会有新的问题:如果I帧和P帧之间有非常大的突变,比如球在B帧突然弹起,那么插帧的效果就非常差。
因此,高通选择将两者结合起来,基于神经网络的p帧压缩和帧插入补偿,并使用AI来预测帧插入后的运动补偿。
不用说,效果真的很好,比之前谷歌在CVPR 2020上保持的SOTA纪录还要好,也比目前基于H.265标准的开源编解码器的压缩性能要好。
除此之外,高通还尝试了一些其他的AI算法。
通过过拟合降低解码复杂度。
鉴于编解码器的标准内卷化,高通还想到使用人工智能作为自适应算法,根据视频比特流像过拟合一样更新模型的权重增量部分相关论文已在《ICLR 2021》发表
这种方法意味着过度拟合单个模型,对比特流中的权重增量进行编码,然后将其与原始比特流进行比较如果效果更好,使用这种传输模式
实验证明,该方法在不降低压缩性能的情况下,解码复杂度降低了72%,同时仍然保持了之前B帧模型所获得的SOTA结果。
当然,除了视频压缩性能,还需要考虑单帧图像的压缩质量毕竟视觉效果也是视频压缩追求的标准之一
利用语义感知和GAN提高压缩质量。
使用语义感知和GAN更简单。
语义感知就是让AI基于人类视觉进行考虑,选择你在看视频时最关注的地方,关注那部分的比特分配。
比如看网球比赛的时候,往往不关注观众是什么样子的,不关注比赛旁边的风景是什么样子的,更多的是关注球员自己的动作和击球方法。
然后,就训练AI,在目标人物身上多放点位,就像这样:
从结构上讲,也是。
比较简单,也就是我们常见的语义分割 Mask:
这种方法能很好地将受关注的局部区域帧质量提升,让我们有更好的观看效果,而不是在视频被压缩时,看到的整幅图像都是打上马赛克的样子。
据高通表示,这种语义感知的图像压缩,目前已经在扩展到视频压缩上了,同样是关注局部的方法,效果也非常不错。
而基于 GAN 的方法,则更加致力于用更少的比特数生成视觉效果同样好的图像质量:
期待这些技术能马上应用到手机等设备上,让我们看视频的时候真正变得不卡。
相关论文:
参考链接:
2021中国科幻大会最近几天在北京首钢园区开幕发布会发布《2021中国科幻产业报告》,报告显示,今年上半年,中国科幻产业总价值已超过360亿
根据MacRumors的消息,苹果在周四晚些时候向开发者发布了适用于macOSBigSur和macOSCatalina的Safari15.1
日前,良品铺公告称,高轩资本拟于2021年10月29日至2022年4月7日以集中竞价方式减持公司股份总数,并于2021年10月13日至202
刚刚以19.3亿元击败赣锋锂业拿下两个世界级锂盐湖的当代安普瑞斯科技有限公司收到监管关注函。 日前,当代安普瑞斯科技有限公司公告称,收到深
华为员工福克斯宫穆棱今天透露,华为鸿蒙系统鸿蒙系统3.0即将到来。 IT之家获悉,华为将于10月24日召开华为开发者大会虽然没有透露什么,
专案组干部用讲故事的方式,把七一讲话精神讲给我们听,容易记住,也容易理解阿克苏普乡英阿瓦提村村民艾比#8226,武斯曼说,将演讲精神与我们生
周四下午,有机硅概念股涨幅居前截至发稿时,金银河涨超12%,兴发集团,天赐材料涨停,东岳硅才,新安股份涨7%,华晨股份,恒星科技,三孚股份紧
核心员工以超低价格获得股票激励,郭可伟的绩效考核受到市场质疑。 根据限制性股票激励计划草案,郭可伟将向不超过250名核心员工授予363.6
日前,完成通关流程后,50节100标箱的X8426中欧班列从广州大朗国际物流货场出发,装载珠三角企业生产的电子产品,服装,皮具等货物498吨
据中国移动消息,最近几天,中国移动通信股份有限公司与中国工商银行联合完成基于5G消息的数字人民币钱包并正式上线,成为第一家在5G消息中应用数
先驱网--综合性的生活资讯平台
邮箱:hchchc0324@163.com