4

用于视频超分辨率的可变形三维卷积

 3 years ago
source link: https://mp.weixin.qq.com/s/gC9eQijnknzGAmjzJN9Yhg
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

用于视频超分辨率的可变形三维卷积

Original Wangsy 计算机视觉工坊 6 days ago
收录于话题
#计算机视觉

点击上方“计算机视觉工坊”,选择“星标”

干货第一时间送达

Image

Image
作者单位:电子科技大学、国防科技大学译者:Wangsy

论文、代码地址:在公众号「3D视觉工坊」,后台回复「三维卷积」,即可直接下载。

看点问题:之前的方法的空间特征提取和时间运动补偿往往是顺序的,无法充分利用时空信息方法:提出了一个利用可变形3D卷积(D3D)的可变形三维卷积网络(D3Dnet)来整合视频的时空信息优点:D3D作为一个可以同时整合时间和空间的组件,具有优越的时空建模能力和灵活的运动感知建模能力,同时,D3Dnet还实现了当时的SOTA
640?wx_fmt=png
方法
可变形3D卷积
可变形3D卷积把3D卷积和在二维空间的可变性卷积结合在了一起,普通的C3D通过以下两个步骤实现:1)对输入特征x使用三维卷积核进行采样2)用函数w对采样值进行加权求和具体地说,通过一个膨胀率为1的3×3×3卷积核的特征可以表示为:640?wx_fmt=png
640?wx_fmt=png
D3D是在C3D的基础上改进而来的,它可学习偏移量从而扩大空间感受野。首先将尺寸为C×T×W×H的输入特征输入到C3D,以生成尺寸为2N×T×W×H的特征偏移,这些特征偏移的通道数被设置为2N。然后,利用学习到的特征偏移引导普通C3D采样网格(即浅橙色立方体)的变形,生成D3D采样网格(即深橙色立方体)。最后,利用D3D采样网格生成输出特征,公式如下:
640?wx_fmt=png

640?wx_fmt=png

640?wx_fmt=png
可变形三维卷积网络
首先将具有7帧的视频序列馈入到C3D层以生成特征,然后将这些特征馈入到5个残差D3D(resD3D)块以实现运动感知的深层时空特征提取。然后利用瓶颈层对提取的特征进行融合。最后,由6个级联的残差块和一个亚像素卷积层来进行SR重建。使用均方误差(MSE)作为网络的训练损失。
640?wx_fmt=png
实验
实施细节
使用Vimeo-90k数据集作为训练集。采用BI的降质方式,然后,随机裁剪成32×32大小的patch作为输入。使用随机翻转和旋转来增加训练数据。此外,还额外使用基于运动的视频完整性评价指标MOVIE和时间MOVIE(T-MOVIE)来评价时间一致性。
消融实验
对于两阶段模型,使用n个残差块和可变形对齐模块替换resD3D块去依次执行空间特征提取和时间运动补偿。对于单阶段模型,将resD3D块替换为resC3D块,以便在不发生空间变形的情况下将这两个步骤整合在一起,对比如下图:
640?wx_fmt=png
采用C3D比双阶段方法高0.1的PSNR。采用resD3D比C3D高0.4PSNR,但是要增加0.19M的参数量。D3Dnet在不同输入帧数(3、5、7)下的结果如下图所示
640?wx_fmt=png
可以观察到,随着输入帧数的增加,性能有所提高。具体地说,当输入帧数从3增加到7时,PSNR提高了0.3dB。这是因为更多的输入帧引入了额外的时间信息,这对视频SR是有利的。
量化评估
下图的性能评估中,不计算前两帧和后两帧。此外,EDVR和DUF-VSR没有包括在下图的比较中,因为计算成本差距很大。
640?wx_fmt=png
在时间一致性上表现良好。运算时间为VID4测试集20帧测试时间,相比其他没有使用3D卷积的方法,仍存在计算时间长的问题。
640?wx_fmt=png
备注:作者也是我们「3D视觉从入门到精通」特邀嘉宾:一个超干货的3D视觉学习社区本文仅做学术分享,如有侵权,请联系删文。下载1在「计算机视觉工坊」公众号后台回复:深度学习,即可下载深度学习算法、3D深度学习、深度学习框架、目标检测、GAN等相关内容近30本pdf书籍。下载2在「计算机视觉工坊」公众号后台回复:计算机视觉,即可下载计算机视觉相关17本pdf书籍,包含计算机视觉算法、Python视觉实战、Opencv3.0学习等。下载3在「计算机视觉工坊」公众号后台回复:SLAM,即可下载独家SLAM相关视频课程,包含视觉SLAM、激光SLAM精品课程。

重磅!计算机视觉工坊-学习交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有ORB-SLAM系列源码学习、3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、深度估计、学术交流、求职交流等微信群,请扫描下面微信号加群,备注:”研究方向+学校/公司+昵称“,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。

640?wx_fmt=png▲长按加微信群或投稿

640?wx_fmt=jpeg

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近2000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

640?wx_fmt=jpeg 圈里有高质量教程资料、可答疑解惑、助你高效解决问题觉得有用,麻烦给个赞和在看~640?wx_fmt=gif


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK