论文推荐 | 谷歌等用神经网络给照片打光；人脸识别综述（共 6 篇）

5个月前 ⋅ 713 ⋅ 0 ⋅ 0

来源：机器之心
参与：杜伟、楚航、罗若天

本周的重要论文有谷歌等研究机构用神经光传输为照片二次打光的探索、人脸识别全面综述等6篇论文。

1. Spatial Images from Temporal Data

2. Deep Face Recognition: A Survey

3. Temporal Constraint Networks

4. Neural Light Transport for Relighting and View Synthesis

5. Development and Application of the Latest generation Against the Network of GAN

6. Improving Monocular Depth Estimation by Leveraging Structural Awareness and Complementary Datasets

ArXiv Weekly Radiostation：CV、ML 更多精选论文（附音频）

论文 1：Spatial Images from Temporal Data

作者：Alex Turpin、Gabriella Musarra、Valentin Kapitany 等
链接：https://www.osapublishing.org/optica/abstract.cfm\?uri=optica-7-8-900

摘要：想象一下，你闭着眼睛朝一只动物大吼，然后根据回声就能判断这只动物是猫是狗。听起来是不是很不可思议？

来自英国格拉斯哥大学计算科学学院的研究者最近就做了一项类似的成像技术。他们通过计算光反射到一个简单探测器所需的时间，来获得场景的 3D 图像。当然，仅仅依靠光提供的信息是不够的，这项被称为「时域成像」（temporal imaging）的新技术还借助机器学习方法，从噪声中挖掘模式。

这项研究采取了一种不同的方法，通过基于包含目标检索图像类型的数据集的先验知识提供额外信息，并且为这一目标训练了一种监督式机器学习算法。

file

基于单点时间分辨传感器的 3D 成像。

file

该系统在不同情况下从时间直方图恢复 3D 图像的性能。

推荐：这项研究登上光学期刊 Optica。

论文 2：Deep Face Recognition: A Survey

作者：Mei Wang、Weihong Deng
链接：https://arxiv.org/pdf/1804.06655.pdf

摘要：在这篇论文中，来自北京邮电大学的研究者对深度人脸识别进行了全面的综述。

首先，他们总结了当前深度人脸识别方法中提出的不同网络结构和损失函数；其次，概述了两类人脸处理方法，「一对多增强」和「多对一归一化」；最后，研究者深入分析了跨因素场景、异质场景、多媒体场景和行业场景，并对未来的发展方向进行了展望。

file

深度人脸识别方法的发展历程。

file

深度人脸识别的架构。

推荐：两位作者均来自北京邮电大学模式识别实验室。

论文 3：Temporal Constraint Networks

作者：Rina Dechter、Itay Meiri、Judea Pearl
链接：http://ftp.cs.ucla.edu/pub/stat\_ser/r113-L-reprint.pdf

摘要：这篇论文将基于网络的约束满足方法进行扩展，使其包含连续变量，从而为处理时间约束提供了框架。在这个叫做时间约束满足问题（TCSP）的框架中，代表时间点和时间信息的变量由一组一元和二元约束进行表示，每一个指定一组时间间隔。该框架的独特特征在于允许处理度量信息，即评估不同事件之间的时间差。

该论文对简单时间问题（STP）和通用时间问题进行区分，前者对任意一对时间点至多认可一个间隔约束（interval constraint）。该研究表明，包含 Vilain 和 Kautz 点代数主要部分的 STP 可以在多项式时间内解决。对于通用 TCSP，该研究展示了一种执行三个推理任务的分解机制，并提出了多种能够改善效率的技术。此外，这篇论文还研究了路径相容算法在预处理时间问题上的适用性，展示了其终止，限制了其复杂度。

file

示例 1.1 可表示为有向约束图。

file

交集和组合运算。

file

距离图。

推荐：贝叶斯网络之父 Judea Pearl 的这篇旧论文获得了由 AI 顶级国际期刊 AIJ 颁发的 2020 年经典论文奖.

论文 4：Neural Light Transport for Relighting and View Synthesis

作者：XIUMING ZHANG、SEAN FANELLO、 YUN-TA TSAI 等
链接：https://arxiv.org/pdf/2008.03806.pd

摘要：场景的光传输（LT）描述了场景在不同布光和视角方向下的样子，对场景 LT 的全面了解有助于在任意布光条件下合成新的视图。

这篇论文探讨了基于图像的 LT 采集，主要用于光照平台设置中的人体。研究者提出了一种半参数方法，以学习嵌入到已知几何特性的纹理图集空间中的 LT 的神经表示，并将所有非漫射和全局 LT 建模为残差，并将其添加到物理精确的漫反射基底渲染中。

file
NLT 方法的模型架构。

file

在使用平行光的二次打光任务上，NLT、其他方法与真值图像的效果对比。

file

NLT 方法可能无法生成复杂光传输效果的真实视图，如脖子上所戴项链的视图。

推荐：在基于图像的 Relighting 场景下，人物的打光效果随着背景图像的变换而不断调整。

论文 5：Development and Application of the Latest generation Against the Network of GAN

作者：陈亮、吴攀、刘韵婷、刘晓阳、杨佳明、姜余
链接：http://dziy.cbpt.cnki.net/WKA/WebPublication/paperDigest.aspx\?paperID=76215a4a-3131-4b6e-9afd-1af245c41ff1

摘要：近年来，生成式对抗网络（generative adversarial nets, GAN）迅速发展，已经成为当前机器学习领域的主要研究方向之一。GAN 来源于零和博弈的思想, 其生成器和鉴别器对抗学习，获取给定样本的数据分布, 生成新的样本数据。对 GAN 模型在图片生成、异常样本检测和定位、文字生成图片以及图片超分辨率等多方面进行了大量的调查研究，并在这些 GAN 的应用所取得的实质性进展进行了系统的阐述。对 GAN 的提出背景与研究意义、理论模型与改进结构，以及其主要应用领域进行了总结。通过对 GAN 在各方面的应用分析，对 GAN 的不足以及未来发展方向进行综述。

推荐：这篇论文的作者分别来自沈阳理工大学和沈阳师范大学。

论文 6：Improving Monocular Depth Estimation by Leveraging Structural Awareness and Complementary Datasets

作者：Tian Chen、Shijie An、Yuan Zhang 等
链接：https://arxiv.org/pdf/2007.11256.pdf

摘要：深度是实现 3D 场景理解的重要信息，快手 Y-tech 利用自研的单目深度估计技术获得了高质量的深度信息，并将模型部署到移动端，结合 Y-tech 已有的多项技术研发了 3DPhoto、混合现实等多种新玩法。这些黑科技玩法不限机型，可让用户在手机上无门槛的实时体验，给用户带来全新的视觉体验和交互方式的同时，可帮助用户更好的进行创作。

这项研究主要探究了如何更好的利用三维空间的结构性信息提升单目深度估计精度，此外还针对复杂场景构建了一个新的深度数据集 HC Depth，包含六种挑战性场景，有针对性地提升模型的精度和泛化性。

file

网络模型结构。

file

空间注意力机制模块的可视化。

file

在 NYUv2 数据集上的可视化实验对比。

推荐：该论文已被 ECCV 2020 收录，论文代码和模型即将在 GitHub 上开源，作者也将在 8 月 23-28 日的 ECCV 大会线上展示他们的工作。

ArXiv Weekly Radiostation

机器之心联合由楚航、罗若天发起的ArXiv Weekly Radiostation，在 7 Papers 的基础上，精选本周更多重要论文，包括CV、ML领域各10篇精选，并提供音频形式的论文摘要简介，详情如下：

10 CV Papers.mp3 来自机器之心 00:00 20:02

本周 10 篇 CV 精选论文是：

1. Learning Long-term Visual Dynamics with Region Proposal Interaction Networks. (from Jitendra Malik)

2. Disentangling Human Error from the Ground Truth in Segmentation of Medical Images. (from Frederik Barkhof, Daniel C. Alexander)

3. End-to-end Birds-eye-view Flow Estimation for Autonomous Driving. (from Wolfram Burgard)

4. CaSPR: Learning Canonical Spatiotemporal Point Cloud Representations. (from Leonidas J. Guibas)

5. Weakly-Supervised Semantic Segmentation via Sub-category Exploration. (from Ming-Hsuan Yang)

6. Mixup-CAM: Weakly-supervised Semantic Segmentation via Uncertainty Regularization. (from Ming-Hsuan Yang)

7. Learning to Factorize and Relight a City. (from Alexei A. Efros, Noah Snavely)

8. Open-Edit: Open-Domain Image Manipulation with Open-Vocabulary Instructions. (from Xiaogang Wang)

9. AR-Net: Adaptive Frame Resolution for Efficient Action Recognition. (from Aude Oliva, Kate Saenko)

10. Noisy Student Training using Body Language Dataset Improves Facial Expression Recognition. (from Vikas Kumar)

10 ML Papers.mp3 来自机器之心 00:00 21:55

本周 10 篇 ML 精选论文是：

1. Bloom Origami Assays: Practical Group Testing. (from Bernhard Scholkopf)

2. A Survey on Concept Factorization: From Shallow to Deep Representation Learning. (from Yan Zhang, Shuicheng Yan)

3. Whole MILC: generalizing learned dynamics across tasks, datasets, and populations. (from Vince D. Calhoun)

4. Generative Ensemble-Regression: Learning Stochastic Dynamics from Discrete Particle Ensemble Observations. (from George Em Karniadakis)

5. Learning-based Computer-aided Prescription Model for Parkinson's Disease: A Data-driven Perspective. (from Yang Gao, Dinggang Shen)

6. Communication-Efficient and Distributed Learning Over Wireless Networks: Principles and Applications. (from Mérouane Debbah)

7. Graph Wasserstein Correlation Analysis for Movie Retrieval. (from Tong Zhang, Jian Yang)

8. The Strategic Perceptron. (from Avrim Blum)

9. Robust Reinforcement Learning using Adversarial Populations. (from Pieter Abbeel, Alexandre Bayen)

10. Privacy Enhancing Machine Learning via Removal of Unwanted Dependencies. (from Sun-Yuan Kung)

本文章首发在极市计算机视觉技术社区

微信公众号: 极市平台（ID: extrememart ）
每天推送最新CV干货

论文推荐 | 谷歌等用神经网络给照片打光；人脸识别综述（共 6 篇）

论文推荐 | 谷歌等用神经网络给照片打光；人脸识别综述（共 6 篇）

Recommend

联盟分析-政策法规 | Defi保险公司破产的风险处置研究

比特币和CBDC崛起，美元霸权将被“终结”？

分析师：苹果计划今年发布支持Wi-Fi 6E技术的iPhone 13

ECCV2020 图像分割开源论文合集

据传下一代iPhone机型将支持更快的Wi-Fi 6E

一文了解当下最火NFT项目NBA Top Shot

论文推荐 | 南加大 88 毫克爬虫机器人；谷歌探索有限与无限神经网络（7 篇）

CVPR2020 论文解读集锦【计算机视觉】【CVPR】

【资源】HelloFace：人脸资源精选（代表性工作、最新研究、论文、代码等，Updating）

拉勾教育深度解析：2021年前端会有哪些新变化，又到底怎么学？

About Joyk