论文推荐 | 哈佛大学计算机科学杰出博士论文；一种新颖的图像超分辨率纹理 Transformer 网络

7个月前 ⋅ 1868 ⋅ 0 ⋅ 0

文章来源：机器之心@微信公众号

本周的重要论文包括哈佛大学首届计算机科学杰出博士论文；一种新颖的图像超分辨率纹理 Transformer 网络

目录：

XGNN: Towards Model-Level Explanations of Graph Neural Networks
Text Detection and Recognition in the Wild: A Review
Unsupervised Translation of Programming Languages
Learning Texture Transformer Network for Image Super-Resolution
ArXiv Weekly Radiostation：NLP、CV、ML 更多精选论文（附音频）

论文 1：XGNN: Towards Model-Level Explanations of Graph Neural Networks

作者：Hao Yuan、Jiliang Tang、Xia Hu、Shuiwang ji
论文链接：https://arxiv.org/pdf/2006.02587.pdf

摘要：图神经网络通过聚合和结合邻居信息来学习节点特征，在许多图的任务中取得了良好的性能。然而，GNN 大多被视为黑盒，缺乏人类可理解的解释。因此，如果不能解释 GNN 模型，就不能完全信任它们并在某些应用程序域中使用它们。

在这项研究中，来自德克萨斯 A&M 大学（TAMU）和密歇根州立大学的研究者提出了一种新的方法，称为 XGNN，在模型级别上解释 GNN。特别地，他们提出通过训练图生成器来解释 GNN，使生成的图模式最大化模型的某种预测。研究者将图形生成表示为一个强化学习任务，其中对于每一步，图形生成器预测如何向当前图形中添加一条边。此外，他们还添加了一些图规则，使生成的图有效。

file

推荐：在合成和真实数据集上的实验结果表明，研究者提出的方法有助于理解和验证训练过的 GNN。

论文 2：Text Detection and Recognition in the Wild: A Review

作者：Zobeir Raisi、Mohamed A. Naiel、Paul Fieguth、Steven Wardell、John Zelek
论文链接：https://arxiv.org/pdf/2006.04305v1.pdf

摘要：在这篇综述论文中，来自加拿大滑铁卢大学和 ATS Automation Tooling Systems 公司的研究者首先回顾了场景文本检测和识别领域的新进展，并展示了利用统一的评估框架进行广泛实验的结果。这个统一的评估框架对挑战性案例中选定方法的预训练模型进行评估，并在这些方法上应用相同的评估标准。

其次，研究者确定了在「野外场景」图像中检测或识别文本过程中遇到的一些挑战，即面内旋转（inplane-rotation）、多方向和多分辨率文本、透视失真（perspective distortion）、光照反射（illumination reflection）、繁体和特殊字符。

最后，研究者在文章结尾提出了该领域的潜在研究方向，以解决目前场景文本检测和识别方法依然存在的一些问题和挑战。

file
_

file

推荐：本篇综述论文对场景文本检测和识别方法进行了全面的汇总整理，读者可以更方便地了解该领域的新进展、面临的挑战以及未来的发展方向。

论文 3：Unsupervised Translation of Programming Languages

作者：Marie-Anne Lachaux、Baptiste Roziere、Lowik Chanussot、Guillaume Lample
论文链接：https://arxiv.org/pdf/2006.03511.pdf

摘要：transcompiler 系统，又称源到源编译器，可以将高级编程语言（如 C++ 或 Python）写成的源代码转换成另一种语言。此类工具主要为了提升互操作性，将用过时或废弃语言（如 COBOL、Python 2）写成的代码库移植到现代语言。它们通常依赖于手动编写的重写规则，并应用于源代码抽象语法树。但是，transcompiler 存在一些缺陷，如转换结果通常缺乏可读性，无法遵循目标编程语言的规范，需要人类程序员进行手动修改才能准确运行。整个转换过程不仅耗时，还需要专家掌握源语言和目标语言的专业知识，因此这类代码转换项目的成本很高。

因此，在本文中，Facebook 研究人员利用无监督机器翻译方法，训练出一种无监督神经 transcompiler——TransCoder。TransCoder 基于 GitHub 开源项目中的源代码训练而成，能够以高准确率实现 C++、Java 和 Python 三种编程语言之间的函数转换。

file
file

推荐：利用 TransCoder，只需单语源代码，无需任何源语言或目标语言的专业知识。深度学习「三驾马车」之一 Yann LeCun 转推了该研究。

论文 4：Learning Texture Transformer Network for Image Super-Resolution

作者：Fuzhi Yang、Huan Yang、Jianlong Fu、Hongtao Lu、Baining Guo
论文链接：https://arxiv.org/pdf/2006.04139.pdf

摘要：在这篇论文中，来自上海交通大学和微软研究院（北京）的研究者对图像超分辨率（super-resolution, SR）展开研究，目的是从低分辨率（low-resolution, LR）图像中恢复真实纹理。目前的方法是将超分辨率图像作为参考（reference, Ref），所以相关纹理可以迁移至低分辨率（LR）图像中。并且，这些 SR 方法往往不使用注意力机制将参考图像中的纹理信息迁移至高分辨率（HR）图像中。

因此，研究者提出了一种新颖的图像超分辨率纹理 Transformer 网络（Texture Transformer Network for Image Super, TTSR），其中低分辨率（LR）和参考（Ref）图像分别表示为 Transformer 中的查询和关键字。TTSR 包含四个紧密相关且针对图像生成任务进行优化的模块，即 DNN 的可学习纹理提取器、相关性嵌入模块、用于纹理迁移的硬注意力模块以及用于纹理合成的软注意力模块。

这种设计鼓励低分辨率（LR）和参考（Ref）图像之间进行联合特征学习，其中深度特征对应关系可以通过注意力发现，从而可以实现纹理特征的准确迁移。本研究提出的纹理 Transformer 能够以跨尺度的方式实现进一步堆叠，进而实现不同级别的纹理恢复。

file
file

file

推荐：大量的实验表明，TTSR 在定量和定性评估两方面较当前 SOTA 方法均有显著提升。

ArXiv Weekly Radiostation

机器之心联合由楚航、罗若天发起的ArXiv Weekly Radiostation，在 7 Papers 的基础上，精选本周更多重要论文，包括CV领域10篇精选，详情如下：

本周 10 篇 CV 精选论文是：

1. Quasi-Dense Instance Similarity Learning. (from Jiangmiao Pang, Linlu Qiu, Haofeng Chen, Qi Li, Trevor Darrell, Fisher Yu)

2. Real-time Human Activity Recognition Using Conditionally Parametrized Convolutions on Mobile and Wearable Devices. (from Xin Cheng, Lei Zhang, Yin Tang, Yue Liu, Hao Wu, Jun He)

3. Map3D: Registration Based Multi-Object Tracking on 3D Serial Whole Slide Images. (from Ruining Deng, Haichun Yang, Aadarsh Jha, Yuzhe Lu, Peng Chu, Agnes Fogo, Yuankai Huo)

4. Privacy-Preserving Visual Feature Descriptors through Adversarial Affine Subspace Embedding. (from Mihai Dusmanu, Johannes L. Schönberger, Sudipta N. Sinha, Marc Pollefeys)

5. Spectral Image Segmentation with Global Appearance Modeling. (from Jeova F. S. Rocha Neto, Pedro F. Felzenszwalb)

6. Joint Training of Variational Auto-Encoder and Latent Energy-Based Model. (from Tian Han, Erik Nijkamp, Linqi Zhou, Bo Pang, Song-Chun Zhu, Ying Nian Wu)

7. TCDesc: Learning Topology Consistent Descriptors. (from Honghu Pan, Fanyang Meng, Zhenyu He, Yongsheng Liang, Wei Liu)

8. SLIC-UAV: A Method for monitoring recovery in tropical restoration projects through identification of signature species using UAVs. (from Jonathan Williams, Carola-Bibiane Schönlieb, Tom Swinfield, Bambang Irawan, Eva Achmad, Muhammad Zudhi, Habibi, Elva Gemita, David A. Coomes)

9. Morphing Attack Detection -- Database, Evaluation Platform and Benchmarking. (from Kiran Raja, Matteo Ferrara, Annalisa Franco, Luuk Spreeuwers, Illias Batskos, Florens de Wit Marta Gomez-Barrero, Ulrich Scherhag, Daniel Fischer, Sushma Venkatesh, Jag Mohan Singh等)

10. Explaining Autonomous Driving by Learning End-to-End Visual Attention. (from Luca Cultrera, Lorenzo Seidenari, Federico Becattini, Pietro Pala, Alberto Del Bimbo)

本文章首发在极市计算机视觉技术社区

微信公众号: 极市平台（ID: extrememart ）
每天推送最新CV干货

论文推荐 | 哈佛大学计算机科学杰出博士论文；一种新颖的图像超分辨率纹理 Transforme...

论文推荐 | 哈佛大学计算机科学杰出博士论文；一种新颖的图像超分辨率纹理 Transformer 网络

Recommend

Github GitHub - ggerganov/ggwave: Tiny data-over-sound library

Skills vs. expertise: a 12-month thought experiment

论文推荐 | Transformer 跨界做目标检测、从输入点云重构曲面网格的技术——Point2Mesh

How you could get hacked at a coffee shop

AirPods Pro要没有耳机柄了体验会更好吗？

Device.Net (Usb.Net, Hid.Net) 4.0

Podcast: Juan Fran Blanco

苹果发布新维修计划 2016和2017款MacBook Pro可免费更换电池

Android HID/USB with Flutter and .NET

联盟分析-行业热点 | 简析加密货币期权市场的投资策略

About Joyk