📝笔记: 图像匹配挑战赛回顾(CVPR 2022)

2022-07-102

笔者跟踪这项比赛较长时间，去年和前年已经写过两篇 2021, 2020, 主页, 比赛地址

今年最大的不同是什么呢？对了，就是Kaggle！

其实，本来去年的比赛就要放在Kaggle上进行的，但是由于疫情以及数据准备较为耗时，于是这个决定就被推迟到了今年。

今年比赛共有3846人参与，共计642个队伍，其中128个用户是他们首次参与比赛（Top20中占有18个新用户），这些参与者来自60个国家，另外共有14170次提交记录。

通过下图可以看出：超过25倍的参与者以及150倍的提交记录：

Fun fact: 冠军方案在deadline前48小时才完成。

相比往年的比赛，今年的不同之处具体表现在如下几个方面：

参赛者需要提交 notebooks 离线处理比赛用的数据
参赛者无法查看测试集：很难作弊
允许算法快速迭代

除此之外，还有几点差异：

砍掉了multiview track(多视图匹配赛道)，仅专注在stereo track。这么做的原因有很多，最主要的是“技术问题”，即很难在有限合理的时间内运行以及评价匹配性能。
新的数据集以及评价标准。往年的真值位姿的平移量没有尺度，仅能够评价旋转的精度；而今年的平移量拥有了尺度信息，这使得可以同时评价位姿旋转量与平移量。此外，今年使用了来自Google的非公开数据集（网上是搜不到滴）。
时间限制。总计算时长被限制在9小时（计算平台：Kaggle GPU virtual instance）以内，不能超时！这让参赛者要思考，什么算法能用什么算法不能用。一个简单的例子：使用语义分割mask对提升指标可能是有帮助的，但是需要的算力太大，那就不能使用！

有用的tricks

交换图像匹配顺序可提升 LoFTR-like 匹配器的精度
对 LoFTR-like 匹配器的位置编码归一化有效 (top2方案)
使用不同的 resize 图像的方法差异不大
使用 ECO-TR 对坐标进行优化有效 (未开源)
使用局部描述子+非学习的匹配器增加匹配数量并不奏效，如 DISK11 , ALIKE12 等；
语义分割掩码（天空/人）也不奏效；

“2-stage” 的方式对于图像匹配任务相当有效：首先找到共视区域，接着缩放进行匹配；
最好首先解决 “recall” 问题，即尽可能多的找到匹配，这个过程可以使用不同的匹配器；要相信现代的 RANSACs 可以使用较少的内点恢复位姿；
LoFTR5 对输入图像大小非常敏感，这一点值得后续继续研究。

1. Image Matching: Local Features & Beyond, homepage: https://image-matching-workshop.github.io ↩

2. Image Matching Challenge 2022, homepage: https://www.kaggle.com/competitions/image-matching-challenge-2022 ↩

3. Image Matching Challenge 2022 Recap, Dmytro Mishkin, https://ducha-aiki.github.io/wide-baseline-stereo-blog/2022/07/05/IMC2022-Recap.html, homepage: http://dmytro.ai ↩

4. Competition is Finalized : Congrats to our Winners, Recap, https://www.kaggle.com/competitions/image-matching-challenge-2022/discussion/329650 ↩

5. LoFTR: Detector-Free Local Feature Matching with Transformers, CVPR 2021, code: https://github.com/zju3dv/LoFTR, pdf: https://arxiv.org/abs/2104.00680 ↩

6. QuadTree Attention for Vision Transformers, ICLR 2022, code: https://github.com/Tangshitao/QuadTreeAttention, pdf: https://arxiv.org/abs/2201.02767 ↩

7. SuperGlue: Learning Feature Matching with Graph Neural Networks, CVPR 2020, code: https://github.com/magicleap/SuperGluePretrainedNetwork, pdf: https://arxiv.org/abs/1911.11763 ↩

8. DKM, Deep Kernelized Dense Geometric Matching, arxiv 2022, code: https://github.com/Parskatt/DKM, pdf: https://arxiv.org/abs/2202.00667 ↩

9. ANMS, Efficient adaptive non-maximal suppression algorithms for homogeneous spatial keypoint distribution, code: https://github.com/BAILOOL/ANMS-Codes, pdf: https://www.researchgate.net/publication/323388062_Efficient_adaptive_non-maximal_suppression_algorithms_for_homogeneous_spatial_keypoint_distribution ↩

10. OANet, Learning Two-View Correspondences and Geometry Using Order-Aware Network, code: https://github.com/zjhthu/OANet, pdf: https://arxiv.org/abs/1908.04964 ↩

11. DISK: Learning local features with policy gradient, NeurIPS 2020, code: https://github.com/cvlab-epfl/disk, pdf: https://arxiv.org/abs/2006.13566 ↩

12. ALIKE: Accurate and Lightweight Keypoint Detection and Descriptor Extraction, Transactions on Multimedia 2022, code: https://github.com/Shiaoming/ALIKE, pdf: https://arxiv.org/abs/2112.02906 ↩

13. ASLFeat: Learning Local Features of Accurate Shape and Localization, CVPR 2020, code: https://github.com/lzx551402/ASLFeat, pdf: https://arxiv.org/abs/2003.10071 ↩

📝笔记: 图像匹配挑战赛回顾(CVPR 2022)

📝笔记: 图像匹配挑战赛回顾(CVPR 2022)

Top solutions

Top1 思路

Top2 思路

有用的tricks

Recommend

时隔半年，Linux性能重新超越Windows 11

代谢组学专精特新企业百趣生物完成近亿元 A 轮融资，启明创投领投

中国云计算：2025年展望

汽车二季报或比预期好，三季度后续也更值得期待

增长产品的三个必备思维：回报后置、精细化、破局

你认同吗？Unity总裁:做游戏不想赚钱的开发者都是傻子

Samsung announces 24Gbps GDDR6 memory for next-gen graphics cards | TechSpot

蓝领困顿，直播带岗是真伪需求？

从金融危机到互联网泡沫？美联储加息和降息预期一夜间全爆了

中金：未来一段时间煤炭板块仍有望保持较高景气

About Joyk