视觉 AI 到底发展到了什么地步？

2020年，我们继续同行，人工智能学习之路不寂寞！

编辑｜陈思
AI前线出品｜ ID：ai-front

随着 AI 的发展，计算机视觉技术逐渐拥有了更广泛的应用，人脸识别，物体检测等等技术更是在安防、无人车等领域起着至关重要的作用。来自腾讯优图实验室的杰出科学家贾佳亚先生在 2017 年 6 月 21 日中国深圳“云 + 未来”峰会上发表了关于 AI 视觉技术的演讲，为听众展示了优图实验室先进的AI视觉系统。

以下为演讲内容

AI 这个词从进入大家的视野到变得巷闻皆知才用了两年时间，所以 AI 在这个时间发展过程中有点像突然发现的东西，用什么来比喻它？我会用哈利波特的隐形斗篷来比喻它，这个隐星斗篷就是当你穿上它的时候，你会发现空无一人，但是你把隐形斗篷取下来，你发现原来里面躲了一个庞然大物。

其实 AI 视觉技术就是这样一个过程，AI 的发展从最开始到现在经历了几十年的发展，所以到今天这个规模绝对不是一朝一夕能够形成的。所以我从隐性斗篷的例子来从头看看到底怎么理解 AI 技术。

我们在很多的小说、电影、科幻读物里都有很多拟人化的机器人或者产物，其中有四个最重要的功能，第一是看，第二是听，第三是说，第四是动。当然不是所有东西都会动，但如果这是一个超级的智能产物一定会控制其他东西在动，自己不用动。当我今天想跟大家介绍 AI 的时候，我会专注在一个方向上，那就是看。为什么我们要去讲看这件事？我觉得还要从自然智能理解起。

自然智能不是 AI 智能的对立面，但是却是反方面的词。人工智能是人创造的，自然智能是从远古时代演化到现在的，我们从自然智能里学到很多东西，比如说看到自然智能的时候，我会想，我们有非常多的视网膜神经细胞，有柱状和椎装细胞但是我们有超过 40 亿以上的神经元会处理我们的视觉信息，相比之下，我们的触觉和听觉可能只有 8% 和 3% 的比例，这说明什么？说明我们这个世界太复杂了，当我们从第一天人类开始去理解这个世界的时候，我们就有足够多的神经元或者处理单元去理解这个世界，所以“看”是我们理解这个世界最重要的部分。

我们做到了什么？

视觉的 AI 可以运用在很多的游戏里面，比如说体感游戏或者是增强现实游戏，满大街去找小精灵的游戏就是重要的体现。除了视觉娱乐之外还有很大用处，比如解决在监控、安防或者需要大量人手去观察视频和图像的分为之内，我们从几百人减成几个人，这也是视觉 AI 发挥的作用。

腾讯是一个非常大的社交网络公司，里面有各种各样的媒体或者软件帮大家做交流，比如我有一个好的照片想给大家看看，是不是能够达到把人年轻十岁的效果呢？这个事情是可以做到了，甚至于如果想把自己变一个性别，从男生变成女生，那也很容易，甚至不用去医院了。这是在相册上或者是在手机端产生的变化，除此之外还有两块非常大的部分，一个是智能医疗，如何能够让一个机器智能读懂所有医疗的片，比如说 CT 片、MRI 片，这是非常重要的部分。还有自动驾驶，我们能不能辅助驾驶、自动驾驶的功能加入在视觉 AI 里面。

这些 AI 的技术代表在这个领域飞速发展的进程，但是与此同时，在不同的途径、不同的视频或者不同的专家给大家介绍各种方法的时候会说，我们的技术已经做到多么强、多么好，我在这里更希望通过科学家的角度跟大家介绍，我们的视觉 AI 角度到底发展到什么地步。

首先可以超过 1000 个类别的上亿张图像的分类理解。

当我有一张图像的时候，人和机器都可以告诉你这张图像是什么，这是一头牛还是一朵花，有的时候你可以想象机器甚至做得比人更出色，我三岁的女儿经常跟我说，爸爸，我看到那边有非常漂亮的蝴蝶。我就纠正她，宝贝，那不是蝴蝶，那是蛾子。但是我的宝贝说，这个蛾子比蝴蝶还漂亮，肯定是蝴蝶。

说明我们在图像理解上有一个过程，我需要理解它的含义得到一个结果，但是在机器学习的时候，甚至可以达到比成年人更高的境界，我们可以细分到山丘、山陵的区别，而超越人的理解。科学家已经不满足于这个问题，这个问题被认为已经在这个领域解决，下一个要解决的是检测问题。当我们有一张图，我希望不但知道这个图的整体表达是什么，还要知道这个图里哪个地方是车，哪个地方是路面，哪个地方是人，这是检测过程。由于现在有强大的计算资源和计算能力，我们可以超过五亿个品种的检测，这是视觉 AI 的另外一个可以达到的目标。

除此之外，科学家们想，当我们能检测到一些物体的时候，能不能把细致度做得更深？比如说颗粒度更深的每个像素、每个点，我是不是能知道这个点是属于马路的，属于人还是属于车的，这是远远超越于之前问题的更加进一步的推广问题。所以我们管它叫做语义分割，现在可以超过总数四千亿像素级别的多图图像分割，这是这几年整个领域产生的巨大推进作用和研究成果，能够达到的效果。除此之外更加熟悉的是对人脸的匹配查询，可以超过一亿张人脸匹配查询，找到你想要的人，你问问自己，能不能认识一亿个人？认识一百个人，我就很开心了，这在电脑上是远远超越了人。

在之前五到十年的时候，我在学校的团队还会做一些有意思的研究：我们当时想，如果看到这样一张模糊的图片你会做什么事情？你看到一张模糊图像会做什么事情？可能大家要做的就是把它删除，为什么？因为这张图片模糊了，已经没有用了，但是对我们科学家而言，是非常珍贵的资源，因为通过这张图像我们发掘出一些人类看不到的东西。

为大家举一个有趣的例子，比如在这张图像里，我们是在一个高速行进的车上，周围的环境是容易被模糊的，当我们理解环境的时候你发现，车牌或者路标已经被模糊掉，在这张图上，在这个图标上看着公路的信息，但是左边小的是什么东西？左边路牌上的数字是什么东西呢？之前大学里的团队经过五到十年的研究，把这些信息充分理解出来，最后通过我们的技术手段，能够看到最后这是在美国 101 公路上的场景，我们可以超越人类的图像模糊。

还有一个东西，我们希望十年之后出现家具机器人，什么叫家具机器人？就是你希望他能帮你洗衣服、洗碗、做饭，甚至带孩子，但是要达到这个智能机器人，怎么样才能做到这一步？其中重要的就是如何把自然语言和自然图像结合起来，也就是两者的充分结合。所以我们在之前有一系列的研究，是当你看到一张图像的时候，我的人来问一个问题，是什么放在了这个工作间的台子上，电脑看到通过你这句话，分析是什么意思，然后再去寻找在这张图像上是问了什么问题，最后把图像上重要的位置找到之后反馈回来，得到一个结果，这个结果就是船，这就是说这个答案是对的。

这个说明现在电脑可以结合自然语言，我说的话和看到的场景可以结合起来，这是一个非常了不起的进步。正是因为有这个进步，我相信令到家具机器人的理想在十年之内能够变为现实。

我们还可以做到什么？

可能有讲座介绍说，幸亏 AI 达到的程度还没有人那么高，因为人会创造，AI 不会创造。我想跟大家说，其实这句话是不对的，电脑也会创造，而且创造出来的种类和试样，很多时候是让我们惊叹的，在以往知识库里是找不到这些模组的，这就是创造的功能，视觉 AI 已经可以实现创造。

比如看这两幅图，看在座各位认为右边这张图是电脑画的？真理永远掌握在少数人手里，右边这张图确实是电脑画的，电脑用铅笔画出了整体轮廓的表达、阴影的表达，达到了非常高的层次，人类需要长期训练才能画出，但是我们画出这张图只用了 0.1 秒，就是它的创造过程，这是非常有趣的事情。

我大学的团队在去年为了去理解这个非常复杂的场景，创造了全世界最像素级的分割技术，做场景理解分析。

这个例子可以看到车是一个颜色，因为我识别出来这是车，所以是蓝色，旁边的树，我识别出是树，所以标成绿色。我们在去年实现了在大规模场景的多复杂环境下的内容分析，这是去年做的事情。今年我们不满足这样一个结果，我说我们还能做什么？然后我的团队开始在今年做了另外一件让大家激动的事情，我们实现了到迄今为止最准确的道路上的像素级语义分割技术，在已知的论文里面，我们这个技术远远高出第二名，直接到每秒 30 侦的运算速度，没有改变任何的硬件资源，我们加速了一百倍。

AI 视觉技术的社会价值

除了我刚才跟大家讲的商业价值或者学术价值之外，我今天还有另外一个内容。我想跟大家讲讲优图 AI 所产生的社会价值。有一个优图跟腾讯的公益部门以及腾讯云、腾讯互联网 + 的部门合作，我们开创了一个新的活动，这个活动叫做天眼。

大家有没有看过这部《亲爱的》？讲述的就是现在有很多很多的家庭，家里的孩子被拐卖走失，这些父母组成了一个团体，他们希望通过这个团体找寻自己的孩子，这就是 2014 年这部电影上映反映的严重现实，孩子的丢失也许是社会的一小部分现象，但是这个现象确实是存在的。所以可以想像，在这样一个环境下，可以有一个大概的估计，但是现在走失的现象在统计意义上而言非常巨大，每个城市这样的现象很少，但是因为中国人口多，在这么大的中国人口的基数上，我们能够把这个比例一点点的上升，这也是我们能贡献的力量。虽然我们有了各种各样的途径，有微博打拐，有大家贡献的力量来找寻，但是贡献率依然是 0。

2015 年，优图团队跟腾讯公益部门和腾讯云和腾讯互联网 + 的单位一起开始加入了“天眼”计划，希望通过优图的技术积累，帮助社会实现社会价值，而不仅仅是商业价值，因为这对我们而言是一件相对比较容易的事情，但是社会价值如何体现在 AI 上？

于是我们加入了这个公益计划，当时在上海的小伙伴们拿到这个计划的时候非常兴奋，他们觉得终于有一天，他们坐在电脑前面也可以像蜘蛛侠一样出去救人。他们做了很多评测，发现我们在人脸识别率上只有 40%，这个数字让我们的小伙伴非常惊讶，发现原来问题这么难，不是我们拿到一张图做一个寻人就可以把人找回来。主要有以下三点困难：

第一个是场景

我们有非常复杂的场景，有城市，有农村，有山林，有不同区域，甚至当我找回这样一个失踪人口的时候，他的发型、衣着、轮廓改变都是复杂因素。

第二是年龄

很多的失踪人口找回来的时候，他们可能在外面已经漂流了几年的时间甚至十年时间，这是一个非常长的时间段，所以从我们的面容上看，他们改变了很多，从轮廓、皱纹、皮肤的粗糙程度，这都是对我们实用算法是非常大的挑战。

第三需要具备有亿级人脸的检索能力

当我拿到一张检索照片的时候，是不是能够通过实时寻找对比，找到这个人出来。

这三大挑战是我当时面对的，但是好在我们优图的小伙伴们并没有放弃，他们觉得这件事情既然做了就要做到底，而且要做好。所以我们在经历一系列的，超过一年多的研究，把 Megaface 的准确率从 40% 提升到 83.29%，这代表了我们可以在亿级人脸检索上达到毫秒的速度，把成功率从之前的不到 50% 提高到 99%。我们立项之后，在短短三个月时间之内，就开始用在福建省公安一起合作，做了网上在线系统找回人群。

2017 年 3 月份的时候，福建省公安厅接到一个群众电话，他们在小学边上找到一个老奶奶，神智不清语言也不通，把他接到公安局以后，通过我们的线上人脸比对系统，发现可能是这个奶奶失踪了，最后我们发现，家人为了防止她走失，在公安系统已经把她挂上号，最后通过这个系统把这个老人找了回来。

我们上线这个系统短短三个月时间，在整个福建省公安部门的帮助下，实现了找回人数超过 120 人，才三个月时间。这样的成效是高过以往通过群众电话，再去通过大海捞针式的访问拿到结果的过程，所以整个福建系统“牵挂你”是有一个过程的，我们发上名单照片，通过群众找到某一个人群的时候，拍张照片，最后在数据库里做比对，然后把这个人找回来，这样成功的案例已经超过一百起，这是非常振奋人心的，而且也是很有意义的。

除此之外，我们希望技术不仅仅是帮到这样一些走失的人，我们甚至可以走得更广一点，所以我们这几年做了一个“万象鉴黄”的全球儿童网络保护行动，整个优图团队开始贡献对成人图片的检测，我们发现准确率在大部分上线系统上可以超过 99%，也就是可以实现对儿童在网络上的保护，防止这些儿童受到欺凌欺骗，这样的事情是我们团队的小伙伴最愿意做的事情之一。

结语

AI 就是一种工具，AI 的出现可能会令一些人失去自己的工作，但是 AI 确实便利了我们这个社会，使得我们这个社会更加容易和谐，做得更好。当我们发现一些不好的事实的时候，AI 这个系统能够准确判别，打击犯罪，这是一种工具，就像是一把刀一样，你切菜是好的工具，但是伤害人的时候是一个坏的工具。AI 无所谓好和坏，但是好的部分需要我们去弘扬，发光广大。最后我想说，每一个技术人员虽然都坐在电脑前面，大家都认为我们是电脑高手，但是我们每个人都有一颗蜘蛛侠的心，我们希望自己有一天不上街也能够帮助人们，打击犯罪。

－全文完－

关注人工智能的落地实践，与企业一起探寻 AI 的边界，AICon 全球人工智能技术大会火热售票中，8 折倒计时一周抢票，详情点击：

http://t.cn/Rl2MftP

《深入浅出TensorFlow》迷你书现已发布，关注公众号“AI前线”，ID：ai-front，回复关键字：TF，获取下载链接！

视觉 AI 到底发展到了什么地步？

视觉 AI 到底发展到了什么地步？

我们做到了什么？

我们还可以做到什么？

AI 视觉技术的社会价值

结语

Recommend

Objective-C Message Throttle and Debounce | yulingtianxia's blog

从有限理性看人工智能

深入浅出 Raft - Leader 选举 - 简书

快速了解 Spring Boot 内嵌容器 Undertow

浅谈大规模分布式系统中那些技术点

Zookeeper: 分布式过程协同技术详解

用Golang实现以太坊代币转账 | HundredLee's Blog

[贝聊科技]有关Android应用桌面角标(BadgeNumber)实现的探讨

Python书单

Java 基础巩固：再谈抽象类和接口 - 张拭心的博客 shixinzhang - CSDN博客

About Joyk