深度| 仿生事件视觉传感器结合传统CIS技术，锐思智芯如何颠覆这场“眼球”战争？

麻省理工科技评论-深度| 仿生事件视觉传感器结合传统CIS技术，锐思智芯如何颠覆这场“眼球”战争？

近日，仿生事件传感器领域有两个突破性进展。一是索尼半导体发布两款堆叠式事件监测视觉传感器（EVS, Event-based Vision Sensor），利用 Cu-Cu 连接的 3D 堆叠工艺，将事件驱动相机的像素尺寸从 15um 大幅减少到 4.86um。

另一个突破性进展是华为利用普通摄像头结合仿生事件相机来捕抓高画质的慢动作视频，此一研究成果成功入选 CVPR 2021。两大进展象征随着巨头加速入局神经视觉传感器领域，该技术距离成熟商用化落地更进一步。

在国内，神经拟态相机或仿生事件相机是属于技术非常创新的领域。专注于新一代计算机视觉传感领域的芯片业者北京锐思智芯，于近日发布全球首款仿生事件相机技术与 CIS 技术融合的相机 ALPIX-Pilatus。

锐思智芯提出独创 “ Hybrid Vision” 技术，以融合仿生事件视觉传感器及高端图像传感器，让该公司的核心产品—融合式仿生事件视觉传感器芯片 ALPIX 既可输出事件流信号，也兼容输出高质量的图像信号。

这种二合一的功能，可有效降低视觉系统方案的成本，客户更容易开发相关算法及应用，并有效提高芯片信噪比，改善噪声问题及暗光性能。

此优势也正好解决当前市面上的仿生事件视觉传感器芯片的最大问题。因为沿用了最早期学术研究中采用的技术路线，导致有很多不足之处，比如信噪比低、噪声高、与 CIS 不能很好兼容。

锐思智芯成立于 2019 年 7 月，是一家专注于新一代计算机视觉传感领域的芯片研发及整体方案提供商，研发团体主要来自于浙江大学、剑桥、瑞士苏黎世联邦高等理工学院等世界名校，团队成员曾就职于 CSEM、英特尔、NXP、Arm、安森美、Magic Leap 等国际著名公司。

很多人会问，神经形态视觉传感器的技术原理存在数十年，为何在此时会吸引国际大厂争相入局？

自 2015 年人工智能技术与商用落地在各类应用中实现，视觉相关的领域逐渐由人看转变为机器“看”。

相较于传统 CMOS 图像传感器芯片 CIS，仿生事件视觉传感器芯片更适合用于计算机视觉、人工智能领域，也被称为事件驱动相机 (Event-based Camera)。

传统 CIS 由于快门统一控制曝光的工作原理，导致用于计算机视觉领域时，就暴露了一系列缺陷，比如速度慢导致运动模糊、数据量大造成带宽占用高及功耗高、易受环境光影响等。

仿生事件视觉传感器芯片是模仿人眼的视网膜神经，让每个像素独立工作，通过感知外界光强变化来输出变化的脉冲信号或事件流信号，也就是以事件驱动的原理，来捕捉一个场景中的关键信息，大量降低数据冗余和延迟。

进一步解释像素工作方式的区别：

CIS 是基于电荷，需要对电荷进行积分之后，才能有输出。也就是说，在电荷积分的这个过程，CIS 像素不区分在这个过程中的变化，这也就限制它的采样频率，无法捕捉高速运动物体。而且运动的叠加，就可以理解成多个虚拟帧的图片重合在一起，使得图像模糊。

EVS 是基于 PD 电流，监测PD的电流信号是否发生了变化。变换超过一个给定的阈值，以 2bit 信号输出；即变强 01 或变弱 10，若变化不超过阈值，则为 00；所以可以响应高频信号，即快速变化的物体。同时其计算过程是所有像素同时进行数模转换，这是一个并行过程。而且因为转换简单，这个 2bit 的数模转换非常迅速，从而实现了非常高速的整个像素阵列的转换与输出，达到高帧率。

EVS 与CIS 相比，具有速度快 (>1000 帧/s)、功耗低、冗余数据量少、动态范围大 (>120dB) 等特点，可解决计算机视觉当前面临的一些痛点。

进一步的解释原理，传统 CIS 是以“帧”为单位来记录动态影像画面，但如果画面一直处于静止状态，不断纪录的结果是每一帧都是重复地，导致大量冗余的信息，造成存储和计算的负担。

如果加入事件信号，就可以在场景出现变化时，像素才做出反应，而场景没有变化就不会有信息输出。这样就不会因为在静止画面时，仍是逐帧重复纪录大量无意义的信息，导致大量无用数据。

华为在 CVPR 2021 展示的慢动作视频，每秒 53 帧视频变成 960 帧的研究成果，也是采用同样原理，由一个一般相机来记录低帧的实际画面，再用一个事件相机来记录像素亮度变化。

除索尼、华为以外，三星算是最早一批将事件相机技术导入商用化的国际大厂，在 2015 年左右加入战局。

2016 年，三星将事件相机导入自动驾驶平台上，除了极低功耗的表现，其镜头以 2,000 fps 更新率追踪物体，对比一般数码相机为 120fps。 2019 年，三星便开始在手机与平板电脑应用的动态视觉传感器 DVS 技术领域申请商标。

正是因为事件相机的特性，各大厂看中其市场潜力，纷纷入局。根据 Yole Development 报告显示，2020 年全球 CIS（CMOS 图像传感器）的市场价值达到了 207 亿美元，预计到 2026 年，全球 CIS 市场总量预计将达到 315 亿美元。再者，有报告显示，2029 年神经拟态半导体传感和计算芯片将可达到约 70 亿的市场规模。

谈完仿生事件视觉传感器的原理特性，那锐思智芯的技术与市面上的同业相较，具有哪些独特的优势？

锐思智芯 CTO 查颖云指出，公司的技术最早源于 2014 年瑞士国家级基金扶植的生物医学项目，是一种仿视网膜芯片技术，用来植入眼球，代替成为盲人的视网膜。后来该项目成功商用化后，卖给一家以色列公司，成功将仿视网膜芯片运用在机器视觉平台上。而锐思智芯的两位创始人邓坚和查颖云都是该项目的技术骨干。

查颖云进一步指出，市面上的仿生事件视觉传感器芯片不少，但多是沿用 20 多年前学术研究的技术路线，现在来看实现方法都过于老旧，没有把新的 CMOS 技术运用进去。因此，在应用落地过程中，存在一系列难点。

首先，纯粹的事件相机难以满足实际应用的需要。

在大部分实际应用场景中，需要事件流信号来做快速预判，也需要图像信号做复杂重建（比如稠密 3D 重建）和精细判断（比如人脸识别）。用 EVS 芯片需要配合 CIS 使用，比如至少需要一个 EVS＋一个 CIS 组成双摄系统。但此方案由于数据结构不同，在算法上模态是不一样的，很难进行空间位置上的配准和对齐，融合算法开发难度大，所以很难真正实现应用落地。

相较之下，ALPIX 融合方案能够同时输出 EVS 和 CIS （APS）信号。因此具有 EVS 的优点，同时还能够输出 CIS 的图像信号；即一颗摄像头可替代两颗摄像头的功能。此外，相比于 EVS＋APS 双摄方案，ALPIX 融合方案，在空间位置上是已经对齐的，因此解决了双摄异源图像对齐的问题。

Figure 3：ALPIX 芯片中事件流信号与图像信号共用同一个像素

当然，当前行业中也有一类事件相机可输出事件流信号及光强灰阶数据，但因其像素的设计等原因，基于该光强灰阶数据生成的图像在信噪比、暗光表现、固定模式噪聲（Fixed Pattern Noise）、温度稳定等方面与传统CIS的输出的图像还存在较大改善的空间。

再者，CMOS 技术进入堆叠式工艺 BSI 时代。通过使用堆叠式技术以及独特的芯片设计，锐思智芯的 ALPIX 大幅缩小像素及芯片尺寸，并且减少 CIS 电路及事件相机电路串扰以提高输出信号质量。使得事件相机才真正有可能应用到大部分对尺寸及信号质量要求较高的消费电子领域。

CMOS 堆叠工艺是通过将光电二极管“放置”在了影像传感器芯片的最上层，把 A/D 转换器及放大电路等挪到了影像传感器芯片的“背面”，来最大限度地接收光照，使得在小尺寸的影像传感器也能获得优良的高感光度能力。

索尼最新发布的 EVS 就是基于 CMOS 堆叠工艺生产，将事件相机的像素尺寸从 15um 减少到 4.86um。而锐思智芯的 ALPIX 芯片基于堆叠工艺同时，对芯片架构做了变革，像素尺寸将进一步下降到现有机器视觉 CIS 的像素尺寸。

另外，现有的仿生事件视觉传感器仍是有许多待改善之处，比如信噪比低、噪声高、暗光条件下表现较不理想，与成熟的计算机视觉算法不能很好兼容等。

因此，锐思智芯提出经过大幅改良，且具有特殊设计和专利的 ALPIX 传感器和 Hybrid Vision 技术，与传统 EVS 技术具区别性，来解决上述当前事件相机存在的问题。

“Hybrid Vision” 技术通过融合仿生事件视觉传感器芯片 ALPIX 和高端图像传感器CIS 芯片，让 ALPIX 芯片既可输出事件流信号，也兼容输出高质量的图像信号。

基于 “Hybrid Vision” 技术，ALPIX 更适合用于实际应用场景，特别是既需要事件流快速判断，又需要图像数据进行详细分析的场景，例如智能家居、手机、物联网、安防、机器人等。

发布 ALPIX-Pilatus 芯片，预计将先落地于 VIoT 领域

目前锐思智芯已规划两个系列芯片产品：ALPIX-Titlis 融合式低功耗仿生事件视觉传感器、ALPIX-Eige 融合式高端仿生事件视觉传感器。

ALPIX-Titlis 主要用于 VIoT 领域，预计量产芯片将于明年率先落地。而应用于高端成像领域（如手机、安防）的 ALPIX-Eige 芯片也即将发布。

ALPIX-Titlis 融合式低功耗仿生事件视觉传感器，像素端过滤 80% 无效信息，可节省系统成本；在适配现有图像系统基础上，增加独立的事件流数据，帮助提高算法的效率及精度。适用于各类视觉 IoT 场景，比如低功耗监控相机，机器人等。

而在机器人及自动驾驶场景中，由于 ALPIX 具备精细二维 RGB 信息，以及高速的信息，因此非常契合这类场景的应用。机器人或自动驾驶汽车，在视觉上需要 3 个信息；详细的平面信息，高速及全天候的预判信息，精确距离信息。ALPIX 可以提供前两类信息。基于 ALPIX 的快速、轻量的事件流信号做快速的预判，如避障、紧急刹车等功能；也可以基于信息丰富的图像信号做高精度的视觉地图重建及人物识别等。

此外，由于事件流信号的高动态范围，可以适应更复杂的光照条件，也进一步增强了机器人的传感器系统的安全性或适应性。

“不久的将来，我们甚至也可以在 ALPIX 的 Hybrid Vision 基础上将精确的距离信息也融合到我们的 sensor 上”,邓坚表示。

最后，查颖云谈到视觉传感器行业即将走到一个全新的格局。随着机器感知技术及应用的不断发展，以及类似于 EVS 这种新型视觉传感器技术的不断产生，由索尼、三星垄断的传统 CIS 市场格局也会发生改变。国内将会有更多新兴的公司产生并发展，参与到视觉传感器领域，给行业提供更多的选择和机会。

Recommend

寒潮黄色预警局地降温16℃以上

Google Pixel 6 - Australian Review - Ausdroid

手快有手慢无！GoodNotes 半价，使用折扣还能更便宜

伊朗公布美国偷油失败视频

董车日报｜特斯拉进行超充站开放测试 / 华为自动驾驶元老加入极氪 / 丰田 GR 86 将引...

95岁女院士鼓励女性打破玻璃天花板

The Best Online Marketplaces for Selling Your Products

黑龙江新增本土确诊45例

31省区市新增本土确诊87例

中国内地富豪榜出炉钟睒睒登顶

About Joyk