30

深入了解华为麒麟9000:GPU性能翻身,AI算力顶尖的5G旗舰芯片

 3 years ago
source link: https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw%3D%3D&%3Bmid=2650801237&%3Bidx=2&%3Bsn=08df6e7556e831c1888d774ef89f7b88
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

机器之心报道

作者:泽南

2020 年的华为在发布新手机时不会去着重宣传芯片,却亮出了无数 AI 加持的全新应用。究其原因,看来是这家公司对于麒麟 9000 有着很大信心。

为视频实时生成带翻译的字幕、支持各种姿势操作的隔空手势、超过人眼识别水平的夜间视频拍摄…… 在华为 Mate 40 系列发布会上,余承东为我们展示了新一代旗舰手机的大量功能。这些技术无不需要依赖机器学习,而想要实现如此强度的 AI 运算,还得有一块强大的手机芯片。

有关华为 Mate 40 的大多数信息,我们在 10 月 22 日和昨天的两场发布会上已经了解了不少。不过余承东对于旗舰机首发的新一代麒麟 9000 芯片并没有花费很多精力进行介绍。人们也想知道:麒麟 9000 之后,还有麒麟吗?

在国内发布会开始前,华为芯片和硬件战略 Fellow 艾伟向我们详细介绍了这代旗舰芯片的能力,并就一些人们最感兴趣的话题给出了答案。

IzINjeV.png!mobile

最强 5G,速度快过对手一倍

虽然套餐价格还是有点贵,但中国在 5G 通信网络的铺设速度上保持了全球最快:今年 1 至 9 月份,全国新增 5G 手机数量达到了 1.08 亿。

「这是第一次,中国消费者领先全球其他区域,能够享受到最先进的移动通信技术,」艾伟表示。「如果看 6 月份的数据,中国的 5G 用户数量占全球的 78%,中国与其他地区的差距还在不断拉大。目前我们有 70 万个 5G 基站,中国还将在这一领域里持续领先。」

在 5G 产业急速发展的第一年里,华为推出了自己的第三代 5G SoC——麒麟 9000 是目前手机行业技术挑战最大,工程最复杂的一块芯片,工程师们在手机 SoC 有限的面积中集成了 153 亿晶体管。相比之下,同样使用台积电 5nm 工艺的苹果 A14 芯片有 134 亿个晶体管,还需要外接高通 X55 基带。

在这样的密度下,华为集成了手机所需的绝大多数计算单元,从 CPU、GPU、NPU、ISP 到安全系统、5G 通信基带等等。这些功能的集中并不是简单的堆砌,还需要兼顾高性能和低功耗,这需要在研发时应用大量新技术和架构创新。

nYFJ3im.png!mobile

首先是 5G 速度。中国现在拥有最多的 5G 通信频谱,这意味着用户可以享受最快的通信速度,但这也需要通信设备的支持。麒麟 9000 集成了巴龙 5000 通信基带,可以享受理论值下行 4.6Gbps,上行 2.5Gbps 的双载波聚合下行速度,这是手机芯片设计、天线设计、基站线网协议匹配等等能力相互作用的结果。在实际使用上,相比同代产品 iPhone 12,华为的 5G 速度更是快了两倍以上。

5G 也可以为我们带来更低的延迟。我们在用 4G 网络打游戏时「流畅的体验」大约指 100ms 以内延迟,而在实际测试中,现在华为手机的 5G 的时延在超过 80% 的时间里都可以保持在 30ms 以内了。

36ryyei.png!mobile

和当前主流手机相比,麒麟 9000 有 5G 载波聚合,比其他 5G 单载波速度快一倍以上;WiFi 6 + 保证了比其他手机用 WiFi 的速度也快 2 倍以上。如果同时接通多种网络,麒麟 9000 的手机还支持四网协同,同时利用 5G、4G、2.4Ghz WiFi 6+ 和 5Ghz WiFi 6+,最高达到 5.6Gbps 的下行速率。

GPU 性能翻身

在麒麟 9000 上,八核 CPU 主频可达到 3.13GHz,八个核心继续保持 1+3+4 的设计,Cortex A-77 架构的核心频率为一个 3.13GHz 超大核 + 三个 2.54GHz 大核,四个 Cortex-A55 小核频率为 2.05GHz。

ZBj2Mf.jpg!mobile

华为表示,这样的 CPU 性能比高通骁龙 865 + 的速度快 10%,能效比也要高出 25%。

相比之下麒麟 9000 在 GPU 方面的提升更加明显。这一代处理器首发了 24 核的 Mali-G78,在图像处理能力上实现了跨越式提升,带来了可观的游戏体验。有了最新架构 G78 的加持,麒麟 9000 的图形性能比骁龙 865 + 要高 52%,能效也要高 50%。

fe6VZfz.png!mobile

在 10 月 30 日的 Mate 40 发布会上,余承东表示麒麟 9000 的 GPU 性能接近于 iPhone 12 的 A14,远远超过其他安卓旗舰芯片。

与之配合的是 Kirin Gaming+ 3.0 游戏解决方案,在王者荣耀、和平精英、明日之后等现有游戏上,华为手机运行起来更加省电。

在 22 日发布会后不久,社交媒体上出现了麒麟 9000 跑分时功耗过高的结果。华为从实用场景角度解释了这一问题。「我们看到有一些人在研究麒麟 9000 突发的高功耗场景,在实际运行游戏时,Mate 40 长时间运行的性能和能效情况相比三星 Note 20 Ultra(骁龙 865+)能效比要好 20%。」艾伟说道。

rMFFvuY.png!mobile

使用多核心低频率的 GPU,不仅意味着更低功耗,更好的游戏体验,更意味着人们可以追求更高画质。近期手机的计算系统、芯片算力的提升,已经让手游可以跑出原来只能在电脑主机上实现的效果,包括 SSR 屏幕空间反射:体现玻璃和地板不同的反射纹理,以及动态模糊:面对强光照射下的体积光和光影效果。

AI 算力业界第一

虽然今年被人们关注最多的是 GPU,但麒麟 9000 的 NPU(神经网络处理单元)性能提升也是巨大的,实打实的翻了一倍。这代芯片的 NPU 采用 2 大核 1 小核架构,又升级到了达芬奇 2.0 架构。

「2017 年,麒麟 970 第一次把 NPU 技术应用在手机里。今天我们看到的情况是所有的手机芯片都必须有 AI 处理芯片了,」艾伟说道。「华为更新了整个达芬奇的架构,2.0 版的 NPU 算力翻倍。在内存瓶颈方面,我们大幅提升了 System Cache 的容量。大部分情况下可以把部分数据缓存在 Cache 中,不需要调用内存带宽。同时,华为的机器学习软件工具支持全球最多的算子数量。」

在苏黎世联邦理工的手机 AI 性能榜单 AI Benchmark 上,麒麟 9000 排名第一,相对上一代提升了一倍。相对其他公司的产品,麒麟在 int8 精度上跑 ResNet-50 的性能相对骁龙 865 + 要高 60%,能效比是后者的 150%。

aYjQBv2.png!mobile

AI 算力的提升意味着更多的应用成为可能。在 2017 年,麒麟 970 可以做到每分钟识别 2000 张图片,现在麒麟 9000 可以每秒钟识别 2000 张图片,性能提升了 60 倍。当我们在一帧之内完成处理图像分类、目标检测、语义分割、实例分割,甚至实时图像编辑的任务时。在视频里,我们就可以进行实时的 AI 图像风格转换。

reMzyaZ.gif!mobile

英伟达的 RTX 上首先出现的 AI 画质增强能力,麒麟 9000 也有:华为 Mate 40 可以把在线视频的分辨率变得更高,从 540p 提升到 FHD 高清,实时完成图像锐化、超分辨率、色彩增强等操作。「如果视频网站的内容源不好,用 AI 视频超分技术可以为用户优先带来高品质的体验,不过这还需要视频播放器的支持,我们正在和应用开发者们进行合作。」艾伟说道。

AI 算力在手机拍摄时也可以提供性能加持,Kirin ISP 6.0 加入了 Quad Pipeline 架构,3A 处理能力提升了 100%,管线处理速度提升了 50%,「现在手机可以做专业相机的事了」。

华为在业界首先实现了 ISP+NPU 融合架构,让暗光视频的细节「淋漓尽致」,图像处理时间又低于 33ms。「AI 已经证明了自己在图像处理上的能力,以往我们由于延迟问题无法做到 4K 视频的处理,现在再不是问题了,」艾伟说道。「相比 iPhone 12 Pro,华为 mate 40 Pro 可以在暗光拍摄情况下视频更清楚,细节更清晰。原来是拍照上超越人眼的识别能力,现在可以拍视频超过人眼。」

前面提到,麒麟 9000 上的 NPU 是两个大核加一个微核。达芬奇 2.0 架构的微核可以在全天低功耗运行的条件下解锁更多应用体验,全天候待机耗电最低可到 3mA,相比上一代 6.4mA 降低了一倍还多,比业界平均的 30mA 以上更是低了十倍以上。

微核负责处理的任务更贴近你的生活,比如华为的低功耗注视检测(OLED 屏幕的智能版 always on display,或者防止息屏显示,而且可以检测手机主人的特定人脸),隔空手势操纵、解锁、音量调节、浏览等都需要使用微核进行计算。

biUbimr.gif!mobile

5G 可以用来干什么?华为给了答案

今天,手机已可以像人一样在陌生环境中感知声音和图像的变化。我们还希望手机更能够「看懂」一些内容,做分类、测量、各种识别。Kirin AR 3.0 可以实现高能效的实施智慧感知、同步定位 AR 地图等功能。现在,AR 也可以用 SLAM 核心模块进行硬件加速了,这大大降低了时延和功耗。

Mate 40 有了 AR 实时感知能力,可以进行实时的 AR 物体测量,用摄像头一秒钟检测人物高度、房屋的层高、桌椅和各种物件的尺寸大小。就像电影《终结者》里施瓦辛格从未来到现代之后,用眼镜探测周围环境一样。

有了 5G 网络,强大的算法和设备端、云端 AI 算力,全新的应用将出现在人们的生活中。华为认为,手机是最重要的信息入口,它会对人、物体和文字进行识别,随后数据会通过 5G 脱敏地传送到云端,知识图谱和复杂的机器学习模型会以人类无法企及的能力完成任务。

「当我们把手机实时感知、AI 能力和云服务用 5G 网络连接在一起,就可以构建起『超智慧』的感知体验。未来的一切都会被数字化和识别,并与云端结合在一起。这或许就是 5G、AI 计算、更强大的手机算力存在的意义。」艾伟说道。

中国正在进行超前的 5G 部署,华为保守估计:如果人们的平均换机周期为两年,在一年多以后,市场上 50% 的用户将拥有自己的 5G 手机,在 4G 时候我们拥抱了数字支付、共享经济,5G 时代的实时虚拟现实融合技术,也将很快与我们见面。

VR3aea.png!mobile

最后,在强大的 Mate 40 和麒麟 9000 之后,华为还在研发下一代产品吗?我们得到了肯定的答案:「华为致力于给全球消费者提供最好的旗舰机体验。无论未来有多少困难,我们会继续前行。」

Java工程师入门深度学习(二):DJL推理架构详解

DJL是亚马逊推出的开源的深度学习开发包, 它是在现有深度学习框架基础上使用原生Java概念构建的开发库。 DJL目前提供了MXNet,、PyTorch和TensorFlow的实现。 Java 开发者可以立即开始将深度学习的SOTA成果集成到Java应用当中。

11月3日20:00 ,李政哲(AWS软件开发工程师)将带来线上分享,介绍DJL推理模块并结合具体场景讲解各模块使用方法,推理 API 的使用方法以及如何优化推理速度,如何部署在微服务、大数据服务以及移动端并搭配客户成功案例的讲解。

  • 添加机器之心小助手:syncedai5,邀请加入DJL交流群。

  • 点击 阅读原文 ,注册直播。

zUB322m.png!mobile

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK