分享一次查找GfxDriver内存暴涨的经历

前言

网上有很多有关内存的优秀文章（比如《Unity游戏内存分布概览》），看完后收益颇多，总感觉对内存（比如PSS的分布）已经了如指掌。直到最近遇到游戏中播放奥义导致GfxDriver内存暴涨500MB左右的问题，才发现之前的“了如指掌”到真正解决问题之间，还有一段路要走。这段路，就是理论到实践过程中的方法论，而这方法论，或多或少是有迹可寻的。因此借这个机会，尝试去总结一下，同时分享给大家，欢迎讨论。

“分享一次查找GfxDriver内存暴涨的经历”这个标题，其实是取自UWA上的一篇分享。正所谓“幸福”（GfxDriver内存暴涨）是类似的，但各有各的“不幸”（暴涨原因不尽相同）。好了，废话不多说，让我们进入正题。

问题描述

某个角色进入战斗后，只要释放奥义，PSS瞬间暴涨接近500MB，如下图所示：PSS直接从1228MB涨到1724.19MB，并且瞬间到达峰值后又会回落一部分，直到维持在一个高位。

从上图中我们可以看出两个问题：

PSS瞬间暴涨
PSS到达峰值后又会回落一部分

问题定位

1. 初步定位
1.1 缩小范围
通过以上的问题描述，首先通过简单的测试缩小问题范围：
1）是否跟设备兼容性有关
2）是否跟后效有关
3）PSS暴涨的大头部分在哪里

对于第1条和第2条，自测或请QA帮忙能够很快定位：这是个通用问题且跟后效无关；对于第3条，我的方法是使用以下三个工具进行组合判断：
1）GamePerf（或者UWA、PerfDog、UPR等都可以）
2）ADB shell dumpsys meminfo
3）Unity Profiler

下面详细解说一下：

从GamePerf报告分析初步判定是显存部分增长过快，如下图所示：

与此同时，使用dumpsys meminfo查看播放奥义前后两次PSS的快照，这样能够大体定位问题所在：

上图是奥义播放前的快照，下图是奥义播放后的快照，通过对比发现涨幅都集中在GL mtrack。

再结合真机在Unity Profiler上的结果，显示GfxDriver从127MB涨到0.56GB：

1.2 小结
通过以上三个工具组合，我们可以大致定位PSS的增长大头在“显存”上。但我们知道，手机上是没有独显的，SoC中GPU和CPU共用一块LPDDR物理内存，因此我在显存上加上了引号。而以上三个工具分别引出了有关“显存”的三个概念，后面我们会深入了解一下以下三个概念：
GamePerf——memGraphics
PSS——GL mtrack
Unity Profiler——GfxDriver

2. 单元测试
既然已定位到，那么接下来就可以通过单元测试来进一步定位问题所在了。在这个阶段，就要引入新的工具——System Profiler。在测试之前，先简单介绍一下这个工具。

2.1 工具选择——System Profiler
System Profiler是华为提供给开发者的一款用于Android平台应用程序的性能数据实时采样工具。通过性能数据的实时动态变化与应用的动态场景相结合做关联分析，帮助开发者快速定位应用程序的性能问题。它可以采集的数据有：

CPU性能数据指标：CPU负载、CPU各核使用率、CPU各核频率和CPU性能计数器。
GPU性能数据指标：GPU频率、GPU负载和GPU性能计数器。
Memory性能数据指标：系统Memory使用情况、应用APP进程Memory使用情况和GPU Memory使用情况。
Graphics性能数据指标：帧耗时FrameTime、实时帧率FPS、卡顿Jank和严重卡顿Big jank。
其他性能数据指标：设备CPU温度、GPU温度、电池温度、网络数据流量速率、Disk数据读写速率和用户自定义性能数据事件。

为什么会选用这个工具呢，主要是从以下几个方面考虑的：

经过以上的初步定位，内存暴涨问题跟机型无关
需要看到PSS的实时变化
- dumpsys meminfo无法满足实时这个需求
- Unity Profiler的数据又比较局限，无法纵观全局
- Android Profiler虽然能够看到PSS的实时变化，但跟dumpsys相比，Android Profiler没有System和Private Other项，但是多了一个Others项，需要通过一些换算才能跟dumpsys出来的PSS匹配
最好能够看到除了PSS之外其它的一些性能指标，方便对问题做进一步排查定位

2.2 单个特效播放测试
2.2.1 测试数据

2.2.2 分析

System Profiler中Graphics的含义跟APP Summary中的Graphics一样，播放前后的差距为16.7MB

现在只粗略算一下特效的其中一个Shader，一个顶点占用为：4*（4+3+2+4+4）= 68Byte，数量为：101681，由此算出占用大小大概为：68 * 101681 / 1024 / 1024 = 6.59MB。

struct VertexInput 
{      
    float4 vertex : POSITION;      
    float3 normal : NORMAL;      
    float2 texcoord0 : TEXCOORD0;    
    float4 texcoord1 : TEXCOORD1;   
    float4 vertexColor : COLOR; 
};

2.3 12个特效瞬间播放测试
先说明一下，经过前期的情况摸底，游戏中奥义的播放会瞬间播放12个相同特效。因此，单元测试还需要模拟测试一下游戏中的真实情况，看看瞬间播放12个相同特效的话效果如何。

2.3.1 测试数据

2.3.2 分析

NativeHeap相差13MB（135.6-122.9）左右，Native表示从C或C++代码分配对象的内存（因为Unity的底层是C++写的，大部分对象的创建都是在C++完成的，这部分内存就会进入Native中，而C#那边就是一个对C++引用和操作的“壳”，这部分会进入到堆内存即Mono中，而Mono内存则在Unknown中体现），主要由以下几部分组成：
- Texture(R/W)
- Material/Shader
- Animation Clip等
Graphics依然是大头所在，随着12个特效瞬间播放，Graphics从59.7MB瞬间增长到了251.5MB。再结合上图中顶点数从5445暴涨到1180293，基本可以判定，造成PSS瞬间增长200MB的原因是顶点数量的暴涨。同时推测游戏中PSS暴涨500MB也是这个逻辑：如下图所示，游戏中奥义播放后每帧顶点数峰值为212万，相比单元测试中的115万，数量正好是2倍左右，再加上游戏中小奥义播放时还有其它特效在同时播放，基本就会达到500MB左右了。

为什么Graphics到达峰值后会回落一部分直到维持在一个高位呢？

对于这个问题，我这边也翻阅了大量资料，尽可能地解释一下，估计还是会有不对的地方，欢迎大家来讨论！

首先明确几个概念：

CPU的内存一般称之为主存（Main Memory），GPU自己的存储则称为Local Memory，即GPU的本地存储，有时候也称为Video Memory（即我们通常所说的显存）
手机SoC上GPU没有自己的物理存储设备，而是共享CPU的存储空间，即Unified Memory Architecture（一致性存储架构），通常是从CPU的存储中划分一部分出来作为该GPU的Local Memory

其次，我们要了解CPU和GPU在渲染时数据传输的工作原理：
CPU将顶点数据放入主存当中，供GPU使用。由于主存的内容对GPU来说是不可见的，所以GPU是不能直接访问这些数据的。为了让GPU访问CPU主存的内容，业界引入了一个叫GART（即Graphic Address Remapping Table）的技术。GART是一个内存地址的映射表，可以将CPU的内存地址重新映射到GPU的地址空间，这样就可以让GPU直接访问（DMA，Direct Memory Access）Host System Memory。

Pinned Memory就是CPU内存上的一块专门用于GART的存储区域。

以OpenGL为例，当CPU需要更新数据给GPU使用时，比如顶点数据的更新、纹理数据的上传等，可以通过这两个函数：glBufferData和glBufferSubData，将数据从Main Memory拷贝到Pinned Memory，一旦拷贝完成，就会发起一次异步的DMA传输，将数据传输给GPU，然后就会从函数调用返回，一旦函数返回，就可以对原来CPU主存中的数据做任何处理——修改或者删除。

所以，这里大胆猜测一下，Graphics到达峰值后迅速下降的部分应该是Main Memory。

3. 精准定位
终于来到了最后一步：查出顶点暴涨的真相。

下图是模拟同时播放12个相同特效的截帧，可以看到，光是baozha_01这么一个特效结点，它的顶点数就有120660。把该特效中的baozha_01节点用到的模型拉出来看，也就只有2011个顶点，乘上12的话也只有24132，这差的10w左右的顶点去哪了？

继续找原因，这次要通过RederDoc来截帧看看，这120660个顶点来自哪里。

看到这5个排列整齐的球体，瞬间明白了什么，赶紧到粒子设置的地方看一下：

改成2个试试：

所以120660就是这么来的：120660 = 2011 x 5 x 12
至此，真相大白。

理解“显存”的三个概念

GamePerf的memGraphics，它的官方文档上写着让我们参考Unity的文章，里面没有memGraphics的概念，都是对内存的相关说明，不过很值得一看。结合数据，这里大胆猜测memGraphics就对应着APP Summary中的Graphics：指渲染相关的所有内存之和，包括Gfx dev、EGL mtrack和GL mtrack中所有Private部分之和。

PSS的GL mtrack，其实是主要看Gfxdev和GL mtrack，这里为什么只提到GL mtrack呢？大家看上面我的PSS截图，里面确实没有Gfxdev，这是截自华为手机的，猜测是华为手机底层把Gfxdev和GL mtrack都统计成了GL mtrack了。因为如果换成高通SoC，就会出现Gfxdev。上面Unity对PSS的介绍文章中也是把Gfxdev和GL mtrack放在一起说明，这里直接翻译一下：GL和Gfx是驱动反馈的GPU内存，主要是GL纹理大小的总和、GL命令缓冲区、固定的全局驱动RAM消耗以及Shader。需要指出，这些不会出现在旧的Android版本上。注意：用户空间驱动和内核空间驱动共享同一个内存空间。在某些Android版本上，这个部分会被重复计算两次，因此Gfxdev要比实际上使用的数值更大。
Unity的GfxDriver其实统计的就是Textures和Buffer（Vertex Buffer以及Index Buffer）的内存，Unity源码是通过REGISTER_EXTERNAL_GFX_ALLOCATION_REF这个宏进行统计的，手头有源码的小伙伴可以去看一下。但是，Unity官方文档上对GfxDriver的解释是：“The estimated amount of memory the driver uses on Textures, render targets, Shaders, and Mesh data”。对于多出的Render Targets，笔者这边表示存疑，后面需要验证一下。

总结

最后，简单总结一下“方法论”！

所谓大道至简，先初步定位缩小问题范围，其次单元测试分析问题所在，最后精准定位找到问题原因。我认为每个阶段中最重要的就是选择趁手的工具。

初步定位——GamePerf(UWA、PerfDog、UPR都可以)、Dumpsys Meminfo、Unity Profiler
单元测试——System Profiler
精准定位——Renderdoc

[1] https://learn.unity.com/tutorial/memory-management-in-unity#5c7f8528edbc2a002053b59d
[2] https://developer.nvidia.com/vulkan-memory-management
[3] https://developer.huawei.com/consumer/cn/doc/development/Tools-Guides/overview-0000001050741459
[4] https://www.cnblogs.com/hellobb/p/11023873.html
[5] https://blog.csdn.net/msf568834002/article/details/78881341
[6] Unity游戏内存分布概览

这是侑虎科技第1217篇文章，感谢作者吕强供稿。欢迎转发分享，未经作者授权请勿转载。如果您有任何独到的见解或者发现也欢迎联系我们，一起探讨。（QQ群：793972859）

作者在UWA学堂发布的《五天实现PBR保姆级教程》课程，旨在对PBR（Physically Based Rendering，基于物理的渲染）技术进行深入浅出地讲解与实现。

再次感谢吕强的分享，如果您有任何独到的见解或者发现也欢迎联系我们，一起探讨。（QQ群：793972859）

前言

问题描述

问题定位

理解“显存”的三个概念

总结

Recommend

Magic Leap 2 launches commercially in the U.S. for $3,299

企业 “数字化” 是个伪需求吗？如果不是他真正带来了多大效果？

重磅！2022年中国及31省市智慧港口行业政策汇总及解读（全）

为什么行程卡每次都需要授权？

如何看待产品经理的副业规划？

Episode 531: Xe Iaso on Tailscale

数字藏品-为什么人们会买一张高价的JPG的图？

小调整，让你无线模块传得更远！

作为产品目前的问题是什么？

牛奶卖不完宁可倒掉也不愿免费送人的案例可以套用在疫情封控期间的高价菜上么？

About Joyk