3

影驰 GeForce RTX 4060 金属大师显卡评测:香气扑鼻,比甜更甜

 1 year ago
source link: http://diy.pconline.com.cn/1630/16304886.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

影驰 GeForce RTX 4060 金属大师显卡评测:香气扑鼻,比甜更甜

16847498802052680.gif
ad1p.png
16752321965791570.jpg YIHAN 责任编辑:chenyihan 发布于:2023-06-28 21:01 PConline原创

引言

随着NVIDIA GeForce RTX 40系的显卡逐渐普及,在90,80,70陆续登场之后,今天我们也正式迎来了NVIDIA RTX 4060,作为一张绝对的甜品级显卡,想必也是引起了不少玩家的关注,本次发布的RTX 4060主打1080p分辨率下畅享游戏极致体验,相较上一代GPU,NVIDIA Ada Lovelace 架构的全新显卡能使用户体验到质的飞跃,在最新游戏和创意应用中感受性能的大幅提升。

16304886_05013341_thumb.jpg

不过甜品级显卡甜不甜还得看实力说话,不过不用担心,我们已经在第一时间就上手了影驰最新的GeForce RTX 4060 金属大师 8GB显卡,了解影驰的玩家应该对金属大师系列不陌生,强悍的性能与硬核的外观并存,这回的RTX 4060 金属大师依旧是一众RTX 4060显卡中的清流,硬朗的金属装甲风格又一次俘获了众多“直男”玩家。

*下文“影驰GeForce RTX 4060 金属大师 8GB”简称为“影驰RTX 4060金属大师”

规格对比

开始测试前,我们需要先对这张影驰RTX 4060金属大师有了详细的了解。首先就是显卡的核心心脏——AD107核心,这也是Ada RTX 40家族最小号的成员。它的面积仅为146平方毫米,和一颗GDDR6显存芯片大小相仿。

articleImageLoading.gif

再看看它的内部构造,这款AD107核心内包含了3个GPC,不过每个GPC中仅包含4个TPC,因此SM单元总共只有24个,而CUDA则为3072个颗,L2缓存最大可至24MB。

articleImageLoading.gif

既然都说到缓存了,就不得不说说Ada存储子系统的创新之处。首先不得不提的就是缓存的重要性,作为GPU中广为应用的高速缓存,GPU可以更高效更快的进行数据访问与处理,一定程度上可以提高游戏性能和流畅性,同时还能降低功耗。

而GeForce GPU 在每个多单元流处理器(SM)中都有一个1级(L1)缓存(最接近和最快的缓存),每个GeForce RTX 40系列图形处理集群(GPC)中最多可以找到12个缓存,然而,由于L1缓存需要离内核非常近,它不可能非常大。

articleImageLoading.gif

因此快速、更大的共享2级(L2)缓存就显得尤为关键了,与全新GeForce RTX 40系列 GPU 相比,上一代GeForce GPU的 L2 缓存要小得多,导致性能和效率相对较低。因为再GPU访问的过程中,首先会在L1缓存中找,如果没有再去L2缓存中找,如果没有将继续向下一级的显存查询,最后如果都没有,则会在SSD等存储设备中加载进系统,这样的策略看似没有问题,实则每一次通过显存层级结构的读写数据操作都会降低性能并消耗更多功率。

articleImageLoading.gif

因此Ada存储子系统的创新之处在于提高L2缓存的容量,从而可以提高缓存查找数据时的命中率,一旦命中率提高,GPU则不需要多层级的向下去找数据,延迟降低的同时,还可以提高游戏性能和减少功耗。

articleImageLoading.gif

并且由于新一代的GeForce RTX 40系GPU的L2缓存显著增加,这使得在处理核心和 L2 缓存之间传输更多数据成为可能。在各种游戏和综合基准测试中,性能的提升是显而易见的。与2MB二级缓存的性能相比,32 MB二级缓存将显存总线流量平均降低了50%以上,讲人话就是50%的流量减少可以让GPU最大化的利用显存带宽,因此游戏帧率也不输大位宽的显卡。

articleImageLoading.gif

总的来说,在过去,显存位宽一直被用作确定新GPU的速度和性能等级的重要指标。然而,显存位宽本身并不能充分表明存储子系统的性能。相反,更全面的了解存储子系统设计及其对游戏性能的整体影响是有帮助的,这也是Ada存储子系统的精华所在。

articleImageLoading.gif

其他参数上,AD107也不遑多让,核心旁是8GB的GDDR6 显存,可以在128bit总线接口上以17Gbps的速度运行,最终可提供272GB/s的带宽,更夸张的是RTX 4060的TDP 仅有 115W,这也意味着它比前代的RTX 3060省电不少。

外观赏析

拆开包装盒就见到了本次的主角——影驰RTX 4060金属大师,这张显卡采用一体压铸的铝合金上盖,全身你能看见的地方,基本都被金属覆盖。外观设计上以宇宙魔方为灵感,采用不规则的线条呈现,极具美感和科幻感。

articleImageLoading.gif

细看它的表面,你就能发现其实这款显卡还融合了多种工艺打造,像CNC高光亮边、金属拉丝、雾面工艺的加入,不仅提升了显卡的颜值,还为散热做足了准备。当然了,要说散热,就不得不提正面这两把92mm的风扇,单厚度就有20mm,实力不容小觑。

articleImageLoading.gif

每把散热风扇上还安排了11片静霜扇叶,扇叶也为三折式设计,并且摸起来还带有磨砂质感,既有颜,又有强劲的风流加持,压制AD107可以说绰绰有余。

articleImageLoading.gif

显卡背板延续了金属大师的味道,一整块的金属背板不仅增加显卡的防护能力,防止PCB变型,还可以辅助散热,加快热量传导。并且中间还印上了金属大师的Logo与棱利的线条设计,整体颜值又多了几分。

articleImageLoading.gif

金属背板开窗镂空的散热设计已经是RTX 40系显卡的常规操作了,这张影驰RTX 4060金属大师也不例外,在外面甚至能隐约看到内部的热管,可见其散热实力应该非同一般。

articleImageLoading.gif

仅仅是背板镂空还不够,影驰可以说是把散热做到了丧心病狂的底部,甚至在显卡侧面也开孔了,一排排密密麻麻的散热鳍片赫然在列,配合风扇,快速将显卡内部热量送出,时刻让核心满血释放。

articleImageLoading.gif

再看看这张显卡的供电,众所周知RTX 4060的TDP仅设定为115W,因此供电接口也是我们熟悉的8Pin,单电源结果终于回归,无需12VHPWR转接线,安装更方便。

articleImageLoading.gif

显卡接口配置方面,有1个HDMI 2.1和3个DP 1.4a输出接口,支持8K@60Hz高清输出,配置齐全可以满足日常使用。

articleImageLoading.gif

你从这个角度看去,还能发现,这回的影驰RTX 4060金属大师的体积明显缩小了,仅有两槽厚度,42mm的厚度对ITX相当友好,终于不像它的大哥们动辄70mm起步的板砖厚度了。

显卡拆解

外观鉴赏完,少不了的就是显卡拆解了,不得不说好久没有拆到如此精致的双风扇显卡了,拆卸还是比较简单的,卸下背部的螺丝后就可以将厚重的寒光星散热系统与PCB分离了。

articleImageLoading.gif

正面PCB还是很有看头的,塞满了各式各样的电子元器件,并且还有AD107核心坐镇,纯黑色的PCB颜值极佳,整张PCB也采用4层高规格工艺打造,电气性能值得信赖。

articleImageLoading.gif

PCB的背面,还是大厂的味道,不过相比正面密密麻麻的排布就显得整洁许多,背面基本上是各类控制芯片。

articleImageLoading.gif

PCB正中央的这颗AD107-400-A1核心比其他RTX 40系的核心都要小一些,不过体积虽小但实力出众。其采用全新Ada Lovelace架构和TSMC 4N工艺,专为 GPU 优化,可实现高达2 倍的性能功耗比飞跃。3072个CUDA,更有老黄精心安排的24MB L2缓存,顶级的性能,它就是你的高刷电竞首选。

articleImageLoading.gif

核心的四周就是显存芯片了,4颗GDDR6显存,单颗2GB,四颗共8GB显存。由三星提供,型号是K4ZAF325BC,显存等效速率为17Gbps,这个速率无论是用来追逐AI的浪潮还是创作生产力,都妥妥的。

articleImageLoading.gif

讲完核心与显存,再看看显卡的供电规模,影驰RTX 4060金属大师安排了6相超豪华供电,满足AD107核心的超高频率运行与稳定。

articleImageLoading.gif

供电被安排在PCB的左右两侧,每侧各三相,组成了5相核心供电与1相显存供电。

articleImageLoading.gif

每相供电都有自己的DrMos芯片,芯片来自台湾力祥,不过均采用一上一下两个MOSFET,型号分别是QN3103和QN3107。

articleImageLoading.gif

而PWM主控则安排在显存芯片的上方,型号是uP9512R,负责核心与显存供电控制,常用在中高端显卡身上。

articleImageLoading.gif

再看看供电接口,影驰RTX 4060金属大师为8Pin供电接口,用于满足这张TDP最高130W的显卡已经算超规格了。

articleImageLoading.gif

供电接口附近还有高质量的电容加持,背部更是密集的通讯电路联通显卡与电源,保障显卡稳定输出。

articleImageLoading.gif

接着我们再看看它的散热系统,影驰将其命名为寒光星散热系统,正面就是大面积的高效能均热板,热管穿过的地方还可以看见铜的颜色,有了铜管的加持,散热性能更强悍。

articleImageLoading.gif

并且影驰在这之上还为显存、电感、MOS管接触的地方用上了高系数的导热垫辅助散热,可以说把散热拉满了。

articleImageLoading.gif

这个寒光星散热系统还有不少硬核科技,它拥有2*Φ6mm镀镍复合热管以及大面积的散热鳍片,配合回流焊接工艺和金属外壳的高导热特性,散热性能可谓备受期待。

articleImageLoading.gif

所有的散热鳍片与热管全面紧贴发热单元,让GPU热量快速传导散发,无论创作还是娱乐都能冷血镇场。

articleImageLoading.gif

而主动散热部分则是两个宽度92mm超大静霜风扇,风力强劲的同时,两把风扇还支持智能启停,GPU空闲时自动停转以减少噪音和功耗。

articleImageLoading.gif

最后来个全家福,影驰RTX 4060金属大师的堆料可以用豪华来形容,这款散热器完全有充足的余量供玩家发挥,这也让笔者对它的性能释放充满期待。

articleImageLoading.gif

测试平台介绍

首先介绍一下本次的测试平台,既然是RTX 4060这样的甜品级显卡,那我们选择其他硬件自然也要门当户对,因此CPU使用的是目前最新的13代——Intel i5-13600K处理器,主板为影驰Z790 金属大师,搭配同款的影驰星曜32GB DDR5-6000高规格内存,确保这张显卡能够释放全部性能。

articleImageLoading.gif

不错的硬件也要有好的显示效果才能展现RTX 40系显卡的魅力,那拿来衬这张显卡的显示器自然也不能弱,用的依旧是天花板级别的AGON PD32M保时捷联名款,4K@144Hz的高刷,虽然这是一张定位1080P高帧的显卡,但高分辨率的显示器一样能够带给你极致的视觉享受,感受丝般顺滑畅的3A体验。

articleImageLoading.gif

介绍完测试平台,那先让我们打开GPU-Z看看这张影驰RTX 4060 金属大师显卡的详细信息,影驰 RTX 4060 金属大师的基础频率为1830MHz,Boost频率为2460MHz,这个频率跟上代的RTX 3060相比,那可以说是碾压级别的优势,单是基础频率就高出500MHz,这个程度的提升,也让我对这块显卡的性能表现充满期待。

articleImageLoading.gif

理论性能测试

国际惯例,拿到新显卡,先体验一下全世界最好玩的游戏——3DMark,从测试结果中可以看出,影驰RTX 4060金属大师对RTX 3060就是碾压,在DX 11为基准的Fire Strike系列测试中,28048的超高成绩比后者高出近6000分,性能提升幅度达到了21%,而在DX 12为基准的Time Spy中,10444的分数同样强过RTX 3060的8710分,超越后者17%以上!

articleImageLoading.gif

而RTX 40系显卡还有一个特性不得不测,那就是老黄引以为傲的DLSS与光追性能,首先是Port Royal测试,影驰RTX 4060金属大师领先RTX 3060就有15%以上!DLSS就更加出彩了,在仅开启DLSS 2的情况下,1080P和2K分辨率下均领先RTX 3060有20%,当RTX 3060还达不到60 FPS时,影驰这款新显卡72 FPS的成绩已经可以摸到流畅游戏的门槛了。

articleImageLoading.gif

至于其他理论性能,我们也进行了详细的测试,从实测结果来看,在AIDA 64的GPGPU测试里,拥有Ada Lovalace架构的RTX 40系列显卡在算力上也有出色的性能表现。 

articleImageLoading.gif

游戏性能测试

相信不少玩家一定十分关注这张显卡的游戏性能,我们也好奇影驰RTX 4060金属大师作为一款定位1080P级别的游戏显卡,究竟能够带来怎样的体验。

不得不说,1080P对这张显卡来说有点简单了,不少游戏都能稳定运行在100 FPS以上,像《战争机器5》《孤岛惊魂6》这样优化比较好的游戏,不开任何DLSS加成,它也能接近130 FPS。如果有DLSS 2的介入,像《F1 22》这样的3A大作,对硬件要求较高的游戏帧数也能达到120 FPS以上。

articleImageLoading.gif

对比起前代的RTX 3060,拥有新架构、新技术的影驰RTX 4060金属大师更是优势尽显,不少游戏帧数都是前者的1.2倍以上,并且不要忘记,这还是一张TDP只有115W的显卡,性能加量功耗不加价,这才是甜品级显卡应有的表现。

当然我们也对2K分辨率进行测试,在这个分辨率下,一众游戏依旧有60 FPS左右的表现,如果你玩的是像《古墓丽影:暗影》这类的老3A大作,优化效果更明显,这张显卡能在2K分辨率下跑出127FPS的超高成绩。

articleImageLoading.gif

你不要以为这张定位1080P的显卡没办法畅玩2K,其实它一点都不弱,不少游戏在RTX 3060下没办法稳定游玩,但你换上影驰RTX 4060金属大师就不一样了,性能领先16%之多,2K畅玩3A大作,游戏玩家的性价比显卡。

DLSS 3性能测试

要说RTX 40系上最大的进步是什么,笔者觉得DLSS 3应该占有一席之地。DLSS早在RTX 20系显卡就已经发布了,其主要是让显卡在不影响画面质量的情况下提升游戏性能,目前DLSS已经更新至3.0版本,相比前代,新增帧生成和NVIDIA Reflex技术,据老黄所说,用上DLSS 3后可以实现游戏性能的翻倍提升。

articleImageLoading.gif

3DMark DLSS 3理论性能测试

甜品级的影驰RTX 4060金属大师在吃上DLSS 3这样的黑科技后,实力提升那也是相当出彩,2K分辨率下,开关DLSS 3性能差距能够达到2.8倍以上,帧数稳定在77 FPS以上,4K分辨率更是不得了,开关前后差距足足有4倍,不过从理论测试来看影驰RTX 4060金属大师的4K游戏能力还有待加强,49 FPS的表现不足以流畅4K,因此想要体验4K游戏的玩家建议选择70级别甚至80级别的显卡。

articleImageLoading.gif

游戏实测

实测肯定也少不了,现在支持DLSS 3的游戏已经上升至50+款,因此我们也选用了一些热门游戏尽显详细测试。在国产FPS游戏《光明记忆:无限》中,影驰RTX 4060金属大师开启DLSS 3后对RTX 3060简直是降维打击,1080P分辨率下比RTX 3060高出60多 FPS。另外整个游戏过程中,影驰RTX 4060金属大师的功耗仅115W,而隔壁的RTX 3060 基本在160W徘徊。用更低的功耗实现了更强的性能!这点不得不说老黄确实厉害。

articleImageLoading.gif

1080P DLSS性能测试

如果说DLSS 2只是让影驰RTX 4060金属大师展现了50%实力,那DLSS 3的加持下,影驰RTX 4060金属大师就可以说100%的满血释放。1080P画质下,大部分游戏都能稳定在120+ FPS以上,甚至不乏有些游戏已经去到了160 FPS以上。这个表现对比RTX 3060,那只能用爆杀形容,如果对比RTX 4060 Ti,性能差距也没有很夸张,整体表现还是相当不错的。

articleImageLoading.gif

我们也使用影驰RTX 4060金属大师在DLSS 2和DLSS 3两种模式下测试了多款游戏,从实测结果来看,DLSS 3确实有点东西,不少游戏的帧数都有明显提升,像《赛博朋克2077》这款游戏,影驰RTX 4060金属大师在DLSS 2下游戏帧数为83 FPS,而开启DLSS 3后,游戏帧数达到了惊人的128 FPS,不愧是定位1080P的高帧游戏显卡!

articleImageLoading.gif

更让人惊喜的是开启DLSS 3后,游戏的1% Low帧也有提升,这也意味着你在玩游戏时更稳定更丝滑。并且实测延迟也没有增长很多,老黄在发布会上吹的DLSS 3真的不错,实用性很强。

1440P DLSS性能测试

虽然NVIDIA将RTX 4060定位为一张1080P级别的显卡,但其实它的实力远不止1080P,它在DLSS 3的加持下,2K游戏也有不小的提升,随随便便跑个100+FPS不成问题,甚至不少游戏在DLSS 3的加持下2K可以飙到120 FPS以上,所以完全不用担心它的性能表现。

articleImageLoading.gif

RTX VSR测试

如果说DLSS给游戏体验带来质的飞跃,那RTX VSR技术就称得上是视频版的DLSS,这是NVIDIA在前段时间带来的RTX Video Super Resolution 视频超分辨率技术(RTX VSR),通过AI技术即可提高浏览器内的视频的分辨率,展现前所未有的显示效果。

articleImageLoading.gif

今天我们也用影驰RTX 4060金属大师测试这项划时代的RTX VSR技术。使用相当简单,在RTX 30系和RTX 40系的NVIDIA控制面板中找到视频图像设置,手动开启RTX Video enhancement即可启用RTX VSR技术,其中分为1-4档调节,数字越大质量越好。

articleImageLoading.gif

实测环节,可以看到在开启RTX VSR技术之后,原视频里的人物线条由原本的模糊不清变得十分清晰锐利,甚至部分细节已经超越原生1080P了,并且低画质的视频也有不少噪点,在开启VSR 4档后,噪点几乎消失。

articleImageLoading.gif

从左往右依次为:原生480P、VSR 1x、VSR 4x、原生1080P

除此之外,由于是AI智能提升分辨率的缘故,字体在原生的480P视频中有些发虚,甚至字体边缘可以看到毛边,不过有了VSR的加持后,字体锐利可见,完全不输原生1080P的效果,不得不说VSR确实有点东西。

articleImageLoading.gif

从左往右依次为:原生480P、VSR 1x、VSR 4x、原生1080P

这里我们也给大家准备了对比视频,从视频里就可以看到VSR的效果之明显,最高级别的VSR 4跟原生480P相比就是一眼的区别,在开启RTX VSR技术后,部分图像质量有了显著提高,不仅锯齿和噪点几乎全部消失,颜色过渡也更为平滑,目前VSR能有这种表现堪称惊艳。

从左往右依次为:原生480P、VSR 1x、VSR 4x、原生1080P

当然你除了在浏览器能够使用这项功能外,本地浏览器也能享受黑科技的魅力,VLC是目前首个支持RTX VSR技术的本地播放器,且能够支持多种视频格式播放,你硬盘里的老视频也能拥有清晰画质了!

articleImageLoading.gif

我们将本地的480P画质视频进行RTX VSR 4档渲染,从画面上看,开启了VSR技术后,右侧的渲染视频确实比左侧原生的视频要清晰许多,并且肉眼可见噪点的减少,观感上要明显好于原生的480P视频。

如果你想知道本地VSR的效果,这里也有视频可以看到二者的差距,确实能够明显看出有VSR的加持后,不少细节重新清晰可见,对一些低分辨率视频确实有提升。

左:本地原生480P 中:VSR 4x 右:本地原生1080P

有玩家可能担心功耗的问题,这里我们也进行了实测,在VSR开启最高档4档的情况下,影驰RTX 4060金属大师的功耗仅有30W左右,显卡利用率也远没有网络上传得那么高。 

articleImageLoading.gif

总的来说,影驰RTX 4060金属大师上的RTX VSR技术将为玩家和视频观看者带来革命性的新体验!无论是性能上还是技术上的创新,都称得上是流媒体时代的革命!

创作性能测试

聊完了游戏就该聊聊显卡的另一大用处——生产力。不过生产力分为创作生产力与专业生产力两部分,这里我们选择PugetBench、PCMark 10、Blender等多款常见的测试软件,来测试影驰RTX 4060 金属大师在日常办公、视频内容生产、专业渲染等方面的性能表现。

老样子,先看看PCMark10 Extended项目上各显卡的性能表现如何,可以看到影驰RTX 4060 金属大师在游戏这个子项目上与前代的RTX 3060拉开了差距,并且领先幅度约为20%左右,这与我们上面的游戏实测相符。要对比RTX 4060 Ti的话,其实也没有弱多少,差距仅在15%以内。

articleImageLoading.gif

看完理论性能就该试试实际表现了,这里我们用PugetBench模拟大家使用Adobe、DaVinci等创作软件的情况。实测下来,Adobe由于对性能要求不高,差距不算明显,但Davinci就不一样了,作为首批支持AV1的软件,影驰RTX 4060金属大师有着巨大优势,毕竟目前只有RTX 40系显卡中的双NVIDIA编码器的能提供AV1的编解码,这也是前代显卡无论如何也无法逾越的一道鸿沟。

articleImageLoading.gif

再看看渲染方面的表现,在N卡常用的Blender和V-Ray渲染软件中,影驰RTX 4060金属大师相比RTX 3060有40%的性能提升,表现也是相当出色,不得不夸一句,RTX 40系的性能果然不让人失望。

articleImageLoading.gif

在其他工业软件OC渲染器中,影驰RTX 4060金属大师的宰制依旧在持续,性能完全碾压前代RTX 3060,20-27%的性能提升足以让你的效率更进一步,如果你也想感受RTX 40系带来的专业性能提升,不妨考虑一下这张性能与性价比并驾齐驱的影驰RTX 4060金属大师,它一定是你的不二之选。

articleImageLoading.gif

articleImageLoading.gif

NVIDIA编码器测试

RTX 40系显卡还有一项黑科技可以帮助你提升创作性能,影驰RTX 4060金属大师内置了NVIDIA编码器,它支持时下热门的AV1编码,作为下一代主流的视频编码技术有着自己独特的优势,更快的编码速度和更高质量的流媒体传输性能,让越来越多的剪辑软件和视频网站青睐于它,像我们熟悉的达芬奇、剪映、B站等已经支持AV1编解码,未来AV1将会成为一个新趋势。

articleImageLoading.gif

我们使用NVIDIA提供的8K片源与工程文件分别测试AV1格式和H.265格式下的编码时间。实测同一段素材下,同样使用H.265编码,有NVIDIA编码器的加持下,影驰RTX 4060 金属大师的效率比RTX 3060快一些,如果使用AV1编码,那RTX 3060就更没法比了,毕竟它还不支持AV1的编解码。

articleImageLoading.gif

当然我们上面也提到AV1编码不止导出速度更快,它的文件占用空间也比H.265要小,无论是4K分辨率还是8K分辨率,使用AV1编码后,文件整体大小能够降低25%以上,并且肉眼下几乎没有画质区别,单凭AV1的这些优点,未来将会是AV1的天下,现在装备一张影驰RTX 4060金属大师即可感受最新技术带来的优势。

articleImageLoading.gif

AI能力测试

“AI的iPhone时刻已来”这是老黄在GTC大会上说的,不过老黄确实没有说错,现在AI已经深入方方面面,每天都有各式各样的AI工具面世,像ChatGPT、AI绘画、AI换脸等新技术不断冲击着我们的生活,AI的魅力可谓无处不在,恰好借着AI这股东风,带大家见识一下RTX 40系显卡在AI方面的表现。

articleImageLoading.gif

先用达芬奇AI ACCELERATED MAGIC MASK测试一下影驰RTX 4060金属大师的AI算力吧,同样的项目,使用RTX 3060需要28秒,RTX 4060 Ti需要21秒,而影驰RTX 4060金属大师刚好卡在中间,25秒的成绩表现不错,你可能觉得两三秒的差距不大,其实这也是因为我们的项目复杂程度不高,如果项目复杂,那就是10-15%的效率提升了。

articleImageLoading.gif

AI的作用有很多,AI提升分辨率不仅能在视频中使用,图片也可以!在另一款AI应用软件ON1 Resize AI 2023中,使用AI将多张图片提升200%分辨率,此时影驰RTX 4060 金属大师的速度为16秒一张,而上代的RTX 3060为18秒,对比自家的RTX 4060 Ti 12秒一张的速度,差距其实不大。 

再看看时下热门的AI绘画吧,在Stable Diffusion中,这张换装ADA架构的影驰RTX 4060金属大师显卡更是当仁不让,按照NVIDIA提供的描述生成小房子,实际速度方面,影驰RTX 4060金属大师每分钟可以生成4.72张图,作为对比,上代的RTX 3060则是每分钟4.19张,可见架构革新确实能够带来不小的性能提升,换用新的RTX 40系显卡也能让你在AI时代乘风破浪。

articleImageLoading.gif

功耗与发热

别看RTX 4060是一张60级别的显卡,但影驰还是给它配备了不错的散热,大家在显卡拆解部分也见到了,确实唬人。下面就让我们一起看看这个超规格的寒光星散热系统能否带给我们新的惊喜。

articleImageLoading.gif

在室温25℃的情况下,使用Furmark单烤近30分钟后,影驰RTX 4060金属大师的GPU核心运行在2325MHz以上的高频,但此时核心温度仅有60.8℃,这意味着什么?意味着它可能比你使用的CPU还要低温!如果是待机温度,那这代显卡的温度更是惊人,GPU在待机下只有36.2℃,现在知道这个散热系统的强势之处了吧。

articleImageLoading.gif

当然发热不大也不完全是散热系统的功耗,TSMC 4N工艺也是一大工程,两者强强联合,可以说把功耗与噪音控制提升到了一个新的阶段,烤机半小时,最高功耗仅有125W,大部分时间保持在105W左右,而待机功耗仅15W,这个水平真的强得难以相信。

articleImageLoading.gif

进一步探索这张影驰RTX 4060金属大师的功耗表现,我们还利用HWINFO64软件与FrameView软件双重记录多款显卡的功耗表现情况,从图中可以看到影驰RTX 4060 金属大师整体功耗控制相当出色,在所有测试场景内近乎都是维持在115W左右!

articleImageLoading.gif

不得不说,老黄的RTX 40系真的给足了玩家惊喜,得益于Ada Lovelace架构和TSMC的4N工艺双管齐下,影驰RTX 4060金属大师在性能释放、功耗控制、温度表现等都是完胜的存在。

超频潜力测试

最后就是各位玩家喜闻乐见的超频测试了,毕竟影驰RTX 4060金属大师可以去到130W的最大功耗,比公版多了15W,这么看还是有些超频能力的。

开始超频前,先回顾一下这张显卡的默认状态性能,其Time Spy得分为10592分,GPU核心频率跑在2700MHz上下。

articleImageLoading.gif

先给核心小加100MHz频率,此时TimeSpy中的显卡得分已经开始上升了,达到了10876分,核心有效频率也到了2820MHz。

articleImageLoading.gif

为了看看影驰RTX 4060金属大师的超频潜力,我们继续加码,最终将GPU核心频率增加了280MHz,此时这张显卡在TimeSpy测试中刚好能够跑到3000MHz,显卡得分也达到了11192分,相比默频几乎暴涨1000分,可见这款显卡的性能与潜力还不错。

articleImageLoading.gif

评测总结

测试进行到这里,就进入了尾声了。从RTX 4090一路测试到RTX 4060,不得不说,老黄的RTX 40系显卡是成功的一代,此次甜品级RTX 4060的降临无疑是给广大游戏玩家一个更优的选择。全新的Ada Lovelace架构、黑科技DLSS 3、RTX VSR等创新技术的应用让这款中端显卡成功晋级最香甜品卡,相比起它的前作20系与30系兄弟们更是有着无可比拟的优势。

articleImageLoading.gif

而这次上手体验的影驰GeForce RTX 4060金属大师更是惊艳,硬朗而又极简的设计风格深得我心,方正的设计让它无论从哪个角度看去,都拥有最佳的颜值。而在散热方面,它也实现了比公版更优的效果。不过最受震撼的还要属它的性能,原以为1080P定位的它在性能上会有限制,没想到2K分辨率下依旧强势,再加上 DLSS 3 的加持,不少3A大作也能丝滑流畅,不愧RTX 40系显卡之名。

articleImageLoading.gif

最后就是大家都关心的售价了,如果你也想以超高的性价比体验RTX 40系显卡的黑科技,那这款集颜值与性能于一身的影驰GeForce RTX 4060 金属大师一定是最优的选择。对比前作RTX 3060,它不仅性能暴增,还有出色的功耗控制,相比同代的RTX 4060 Ti,更高的性价比毫无疑问就是它最大的优势。目前影驰GeForce RTX 4060 金属大师已经上市,具体价格请留意明天的电商动态,除此之外,还有影驰RTX 4060 大将与影驰RTX 4060 星曜即将上市,感兴趣的不妨了解一下。

Ada Lovelace架构讲解

Turing、Ampere上两代架构核心均以人物来命名,前者是计算机科学之父——艾伦·麦席森·图灵;后者则是“电学中的牛顿”——安德烈·玛丽·安培,电流的国际单位安培就是以其姓氏命名。那Ada Lovelace定非凡人,度娘一下果然,这是 人称“数字女王”的阿达·洛芙莱斯,编写了历史上首款电脑程序,是被世界公认的第一位计算机程序员,果真是一代比一代还要更牛。PS:她的父亲是《唐璜》的作者,诗人拜伦。

articleImageLoading.gif

从Turing架构开始,NVIDIA首次在显卡中加入了加速光线追踪的RT Core单元,以及面向AI推理的Tensor Core单元,这革命性的创新使实时光线追踪成为可能。而Ampere架构则是全面的架构改进,在加入新一代的二代RT Core和三代Tensor Core基础上,还有着更先进的SM单元设计,这样显卡工作效率那是翻倍的提升。而来到Ada Lovelace架构,同时是以效率提升为大前提,自然是引入了最新的第三代 RT Cores与第四代 Tensor Cores单元,同时加入众多新颖的黑科技,从执行效率来说Ada Lovelace架构是上代Ampere架构的2倍以上,甚至光线追踪能力更是达到了恐怖的4倍性能。

全新的SM流式多处理器

articleImageLoading.gif

Ada Lovelace架构中最大的亮点之一:全新的SM流式多处理器,每个SM包含了128个CUDA核心、1个第三代的RT Cores、4个第四代 Tensor Cores(张量核心)、4个Texture Units(纹理单元)、256 KB Register File(寄存器堆),以及128 KB L1 数据缓存/共享内存子系统,于是这一个全新的SM单元有着超过上一代2倍之的性能表现。

articleImageLoading.gif

过去的Turing架构INT32 计算单元与FP32数量是一致的,而两者相加才组成了64个CUDA核心。但是Ampere架构开始,左侧的计算单元实现了FP32+INT32的计算单元并发执行,也就是说CUDA核心数量翻倍到了128个。

再来看看Ada Lovelace架构的SM,FP32/INT32的计算单元组合,同样实现了每个SM内含128个CUDA的设计,本次的主角GeForce RTX 4060拥有24个SM,3072个CUDA核心,跟上一代的RTX 3060 相比,虽然CUDA核心有所缩减,但得益于新架构的优势,性能完全可以说是遥遥领先。

articleImageLoading.gif

另外缓存方面Ada Lovelace架构也进行了大规格的提升,首先每个SM单元中单独配上了128 KB的缓存,其次核心的二级缓存进行进行了重新的设计,使得RTX 4060 配备了24MB二级缓存,相比RTX 3060和RTX 2060可怜的4MB二级缓存,可以说是质的飞跃,足足提升了6倍之多。 

技术讲解:第三代 RTX Cores与第四代 Tensor Cores

articleImageLoading.gif

以为刚才的CUDA数量与超大L2缓存就已经很猛了,实现上Ada Lovelace架构最大的提升还是在第三代 RTX Cores与第四代 Tensor Cores身上。

第三代 RTX Cores

articleImageLoading.gif

RTX Cores用于光线追踪加速,第三代 RTX Cores 的有效光线追踪计算能力达到 191 TFLOPS,是上一代产品 2.8 倍。

articleImageLoading.gif

在Ampere架构中,第二代RT Cores支持边界交叉测试(Box Intersection testing)和三角形交叉测试(Triangle Intersection testing),用于加速BVH遍历和执行射线三角交叉测试计算,虽然光线追踪处理能力已经比初代的Turing架构核心更高效,但是随着环境和物体的几何复杂性持续增加,传统的处理方式很难再以更高效率、正确反应出的现实世界中的光线,尤其是光的运动准确性。

所以在第三代 RTX Cores增加了两个重要硬件单元:Opacity Micromap Engine与Displaced Micro-Meshes Engine引擎。Opacity Micromap Engine,主要是用于alpha通道的加速,可以将 alpha 测试几何体的光线追踪速度提高2倍。

articleImageLoading.gif

在传统光栅渲染中,开发人员使用一些 Alpha 通道的素材来实现更高效的画面渲染,例如 Alpha 通道的叶子或火焰等复杂形状的物体。但在光线追踪时代,这传统的做法会为光线追踪带为不少无效的计算,例如运动性的光线多次通过一块叶子,光线每击中一次叶子,都会调用一次着色器来确定如何处理相交,这时就会做成严重的执行成本与时间等待成本。

articleImageLoading.gif

而Opacity Micromap Engine用于直接解析具有非不透明度光线交集的不透明度状态

三角形。根据Alpha 通道的不透明,透明与未知等三个不同的块状态进行处理:透明则直接忽略继续找下一个,不透明块则记录并告之命中,而未知的则交给着色器来确定如何处理,这样GPU很大部分都不需要进行着色器的调试处理,能够实现更为高效的性能。

Displaced Micro-Meshes Engine

articleImageLoading.gif

如果说Opacity Micromap Engine加速的是面处理,那么Displaced Micro-Meshes Engine就是几何曲面细节的加速器。如上图所示,在Ada Lovelace架构中,通过1个基底三角形+位移地图,就可以创建出一个高度详细的几何网格,所需要资源占用比二代RTX Cores更低,效率也更高。

articleImageLoading.gif

通过NVIDIA给出的创建14:1珊瑚蟹例子来说事,这里我们需要需要1.7万个微网格、160万个微三角形,在Ada Lovelace架构中BVH创建速度可加快7.6倍,存储空间缩小8.1倍。Displaced Micro-Meshes Engine起到了关键性的作用,其将一个几何物体根据不同细节分成密度不一的微网络处理,红色密度超高,细节处理越为复杂 。相应的低密度微网络区域则可以释放更多的资源与存储空间,这样Displaced Micro-Meshes Engine就可以帮助BVH加速过程,减少构建时间和存储成本。

articleImageLoading.gif

同时Ada Lovelace架构SM中新增了着色器执行重排序(Shader Execution Reordering,SER),这是由于光线追踪不再只有强光或者阴影渲染处理,未来将会更多的是在光线的运动性,这样光线就会变得越来越复杂,想要第三代 RTX Cores与第四代 Tensor Cores有着更高的执行效率,那就得为他们来安排一位管家。而着色器执行重排序(SER)就是为了能够即时重新安排着色器负载来提高执行效率,为光线追踪提供2倍的加速,也能更好地利用 GPU 资源。不过目前仍未有实例,想实现这个功能,还得游戏与开发工具的支持才行。

第四代 Tensor Cores

articleImageLoading.gif

Tensor Cores是专门为执行张量/矩阵运算而设计的专用执行单元,这些运算是深度学习中使用的核心计算功能。第四代Tensor Cores新增FP8引擎,具有高达1.32 petaflops 的张量处理性能,超过上一代的5倍。

技术讲解:DLSS 3

或者说第四代Tensor Cores太硬核你不会知道是啥?提升意义在哪?但是Tensor Cores最经典的应用DLSS你肯定会知道,这一次Ada Lovelace架构支持NVIDIA最新的DLSS 3技术。

之前我们也聊过DLSS技术,其设计之初是为了弥补光线追踪技术后的性能损失,具体的表现为开启光线追踪技术后游戏帧数大幅度的下降,甚至很难保证游戏流畅的运行。于是DLSS使用低分辨率内容作为输入并运用AI技术输出高分辨率帧,从而提升光线追踪的性能。

articleImageLoading.gif

在DLSS 3中包含了三项技术:DLSS帧生成、DLSS超分辨率(也称为DLSS 2)和NVIDIA Reflex。你可以理解为DLSS 3是在DLSS 2的基础上,新增了DLSS帧生成技术;而后两技术中,DLSS超分辨率只需要GeForce RTX显卡都能使用上,NVIDIA Reflex则是GeForce 900 系列以后的显卡都用使用上。

articleImageLoading.gif

想实现DLSS帧生成可不简单,这需要配合上Ada Lovelace架构的GeForce RTX 40系列显卡才行。DLSS帧生成技术原理是:利用AI技术生成更多帧,以此提升性能。DLSS会借助 GeForce RTX 40系列GPU所搭载的全新光流加速器分析连续帧和运动数据,进而创建其他高质量帧,同时不会影响图像质量和响应速度。

articleImageLoading.gif

从Ampere架构开始,NVIDIA显卡就已经支持了光流加速器,而Ada Lovelace架构的光流加速器升级到了第二代,其提供了高达300 TeraOPS (TOPS) ,比安培架构的初代光流加速器(Optical Flow Acceleration,OFA)快2倍以上。为了实现DLSS帧生成,OFA扮演了重要的角色,其配合上新的运行矢量分析算法在DLSS 3技术框架内实现精确和高性能的帧生成能力。 

articleImageLoading.gif

另外,由于DLSS帧生成是在GPU上作为后处理执行的,那么即使在游戏受到CPU性能限制的时候,我们同样能够从中获得更好的游戏性能提升。尤其是那种物理计算密集型的游戏或大型场景游戏,DLSS 2均可以让GeForce RTX 40系列显卡以高达两倍于CPU可计算的性能来渲染游戏。

最后由于DLSS 3是建立在DLSS 2基础之上的,游戏开发者可以在已支持DLSS 2或NVIDIA Streamline的现有游戏中快速集成该功能,所以DLSS 3已在游戏生态得到广泛应用,目前已有超过35款游戏和应用即将支持该技术。

阅读小亮点:NVIDIA Reflex

NVIDIA Reflex也是DLSS 3其中的一环,它可以使GPU和CPU同步,确保最佳响应速度和低系统延迟。

articleImageLoading.gif

想要实现端对端的最低延迟,你需要确保游戏、显示器以及鼠标三者都同时支持并开启了Reflex 技术。

articleImageLoading.gif

当GeForce RTX 40系列显卡和NVIDIA Reflex搭配上后,直接达到1440p分辨率360 FPS的体验,这着实是性能有点强劲了。

articleImageLoading.gif

在GTC2022大会时已经透露将会还有4 款 1440p 分辨率的新型 G-SYNC 电竞显示器将要发布,包括采用mini-LED技术的AOC AG274QGM – AGON PRO Mini LED、MSI MEG 271Q Mini LED 和 ViewSonic XG272G-2K Mini LED三款显示器刷新率均为300Hz,而最猛的是ASUS ROG Swift 360 Hz PG27AQN ,刷新率直接来到了360Hz。

但唯一一个问题就在于,部分显示器厂商认为此类产品受众人群较少,会降低此类显示器的产能,甚至产品就已经被内部PASS掉,所以1440p 360Hz是很美好,但现实也是相当的骨感。

技术讲解:NVIDIA 编码器

articleImageLoading.gif

GeForce RTX 40系列显卡还有一个全新的升级,那就是编码器NVENC。第八代的NVENC编码器不仅支持H.264与H.265,还支持开放式视频编码格式 AV1。

articleImageLoading.gif

而由于AV1是一种免版税的视频编码格式,上游软件厂商与下游戏的配套端都在大力推广此编码格式,我们也会看到越来越多的硬件与软件支持AV1格式,包括剪映专业版、DaVinci Resolve、以及Adobe Premiere Pro较为流行的Voukoder插件均支持,且均可通过编码预设使用双编码器,这样我们等待视频导出的时间缩短将近一半。

articleImageLoading.gif

不单是视频制作软件,AV1格式也将会是主播、游戏直播UP主们的新宠儿,在保证画面最高质量的情况下,AV1 编码器可将效率提高 40%,同时显卡的占用也更低。包括OBS Studio一代软件中也会增加AV1格式的支持。另外我们还能通过 GeForce Experience 和 OBS Studio 录制高达 8K60 的内容,这样我们做游戏录制也会变得更为轻松。

articleImageLoading.gif

包括我们上面测试时使用的游戏内录视频都是支持AV1格式,同时编码器NVENC在资源占用和适配上做得越来越好。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK