NVIDIA在9月20日正式发布了游戏玩家翘首以盼的GeForce RTX 4090 GPU,配备了第四代Tensor Cores和第三代RT Cores,AI性能和光追性能相对上代可提升2~4倍,并支持全新的DLSS 3技术,8K分辨率下流畅运行光追游戏大作也是其一大亮点。作为NVIDIA重要合作伙伴,技嘉也在第一时间推出了基于RTX 4090 GPU的旗舰显卡产品,而GeForce RTX 4090 GAMING OC 24G魔鹰更是率先抵达了我们的测评室。那么RTX 4090为何如此强大?其采用的全新NVIDIA Ada Lovelace GPU架构到底有哪些进化?且看我们全面的解析与测评。
NVIDIA Ada Lovelace架构带来革命性进化
Ada Lovelace(1815~1852)是一位英国数学家、计算机程序创始人,被称为世界上第一位程序员,那么,以她名字命名的NVIDIA Ada Lovelace GPU架构到底带来了怎样的革命性升级呢?
工艺领先,GPU规模与频率全面提升
完整的Ada AD102 GPU包含了12个GPC、共计18432个CUDA单元、144个RT Cores(第三代)、576个Tensor Cores(第四代)以及576个纹理单元,晶体管数量高达760亿个,远远超过了NVIDIA Ampere的280亿个。在Ada GPU的1个GPC中,包含了6个TPC、每个TPC包含1个多边形引擎和两个SM单元,每个SM单元包含128个CUDA单元、1个第三代RT Core和4个第四代Tensor Core。
得益于定制的TSMC 4N制造工艺,NVIDIA Ada Lovelace GPU架构规模达到了空前的强大,同时在工作频率方面也有了巨大的提升。以当前RTX 40中的旗舰GeForce RTX 4090为例,它包含了11个GPC、共计16384个CUDA单元、128个RT Cores(第三代)、512个Tensor Cores(第四代)以及512个纹理单元 ,默认加速频率为2520MHz,已经远远超过了上代RTX 3090 Ti的1860MHz,而在游戏中甚至还能更高。总而言之,规模和频率的全面提升,为NVIDIA Ada Lovelace GPU架构强悍的性能打下了坚实的物理基础。
Shader Executing Reordering(SER)着色器执行重排序
从NVIDIA官方数据来看,NVIDIA Ada Lovelace GPU架构的着色器数据吞吐量最高可达90 TFlops(GeForce RTX 4090为83 TFLOPS),而上代NVIDIA Amere大约为40 TFLOPS,这当然与新一代GPU规模大幅提升不无关系。
不过,除了规模暴增之外,NVIDIA Ada Lovelace GPU架构还有一项进化就是支持Shader Executing Reordering(SER)着色器执行重排序。我们知道,GPU在完成大量类似工作的时候效率最高,而随着游戏中光追效果越来越复杂,着色器面临的可能就是大量发散的、无序的低效率工作任务,从而影响了渲染效率。SER技术的出现,就可以把这些杂乱的工作任务进行分类,动态重组为更高效的任务,从而提升着色器的执行效率。从NVIDIA官方数据来看,SER技术大约会带来2倍的着色器性能提升,而在《赛博朋克2077》这样的光追游戏实测中,SER也大约带来了44%的帧率提升。
第三代RT Cores
从RTX 20到RTX 30再到RTX 40,RT Cores当然也进化到了第三代。简单地从有效光线追踪计算能力来看,NVIDIA Ada Lovelace GPU架构的第三代RT Cores吞吐量达到了191 TFLOPS,是上一代的2.8倍之多。
另外,我们知道NVIDIA Turing和Ampere GPU中的RT Core包括了用于加速边界体积层次(BVH)数据结构遍历的加速单元,并执行射线三角形和光线边界框相交测试计算。Ampere的RT Cores中,BVH遍历由Box Intersection Engine进行加速,射线三角形相交测试由三角形相交引擎进行加速,这已经被证明是迄今为止处理光追工作负载最高效的引擎。而在Ada GPU的第三代RT Cores中,除了以上两个功能外,还引入了称为“微映射透明度引擎”(OMM)和“微网格置换引擎”(DMM)。
微映射透明度引擎的作用是优化光纤追踪渲染,大幅降低着色器的工作负载,这对于处理复杂物体光追特性来讲提升是很大的。具体的原理是将光线追踪特性烘焙到不透明的蒙版中,让那些不规则的形状与半透明的对象都能更快更精准地被渲染出来。
微网格置换引擎则可以将面数非常多的复杂图形做简化,创造出更加简单的模型,从而实现用基本三角形渲染复杂几何图形的目的,大大减少了计算量和对显存的占用。从官方数据来看,微网格置换引擎可以让光线追踪的BVH速度最多提升15倍以上,而显存占用最多可降低到原先的1/20,总之就是越复杂的模型,微网格置换引擎的优化效果越突出。
第四代Tensor Cores
在Ada GPU上,Tensor Cores已经进化到了第四代,而这次Tensor Cores的升级尤其重磅。它配备了全新的FP8引擎,张量处理性能高达1.32 PetaFlops(相对上代提升了五倍之多)——注意单位是以千万亿计的PetaFlops,而之前我们用的是以万亿计的TFlops。当然,第四代Tensor Cores最具革命性的进步还得属全新加入的光流加速器(Optical Flow Accelerator),而它就是NVIDIA DLSS3黑科技的核心所在,后面的DLSS3章节会详细介绍。
DLSS3
DLSS技术大家并不陌生,作为RTX系列显卡提升画质与帧率的专用黑科技,到RTX 40这一代则直接从之前的2.3版进化到了3.0版,跨度之大证明其改进是革命性的,NVIDIA官方甚至称其代表了“神经网络渲染新时代”。
和之前的DLSS不同,DLSS3在原有的超分辨率功能基础上进一步引入了光学多帧生成技术,简单来说就是可以通过AI计算生成新的帧,而不像之前那样只是生成像素。而这个帧生成的工作,是由在第四代Tensor Cores中加入的光流加速器来完成,当然这就意味着DLSS3中的“帧生成”功能是RTX 40独享的。光流加速器可以在DLSS2的基础上计算两帧之间的光流场,捕捉游戏画面中从第1帧到第2帧之间变化的方向与速度,包含粒子、光线照射、反射等像素信息,通过计算运动矢量和光流来精确重建画面。简单来说,DLSS2做的是通过AI计算出画面上剩余的像素,而DLSS3则在此基础上还能计算出下一帧完整的画面,这样算下来DLSS3等于是完全重建了实际显示画面7/8的像素,也可以说是重建了相当于实际渲染像素7倍的像素。此外,由于DLSS3的“帧生成”在GPU中进行,所以即便是CPU性能出现瓶颈,也能提升游戏帧率。
按照官方数据,DLSS3最多可带来4倍的游戏性能提升,让8K与全景光追游戏成为了现实。DLSS3包含了“光学多帧生成技术”、“超级分辨率”和“NVIDIA Reflex”三大部分,开发者只要整合DLSS3,就可默认支持DLSS2。目前DLSS3已经得到了游戏开发者与游戏引擎的支持,超过35款游戏和应用都将支持该技术,首批游戏与应用将在10月内推出。
NVIDIA Studio优化
在生产力方面,NVIDIA GPU必然是设计师们优先考虑的高效工具,而RTX 40系列在NVIDIA Studio方面的优化配合NVIDIA Studio驱动也将会为内容创作者们提供更加出色的选择。总的来说,目前RTX 可以加速 110 多款主流创意应用,此外,SDK的提供使这些应用更加高效,并提供独家的功能,例如Optix、DLSS和Maxine。NVIDIA Studio 还提供了全套创意应用,包括 NVIDIA Omniverse、Broadcast、Canvas 和 RTX Remix。
AV1与AI直播
我们知道AV1相比H.264等编码方式可以在同码率下提供更加清晰的视频画面,而且AV1还支持一些更先进的编码特性,例如HDR与低延迟。RTX 40的编码器(显存12GB以上的RTX 40系列甚至还提供了双NVENC编码器)提供了对AV1硬件编码的支持,而OBS和Discord等推流软件都将在不久之后提供对NVENC AV1的支持,让玩家享受到更加精美而流畅的直播视频画面。解码方面,RTX 40的NVENC也继承了RTX 30上的第5代硬件解码器,支持MPEG-2、VC-1、H.264(AVCHD)、H.265(HEVC)、VP8/9以及AV1的硬件解码。AI直播部分,NVIDIA为Broadcast应用带来了3个全新AI特效:改进的虚拟背景、眼球接触(让你看起来像是在看摄像头)和表情评估,而开发者可以很容易地在自己的APP中集成NVIDIA Broadcast的这些功能。
加速内容创作
前面已经介绍过,在配备12GB显存及以上型号的RTX 40 GPU中内置了第八代双编码器,因此在视频导出速度方面有了巨大的提升。从图中可以看到,RTX 4090相对RTX 3090 Ti的视频转码时间缩短了一半多,大大提升了工作效率。DaVinci Resolve、voukoder和剪映都将首发提供对RTX 40双编码器的支持。此外,RTX 40在AI视频工具中也大幅提升了效率,例如DaVinci Resolve AI Magic Mask中,RTX 4090的处理速度就是RTX 3090 Ti的1.7倍。此外,得益于RTX 40系列的第三代 RT Cores、SER、DLSS 3 和 NVIDIA Omniverse,3D 设计师也可以在 4K/60fps 下进行创作,而无需代理,工作效率大大提升。游戏发烧友和开发者也可以通过Modder直接重制画面增强的经典游戏,并通过RTX Remix添加RTX效果。
总的来说,全新TSMC 4N工艺打造的NVIDIA Ada Lovelace GPU在架构、频率与能效比方面带来了巨大的升级,提供了相对上代数倍的性能,全新的RT Cores、Tensor Cores设计、光流加速器加持的DLSS3技术等等都堪称革命性的进步。它不但为玩家带来了速度与画面双绝的光追游戏体验(甚至直接进入了8K游戏的时代),更是为内容创意设计者们带来了极致高效的生产力利器,称得上是GPU发展史上又一个里程碑式的存在。
史无前例的压迫感!RTX 4090魔鹰霸气登场
作为新一代的旗舰,技嘉GeForce RTX 4090 GAMING OC 24G魔鹰(以下简称RTX 4090魔鹰)光是外观就让人感受到了极致的压迫感,配备3.5槽散热器的它尺寸达到了340mm×150.2mm×75.2mm,堪称显卡中的“巨无霸”,如此硕大的散热器也证明了RTX 4090的实力空前强大。
RTX 4090魔鹰配备了家族独有的风之力散热系统,拥有3个110mm风扇,配备纳米石墨烯润滑油、支持3D启停、正逆转设计,散热器的均热板直触GPU,搭载10根复合式热管并提供进气格栅,有效提升显卡散热效率,充分保证RTX 4090 GPU稳定发挥狂野性能。
显卡配备经过造型强化的全尺寸金属背板,边缘弯曲的设计大幅增强了整体架构的强度,完美保证了超重显卡的抗物理变形能力。配合显卡附带的支架,在立式机箱中使用毫无后顾之忧。
为了满足玩家的不同需求,显卡还提供了双BIOS模式,玩家可以一键切换性能强悍的OC模式或噪声更低的静音模式。辅助供电部分,除了标配新的16pin供电接口之外(显卡附送16Pin转8Pin×4电源线,传统电源也能用),还搭载了供电指示灯,在供电异常时会闪烁,帮助玩家快速排除故障。
个性化部分,显卡搭载了技嘉独有的RGB FUSION灯效系统,3风扇上配备的RGB灯在旋转时的“三环灯效-RGB幻彩光轮”尤其抢眼,并且还能与支持RGB FUSION的其它配件实现灯效联动,打造酷炫的灯效MOD主机。
接口部分,显卡搭载了3个DP 1.4和1个HDMI 2.1接口,最多可支持4屏输出,充分满足玩家连接多显示设备的需求。
综合来看,RTX 4090魔鹰无论是供电、散热还是个性化设计都达到了目前顶级旗舰的水平,是终极发烧玩家尝鲜RTX 4090的不错选择。接下来就进入大家最为关注的实战测试部分吧!
RTX 4090光追性能暴增,DLSS3强到不可思议
测试平台
显卡:技嘉GeForce RTX 4090 GAMING OC 24G魔鹰
技嘉GeForc绝地求生辅助卡盟网站e RTX 3090 Ti GAMING OC 24G魔鹰
处理器:酷睿i9 12900K
主板:技嘉Z690 AORUS MASTER
内存:技嘉AORUS DDR5 6000 16GB×2
硬盘:技嘉AORUS NVMe Gen4钛雕 2TB
电源:技嘉UD1000GM PG5
操作系统:Windows 11专业版
实战性能测试
基准性能测试部分,RTX 4090相对RTX 3090 Ti的提升非常夸张。代表DX11性能的FireStike测试中,领先幅度最高超过了80%,而且随着分辨率越高,领先幅度越大,可见除GPU之外的子系统在RTX 4090强大的性能面前已经逐渐出现了瓶颈效应。DX12部分,RTX 4090的领先幅度也接近80%。DXR光追部分,RTX 4090已经领先RTX 3090 Ti超过一倍了,毕竟128个第三代光追单元对上84个第二代光追单元,优势不言而喻,当然,在PortRoyal中,RTX 4090也领先了80%以上。
游戏实测部分,对于RTX 4090这种旗舰显卡来讲,使用1080P分辨率对GPU的压力太小,只会凸显出处理器等子系统的瓶颈,因此我们只在2K和4K分辨率下测试。首先是2K测试部分,13款游戏中,有11款的提升都很明显,而《毁灭战士:永恒》的优势甚至达到了58%以上。《CS:GO》《魔兽世界:暗影国度》这样的网络游戏对于GPU的压力不足,显然无法发挥出RTX 4090的威力,处理器的性能在这里也成为了瓶颈。综合下来,2K分辨率下RTX 4090相对RTX 3090 Ti的平均优势大约为130%出头。很明显,2K分辨率的压力在RTX 4090面前显得太弱了,GPU受制于处理器等子系统的限制根本无法全力施展。因此我们来看看4K分辨率下的情况。
随着分辨率提升到4K,RTX 4090的性能优势就越来越明显了。在《杀手3》中,RTX 4090甚至领先RTX 3090 Ti超过80%之多,而且这次连《魔兽世界:暗影国度》这类严重受制于处理器瓶颈的游戏,也在RTX 4090强悍性能加持下获得了28%以上的帧率提升。综合下来,RTX 4090的4K游戏平均帧率领先RTX 3090 Ti大约154%,不过很显然普通的4K游戏也没有完全压榨出RTX 4090的真正实力,GPU压力还是不够。那么,接下来就该光追游戏上场了!
对于需求极致光追画面和超高电竞级帧率的玩家来讲,2K分辨率是个相对平衡的设置,对RTX 4090这样的GPU来讲压力也只是中等。从测试情况来看,除了个别游戏提升较小之外,其他游戏基本上都相对RTX 3090 Ti提升了50%以上,最高可提升80%以上。综合下来平均提升幅度大约为57%,也是非常可观的。当然,这还不够,让我们看看4K光追最极致的压榨吧!
4K光追游戏部分,我们还加入了DLSS的测试,RTX 4090拥有更多的第四代Tensor Cores,正好可以一展身手。果然,在4K 极致光追的超高负荷压榨之下,RTX 4090相对RTX 3090 Ti的优势再次得到提升。在《F1 2022》《消逝的光芒2》中,RTX 4090真的实现了接近R卡盟吃鸡辅助TX 3090 Ti两倍的性能!其他不少游戏中,RTX 4090也保持了70%~80%的优势,综合下来不管是DLSS开启还是关闭,RTX 4090的平均优势都保持在170%左右。同时,我们也可以看到开启DLSS后,RTX 4090在很多游戏中都实现了巨大的性能提升,让4K极致光追游戏也能运行在超过100fps甚至是200fps的流畅帧率上。
总而言之,就目前热门游戏的情况来看,只有在4K极致光追画质设置下,才能尽量发挥出RTX 4090的强悍性能,而且从测试游戏的帧率来看,玩家真的非常有必要给RTX 4090配上一台4K/144Hz的电竞显示器了。
前面的技术解析部分已经介绍过,RTX 40系列还新增了光流加速器,配合同时发布的DLSS3技术可以通过AI计算生成完整的画面帧,从而大幅提升帧率和降低帧延迟。目前已经有35款游戏和应用宣布即将支持DLSS3技术,而本次测试我们选用了其中的几款测试版。在支持DLSS3的游戏中都提供了DLSS超分辨率、帧生成、NVIDIA Reflex的开关选项,这其实就是DLSS3的三个组成部分,而关闭帧生成则等效于使用DLSS2。
从测试结果可以看到,《赛博朋克2077》中,有了DLSS3的帧生成加持,同样在4K DLSS性能模式下,RTX 4090的平均帧率甚至超过了RTX 3090 Ti的2.3倍!《逆水寒》的DLSS3测试版更为夸张,专为DLSS3打造的测试副本光追效果直逼电影画面,对GPU的压力堪称变态,就连RTX 4090在4K无DLSS的设置下也只有17fps,开启DLSS3性能模式后,帧率直接提升了接近4倍达到了84fps,而没有光流加速器的RTX 3090 Ti在4K DLSS性能模式下只有25fps,RTX 4090足足领先了236%!由此可见,游戏中光追特效越多越复杂,DLSS3带来的性能提升幅度越大,因此要面对未来的全景光追游戏大作,拥有光流加速器支持DLSS3的RTX 40系列显然是必备之物。《Lyra》对于显卡的压力相对较小,而在开启DLSS3和帧生成之后,RTX 4090相对RTX 3090 Ti也有最多约65%的帧率优势。3DMark也发布了一个支持DLSS3的内部测试版,可以看到,RTX 4090在开启DLSS3后帧率暴增200%,相对DLSS2加持的RTX 3090 Ti也领先了117%,可见RTX 40系列加入的光流加速器确实是个非常厉害的设计。
我们还简单比较了一下DLSS3加持的游戏画质。从图中可以看到,经过AI机器学习,目前DLSS对于画质的优化已经非常出色了,就算是注重性能的DLSS性能模式,画面的锐利程度和细节甚至都好于关闭DLSS的原生画面(注意看车尾灯的纹理),这也是为什么NVIDIA也推荐大家在4K分辨率下选择DLSS3性能模式的原因,确实做到了画质与高帧率兼得。
对于设计师用户来讲,NVIDIA Studio那可是太熟悉了,那么拥有24GB超大显存的RTX 4090作为生产力工具又有多强呢?我们选择了主流的3D渲染工具和视频剪辑软件来进行实测。从测试结果可以看到,RTX 4090相对RTX 3090 Ti的渲染性能几乎就是成倍的增长,多数项目都有80%~100%的性能提升。而视频转码部分,由于RTX 4090有双编码器加持,剪映中的转码速度几乎都是RTX 3090 Ti的两倍。此外,RTX 4090还提供了AV1编码支持,而RTX 3090 Ti没有对应的硬件编码器当然也就不能支持了。
总而言之,对于3D设计师或者视频特效与剪辑工作者来讲,从RTX 3090 Ti升级到RTX 4090基本上就等于获得了高出一倍的处理效率,显然是非常值得的。
功耗温度与超频测试
RTX 40系列采用了TSMC 4N制造工艺,频率和能效都相对上代大幅提升,这也让它的GPU频率非常有望提升到3 GHz以上。当然,技嘉RTX 4090魔鹰也搭载了强悍的10热管3风扇3.5槽散热器,目的就是要让RTX 4090能够稳定释放功率、发挥性能。从GPU-Z信息来看,RTX 4090魔鹰默认GPU加速频率为2535 MHz(游戏中最高可达2775 MHz),功率墙还可以向上调节33.3%,可见提升空间还很大。
FurMark实际考机频率为2745 MHz,默认考机功率最高441W,GPU温度最高63.1℃,结温71.9℃,散热的表现也比较不错。既然散热器这么强悍、功率上限那么高,我们当然要试一下超频。通过反复尝试,在不调节电压的情况下,RTX 4090魔鹰的GPU频率成功突破3 GHz大关,3DMark中实测频率可达3015 MHz,此时TGP也冲到了500W以上,FireStrike Ultra分数从默认频率的25082提升到了26527,而工作温度也不过是稍有上升,可见其供电和散热设计确实完全能HOLD住RTX 4090这颗怪兽级GPU。
总结:享受光追游戏终极神器,RTX 4090魔鹰就是至尊之选
全新打造的NVIDIA Ada Lovelace GPU架构为RTX 40系列带来了革命性的进步,除了从TSMC 4N工艺获得的超大芯片规模与高频率增益之外,第三代RT Cores和第四代Tensor Cores也大放异彩,特别是全新加入的光流加速器,让DLSS3技术的AI帧生成得以实现,从而大幅增加游戏帧率,最终带来2~4倍的光追游戏性能提升,让4K极致光追游戏以电竞级帧率流畅运行变得轻而易举,也让玩家可以从容应对未来画面更加真实的全景光追游戏与8K超极清游戏。此外,从前面的测试也可以看到,RTX 4090在3D渲染输出与视频剪辑方面相对上代也有成倍的性能增幅,对“时间就是金钱”的生产力应用来讲真的称得上是必买的顶级高效工具。
因此,对于追求极致游戏体验的发烧玩家和追求顶级效率的设计师用户来讲,RTX 4090毫无争议是当前最强的选择,追求一步到位更是必须入手。当然,在超公版RTX 4090中,技嘉RTX 4090魔鹰不但用料豪华、散热设计过硬,还拥有高达133.3%的功率释放空间,完全就是给DIY玩家、游戏发烧友和高性能用户量身订制的豪华旗舰,值得强烈推荐。