首页 >PC >正文

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

在 NVIDIA 最初的 RTX 4000 系列产品发布规划里,曾经有一款名为 GeForce RTX 4080 12GB 的产品,然而由于其规格 16GB 版的 RTX 4080 存在不少差距,以至于网上出现了很多不满将其命名 RTX 4080 的声音,NVIDIA 有见及此也很快做出了回应,表示收回 RTX 4080 12GB 的发布:

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

在这则官方公告中,NVIDIA 表示 RTX 4080 12GB 一款出色的显卡,但是其命名并不正确,市场上同时出现两片名为 RTX 4080 的 GPU 让人感到困惑,因此 NVIDIA 决定收回 RTX 4080 12GB 的发布。


显然,RTX 4080 12GB 的收回不代表产品彻底取消,如今它已经按照玩家们的要求重新命名为 GeForce RTX 4070 Ti 亮相,其规格和当初的 RTX 4080 12GB 相比没有任何削弱,而建议零售价方面则从之前 RTX 4080 12GB 时候的 7199 元调整为 6499 元起:

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

从规格表来看,RTX 4070 Ti 和 RTX 3090 Ti 在计算性能上高度接近,都是 40TFLOPS 的水平,RT-FLOPS 4070 Ti 因为具备第三代光线追踪内核的缘故,要高出大约 19%,不过 RTX 4070 Ti 在内存总线上因为只有 192-bit 的缘故,所以带宽方面只有 RTX 3090 Ti 的一半。


不仅于此,RTX 4070 Ti 的内存容量只有 12GiB,这意味着是跑大内存应用的话,例如AI 大模型训练,4070 Ti 会存在先天不足,当然,RTX 4070 Ti 从一开始定位就是一片游戏卡而已,12GB 内存足以符合其高性能游戏卡的定位。

作为第三代 RTX GPU,GeForce RTX 4070 Ti 采用的 AD104 GPU 基于 Ada Lovelace 微架构,和之前的 Ampere、Turning 相比,拥有三大架构优势。

更强的计算性能

Ada Lovelace 的着色器单元、张量内核单元、光线追踪内核单元都做了提升。


其中着色器单元引入了名为 SER(着色器重排序),能在运行过程中对着色器指令和访存模板进行调度重排序,能让光线追踪达至两倍性能。

张量计算内核引入了 FP8 数据格式硬件支持,RTX 4070 Ti 能提供高达 641 FP8 TFLOPS 稀疏 AI 推断性能,和 FP16 相比,FP8 的数据存储需求减半,而性能则是倍升了。

第三代光线追踪内核(RT Core)的三角形求交性能达到 93 RT-FLOPS,相当于 3070 Ti 的两倍或者说 RTX 3090 Ti 的 1.19 倍,具备 OMME(透明度微图引擎)和 DMME(位移式微型网面引擎),前者可以实现对阿尔法混合对象的光线追踪加速处理(两倍性能),后者可以实现对丰富细节表面的光线追踪加速,OMME、DMME 和 SER 构成了 Ada 架构光线追踪加速的三大巧劲。

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

上图体现了 Ampere 和 Ada 架构在处理枝叶时候的光线追踪 Anyhit 处理区域对比,其中的黄色部分就是涉及到需要执行 Anyhit 光线追踪着色器处理的区域,Anyhit 用于射线击中三角形时候的判断处理,目前都是由通用着色器执行。


大家可以看到,在 Ada 架构上,由于引入了 Opacity Micro-Map 技术,可以显著减少 Anyhit 计算数量。

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

上图体现的是 Ada 架构采用 Displaced Micro-Mesh 技术前后的对比,左边的带网面图是一个 17.5 万个独立微型网面的模型,右边则是经过 Displaced Micro-Mesh 处理后,成为一个 5700 万微型三角形的模型,这个 Displaced Micro-Mesh 的每个微型三角形只需要占用 4 bit 的空间。


Displaced Micro-Mesh 是在 GPU 内硬件执行的功能,不仅能大幅度提升模型表面细节度,而且显著降低光线追踪加速数据结构 BVH 的构建时间和存储开销。

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

SER 的全称是着色器执行重排序,它的作用是对非连贯射线的着色器程序和访存模板进行重排序,让着色器程序执行和访存顺序获得最大优化,显著缩减复杂场景中光线追踪的执行时间片。

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

我使用 Nsight Graphics 在游戏 Portal with RTX 中进行特性采集获得的轨迹图,采集时候的设置为 3840X2160 关闭 DLSS,上下的图片分别是关闭 SER 和打开 SER 的特性轨迹,可以看到,关闭 SER 时候的 TraceRay1 时间片长度是 22.54 毫秒,而启用 SER 后,TraceRay 的时间片长度缩短到 13.33 毫秒,这意味着在游戏中单独以光线追踪而言,SER 的改善幅度可以达到 41%,渲染整帧画面而言则是从 77.34 毫秒缩短到 68.05 毫秒,提升了大约 12% 的帧率。


值得一提的是,启用 SER 后,L2 Cache 的吞吐量能达到其峰值的 54.2%,而在关闭 SER 时候 L2 Cache 的吞吐量只能达到其峰值的 24.6%,这说明 SER 在改善复杂光线追踪应用时候的访存性能。

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

上图是 UE5 中执行路径跟踪渲染(或者说完全光线追踪)的场景,使用 SER 技术后路径跟踪的性能提升了 40%。


RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

Opacity Micro-Map、Displaced Micro-Mesh、SER 作为 Ada 架构中的光线追踪巧劲特性,都需要额外的代码,NVIDIA 较早前已经提供了基于 NVAPI 的 SER 支持,而在最近的 Vulkan 扩展更新中,也提供了 SER 的 NVIDIA 厂商支持,Opacity Micro-Map 则是直接以 Vulkan 官方扩展的方式提供(顺带一提的是,AMD 和 Intel 也对 OMM 的 Vulkan 扩展提供了贡献)。


RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

目前已知的支持 NVIDIA SER 程序包括了 Portal RTX、Racer RTX(见上图),NVIDIA 版的 UE5 目前也提供了该技术的支持,我个人目前对 RTX Racer最为期待,和同样是完全光线追踪的 Portal RTX 相比,Racer RTX 在体现当代电脑游戏视觉艺术成就方面更有看头,可惜的是这个游戏并没能在原定的 2022 年 11 月提供下载。


关于第四代张量内核,这次新引入的 FP8 数据格式(其实包括了 E5M2 和 E4M3 两种格式)主要用于部分 AI加速。NVIDIA、ARM、INTEL 在 2022 年 9 月共同发表的论文《FP8 FORMATS FOR DEEP LEARNING》得出了如下的结论:

我们证明,在使用相同的模型、优化器和训练超参数下,用于图像和语言任务的各种神经网络模型可以使用 FP8进行训练,达到与16位训练会话相匹配的模型精度。使用FP8不仅可以加速和减少训练所需的资源,而且通过使用相同的数据类型进行训练和推理,简化了8位推理部署。在FP8之前,8 位推理需要对浮点训练的int8模型进行校准或微调,这增加了部署过程的复杂性,在某些情况下无法保持精度。

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

按照 NVIDIA 在 Hopper GPU 上运行 MLPerf Inference 2.1 测试,FP8 能在不损失精度的情况下,在 BERT 高精度模型上实现 4.5 倍的性能,NVIDIA、ARM 和 Intel 都在共同推动将 FP8 数据格式提交至 IEEE 标准协会成为工业标准,预期将会成为 AI 计算的重要数据格式。


基于硬件实现的 DLSS 3 帧率升频

NVIDIA 在 Turing 架构 GPU 上开始引入 DLSS 支持,虽然 DLSS 1 实现存在需要定制网络模型参数、画质较差的问题,但是到了 DLSS 1.9 和 DLSS 2.0 之后,DLSS 实现了通用网络参数以及显著提升的画质,实用性大为提高,尤其是光线追踪游戏启用了 DLSS 后,帧率显著提升,基本接近纯光栅时候的性能,如果是和启用 TAA 的光栅渲染画面相比,光线追踪 + DLSS 2 的纹理清晰度也好很多。

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

到了 Ada 架构后,NVIDIA 引入了第三代 DLSS——DLSS 3。DLSS 3 可以看作是 DLSS 2 + 光流插帧升频 + Reflex 三个技术的合体,能在两张 DLSS 2 画面之间插入一帧光流计算出来的画面,提升画面流畅度,同时为了改善插帧导致的额外时延,DLSS 3 引入了较早之前已经发布的 Reflex 低时延技术,可以将渲染指令直接传达至 GPU 从而改善光流插帧时候的时延问题。


DLSS 3 的主要作用是在系统时延可以接受的情况下,提升 CPU 成为瓶颈时候的画面流畅度,例如《漫威蜘蛛侠:重制版》,在 2560x1440 光线追踪的情况下,DLSS 2 后的帧率已经提升到 100 FPS 级别,已经受制于 CPU 性能,此时引入 DLSS3 插帧后,可以将帧率一下子提升 80%,此时画面的流畅性会有会有较大的改善,而系统时延只是略微增加,玩家依然可以获得迅捷的游戏响应。

目前已经可以玩的 DLSS 3 游戏如下:

A Plague Tale: Requiem

Bright Memory: Infinite

Dakar Desert Rally

Destroy All Humans! 2 - Reprobed

F1 22

FIST: Forged In Shadow Torch

Jurassic World Evolution 2

Justice

Loopmancer

Marvel’s Spider-Man: Miles Morales

Marvel's Spider-Man Remastered

Microsoft Flight Simulator

Need For Speed Unbound

Portal with RTX

Super People

The Witcher 3: Wild Hunt

Warhammer 40,000: Darktide

WRC Generations

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

上面两张图片是巫师三猎物次世代版中启用最高画质后,分别 DLSS + 关闭插帧和 DLSS + 打开插帧的对比(游戏有模拟天气光线变化的功能,所以两张图片的亮度并不完全一致)。


正整装待发的 DLSS 3 游戏则更多了:

Atomic Heart

Black Myth: Wukong

Chernobylite

Conqueror's Blade

Cyberpunk 2077

Deliver Us Mars

Dying Light 2

Hitman 3

Hogwarts Legacy

Icarus

Marauders

Midnight Ghost Hunt

Mount & Blade II: Bannerlord

Naraka: Bladepoint

Perish

Ripout

STALKER 2: Heart of Chornobyl

Scathe

Sword and Fairy 7

Synced

The Lord of the Rings: Gollum

Throne and Liberty

Tower of Fantasy

游戏引擎方面,UE 4、UE5,Unity 以及 Frostbite Engine 都已经实现了的 DLSS 3 支持,可以预期采用这些游戏引擎的新游戏都将有机会提供 DLSS 3 支持。

DLSS 3 插帧画面会有一些小瑕疵,但是由于这类瑕疵一般是高速移动才会出现,对人类来说相当于运动模糊的状况,在真实游戏中难以识别,也就逐帧截图对比才会判断出来。

对于视频应用,GeForce RTX 4070 Ti 同样具备双视频编码器,编码速度比上一代提升了一倍,除了传统的 H.264、H.265 外,GeForce RTX 4070 Ti 也提供了 AV1 视频编码支持,为需要 AV1 的用户提供了更多的选择。

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

相对于 AMD RDNA3 的视频编码器,NVIDIA Ada 视频编码器在速度上会略慢一点,但是 NVIDIA Ada 在画质方面即使是用最快模式也要比 AMD RDNA 3 最高画质模式好很多,这意味着同样的码率下,Ada 能提供更出色的画质,又或者是同样的画质下实现更低的网络直播带宽需求。

产品实物——七彩虹 GeForce RTX 4070 Ti 战斧豪华版

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

在七彩虹的显卡产品规划中,系列名称分为 iGamer、战斧、镭风、七彩虹、Colorful、网驰等,这次的战斧 GeForce RTX 4070 Ti 豪华版被定义为硬核玩家利器、内容创作者生产力工具,外观上采用了红黑配色,走的低调奢华设计路线,方正的外壳轮廓主要是希望带来力量感。

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

战斧 GeForce RTX 4070 Ti 豪华版具备金属加强背板,后侧部分采取了镂空设计,这个设计有点类似于 NVIDIA RTX 旗舰显卡的散热设计,好处是借助机箱内风道将显卡散热器尾部的热流推到机箱上侧,对于许多电脑游戏,搭配旗舰级的 CPU 耗电一般不会超过 200 瓦,此时机箱上侧风道一般都是有足够余量用于协助 GPU 散热的。

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

供电电路采用了 12VHPWR,随包装提供了一条双 8-pin 转 12VHPWR 的转接线,需要注意的是,这种新式接头需要完全插进后才能保证连接牢固,不然可能会有过热融化的情况发生。

产品实物——七彩虹 iGamer GeForce RTX 4070 Ti Ultra W OC

除了上面的战斧豪华版外,这次我还收到了另一片同样来自七彩虹的 iGamer GeForce RTX 4070 Ti Ultra W OC,这片卡更偏向追求个性的高性能游戏玩家,外观设计方面采用了波普风复古艺术设计语言更显大气,散热器外壳正面的颜色会随着角度变化。

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

规格就是 GeForce RTX 4070 Ti 的标准规格,拥有 7680 个 CUDA Core,标示的 boost 频率为 2610,在实际游戏中只要当前功耗低于 285 瓦的总图形功耗(Total Graphics Power),GPU 频率就会依照 BIOS 内建的电压/频率曲线继续爬升。

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

上图就是从 MSI Afterburner 中抓取的 iGamer GeForce RTX 4070 Ti Ultra W OC 未按下一键超频按钮时候的电压/频率曲线。


当按下一键超频按钮并重启机器后,显卡就会调用超频版 BIOS:

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

可以看到,此时的基频和加速频率从之前的 2310MHz/2610MHz 提升到了 2339MHz/2774 MHz。

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

此时的电压/频率也会有所抬升,但是最高频率依然维持在 2970MHz,这意味着在一键超频 BIOS 下,同样电压下,能跑的频率可以更高,属于一种降压超频技术。


我会在后面提供七彩虹 GeForce RTX Ultra W OC 的温度、功耗以及超频测试结果。

测试平台介绍

很高兴,这次我终于更新平台,包括 CPU、主板、内存、显示器、机箱都全面升级了,之前用 5800X + DELL 2410 组合的瓶颈不再存在了。

CPU:Intel Core i9-13900K,内核降压 -0.1v

主板:七彩虹 CVN Z790 GAMING FROZEN V20,BIOS 1006,属于七彩虹的旗舰级主板,支持 4 PCIE 4.0 M.2 SSD、5V ARGB、12V ARGB、无线 WIFI 等同级别主板的特性,不过该主板在搭配 RTX 40 系显卡和 AOC PD32M 的时候,进入 Windows 后会黑屏,需要手动重新插拔信号线,估计是主板 BIOS 原因,希望七彩虹能尽快更新 BIOS。

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

内存:七彩虹 CVN RGB 6000 16GBx2,启用 XMP 3.0 后手动设置频率为 6400MT/s,内存电压 1.35V,CL36,估计还可以发掘更多的超频空间。

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

电源:鑫谷 GM10000W 冰山版 ATX 3.0 版,提供原生 PCIE 5.0 12VHPWR 600W 显卡供电,全模组化设计,具备 80 Plus 金牌认证,是一台非常不错的 RTX 显卡电源,运行 RTX 4090 和 13900K 有足够的余量。

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

机箱:鑫谷昆仑·御风机箱(白色),支持 360 一体水冷,提供了前置 USB-C 支持,四面镂空设计,最多可以安装多达 8 只以上的 12cm 风扇,支持显卡垂直安装附件。

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

散热器:鑫谷冰封 360 ARGB 冰山版一体式水冷散热器,支持 280 瓦散热功耗,在鑫谷的一体水冷产品线中属于次旗舰级别。

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

硬盘:浦科特 M10P 1TB


RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

显示器:爱攻&保时捷联名定制二代 PD32M miniLED 31.5 英寸,刷新率设置为 120Hz,部分游戏会调用刷新率至 144Hz,是目前 AOC 的顶级显示器,颜值和实力都相当出众。

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

为了便于大家对比,我这里放上测试平台的 Aida64 内存测试数据供大家参考:

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

这个平台的测试数据还是相当理想的(完全比得上之前我在 ASUS Prime Z790-P 录得的测试结果),而且因为这枚 13900K 可以 -0.1v 满血运行(能过 y-cruncher 压力测试),结合现在 360 水冷以及多达 6 只 12cm 机箱风扇通力协作,完全不用担心 CPU 或者显卡过热降频导致测试结果不稳定的问题。

底层测试

通用计算性能

首先测试的是 GPU 的通用计算性能,涉及到诸如 FMA、加法、减法、乘法、除法、求余、求倒数、反平方根等指令,涉及的数据格式包括了 FP16、FP32、FP64、INT8、INT16、INT32、INT64。我在这里使用的是 Nemes 编写的 gpuperftest 1.0.0-119 内部版,采用的 API 是 Vulkan。

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

从测试结果来看,GeForce RTX 4070 Ti 的通用算术性能基本上是 GeForce RTX 4080 的 80%,是 GeForce RTX 3080 Ti 的 110%,或者说 RTX 3070 Ti 的 179%。


接下来让我们看看通用计算的耗电以及能耗比测试结果。

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

从板卡耗电来看,七彩虹 GeForce RTX 4070 Ti 的耗电是 NVIDIA GeForce RTX 3080 Ti 的 58%,而 GPU 芯片级耗电方面七彩虹 GeForce RTX 4070 Ti 的耗电是 NVIDIA GeForce RTX 3080 Ti 的 80%,这中间的差距应该是因为 GeForce RTX 4070 Ti 具备多达 48 MiB 的 L2 高速缓存,节省了大量访存操作,从而降低了访存所需的耗电,反映到板卡级别上就形成了如此的差别。


和 RTX 3070 Ti 相比,RTX 4070 Ti 的板卡级耗电大约是前者的 90%,而芯片级耗电是前者的 129%,同样是因为 L2 Cache 的差别让 RTX 4070 Ti 在板卡级耗电上更出色。

光线追踪性能

为了探测 GeForce RTX 4080 的光线追踪底层性能,我这次使用 Matt Pettineo 的 DXR Patht Tracer 进行了简单的对比,测试条件是每像素 16 射线、8 次反弹、32 光源,并且启用了若干常见的渲染效果:


RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

这是一个很简单的场景,但是请注意,我们测试的是一个路径跟踪器,性能和取样数、光照路径长度有较大关系。

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

前面我们说过,常见的光线追踪渲染实现方式是指从摄像机方向发射射线穿过屏幕像素直到击中场景中某个三角形,这一步被称作求交,在完成求交计算后,光线渲染程序中的 anyhit 代码会根据击中点的属性确定是否产生衍生射线以及选择相应的后续计算。


由于会产生多次的衍生射线碰撞,光线追踪需要进行大量简单而重复的求交测试计算,所以求交测试模块是光线追踪加速单元的最主要组成部分,我们在这里的底层测试就是为了探测出 GPU进行一定特效处理的情况下每秒可以进行的射线求交能力。

从测试结果来看,GeForce RTX 4070 Ti 的光线追踪可以做到每秒 20.8 G 射线求交,相当于 RTX 4080 的 2/3,或者说略高于 RTX 3080 Ti,是 RTX 3070 Ti 的 1.7 倍左右(RTX 4080 vs 3080 Ti 刚好也是 1.7 倍左右)。

访存性能


RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

访存测试结果符合官方规格,GeForce RTX 4070 Ti 的 L2 Cache 带宽是 2.8 TB/s 左右,略微低于 RTX 3080 Ti 的 2.95TB/s,但是前者的 L2 Cache 带宽下落于 48MiB,而 RTX 3080 Ti 的 L2 Cache 在 6MiB 左右就发生了下坠,符合两者的 L2 Cache 特性。


RTX 4070 Ti 因为具备更高的时钟频率,所以它的 L1、L2 Cache 时延表现要比 RTX 3080 Ti 更好,L2 Cache 处的时延差距大约是 30%,基本就是两者的频率差别。

游戏性能测试

虽然 NVIDIA 对于 RTX 4070 Ti 对比测试推荐的分辨率是 2560x1440 级别,但是我这次还是加入了 3840x2160 的对比结果。


测试的游戏基本上都是最新版本,不过 Cyberpunk 2077 这次依然是 1.60 内部测试版,因为目前只有这个版本提供了 DLSS 3 支持,我估计支持 DLSS 3 的版本可能很快就要推出了,届时不仅仅是 DLSS 3,还会有 Overdrive 模式光线追踪,支持多次反弹实现更逼真的反射倒影效果,我是很期待的。

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

从整体来看,GeForce RTX 4070 Ti 的游戏性能基本在 RTX 3080 Ti 的 90% 到 130% 区间为主,其中 100% 到 130% 的分布区有 44 个测试子项目,占了所有游戏测试子项目的 69%,更快的子项目主要体现在 RTX 4070 Ti 由于具备插帧的优势上,具备 120% 以上的优势子项目数量是 19 个,占比是 30% 左右。


游戏温度、耗电、超频测试


这里我使用 Cyberpunk 2077 2560x1440 进行对比测试,首先看看游戏温度和耗电测试结果:

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

大家可以看到,七彩虹 GeForce RTX 4070 Ti 的温度是 56 摄氏度,功耗为 209 瓦,而上一代的 RTX 3080 Ti FE 公版温度是 74 摄氏度,功耗为 338 瓦,前者分别是后者的 76% 和 62%.


七彩虹 RTX 4070 TI 的能耗比也非常出色,达到每 10 瓦 7.69 fps,而 RTX 3080 Ti 是 2.68 fps,或者说 七彩虹 RTX 4070 TI 在此时的性能耗电比是 RTX 3080 Ti 的 2.87 倍。对于超频测试,我使用了 MSI Afterburner 的 OC 扫描仪进行超频,得到的超频电压/频率曲线图下:

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

超频后大约提高了 2% 的性能,从实际游戏角度考虑,这个提升几乎可以忽略不计,考虑到这是 MSI Afterburner 超频扫描器是遵照相对保守的 NVAPI 模式获得的超频结果,倒也不意外。由于不同卡的体质不一样,大家买到卡后可以自己尝试一下,但是我建议还是尽量保守点为好,现在的显卡、CPU 能玩超频的空间实在不多。

通用计算性能测试——Blender Benchmark CLI

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

Blender 是一个开源免费三维设计软件,能够很好地支持 NVIDIA 光线追踪加速渲染支持,Blender Benchmarking 是基于该软件的一个独立渲染测试包,我在这里使用的是它的命令行版本。


RTX 4070 Ti 在 Monster 项目中达到了 RTX 3080 Ti 的 136% 性能,classroom 和 junkshop 分别是 122% 和 96.4%。

通用计算性能测试——V-Ray 5 Benchmark

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

V-Ray 是一个渲染器,支持 3DMax、Maya 等众多行业软件,而 V-Ray Benchmark 则是基于该渲染器的基准测试工具。


从测试结果来看,RTX 4070 Ti 的 RTX 和 CUDA 模式性能分别是 RTX 3080 Ti 的 108% 和 112%,差别没有 Blender 那么大。

通用计算性能测试——达芬奇 Resolve 18 场景遮罩生成


RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

视频编辑工作流程中非常重要的一个步骤就是调色,达芬奇 Resolve 在这方面提供了非常有好的支持,能支持调用 CUDA 进行 AI 遮罩生成跟踪处理。


这次使用的是达芬奇 Resolve 18.1.6,版本较之前测试的更新,测试结果来看,遮罩的生成时间比之前测试的结果大为缩短。

在这个测试中,RTX 4070 Ti 的 AI 遮罩生成时间和 RTX 3080 Ti 相当,都是 13 秒。

生产力应用实测——DaVinci Resolve


这里使用的是 Davinci Resolve Studio 18.1.6,该版本yijin1支持 NVENC AV1 编码导出,这里的测试工程文件里包含了一个 8K 30 和一个 4K 30 的 ProRes 422 HQ 格式文件:

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

从测试结果来看,RTX 4090 的双编码器的确做到了上一代的两倍性能,在 hevc 编码导出的时候,耗时基本是一半不到,对于需要经常进行视频编辑工作的用户来说,RTX 4000 系列的确可以显著提升生产力。

测试总结

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

作为第三款 Ada 架构显卡,GeForce RTX 4070 Ti 12GB 凭借更先进的制程和 DLSS 3 加持,提供了出色的性能耗电比,在 Cyberpunk 2077 中的每 10 瓦帧率达到了 RTX 3080 Ti 的 2.87 倍。


在复杂光线追踪游戏例如 Portal RTX 中,RTX 4070 Ti 在 DLSS 3 的加持下达到了 133 FPS(2560x1440),而 RTX 3080 Ti 由于缺乏插帧,在 DLSS 2 下的帧率为 72fps,此时 RTX 4070 Ti 接近 1.9 倍于 RTX 3080 Ti的性能,SER 在这其中发挥了一定的作用。

我相信 RTX 4070 Ti 出现这样的优势在未来会越来越多,例如 Cyberpunk 2077 Overdrive 模式、NVIDIA Racer RTX 等等,都很有机会让 RTX 4070 Ti 在光线追踪方面的蛮力性能+巧劲加持得到充分发挥。

在 RTX 4070 Ti 发布后,NVIDIA 的游戏产品线获得了重构:

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

很显然,对许多玩家来说,RTX 4000 还是比较贵的,但是目前这个阶段(RTX 3000 依然在售+新制程成本较高)下,这个价格布局似乎也是合理的,未来随着 RTX 3000 系退出市场,相信 RTX 4000 也会有更好的价格。


NVIDIA 向大家强调 RTX 4070 Ti 比 RTX 3090 Ti 更强,这是完全可能的,考虑到RTX 3080 Ti 性能基本上和 RTX 3090 相当,而 RTX 3090 Ti 不过比 RTX 3090 强大约 10%,根据我们前面的性能比值分布图来看,RTX 4070 Ti 依然会有相当多的游戏子项目比 RTX 3090 Ti 更快,当然,由于带宽的关系,RTX 3090 Ti 也能在有些游戏子项目中提供 10% 到 15% 左右的优势,但是不要忘记,现在全新的 RTX 3090 Ti 早就断供,用户如果需要 RTX 3090 Ti 级别的显卡,直接无脑买 RTX 4070 Ti 就行了。

RTX 3090 Ti 平替?七彩虹 RTX 4070 Ti 12 GB 测试

NVIDIA 新版 DLSS 3 将支持标记“易损”对象,显著改善画质

值得一提的是,NVIDIA 在财务上依然相当稳健,对于不买 NVIDIA 股票的玩家们来说这并非没有意义的,因为这意味着 NVIDIA 依然有充足的资源提供 RTX 4000 系列的研发再投入,例如更多的 DLSS 3 游戏、更多的复杂光线追踪特效游戏、更多的生产力应用支持,这些构成了 NVIDIA 显卡当下以及未来可见一段时间里的强大优势,这些护城河对 RTX 4000 系玩家来说相当有价值。

作者声明本文无利益相关,欢迎值友理性交流,和谐讨论~

网友评论

验证码 换一张
取 消
暂无评论...
三日内热门评论文章
为您推荐
  • 相关阅读
  • 业界资讯
  • 手机通讯
  • 电脑办公
  • 新奇数码
  • 软件游戏
  • 科学探索