今年GTC上,NVIDIA展示的GP100核心令人震惊,新工艺加新架构,使其核心集成度达到惊人的153亿晶体管规模,并启用了HBM2显存、NVLink总线等一系列先进技术。无论是计算效率还是规模,都堪称全球楷模。但如我们所预料的那样,由于这个架构主要针对行业用户开发,太过在意双精度计算能力,且成本不菲,而导致它在游戏应用中的效率、性价比并不那么出众,所以它暂时不会出现在桌面显卡上。那么问题来了,NVIDIA将拿什么来更新桌面显卡产品线,取代Maxwell架构的经典地位?NVIDIA给出的答案是GTX1080……
文/图《微型计算机》评测室
GTX1080何许人物?
熟悉NVIDIA显示核心的资深玩家应该对NVIDIA显示核心的命名习惯不陌生,通常每一代产品的顶级核心都被命名为Gx100/200整数,比如Maxwell架构时代的GM200(第二代Maxwell架构,所以是200而非100)对应GTX980Ti和GTXTITANX,由此可以推测GP100应该是这代基于Pascal架构的顶级核心。只不过近几年,受限于工艺更新速度、市场竞争状况等综合因素,NVIDIA在桌面产品迭代时,已经不再采用一步到位的策略。而是习惯先发布新系列的甜点级核心,依靠出色的能耗比、良品率、性价比等优势来迅速完成对老产品的取代。这类甜点核心一般都被命名为Gx104,就像Kepler架构时代GK104核心的GTX680,以及Maxwell架构时代的GM204核心的GTX980。它们都在性能上超越了上代架构的顶级显卡,所以在相当长一段时间内客串了“旗舰”的角色。而我们今天将要介绍的GTX1080就是一款使用了GP104核心的产品,在我们看来它也应该是一个即将客串一段时间旗舰的甜点产品。
最缺新技术的甜点?
和前几代产品顶级核心与甜点核心在技术、工艺、特性和底层架构设计上基本一致不同,这一代Pascal架构的产品有些特别。基于Pascal架构的顶级核心GP100已经用上了HBM2显存、NVLink总线等先进技术,而GP104核心却依旧是款使用GDDR显存的产品,而且没有高速连接的NVLink总线。在NVIDIA的角度,GDDR5X在GDDR5的基础上进一步优化了带宽性能和功耗,已经足以满足甜点产品的性能需求。而桌面应用对高速互联的需求应该远不及专业计算强烈,所以NVLink也非必需品,自然是能省就省,为玩家提供高性价比。但站在玩家的角度难免没有抱怨或疑惑,缺少高级技术是否会限制核心性能发挥?这样的GTX1080还能不能成功客串旗舰,带来让人足够信服的表现?
新架构加上新工艺给你足够信心!
其实抛开HBM2显存和NVLink总线这些外围技术,就GPU核心的工艺来说,GP104和顶级的GP100一样,都使用了台积电最新16nmFinFETPlus工艺制造。相比之前一直使用的28nm工艺,台积电宣称16nm工艺在同等功耗下性能可以提升40%,或者同等性能下功耗降低50%。在MC此前的GP100对比GM200核心的解析文章中,我们已经分析过,相比之前28nm的Maxwell架构,Pascal借助16nm工艺,在晶体管密度上实现了88%的巨大提升。实际上对比这几款核心的技术参数,玩家们会轻松发现GP104的晶体管数量逼近了上代顶级的GM200,但是核心面积却只有后者的约60%,新工艺功不可没。众所周知,半导体芯片的实力基础就是制造工艺,很多时候同代产品的竞争输赢就在工艺的优劣上。所以就这一点来说,GP104作为当前第一款基于16nm先进工艺制造的游戏GPU,相比自家的Maxwell和对手目前的产品,无疑具有先天优势。除了密度还有一个伴随工艺而来的优势—芯片工作频率,我们看到GP104的核心基础频率就已经高达1.61GHz,boost频率更是达到了1.73GHz。相比起竞争对手约1GHz左右的频率,或者自家上代Maxwell显卡1.1GHz左右的频率,GP104的频率提升幅度超过了40%,这足见新工艺的威力。
熟悉显卡的玩家都知道,同架构下,芯片频率基本与性能成线性正比关系,这也是玩家们超频追求高性能的直接原因。这意味着即使GP104的底层计算核心不做任何改变,在同计算规模下,它的性能也会是上代产品的1.4倍左右。这个提升幅度已经非常让人满意,但很显然,NVIDIA并不满足于此,因为GP104的核心架构改进相比Maxwell架构也是相当明显的。组织结构上保留了几代以来的GPU-GPCSMs的大框架,一个GP104核心内部有4个GPC模块,这个比例倒是和GTX980使用的GM204核心一样。不过当时每个GM204核心的GPC模块内只有4组SMs,每组SMs内设计了128个CUDA计算核心。与之相比,GP104的每组SMs具有的CUDA计算单元依旧是128个,但每个GPC模块内的SMs数量增加了一组达到5组。所以整体的CUDA单元数量就由GM204的2048个大幅提升到2560个,逼近了上代顶级产品GTX980Ti内含2816个CUDA的规模。
不过这里我们需要注意一个关键技术点,即CUDA核心的运算类型。若读者还记得我们之前的GP100技术介绍文章的话,当记得GP100的核心规模,达到3840(FP32CUDA)+1920(FP64CUDA),总计5760个CUDA的恐怖规模。在此,我们暂时不提GP104的计算核心规模与GP100的对比。先重点看FP32和FP64这两个描述,这是区分CUDA是计算单精度数据还是双精度数据的说法,但在GP104上NVIDIA并没有强调这种称谓,所以我们猜测GP104的所有CUDA都是针对单精度计算的FP32。因为对游戏应用而言,还没有双精度计算的用武之地,而双精度的FP64单元无论是晶体管占用还是功耗、发热量上都非常“可观”,所以NVIDIA完全没有必要为只针对游戏市场的显卡设计FP64单元来降低能耗比。也因为此,GP100和GP104核心的底层架构设计其实是差距悬殊的。GP100的GPU内部包含了6个GPC单元,每个GPC内集成了夸张的10组SMs模块。与之相比GP104的GPC减少到了4个,每个GPC内的SMs也腰斩到5组。更重要的是每个SMs模块内的CUDA单元设计差距明显,由于FP64单元无论是功耗还是晶体管消耗都比FP32高出许多,所以GP100的一个SMs内只配备了64个FP32CUDA加32个FP64CUDA,总CUDA数量其实只有92个。而GP104的每个SMs具备128个CUDA,数量多出1/3,非常适合密集图像处理的游戏计算,功耗控制也相对更容易。而功耗控制得力,也正是促成GP104核心能工作在1.7GHz高频的一大功臣。
GDDR5X并不是绣花枕头
说到GTX1080,想必不少高端玩家会觉得其没有搭配HBM显存是一大遗憾,毕竟竞争对手的上一代显卡就已经使用了这种技术。HBM1代就展示出了超高位宽的优势,HBM2更是弥补了容量上不足的缺陷,按理说已经非常成熟。但GTX1080却没有使用,这毫无疑问是基于产品成熟度之外的考虑,在我们看来无非两点:1是HMB2的成本、良率或者产能达不到需求;2是GTX1080还不需要这么高的带宽。看GTX1080的官方数据我们发现NVIDIA只为它设计了256bit的显存位宽,这是相当小的规模,甚至不及上代GM200的384bit。在计算规模相当、计算核心频率大幅提升后,GP104核心对显存的需求理论上是高于GM200的,不启用HMB2就不说了,怎么能在原来GM200的基础上不升反降?实际上NVIDIA重新设计了显存控制器,配合上PCB针对显存走线的优化,让GDDR5X的等效频率从GDDR5时代6000MHz左右的水平,突飞猛进到10000MHz。而且在显存压缩算法上,Pascal架构更加彻底,综合压缩率提高后节省了约20%左右的带宽。综上所述,在同位宽的情况下,GDDR5X在GP104上的带宽表现是GDDR5在GM200上的约1.7倍。所以仅256bit位宽GP104,拥有高达320GB/s的显存带宽,算上压缩优化,其等效性能理论上比拥有384bit位宽的GM200还强。不过考虑到计算规模接近,且计算效率的提升,整体计算能力上GP104是超过GM200的。所以我们依旧怀疑GTX1080的显存有可能存在性能瓶颈。而NVIDIA最终如此安排,肯定是考虑包括能耗比、性价比之后的综合决定,我们无法单独就此确定它的好坏,只能在之后的实际测试环节中去体会和进一步分析、验证。
不可小觑的渲染技术集群
几乎每一代新GPU架构发布时,NVIDIA都会伴随新架构更新诸多软件,或是底层开发相关的辅助工具,或者是高级的算法更新,总之都是为了更好地为图形计算服务。这次也不例外,总体来说依旧是创新加更新的方式,既有全新的内容,又有对过往技术的优化升级。
硬件多重投影引擎—SMP
VRWorks无疑是伴随这代Pascal架构而来的重点软件技术创新,其中有关图形渲染的重点则是SIMULTANEOUSMULTI-PROJECTION(简称SMP,硬件多重投影)。SMP可以让Pascal架构的GPU渲染基于16个不同角度的画面,并根据需求分别呈现。为了高效率地实现多角度画面同步投射,NVIDIA不仅更新了算法,还在Pascal架构GPU中集成了SMP硬件引擎模块,每组SMs一个,在GP104内就拥有20个之多。SMP究竟有什么用,需要NVIDIA在软、硬件上如此重视?这其实就是之前NVIDIA宣称GTX1080能强到GTX980Ti两倍的关键。而这还得从渲染应用说起。
在VR兴起之后,我们的图形渲染势必要从单一显示器画面向双眼画面各自呈现过渡。这其中涉及到画面切割、画面畸变、画面多角度投射的问题。NVIDIA优化了有关镜头畸变的算法,能够减少40%左右的无用(不会显示在头盔视野里)图形渲染。更重要的是,NVIDIA借助SMP,实现了SinglePassStereo这一重要功能。SPS能够让原本需要分别渲染的左右眼画面,简化到只需要渲染一个眼睛所见的画面,另一画面由SMP硬件单元通过特定的算法合成。此时,SMP具有硬件、软件协作的高效率开始发挥作用。多角度引擎,让另一角度画面的合成几乎不再额外消耗显卡计算资源。如此一来,在VR头显上输出同样的两幅画面,GP104的工作量低至一半,帧率自然可以大幅度提升,最高近2倍。当然,SMP的优势不仅如此,在对畸变的处理上也有裨益,能够降低多连屏或曲面屏用户面临的画面拉伸问题,可以根据需要,更真实地模拟人眼环视效果。
ACE终成正果?动态负载平衡(DYNAMICLOADBALANCING)
AMD和NVIDIA对于异步运算(AsynchronousCompute)的支持程度,曾在上一代架构上经引爆一场口水战。大意是说只有AMD架构支持硬件ACE,而NVIDIA的Maxwell架构对ACE不支持,至少支持是不完善的。尽管后来NVIDIA有辟谣称Maxwell是支持异步运算的,问题出在驱动上。但不论什么原因,在《奇点灰烬》、《杀手6》等支持异步运算的游戏中,基于Maxwell架构的显卡确实在DX12的性能表现上落后于AMD的GCN架构的。在Pascal架构上,NVIDIA宣称弥补了这个问题,并强调Pascal架构原生支持异步运算,包括基于GPU的物理加速、音频处理、渲染帧的后期处理以及VR中的异步时间扭曲算法中都可以用到异步运算。但NVIDIA并没有给出什么实际的测试数据来支撑,反倒是在动态负载平衡(DYNAMICLOADBALANCING)的原理上费了一番口舌。不得不说,新的动态平衡机制赋予了Pascal架构更灵活的处理能力,无论是图形渲染,还是计算相关的任务都能够互不影响。任务拆分、并行计算本就是异步运算的精髓,从这一点来看新的Pascal架构无疑比Maxwell强了不少。至于在DX12环境中,是否能体现出比GCN更强的效率提升,则有待之后的实际性能对比测试中来为大家揭晓。
GPUBoost3.0
在以往的Boost2.0上,NVIDIA提出了根据功率动态调整频率的设计,在当时看来这是已经是非常先进的方式,尽可能地维持GPU的高频率。但由于这个机制太过线性,导致GPU在各个电压点上,没有办法最大程度地挖掘潜力。而Boost3.0就是针对此项进行了改进,它可以设置各个电压点的频率偏移,使频率偏移与单个电压点一一对应。这样就可以使GPU的频率达到每个设定电压点下能挖掘的最大值,压榨出GPU的所有剩余性能。
FastSync
同步技术近几年来一直是两大显示器厂商关注的重点,之前NVIDIA和AMD都在着手解决垂直同步在帧率上不够流畅、不够灵活的问题,这个问题随着G-Sync等技术出现后可谓迎刃而解。但在关乎流畅度体验的另一个维度—延迟上,两家厂商之前的技术都没有有效优化。伴随Pascal架构,NVIDIA推出了针对延迟优化的FastSync,能将画面延迟优化到接近不开启同步技术的水平,整体延迟在20~40ms间,比之前开启同步后,延迟基本在85~105ms之间的表现出色太多。更重要的是,这个技术可以结合G-Sync技术搭配使用,享受延迟和帧率上的双重流畅。
像素级抢占任务抢占在NVIDIA以往的架构中早已诞生,意在随时终止非紧急任务,让计算单元第一时间完成紧急、重要的工作,确保关键任务的优先完成。不过在Pascal架构之前,所有GPU能做到的任务抢占精度都只能到任务级别,在任务内就没法进一步划分了。而Pascal架构则进一步优化了抢占机制,让GPU能处理像素级别的抢占需求。这个看似微小的改变,却能让Pascal架构在VR应用中更好地应对转头动作。它能够第一时间集中尽可能多的计算资源,优先处理转头后需要渲染输出的改变像素,确保画面切换延迟足够低,保证VR体验不带给用户眩晕、呕吐的负面影响。
不务正业的GTX1080?
以上,无论是技术创新还是技术改进,都意在增强显卡的图形处理能力,算是NVIDIA的本质工作。不过在此以外,NVIDIA还为Pascal架构搭配了一系列看起来并不那么契合本质工作的新特性。我们的第一感受是相当好玩,接下来则是赞叹NVIDIA的未雨绸缪,因为其中不少新技术都在围绕未来的热点VR展开。
好玩的ansel
首先是一个名为ansel的有趣软件,说它是软件其实不太对,NVIDIA对它的描述是定位于驱动层和游戏软件之间的中介程序。它主要有6大功能:FreeCamera,可以让玩家跳出固定视角,在任意位置观看游戏画面。能把第一人称场景都变成位置可以任意变化的第三人称。
Filters,是后期滤镜处理技术。EXR,可以让你在构图后,重新定义色温,比如白天还是黑夜、背景色彩等。
SuperREZ,则是一种超高精度的截图功能,允许最多32倍于原图的放大,而不失高清晰度。这解决了游戏截图难以满足高分辨率需求,或者局部构图难以达到高分辨的问题。让游戏中创作的图像作品也能达到印刷级的精度。
至于360度回放,则是为了满足以后环幕或VR眼镜的需求,让画面可以适应弧形变化后而不产生视觉畸变。
好吧,你要问我ansel的意义的话,我倒真心觉得这是NVIDIA为艺术类玩家开发的新玩具。实际上在很久以前,就有不少本职专业摄影师的游戏玩家提出这种需求,他们需要更好的工具来实现游戏中的艺术创作,而不是简单的截图。很显然,NVIDIA的ansel给了他们这个机会。而且其创作灵活性甚至比现实世界更高,现实中去不了的取景点它也能完美驾驭。实际上,ansel的名字就来自伟大的摄影师AnselAdams,为照顾艺术家们而生的意图显露无疑……目前,如《全境封锁》、《巫师3》等已有不少游戏宣布支持ansel,更重要的是NVIDIA宣称支持ansel基本没有难度,NVIDIA已经完成了功能开发,游戏开发商只需加入简单的少量代码就能支持。
让“虚拟”更“现实”的VRworksAudio+Touch
VR是未来新焦点,从上代Maxwell架构开始,NVIDIA就已经在图形计算上针对VR的需求优化,这一次Pascal架构发布,更是推出了VRWorks开发包。前面我们已经说过它有关图形渲染的功能,实际上它还包含了音频拟真技术VRWorksAudio。其借鉴了光线追踪渲染的思路,实现虚拟场景中的声音追踪,可以模拟声音在场景内的互动映射、反射等等,仿真出现实中声音碰到障碍物的效果,让你听到的声音更准确地契合VR场景,让沉浸体验更加逼真。
当然,要营造身临其境的VR体验,光有视觉和听觉还不够,还要有触觉才能实现三位一体。所以我们看到VRWorks开发包中,还基于成熟的PhysX物理加速引擎,提供了对VR场景內的触觉交互,比如通过手柄传达给用户的震动、偏移、阻尼等等。譬如在VR中切气球,轻轻地触碰气球会有真实的气球回弹的感觉。