08年显卡焦点之战:4870对决GTX260
RV770的上市,标志着被压制许久的“镭”系列图形产品发起了一次绝地大反攻。继Radeon HD 4850成功将Geforce 9800GTX从299美元高位上拉下马之! (10577 字)
| 第3页:RV770内建10组SIMD:5个ALU纯标量化改良设计 |
Radeon HD 4870 1GB |
Radeon HD 4850 512MB |
|
晶体管数量 |
965 Million |
965 Million |
工艺 |
55-nm |
55-nm |
Stream Processors |
800 |
800 |
纹理单元 |
40 |
40 |
光栅单元 |
64 |
64 |
核心频率 |
750MHz |
625MHz |
显存速度 |
3.6GHz GDDR5 |
2.0GHz GDDR3 |
显存带宽 |
115.2GB/s |
64GB/s |
浮点运算 |
1.2 Teraflops |
1.0 Teraflops |
DirectX版本 |
10.1 |
10.1 |
Tessellation |
Yes |
Yes |
UVD版本 |
2.0 |
2.0 |
PowerPlay |
Yes |
Yes |
官方价格 |
$299 |
$199 |
RV770采用TSMC 55nm工艺,核心面积为260mm2,Shader数量由上代的320个暴增到800个,纹理单元提升到40个,光栅单元提升为64个。Radeon HD 4870和4850的浮点运算性能分别达到了1.2 Teraflops和1.0Teraflops,而目前NVIDIA GX280的这项理论指标只有0.96Teraflops。
4870与4850最大的不同在于显存的配备,4870搭配了成本高昂的1GB奇梦达GDDR5显存,理论上的带宽达到115.2GB/s,两者核心频率相差了125MHz,HD 4870的TDP功耗将达到160W,需要使用双6pin供电接口,而4850仅有110W,单6pin即可,TDP功耗比上代3850提高了20W左右。
RV770核心架构与上代 RV670、 R600架构一样,采用Single Instrucion Multiple Data(SIMD) 架构,每组 SIMD阵列有16 个Stream Processor (SP) ,每个Stream Processor有5个32Bit ALU (Stream Processsing Unit) ,也就是R600当时所说的Super Scaler超标量单元,合共 80组ALU单元。上代RV670共4组SIMD阵列、合共320个Stream Processing,RV770则增加到了10组SIMD阵列,SP单元数量达到了惊人的800个,增幅超过2.5x。
每个SIMD阵列内建一组控制逻辑、每个SP内设有一组Brand Execution Units作支分预测工作,可空出一组ALU作其他运算, 并设有缓存器用作存放输出入、输出数据,最高可同时处理最高5笔数据及指令,因此每组SIMD阵列最高可同时处理80笔数据及指令。
值得注意的是,上代 RV670的每组SP, 5 个标量单元只有其中一组可以作Integer整数运算,但 RV770的所有标量单元均可进行Integer整数运算,这方面的理论性能是上代的12.5x ,主要强化GPGPU应用,对于图像处理、压片、加密及解密相关的运算有很大帮助 。从RV770这点技术改良的设计上来看,G80的纯标量设计无疑是一种最高效的实现方式。

与GT 200非常类似的是,RV770每个SIMD拥有1组纹理单元及独立的L1 Cache,10组SIMD阵列对应10组纹理单元,并可透过 16KB的共享缓存,与其他SIMD核心进行沟通。不过, RV770的Texture单元作出了简化, 纹理寻址单元数量由原来的8个减少为4个。FP32 Texture Filiter Unit纹理填充单元则维持4个,单时钟周期纹理填充数量可达40个, FP Texture Samplers 纹理采样单元减少到16个,总数达到160个。

为提高Texture效率, RV770进一步改良Cache系统, L1 Texture Cache由以往提供给所有SIMD共享,改为每组拥有独立、较小的L1 Texture Cache,好处是使Latency大幅下降, L1 Cache的效率能提升 2x,整体 Cache效率提升达5x 。
没有了共享的L1 Texture Cache, RV770加入了16KB Globle Data共享,作为每组SIMD的数据沟通渠道。此外,Vertex Cache也单独设计出来,以提升Vertex及Geometry几何单元执行效率,让更多的 Geometry Shader数据可以放在芯片内,不用去访问外部寄存器,降低延迟Latency,使得Geometry Thread的处理效率相比上代RV670高出4x。
此外, L1 及 L2 Cache 的带宽大幅提升, RV770的L1 Texture Cache最高速达480Gb/s,而L1与L2 Cache之间带宽提升至384GB/s 。
《RV770改良光栅输出设计 增强AA模式性能》...继续下一页>>
[1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] [20] [21] [22] [23] [24] [25] [26] [27] [28] [29] [30] [上一页] [下一页]