关于我们|广告服务|联系我们|您的建议

添入收藏夹 业界动态 今日行情 硬件评测 最新报价 主题论坛 精品商城 外地市场 硬件文章 新品Show


: 文章分类
:配件
  • CPU
  • 内存
  • 硬盘
  • 主板
  • 声卡
  • 网卡
  • 音箱
  • 光驱
  • 机箱
  • 电源
  • 风扇
  • 键盘
  • 鼠标
  • 显示卡
  • Modem
  • 显示器
  • 8外设
  • HUB
  • 耗材
  • 刻录机
  • 打印机
  • 扫描仪
  • 摄像头
  • 路由器
  • 交换机
  • 数码相机
  • 移动存储
  • MP3
  • <其他
  • 手机
  • 家电
  • PDA
  • PALM
  • 笔记本
  • 小熊在线业界动态

    关键词
    类别

    高频率不等于高性能(AMD技术稿)

    【业界动态】阅读 人次
    2001年10月15日18:55


    【文章简介】
    高频率是不是性能就好呢?让我们分析一下... (3999 字)

    今年是个人电脑诞生的第20周年。PC 诞生的20 年为IT产业的发展,乃至整个现代工业的腾飞构筑了一条坚实的跑道。而在PC行业中,最为人津津乐道的莫过于中央处理器日新月异的变化了。著名的摩尔定律便是20年PC处理器技术革命的生动写照。本文试图通过对当今处理器行业两大巨头AMD以及Intel公司各自最新处理器产品的分析,帮助读者把握微处理器和个人电脑的发展方向。

    高频率不再意味着高性能!!!

    近年来,AMD公司凭借Athlon处理器的出色设计,一举突破多年以来Intel对处理器行业的垄断,相继在处理器技术、频率、性能、市场占有率…各方面取得突破,大有赶超之势。但是,自2000年底Intel推出全新设计的P4处理器后,市场出现了微妙的变化。近一段时间以来,细心的读者相信都已经留意到一个不寻常的现象:Intel不断推出工作频率更高的处理器,在性能表现上却仍然低于频率相对较低的AMD Athlon处理器。多年以来,我们习惯于用处理器的工作频率描述电脑性能的高低,但现在,1.3GHz的P4性能却还不如1GHz的Athlon,甚至不如1GHz的PIII。这种现象不仅让人产生困惑:为什么?

    PC处理器发展到今天,已经是第七代设计了。在486之前,AMD主要是在克隆Intel的处理器,而处理器的设计也以简单的标量设计为主,因此,性能的高低主要取决于工作频率的高低:频率越高的处理器,在单位时间内可以完成更多的工作,自然性能更高。到了奔腾、NX586、和AMD-K5的586时代,处理器的设计开始出现显著的变化,RISC内核的引入、分支预测、乱序执行、寄存器更名、超标量计算单元等,众多新技术的出现,使得相同工作频率下的处理器性能出现分化。当时市场上的Intel 奔腾100MHz处理器、AMD K5-PR100 和NX586-100处理器的性能相当,但工作频率却不同:奔腾是100MHz而Nx586-100却只有83MHz。时至今日的786架构,工作频率的高低更是无法正确的衡量处理器真实性能的高低。

    Intel P4与AMD Athlon

    在AMD与Intel公司各自的产品介绍中,我们可以见到两个公司各自对产品的宣传:AMD 称自己的Athlon是全球第一个786架构处理器,而Intel干脆为P4取了个让人联想到互联网的代号:NetBurst架构。下面,就让我们深入到这些诱人的表述背后去分析比较以下两个产品的设计特点。我们将从:整数计算、浮点和多媒体计算、管线设计、缓存设计等几方面进行比较。

    一、整数执行单元

    整数处理能力是CPU运算速度最重要的体现。Athlon的整数设计是我们在P4之前所见到的最强大的整数单元设计,包括6个整数执行单元,3个IEU、3个AGU,是一个真正的多通道整数设计。相比之下,P4的整数执行单元虽然只有5个,但其中有4个执行单元采用了创新的双倍计算技术。经过结构上的重整,Pentium 4 的ALU能以时钟的2倍速运行,例如:1.4GHz的P4 2xALU可以运行在2.8GHz。P4整数单元包括2xALU和2xAGU各两组,以及一个单倍速的低速ALU。其中前面的两组2倍速ALU主要用来高效地处理简单指令,而一旦遇到较为复杂的指令,CPU将会把它交给后面的低速ALU来处理,此时的性能自然会有大幅度的下降。这就是它在处理实际的整数数据时,性能并不能完全到达2倍于以前架构的处理器原因之一。

      由以上的分析可见,整数性能应该是Pentium 4的强项。然而,由于P4缓存设计在每时钟周期仅能发出3条指令,限制了Pentium 4每时钟周期仅能支撑3条整数指令; 同时,超长流水线带来的更多周期的预测失败惩罚也损害了P4的高速ALU应有的高性能。结果在运行整数测试的CPUmark时,P4表现之差令人吃惊。由此可见,更先进的设计并不是总可以带来更高的性能。

    二、浮点与多媒体运算单元

      浮点运算能力是关系到CPU的多媒体,3D图形处理的一个重要指标。AMD的Athlon系列CPU没有采用传统的X87浮点处理单元而使用了自己研发的新型浮点处理机制。从处理器核心框图中可以看到,AMD 为Athlon设计了3个并行的浮点、多媒体执行单元。P4处理器的浮点单元设计应该是整个处理器设计中最薄弱,也是目前最受争议的部分。P4中只有2个浮点执行单元,而其中一个单元要同时处理:FADD, FMUL, MMX, SSE, 和SSE2。

      从上面的介绍可见,Intel在P4的浮点设计中不是走加强x87浮点处理单元FPU的道路,而是希望利用SIMD的多媒体扩展提高浮点运算性能。为此,Intel特别配合P4发表了提高双精度运算的SSE2指令集,SSE2是Intel 在SSE之后对SIMD指令的又一次完善。SSE指令集主要用来处理器单精度浮点计算,而带有144条新指令的SSE2主要用来处理64位双精度浮点计算。但相对而言,P4中的x87 FPU功能较弱,理由如下:

    1. FXCH指令(用于交换堆栈模式的数据)在Pentium 4中比Pentium 3中受到更多限制,每个周期只能发出一条指令到FXCH执行流水线。比如,在FXCH指令发射后紧跟着一条FMUL指令,则必须等到FXCH指令执行结束,FMUL指令才能进入流水执行单元,由此造成实际的物理时延。

    2. FMUL不是全流水线单元,并且,FADD和FMUL单元的延时均大于Pentium 3中的时延,分别是5周期和至少6周期(Pentium 3中为3周期和5周期),影响了浮点处理速度。

    3. P4中有两个FPU单元,一个是FADD和FMUL,另一个是FSTORE和FLOAD,理论上每个周期只能执行一个浮点加或是一个浮点乘,而Athlon中是三个FPU单元,每个周期可同时执行一个浮点加和一个浮点乘。

    这样,P4要实现优异的FPU性能,必须对浮点密集应用进行SSE1和SSE2优化,否则只能提供较低的浮点性能,正如众多的浮点性能测试结果所示。FPUmark 测试结果显示1.6GHz的Pentinum 4才略胜Athlon 1.1GHz一点,这印证了我们的看法,Intel聚焦于SSE2而不是提供更好的x87 FPU性能。但是,MMX, SSE发展的经验让我们相信,软件的优化是一个漫长的过程,也许要等到2-3年之后,我们才能开始在市场上看到SSE2浮点计算开始普及。同时,我们也有理由怀疑SSE2能否真正取代x87,毕竟传统的x87有80位精度的浮点计算,而不是SSE2的64位浮点。

    三,流水线设计

    相对于奔腾III的10段流水线设计和AMD Athlon的11段流水线,P4的流水线达到了20段;这样做所带来的显而易见的好处就是,有利于在采用相同的制造工艺条件下大幅度地提高处理器的工作主频。但负面作用同样明显,就是指令在管线内的延迟时间会变长, 或者换言之,在相同的频率下,P4能够完成的工作要比PIII和Athlon更少。

      另外深流水线执行管线所带来的另一个负面效应,就是分支预测性能的下降,造成Pentium 4性能平平的主要原因是也正是其 20级的管道。Pentium 4 的管道比Pentium Ⅲ和Athlon长一倍,因此数据传输的步骤就会增多,而且一旦出现了错误,处理器改正的过程也会更加复杂。简单地说Pentium 4处理器在运行中如果分支预测准确,运行速度会很快,如果预测错误,那么Pentium 4处理器将比Athlon受到更多周期的惩罚。

      分支误预测仍是Intel最弱的一环。分支预测发生在流水线的第一段,如果处理器误预测了一个分支,它必须从流水线中冲掉在错误分支方向上执行的全部指令,然后在正确的程序分支方向上重新启动指令执行和处理。流水线越长分支误预测造成的性能损失越大,20段的超流水线不仅是19个周期的分支误预测惩罚,尽管理论上Athlon的分支预测器逊于Pentium 4,但“相对短”的11段整数流水线,使Athlon全面超越Pentium 4。

    管线的加长可以使得Pentium 4能达到更高的时钟频率,但是也使Pentium 4在每个时钟周期中的处理的命令数目比Athlon少,这就是为什么现在相同的速度下,Pentium 4的性能表现不如PIII和Athlon的原因。

    四,缓存技术的比较:

    L1和L2高速Cache是决定CPU速度的另一个重要因素。在这项关键技术上,P4和Athlon都有其各自的独到之处。

      P4的L1 Cache采用了一种全新的设计。不同于传统的x86指令缓存,P4将指令缓存设置在x86-uOP译码器之后,缓存中存储的不再是x86指令,而是类RISC的Uop。Intel为这种结构取了个名字叫做:Execution Trace Cache。Trace Cache 容量为12KB,P4的L1数据缓存为8KB,所以其缓存总量为20KB:小于PIII的32KB,更远远小于Athlon 的128KB。在L2缓存方面P4与Athlon都是256KB。

    ①L2 Cache的关联并发二级缓存架构设计。雷鸟采用了16路相联Cache,它使得系统可以通过减少数据冲突来提高命中率。作为比对,P4仅则提供了8路 关联的L2 cache。

    ②非复用式Cache设计。复用式Cache结构被广泛使用在Intel的x86处理器中(包括PⅢ和现在的P4),该结构要求L2 Cache必须复制L1 Cache中的所有数据。因此,在Inclusive结构中,假设L1Cache的大小为32kB,L2Cache为256kB,那么其实际有效的Cache容量就只有256kB。 相比之下, AMD采用非复用设计,缓存数据不复用,缓存使用效率更高。

    ③为提高Cache的命中率,P4为L2 Cache设计了256位的带宽,但由于雷鸟的L1Cache容量高达128k,是P4的6倍,也能够保持Cache有足够高的命中率。相比之下,再扩充L2总线的带宽对Cache性能的提高意义并不很大,这也就是雷鸟处理器的L2Cache总线宽度为64位的原因。

    从理论上说,P4的全新缓存结构可以有效的降低缓存的延迟,但测试的结果显示不论在8KB-384KB的缓存范围还是在内存范围,Athlon都表现出更短的延迟,也许P4的设计理论还有待完善。

    结论:

    综合前面的分析,我们可以看到,Athlon具有目前最强大的浮点单元设计和优秀的整数计算单元;在P4处理器中Intel尝试使用了一系列的新技术,但由于很多因素之间的相互制约,理论上的出色设计并没有带来相应的性能表现。超长的流水线设计使P4可以迅速地在处理器频率上将竞争对手甩开,但Athlon 仍然而且将继续保持性能上的领先优势。广泛的测试显示,P4需要多付出300-400MHz的工作频率才可以获得与Athlon 相当的性能。对于普通的电脑使用者来说,现在已经不能简单的用处理器的频率来衡量电脑性能的高低了,我们已经习惯的用主频衡量电脑性能高低的观念需要改变了!

    【作者:AMD技术稿 北京】  版权作品 未经许可 请勿转载


    业界动态内容除特别说明外,其内容所涉及的有关产品的规格、资料等信息均为厂商发布,如有任何异议、意见和建议可以到网友评论区即时发表,也可以给我们来信或到论坛参与讨论。

    好友地址*    您的邮箱
    您的附言
        

    网友评论(仅供参考与本站立场无关)
    即刻发表你对本文的意见和看法(1000字以内)

    J 硬件评测鼎力推荐               更多相关主题看这里...

    2款价廉物美的入门级数码相机--富士1400Zoom/2400Zoom使用手记 Cool! 2001.10.07 小熊在线-Joyt
    SIS315显示卡全面展示---Show 3D!Show Cool! 2001.09.28 小熊在线-Overload
    SIS315显示卡全面展示(总览) Cool! 2001.09.28 小熊在线-老七、Overload
    炸干磐英BX6-SE主板的电压油水 Cool! 2001.03.02 张章
    Acer4406EU外置CDRW刻录机测试 Cool! 2000.11.27 小熊在线评测室-ken
    OnlyDisk-优盘测试 Cool! 2000.11.23 小熊在线评测室-lightfall

    J 产品介绍鼎力推荐               更多相关主题看这里...

    专题文章:扩展你的视野——双头显示、多重显示应用全集(3) Cool! 2001.10.14 张章责编:张章
    数码摄影之“闪光灯”完全宝典 Cool! 2001.10.06 小熊在线-Joyt
    数码摄影之“近摄秘技”完全宝典(下) Cool! 2001.10.06 小熊在线-Joyt
    数码摄影之“曝光补偿”完全宝典(下) Cool! 2001.10.06 小熊在线-Joyt
    数码摄影之“近摄秘技”完全宝典(中) Cool! 2001.10.05 小熊在线-Joyt
    数码摄影之“曝光补偿”完全宝典(中) Cool! 2001.10.05 小熊在线-Joyt
    数码摄影之“近摄秘技”完全宝典(上) Cool! 2001.10.04 小熊在线-Joyt
    数码摄影之“曝光补偿”完全宝典 Cool! 2001.10.04 小熊在线-Joyt

    ◇硬件评测相关主题                更多相关主题看这里...


    CPU烧吧烧吧,不是罪 Cool! 2001.09.19 译:kokou
    雷鸟CPU的最佳选择——AMD 760芯片组(下) Hot! 2001.08.15 译:kokou
    雷鸟CPU的最佳选择——AMD 760芯片组 Hot! 2001.08.14 译:kokou
    P4,Tualatin,Coppermine---纵向测试新一代INTEL系列CPU Hot! 2001.08.13 小熊在线-Overload
    “双头龙”——AMD 760MP芯片组之评测篇 Cool! 2001.07.06 kokou 译
    “双头龙”——AMD 760MP芯片组之技术篇(下) Cool! 2001.07.05 kokou 译
    “双头龙”——AMD 760MP芯片组之技术篇(中) Cool! 2001.07.04 kokou 译
    “双头龙”——AMD 760MP芯片组之技术篇(上) Cool! 2001.07.03 kokou 译

    ◇产品介绍相关主题                更多相关主题看这里...


    INTEL发布最快的及最能耗的移动CPU 2001.10.09 沈阳小熊-意识流
    郭氏妙禅之“较量”专题系列之四 2001.09.20 *业界动态*
    郭氏妙禅之“较量”专题系列之三 2001.09.19 厂商投稿
    郭氏妙禅之“较量”专题系列之二 2001.09.18 厂商投稿
    郭氏妙禅之“较量”专题系列 Hot! 2001.09.17 厂商投稿
    英特尔Pentium Hot! 2001.09.11 小熊在线-花心
    AMD总裁Hector de J.Ruiz和VIA电子总裁陈文琦先生就VIA KT266A芯片组答记者问 Hot! 2001.09.11 小熊在线-花心
    窥探AMD服务器(六) Cool! 2001.09.06 overload,花心

    ◇市场行情相关主题                更多相关主题看这里...


    CPU小降,AMD与上周持平,内存价已很低,可购入,硬盘缺货严重。 2001.10.15 小熊在线-Digids
    节日期间市场稳定,AMD Athlon货源并不充足,P4主板销售火爆 2001.10.08 小熊在线-lijibei
    CPU、内存、硬盘价格大体没有变化,近期DVD-ROM价格一览,"人迹罕至"的太平洋电脑市场新区,新天下奔驰主板作促销,迪兰恒进进军显卡市场…… 2001.09.24 MagicIori
    CPU,硬盘价格持续上涨,华旗刻龙读龙比翼齐飞,价格惊爆震撼市场。 2001.09.18 小熊在线-Sky
    昨日美国纽约世贸大楼被炸并没有影响今日计算机硬件主体价格,内存小降,高速WD硬盘缺货,市场发现一批散包遍原包的P4 CPU,大水牛系列产品介绍,罗技产品系列介绍 2001.09.12 小熊在线-MX
    AMD继续涨价;478专用风扇海龙现身;市场中最便宜的拨号上网卡;降价后的技嘉主板 2001.09.07 小熊在线-老七
    商悦市场惨淡经营,七彩虹显卡市场价格一览,P4降价AMD路在何方,丽台三款产品介绍 2001.09.05 小熊在线-Overload
    Intel最近发布三款新赛扬IICPU,移动存储装置热乎起来 2001.09.02 小熊在线-Digids

    ◇业界动态相关主题                更多相关主题看这里...


    DDR333主板问世 2001.10.14
    2.2GHz奔腾4推迟上市 AMD 芯片性能暂时领先 Cool! 2001.10.12
    高频率不等于高性能 2001.10.11
    AMD正式发布4款Athlon XP处理器 2001.10.11
    英特尔新封包技术CPU可望变得更小更强 2001.10.10
    INTEL发布最快的及最能耗的移动CPU 2001.10.09
    AMD Athlon XP10月9日将正式开卖 Hot! 2001.10.07
    AMD推出新款毒龙,价格速度与英特尔大体相同 Cool! 2001.10.03

    小熊在线公司版权所有
    Copyright (C) 2001 beareyes.com
    All Rights Reserved