超能课堂(74):纪念即将被遗忘的AMD“推土机”模块架构

武林高手修炼的一定境界往往会觉得高处不胜寒,因为能跟他匹敌的对手越来越少,哪怕双方正反立场不同,英雄豪杰也会惺惺相惜。Intel现在高端处理器市场上少了AMD这个对手,他们会怀念双方你争我夺的“美好时光”吗?这个就只有Intel自己知道了,过去的几年中AMD的“推土机”模块化架构高喊着革命口号出生,但并没有把Intel拉下马,反倒溅了自己一身血,AMD在高性能处理器市场沉沦了将近5年了。

如果往前数10多年,AMD凭借K8“大锤”处理器也是阔过的,Intel当年在奔腾4时代被AMD“教做人”,充分体验到了“高分低能”的感觉。但是Intel对AMD来说是巨无霸一般的存在,即便是AMD处理器叫好又叫座,Intel公司CPU一哥的地位依然无人动摇,而且他们有足够的实力翻盘,Core处理器横空出世之后,Intel重新逆转了对AMD处理器的性能优势,在K8之后AMD推出的K10处理器遭遇了bug及制程的双重困扰,整体表现要比K8平庸多了,眼睁睁看着Intel华丽转身。

作为一家营收不足Intel公司1/10的“小公司”,AMD公司的斗志以及创新精神让人敬佩,在HT总线、DDR内存、多核处理器等技术上敢为人先,而在64位X86指令集上更是让Intel低头认输,直到现在这个胜利都是AMD最为骄傲的成绩之一。因此在K10架构之后,AMD呕心沥血研发的”推土机“模块化架构让玩家产生了极大的期待,笔者当年在推土机架构前瞻一文中希望AMD能借该架构实现对Intel的复仇,重现K8的辉煌。

但是,最后的结果大家现在都知道了,推土机架构处理器就像是跳水运动员一样,起点很完美,但入水时浪花太大而扑街,实际表现不尽如人意。这次高开低走也让AMD心灰意冷,推土机架构在桌面市场小幅升级到第二代Piledriver打桩机架构之后就草草结束FX处理器更新,后面两代架构只在Kaveri及Carrizo两代APU上出现,桌面版到现在为止差不多5年没升级了。

AMD模块化架构推出了四代,后面两代只用于APU

从2011年FX-8150发布到2015年Carrizo APU问世,AMD的模块化架构一共出了Bulldozer推土机、Piledriver打桩机、Steamroller压路机及Excavator挖掘机四代,其中前两代用于FX及APU处理器,2012年之后AMD就不再升级FX系列的架构了(产品型号倒是有升级),Steamroller压路机及Excavator挖掘机只有APU上才有用,制程工艺也只从32nm升级到28nm,而Intel在这几年中一直升级了SNB、IVB、Haswell、Broadwell及Skylake等处理器,制程工艺也从32nm一路升级到22nm、14nm及最新的14nm Plus。

今天的超能课堂中我们来回顾下AMD模块化架构6年来走过的路,无论大家对它以往的评价如何,现在都不重要了,因为我们都知道它已经是过去时了,AMD即将在Q1季度推出Ryzen处理器,全新的Zen架构、14nm LPP工艺以及AM4平台使得Ryzen更有吸引力,它身上也没了“推土机”架构的影子,从内核到缓存都重新设计了。

AMD四代模块化架构规格一览

Bulldozer推土机:模块化架构之始,AMD不走寻常路

AMD推的第一代模块化架构就是Bulldozer推土机,以至于“推土机”都成了AMD整个模块化架构的代名词。在推土机问世之时,其架构确实有很多革命之处,包括全新的SSE5指令集、模块化多核、弹性浮点单元等设计有其独到之处,也有让人耳目一新的感觉。

推土机开始使用模块化多核架构设计

笔者在之前的分析文章中有过推土机架构的详细分析,这里不再赘述架构设计,当时AMD对多核多线程的设计走的是物理多核,不同于传统的SMT同步多线程,推土机的模块化多核被称为CMT物理多核,其设计意图就是希望通过2个整数单元、1个共享浮点单元解决实际使用中整数多于浮点的过程,理论上这种设计要比SMT多线程更有效率。

推土机架构产品中,旗舰型号是FX-8150,号称首款桌面8核处理器,频率3.6-4.2GHz,支持DDR3-1866,8MB L3缓存,规格比Intel当年的SNB旗舰Core i7-2600K还要高,只不过125WTDP功耗高于后者的95W,毕竟核心数比SNB还是多了一倍。

但是在最终的性能表现上,推土机并没有实现AMD的期待——2011年早些时候Intel推出了SNB处理器,在与SNB的对比中8核推土机除了在多线程上凭借核心多一倍略有优势之外,单线程性能上被SNB处理器完胜,在延迟、内存带宽等方面也不如Intel处理器。

更重要的是,AMD的推土机使用的是GlobalFoundries的32nm SOI工艺,虽然同期Intel SNB处理器也是32nm工艺,但8核推土机核心面积高达315mm2,晶体管数量才12亿,Intel 4核SNB处理器核心面积216mm2,晶体管数量11.6亿,而且后者还是包含GPU核心在内的。

最终的结果就是8核推土机架构在技不如人的情况下,发热、功耗控制更是不如SNB处理器,而GF的32nm工艺产能、良率当时也不给力,多重因素制约下,推土机首发表现很难让市场认可,消费者并不买账,唯一值得“炫耀”的就是AMD FX-8150处理器价格只要200美元左右,比Intel 4核Core i7便宜50%左右,性价比是AMD仅存的优势了。

Piledriver打桩机:AMD修补推土机,创高频记录

第一代模块化架构推土机并没有一鸣惊人,AMD在第二代模块化架构“Piledriver”中对推土机架构做了修补,2012年10月份正式推出了Vishera平台,AMD在此基础上不仅推出了FX-8150的继任者FX-8350,还衍生出世界首款5GHz处理器FX-9590,还有TDP降至95W的FX-8370E/8320E处理器。

AMD第二代模块化架构Piledriver

相比第一代的Bulldorzer架构,Piledriver打桩机硬件单元变化不大,主要提升了一倍的L1 TLB单元、新增HW Divider硬件分配器、改善了S/L操作效率、提升了L2缓存效率及预测精度、优化了整数及浮点单元调度,增加了FMA4、BMI、CVT16、TBM等指令,整体上是对推土机架构小修小补,目的是提高架构效率,降低能耗。

从AMD资料来看,Piledriver相比Bulldozer架构减少了10%的动态功耗,同样的电压下大幅提升了CPU频率空间,以FX-8350为例,同样是在125W TDP下,其基础频率从FX-8150的3.6GHz增加到了4GHz,加速频率4.2GHz。

Piledriver这一代中AMD同时在高频率及低功耗上出击

Piledriver架构效率的提升使得AMD在扩展新品上有了更多灵活性,TDP增至220W的情况下,他们推出了号称世界首款5GHz频率的FX-9590处理器,而同样是8核配置下又推出了TDP降至95W的FX-8370E/8320E处理器。遗憾的是,AMD这两波产品都没有获得市场认可,消费者并不买账,AMD后面索性不再折腾FX系列处理器了,从Piledriver架构之后事实上放弃了FX产品线,新品升级都没了。

除了略显悲催的FX系列处理器之外,Piledriver还用在了Trinity APU上,第一代Llano APU因为时间关系没赶上推土机架构,使用的还是K10架构CPU核心,Trinity直接上了第二代模块化架构。用于APU的Piledriver架构砍掉了L3缓存,核心数也从8核降至4核,还增加了GPU核心,TDP功耗也降至100W以内。

AMD的第二代模块架构Piledriver改善了推土机架构的效率、功耗,但并没有根本性变化,并不足以扭转AMD的困境,相反Intel当年推出了22nm工艺的IVB处理器,而且用上了FinFET工艺,GlobalFoundries的32nm SOI工艺即便成熟起来了,AMD跟Intel之间的性能、功耗差距实际上越来越大了。

Steamroller压路机:AMD弃守高性能平台,工艺升级28nm

Piledriver在FX系列处理器上的失利让AMD放弃了高性能平台,高端市场已经无力再跟Intel对干,8核打4核、定价更低的情况下依然无法获得玩家青睐,AMD第三代模块化架构Steamroller索性只用在了Kaveri APU上。

Kaveri APU上使用了Steamroller架构CPU核心

早前AMD官方路线图中表示Piledriver的重点是优化效率,Steamroller才被视作性能增强版,发布之前官方及小道消息都在强调Steamroller架构性能有明显提升,比前代提升至少30%,甚至可以对标Intel的Haswell架构,这才是模块化架构本来应该有的样子,之前的架构名不副实。

Kaveri的最终成品是我们之前已经熟悉的A10-7850K及后续衍生出来的A10-7870K等,其CPU使用了4个Steamroller核心,AMD增加了L1数据缓存到96KB,整数单元拥有独立的解码单元,分支预测更有效率,增强了指令的数据预取性能,核心思路还是提高单核执行能力,推动每瓦性能比进一步提升。

具体到产品上来看,Kaveri APU除了CPU、GPU架构升级之外,内存频率也提升到DDR3-2133MHz,支持了PCI-E 3.0,而且制程工艺也从之前的32nm SOI升级到了28nm SHP,AMD从这一代节点开始放弃SOI工艺,而28nm虽然也不是最适合CPU的高性能工艺,但AMD已经顾不了这么多了,现在的重点是APU产品线,FX系列已经不闻不问了。

Kaveri在AMD APU产品线表现算是很不错的了,CPU、GPU架构及工艺升级使之具备更好的性能、功耗表现,虽然CPU性能依然不能跟Intel同代相提并论,但凭借GPU的优势,Kaveri战战Core i3或者部分Core i5处理器还是可以的,能满足一般家庭使用。

不过AMD最大的问题还是出在自己身上,Kaveri自身进度一拖再拖,发布时间从2013年推到了2014年初,真正铺货时间更晚,而后续产品又出现了脱节,导致了AMD在2015年又用Kaveri Refresh硬撑一年,这就到了Carrizo一代了。

Excavator挖掘机:模块化架构最终体,DDR4/AM4又晚了

时间到了2015年,AMD在台北电脑展上正式发布了Carrizo APU,相比Kaveri升级到了第四代模块化架构Excavator挖掘机,制程工艺还是28nm SHP不变,但这一次AMD继续挖掘工艺潜力,在核心面积从245mm2仅仅增加到250mm2的情况下提高了晶体管密度,31亿晶体管要比Kaveri APU的24亿多了29%。

Excavator架构重点是优化工艺密度、降低功耗

在Excavator架构上,AMD的重点还是继续优化效率,降低功耗,从Steamroller压路机的高性能库转向高密度库设计,换来的好处就是同样的28nm工艺下,CPU内核面积可以减少23%,功耗更低,自适应电压技术的加入减少了10%的电压波动,泄露减少了18%,同样的功率下频率可提升10%,或者同样的频率下减少20%的功耗。

另一方面,Excavator架构还增加了新技术、新规范支持,支持AVX2指令集,还有DDR4内存,其中Carrizo桌面版中的A12-9800频率从之前的3.7-4.0GHz提升到了3.8-4.2GHz,TDP功耗反而从95W降低到了65W。

可惜的是,Carrizo的Excavator架构虽然日趋成熟,但AMD在进度上一直不尽如人意,Carrizo 2015年推出了移动版,桌面版本该稍后,但还是各种延期,直到2016年9月份才算是正式发布桌面版,支持DDR4和AM4平台还是挺有新意的,但是AMD的AM4平台又因为Zen处理器延期,Carrizo桌面版发布了也没啥存在感,直到现在你也无法在零售渠道买到A12-9800处理器,更没有AM4平台主板可用。

考虑到Ryzen处理器即将在Q1季度问世,恐怕AM4平台解决了,大家对Carrizo桌面版APU也没啥兴趣了,因为Ryzen处理器更值得期待。

总结

从Bulldozer推土机开始,AMD的模块化多核架构先后衍生出Piledriver打桩机、Steamroller压路机和Excavator挖掘机四代,制程工艺从32nm SOI升级到28nm SHP,功耗、发热及性能也越来越成熟。但是回头来看,AMD模块多核的理念最终是镜中花水中月,并没有如最初期待的那样对X86架构进行革命,反倒是让AMD在这5年中彻底败走高性能处理器市场,徒留Intel寂寞沙洲冷。

AMD的模块化架构失利有多方面因素,制程工艺上AMD还要受到GlobalFoundries的掣肘,后者在32nm SOI、28nm及FinFET工艺上磕磕绊绊不断,直到全盘使用三星的14nm FinFET工艺之后才算稳定下来。

不过AMD自身原因才是根源,四代模块架构即便性能打不过Intel,但也不至于混到这般下场,公平地说推土机等架构在多线程性能上还是值得一战的,但AMD各种进度延期导致它们并不能在合适的机会问世,就算是玩田忌赛马策略,好歹也要几匹马上场才行啊!

只是这些话都没意义了,过去5年中推土机架构不论是有功还是有过,现在它们都走到了生命尽头了,同样拖延很久的Zen架构很快就要来了,AMD完全放弃了推土机架构中的物理多核思路,重新回归SMT多线程,CPU内核、缓存系统也重新设计,模块多核已经没多少存在感了。

关注微信号expkf01,第一时间获知精彩活动和原创科技资讯。

(0)

相关推荐