一、重新前言:制程工藝不變 IPC性能暴漲20%的定義X當Zen 5架構(gòu)
這十年來AMD的CPU給我們帶來了一次又一次的驚喜!
今天上市AI PC所搭載的高性銳龍AI 300系列處理器,與上代的薄本銳龍8000系列移動處理器一樣,都是華碩采用了臺積電4nm先進工藝。
但如標題所言,靈耀龍基于Zen 5架構(gòu)的測銳處理銳龍AI 9 HX 370是當今最優(yōu)秀的移動處理器,甚至沒有之一!今最
那么AMD是優(yōu)秀移動怎么做到的呢,Zen 5架構(gòu)和銳龍AI 300系列處理器到底做了哪些技術(shù)上的重新革新呢?
1、更多的定義X當算術(shù)邏輯單元(ALU)
在擁有了足夠強大且成熟的設(shè)計能力之后,AMD的高性工程師大幅度提升了Zen 5核心的流水線寬度,ROB重排序緩沖區(qū)(Reorder Buffer)從原來的薄本320個條目指令提高到了448個條目指令,增加了40%。華碩
更寬的靈耀龍流水線,讓Zen 5核心可以容納更多的算術(shù)邏輯單元(ALU)和地址生成單元(AGU)。
Zen 4架構(gòu)每個整數(shù)運算器中包含了4個ALU和3個AGU,而Zen 5則分別提升到了6個和4個。特別是至關(guān)重要的ALU單元數(shù)量相比上代增加了50%,這也意味著Zen 5核心在相同周期內(nèi)能處理更多的指令。
配套的調(diào)度器數(shù)量也大幅度增長!
Zen 4擁有3x24一體化ALU/AGU Scheduler和單獨的1x24 ALU Scheduler,總計是96個。Zen 5則設(shè)計了88 ALU Scheduler和56 AGU Scheduler,理論上可提升50%的運算吞吐量。
2、更快的L1/L2緩存
Zen 5主要改進了一級數(shù)據(jù)緩存(L1 Date Cache),從Zen 4的8路32KB提升到了12路48KB。
同時,通往一級緩存、浮點單元的最大帶寬,也比上代翻了一番,并改進了相應的數(shù)據(jù)預取。
二級緩存的容量沒有變化,依舊是每核心1MB,但是鏈路通道從8路倍增到了16路。簡單的說,就是L2帶寬翻倍。
更快的L1/L2緩存能讓Zen 5核心擁有更穩(wěn)定的峰值性能。
3、更高效的同構(gòu)大小核設(shè)計
酷睿第12代處理器開始采用大小核策略讓Intel一時風頭無兩,大核玩游戲,小核提升多線程性能。
核心數(shù)量和多線程性能上的劣勢讓AMD略顯被動,而代號為“Strix Point”的Ryzen AI 300系列處理器就是AMD首次采用混合核心設(shè)計的產(chǎn)品。
Strix Point SOC包含2個CCX,大核擁有4個高性能Zen 5核心,16MB三級緩存;小核則有8個緊湊型Zen 5c核心,8MB三級緩存。
不同于Intel P-Core + E-Core的大小核異構(gòu)架設(shè)計,Zen 5和Zen 5c擁有完全相同的架構(gòu)設(shè)計、IPC性能和ISA指令集,不同之處只是后者緩存更小、頻率更低(但能效更高)。
另外需要注意的是,由于Zen 5和Zen 5c分別位于2個CCX之中,它們的三級緩存雖然理論上可以互相訪問,但延遲會有所增加,同時傳輸速率也會受到IF總線帶寬的限制。所以AMD采取了特殊的控制策略,通過Windows調(diào)度管理,盡可能地讓Zen 5、Zen 5c分別訪問自己的三級緩存。
4、1024個流處理器的RDNA 3.5 GPU
在內(nèi)置集顯領(lǐng)域,AMD一直沒有對手!
銳龍AI 300系列處理器集成了升級版的RDNA 3.5架構(gòu)的AMD Radeon 800M系列GPU,最多擁有1024個流處理器,足足提升了1/3。
除了增加流處理器數(shù)量之外,RDNA 3.5還增強了向量指令集架構(gòu)(ISA),提高了插值和比較的速率,從而提升了圖形渲染的效率。
內(nèi)存管理方面,AMD對圖形數(shù)據(jù)結(jié)構(gòu)進行了優(yōu)化,包括L2緩存和SoC(System on Chip)總線,以減少內(nèi)存訪問次數(shù),提高數(shù)據(jù)壓縮技術(shù)和工作負載的優(yōu)化。
按照官方說法,在同樣的15W功耗釋放下,Radeon 800M系列對比前代的3DMark理論性能,在Night Raid和Time Spy項目中分別提升了多達19%、32%。
當然,理論性能并非與實際等同,新一代的GPU架構(gòu)肯定需要驅(qū)動的持續(xù)優(yōu)化才能發(fā)揮出最佳效能。
除了以上幾點之外,Zen 5處理器的浮點性能也得到了增強,擁有了完整位寬的AVX 512指令集。
其實Zen 4架構(gòu)也能支持AVX 512 浮點運算,但它是通過2個256-bit FPU合并運算來實現(xiàn),而Zen 5則是擁有完整的512-bit FPU以及與其位寬匹配的流水線管道。
對于支持AVX 512指令集的程序,例如AIDA64 GPGPU、Geekbench 6、PS3模擬器等應用,Zen 5架構(gòu)最多可以帶來50%的性能提升!
此次我們收到的是華碩送測的靈耀16 Air,它搭載的是銳龍AI 9 HX 370處理器,擁有4個Zen 5和8個Zen 5c內(nèi)核,共計12核心24線程,二級緩存12MB、三級緩存16MB+8MB、Zen 5核心加速頻率可達5.1GHz,本機性能釋放28~33W。
這一款厚度僅有1.1cm的高端超輕薄筆記本,下面我們來看在30W的功耗限制下,銳龍AI 9 HX 370能發(fā)揮出怎樣的性能。