從UALink近期發(fā)展再看GPU Scale Up的互連方向
GPU的展再Scale Up互連成為炙手可熱的話題,在2024年涌現(xiàn)了眾多相關(guān)的互連行業(yè)討論。站在阿里云的展再視角,什么樣的互連技術(shù)以及生態(tài)才能滿足云上智算集群的發(fā)展?為什么采用全新的Scale Up設(shè)計(jì)而不復(fù)用當(dāng)前的以太網(wǎng)和RDMA技術(shù)呢?本文借著行業(yè)內(nèi)的一些事件,對(duì)GPU超節(jié)點(diǎn)的展再Scale up互連的技術(shù)方向觀點(diǎn)進(jìn)行分享。
在GPU算力架構(gòu)發(fā)展的互連歷程和趨勢中,我們意識(shí)到大模型的展再訓(xùn)練推理對(duì)顯存容量以及帶寬有不斷增長的訴求,傳統(tǒng)的互連GPU單機(jī)8卡方案已經(jīng)不能滿足業(yè)務(wù)發(fā)展的需要,更多卡組成超節(jié)點(diǎn)并具備大容量顯存和低延的展再共享的解決方案才能滿足大模型的需求。阿里云對(duì)行業(yè)技術(shù)方向進(jìn)行評(píng)估后,互連于今年9月份發(fā)布了Alink Sytem開放生態(tài)和AI Infra 2.0服務(wù)器系統(tǒng),展再其中底層互連協(xié)議部分兼容國際開放標(biāo)準(zhǔn)UALink協(xié)議?;ミB
10月29日,展再UALink聯(lián)盟正式發(fā)布,互連并開啟新成員邀請(qǐng),展再發(fā)起成員包括AMD、AWS、Astera Labs、Cisco、Google、HPE、Intel、Meta 和Microsoft。其中相對(duì)于5月份的首次披露的成員,博通消失了,取而代之的是AWS和Astera Labs。其中AWS的加入引人遐想,因?yàn)锳WS一向低調(diào),很少參與協(xié)議組織。這次AWS躬身入局UALink聯(lián)盟也展示了其對(duì)于GPU Scale Up互連需求的思考,以及對(duì)于UALink原生支持GPU互連這個(gè)技術(shù)方向的認(rèn)同。下面,我們對(duì)于Scale up方向的思考做一些展開論述。
智算集群的互連架構(gòu)
當(dāng)前智算集群內(nèi),圍繞著GPU存在三大互連,分別是業(yè)務(wù)網(wǎng)絡(luò)互連、Scale Out網(wǎng)絡(luò)互連、Scale Up網(wǎng)絡(luò)互連,它們分別承載了不同的職責(zé):跨業(yè)務(wù)、集群內(nèi)、超級(jí)點(diǎn)GPU之間連通性。隨著AI應(yīng)用的爆發(fā),推理的GPU規(guī)模最終會(huì)大大超過訓(xùn)練,由于推理服務(wù)同時(shí)追求業(yè)務(wù)請(qǐng)求的低延遲和高吞吐,Scale Up互連技術(shù)對(duì)于智算超節(jié)點(diǎn)意義重大,Scale Up主要是面向大模型推理服務(wù)以及兼顧訓(xùn)練。
-業(yè)務(wù)網(wǎng)絡(luò)互連:承載的是諸如需要計(jì)算的輸入數(shù)據(jù),輸出結(jié)果,以及在各類存儲(chǔ)系統(tǒng)中的模型參數(shù)、checkpoint等。需要進(jìn)行極大范圍的互連,并且和云上的存儲(chǔ)、業(yè)務(wù)接口等互通,采用以太網(wǎng)技術(shù),通常支持各類RDMA。
- Scale Out網(wǎng)絡(luò)互連:訓(xùn)練的DP、PP并行計(jì)算切分流程,通常要把集群橫向擴(kuò)展到超多的GPU機(jī)柜,當(dāng)前的訓(xùn)練規(guī)模已經(jīng)發(fā)展到10w卡,目前國際的標(biāo)準(zhǔn)趨勢是,采用專門優(yōu)化的以太網(wǎng)技術(shù)UEC(Ultra Ethernet Consortium)協(xié)議。
- Scale Up網(wǎng)絡(luò)互連:以推理的大顯存并行計(jì)算流量和訓(xùn)練的張量并行(TP)以及專家并行(MoE)流量為主,有在網(wǎng)計(jì)算的需求(可以對(duì)All reduce在Switch節(jié)點(diǎn)上進(jìn)行加速)?;ミB規(guī)模在未來很多年內(nèi)都會(huì)維持在單柜72~80個(gè)GPU,從模型大小和推理需求的發(fā)展來看,當(dāng)前規(guī)劃能滿足很長一段時(shí)間的需求。
超節(jié)點(diǎn)內(nèi)部Scale Up互連:注定和設(shè)備深度綁定的協(xié)議
如何定義一個(gè)超節(jié)點(diǎn)的邊界?這個(gè)邊界就是網(wǎng)卡。超節(jié)點(diǎn)外的以太網(wǎng)是面向連接的設(shè)計(jì),實(shí)現(xiàn)大面積的連通,超節(jié)點(diǎn)內(nèi)的是面向計(jì)算的設(shè)計(jì),實(shí)現(xiàn)的是部件間的協(xié)同。
超節(jié)點(diǎn)內(nèi)通過部件之間深度的耦合,實(shí)現(xiàn)了高效協(xié)同(包括效率、編程習(xí)慣等),這個(gè)耦合帶來了性能(如帶寬、延遲等),特性(內(nèi)存共享、設(shè)備中斷等)的需求,在過去很長一段時(shí)間內(nèi)的典型技術(shù)是PCIe,它很好的解決了以CPU為中心的互連問題,幾乎全部的服務(wù)器設(shè)備都是PCIe接口的。
當(dāng)數(shù)據(jù)中心主要計(jì)算類型發(fā)生變化的時(shí)候,新的挑戰(zhàn)出現(xiàn)了,圍繞GPU為中心的計(jì)算帶來了新的挑戰(zhàn):
-面向GPU的語義支持:GPU是超眾核架構(gòu),其在線程調(diào)度機(jī)制,以及核心的利用率考量上和CPU有著顯著的區(qū)別。CPU的外設(shè)交互模式及RDMA交互模式等,無法有效的滿足GPU的訪存特性和性能要求。和這個(gè)使用模式比較類似的是CXL(Compute Express Link,通用計(jì)算的內(nèi)存擴(kuò)展技術(shù))的使用方式,但CXL在此場景下也存在局限性,比如大量內(nèi)存一致性特性支持的開銷,以及前向兼容PCIe所有協(xié)議棧帶來的大量冗余特性。
-超高性能訴求:Scale Up相對(duì)于Scale Out和業(yè)務(wù)網(wǎng)絡(luò)需要更高一個(gè)數(shù)量級(jí)(10倍以上)的帶寬。由于GPU算力的狂飆,在當(dāng)前的算力水平下,Blackwell這一代配置了雙向共1.8T的算力,這意味著即使采用224g的phy,單芯片也需要雙向共72個(gè)serdes差分對(duì),整機(jī)柜需要數(shù)千根。。如果采用類似網(wǎng)卡的外置控制器方案,在功耗,延遲、穩(wěn)定性等等都具有極大的劣勢。Scale Up互連采用GPU直出,將所有的控制器植入GPU內(nèi)部是不可避免的選擇。
為什么采用全新的Scale Up協(xié)議而不復(fù)用已有的協(xié)議?
Scale UP互連是用于GPU和GPU 互連,是做更大芯片擴(kuò)展的服務(wù)器,是內(nèi)存和顯存共享訪問的語義,特點(diǎn)是極低延遲和大帶寬,規(guī)模在柜內(nèi),可擴(kuò)展為多柜到百芯片級(jí)(只是一種能力保留,但是未來很多年都看不到應(yīng)用),是獨(dú)立Fabric連接,完全不同于以太網(wǎng)。
Scale Out互連是用于服務(wù)器之間是基于網(wǎng)卡+交換機(jī)的集群互連,是以太網(wǎng)協(xié)議,規(guī)模在萬級(jí)以上,普適的互連。
國際的主流廠商,尤其是云計(jì)算為代表的應(yīng)用廠商都積極加入U(xiǎn)ALink,代表了一個(gè)廣泛的觀點(diǎn),對(duì)于Scale Up,是有價(jià)值也有必要從底層協(xié)議到系統(tǒng)硬件進(jìn)行重新設(shè)計(jì)的,目前業(yè)界主流的GPU芯片廠家都會(huì)考慮ScaleUp采用獨(dú)立的Link技術(shù),不會(huì)和ScaleOut合并設(shè)計(jì)。
特性維度
GPU+AI有著顯著的特點(diǎn),GPU是超多核的編程模型,和擅長通用性的CPU不同,需要使用到大量的內(nèi)存語義(load/store)訪問,同時(shí)由于各個(gè)GPU之間需要彼此使用HBM的內(nèi)存,對(duì)跨芯片訪問帶寬和時(shí)延有顯著的高要求。
其次Scale Up相對(duì)于Scale Out和業(yè)務(wù)網(wǎng)絡(luò)需要更高一個(gè)數(shù)量級(jí)(10倍以上)的帶寬,同時(shí)由于對(duì)于延遲的需求,需要采用GPU芯片直出互連的設(shè)計(jì),協(xié)議的輕量化設(shè)計(jì)具備極大的價(jià)值,意味著可以將寶貴的芯片面積節(jié)省給GPU的計(jì)算核心、更高的IO集成能力、更低的功耗。
互連范圍
Scale Up互連注重的是大模型的應(yīng)用,從模型需求和互連分層的角度來說,Scale Up的互連域是一個(gè)獨(dú)立高性能低延遲內(nèi)存共享訪問的互連域,單柜規(guī)模在72~80個(gè)GPU,保留百級(jí)的擴(kuò)展能力(未來很多年都看不到應(yīng)用),節(jié)點(diǎn)訪問都是顯存訪問(load/store),性能和延遲的第一要素,完全不需要采用過于復(fù)雜的協(xié)議,這個(gè)是Scale Out的以太網(wǎng)完全做不到的,如果以太網(wǎng)可以做到,其實(shí)就已經(jīng)簡化到和Scale Up一樣了,也就不是以太網(wǎng)了,脫離了以太網(wǎng)大規(guī)模普適的根本。
當(dāng)前行業(yè)共識(shí)和UALink協(xié)議聯(lián)盟發(fā)展
業(yè)界發(fā)展最早和最成熟的是NVDIA的NVLink技術(shù),然而NVLink并不是開放生態(tài),鑒于此,各家主要廠商或形成了閉環(huán)的自有協(xié)議方案(如谷歌TPU的OCS+ICI架構(gòu)及AWS的NeuronLink)。當(dāng)前行業(yè)中實(shí)際主流的,都采用的是自有技術(shù),然而各家的演進(jìn)成本都很高。
考慮到針對(duì)終態(tài)進(jìn)行設(shè)計(jì),以及共同對(duì)抗行業(yè)壟斷的目的,AMD將其迭代多年的Infinity Fabric協(xié)議貢獻(xiàn)出來,促成UALink聯(lián)盟的成立,希望在更多行業(yè)伙伴的助力下,持續(xù)發(fā)揮原生為GPU互連場景設(shè)計(jì)的優(yōu)勢,使其成為行業(yè)的開放標(biāo)準(zhǔn)。
考慮到技術(shù)特點(diǎn)和開放生態(tài)給云計(jì)算公司將帶來技術(shù)競爭力和供應(yīng)鏈等全方位的優(yōu)勢,UALink在發(fā)布之后快速得到各家的青睞,尤其是原持有自有協(xié)議方案的公司,也積極加入其中。截止11月11日,UALink聯(lián)盟已有三十余家廠商加入,并在持續(xù)擴(kuò)展中;且涵蓋了云計(jì)算和應(yīng)用、硬件、芯片、IP等產(chǎn)業(yè)全生態(tài)。
當(dāng)前國際業(yè)界已經(jīng)形成共識(shí):在開放協(xié)議領(lǐng)域,以UALink為代表的Scale Up協(xié)議和UEC為代表的Scale Out協(xié)議,共同支持AI集群互連基礎(chǔ)協(xié)議的演進(jìn)。
阿里的Alink System:原生支持AI場景的Scale Up開放生態(tài)
ALS(Alink System,加速器互連系統(tǒng))是阿里云目前主導(dǎo)的開放生態(tài),解決Scale Up互連系統(tǒng)的行業(yè)發(fā)展規(guī)范問題。ALS將在系統(tǒng)層面同時(shí)支持UALink國際標(biāo)準(zhǔn)并兼容封閉方案。ALS包括ALS-D數(shù)據(jù)面和ALS-M管控面兩個(gè)主要組成部分。ALS-D在UALink上補(bǔ)充在網(wǎng)計(jì)算加速等特性,并支持Switch組網(wǎng)模式,其主要特點(diǎn)包括:
-性能維度,極致優(yōu)化協(xié)議以達(dá)到最小的成本實(shí)現(xiàn)極致的性能。在協(xié)議格式、重傳方案等維度的設(shè)計(jì)上充分考慮工程的性能優(yōu)化,可對(duì)報(bào)文以極低的延遲進(jìn)行解析、轉(zhuǎn)發(fā),從而具備端到端的低時(shí)延,并且在實(shí)現(xiàn)層面可以節(jié)省大量的芯片面積。
-組網(wǎng)維度,考慮到并行計(jì)算的發(fā)展,在新的并行模式(如EP)下需要更強(qiáng)大的點(diǎn)對(duì)點(diǎn)通信能力,ALS-D系統(tǒng)定義了基于Switch硬件連接方案,并且支持單層和二層的互連拓?fù)?,提供多至?shù)百/數(shù)千節(jié)點(diǎn)的互連,可以在各級(jí)連接方案中維持1:1的帶寬收斂比,實(shí)現(xiàn)具備PB級(jí)的顯存共享,為AI計(jì)算的通信操作提供靈活的規(guī)模支撐。
互連的管控運(yùn)維也是系統(tǒng)設(shè)計(jì)的重要組成部分,ALS-M的目標(biāo)是為不同的芯片方案提供標(biāo)準(zhǔn)化的接入方案,符合此規(guī)范的設(shè)備均可靈活接入應(yīng)用方系統(tǒng)。無論是對(duì)于開放生態(tài)(如UALink系統(tǒng)),還是封閉廠商,ALS使用統(tǒng)一的軟件接口。同時(shí),ALS-M為云計(jì)算等集群管理場景,提供單租、多租等靈活和彈性的配置能力。
ALink System的目標(biāo)是,聚焦GPU算力需求、驅(qū)動(dòng)云計(jì)算定義的開放生態(tài),形成智算超節(jié)點(diǎn)的競爭力。
(責(zé)任編輯:焦點(diǎn))
- ·導(dǎo)播能不能給t1的選手鏡頭啊,我愛看
- ·奧哈拉:若圣誕節(jié)后熱刺仍位居第十,澳波會(huì)被列維解雇
- ·[流言板]發(fā)揮出色!尚帕尼第1節(jié)6投4中,砍下13分1籃板
- ·[流言板]戴維斯:我不懂迄今為止,為什么我還沒拿過最佳防守球員
- ·[情報(bào)站]外網(wǎng)博主選出各特工代表選手:霓虹
- ·德天空:拜仁和比紹夫團(tuán)隊(duì)進(jìn)行了首次談判,還未討論薪資
- ·千年古鎮(zhèn)化身街舞舞臺(tái) 2024年中國大學(xué)生街舞錦標(biāo)賽開賽
- ·德媒:拜仁仍計(jì)劃和諾伊爾續(xù)約,現(xiàn)階段不打算補(bǔ)強(qiáng)門將位置
- ·諾伊爾17分鐘直紅??諾伊爾出擊禁區(qū)外撞倒對(duì)手,吃生涯首張直紅
- ·[流言板]提前戴表!利拉德造成犯規(guī)并拋投命中,半場得到20分
- ·《刺猬索尼克3》幕后花絮公開 伊德瑞斯·艾爾巴手戴納克魯斯拳套配音 方法派表演者
- ·6球8助,亞馬爾西甲生涯參與14球,已打破U18球員參與進(jìn)球紀(jì)錄
- ·[流言板]濃眉連續(xù)攻框被凱斯勒干擾,爵士回應(yīng)一波8
- ·[流言板]鵜鶘已打了22場比賽,還從未有一同出場達(dá)44分鐘的五人陣容
- ·《絕地潛兵2》總監(jiān)表示 很榮幸能與玩家共同經(jīng)歷“過山車般的起伏”
- ·[流言板]打出生涯高光!希羅單節(jié)7記三分,替補(bǔ)席用毛巾捂嘴笑開花
- ·Intel:絕不會(huì)放棄晶圓代工業(yè)務(wù) 即便拆分也要保持控制權(quán)!
- ·今晚第一場!看王楚欽孫穎莎奧運(yùn)后混雙首秀
- ·[流言板]關(guān)鍵時(shí)刻英雄兜底,TE斬獲2024 PGC全球總決賽冠軍!
- ·本賽季12場10球,C羅連續(xù)19個(gè)賽季聯(lián)賽進(jìn)球上雙