11月6日,史上在百度智能云技術(shù)沙龍期間,靈魂百度杰出系統(tǒng)架構(gòu)師、拷問(wèn)百度智能云AI計(jì)算部負(fù)責(zé)人王雁鵬表示,集群全球科技巨頭正在積極打造10萬(wàn)卡集群,該咋管沖刺AGI;而國(guó)內(nèi)構(gòu)建10萬(wàn)卡集群則面臨著三大難題:跨地域部署、史上多芯混訓(xùn)以及集群穩(wěn)定性。靈魂這些難題包括技術(shù)和工程上的拷問(wèn)多重挑戰(zhàn)。王雁鵬介紹,集群經(jīng)過(guò)多年的該咋管技術(shù)積累和產(chǎn)業(yè)實(shí)踐,百舸4.0已能夠?qū)崿F(xiàn)10萬(wàn)卡集群的史上高效管理,并通過(guò)HPN高性能網(wǎng)絡(luò)、靈魂自動(dòng)化混訓(xùn)切分策略、拷問(wèn)自研集合通信庫(kù)等一系列產(chǎn)品技術(shù)創(chuàng)新,集群解決了上述難題。該咋管
百度杰出系統(tǒng)架構(gòu)師 王雁鵬
為什么需要10萬(wàn)卡集群?
大模型競(jìng)賽本質(zhì)是算力競(jìng)賽
自O(shè)penAI發(fā)布Chatgpt兩年來(lái),大模型產(chǎn)業(yè)發(fā)展的腳步似乎慢了。然而大洋彼岸,xAI、Meta、OpenAI等眾多科技巨頭都在積極布局10萬(wàn)卡乃至更大規(guī)模的智算集群。
當(dāng)?shù)貢r(shí)間 7 月 22 日,馬斯克宣布位于美國(guó)田納西州孟菲斯市的孟菲斯超級(jí)集群開(kāi)始投入訓(xùn)練。該集群配備了 10 萬(wàn)個(gè)英偉達(dá) H100 GPU,被稱為 “世界上最強(qiáng)大的 AI 訓(xùn)練集群”。兩個(gè)月后,馬斯克在 X 平臺(tái)上宣布該集群名為 “Colossus(巨人)”,將在未來(lái)幾個(gè)月內(nèi)再增加 10 萬(wàn)顆 GPU,其中 5 萬(wàn)顆將是更為先進(jìn)的英偉達(dá) H200。 Grok 3 大模型正在超算中心中進(jìn)行訓(xùn)練,訓(xùn)練預(yù)計(jì)在三到四個(gè)月內(nèi)完成,目標(biāo)是在今年 12 月發(fā)布 Grok 3。
另一家科技巨頭Meta也不示弱。Meta首席執(zhí)行官馬克·扎克伯格在第三季度財(cái)報(bào)電話會(huì)議上透露,Llama 4模型正在一個(gè)由10萬(wàn)片H100 GPU組成的集群上進(jìn)行訓(xùn)練,并預(yù)計(jì)在明年首次推出。為了支持大模型,Meta預(yù)計(jì)本年度資本支出將高達(dá)400億美元,比去年增加了超過(guò)42%。扎克伯格在財(cái)報(bào)電話會(huì)議中強(qiáng)調(diào),明年將進(jìn)一步加大對(duì)AI基礎(chǔ)設(shè)施的投資。
而大模型領(lǐng)頭羊OpenAI與微軟的“黃金搭檔”卻因?yàn)橛?jì)算集群的交付進(jìn)度產(chǎn)生了分歧。此前微軟與 OpenAI 合作共建一個(gè)代號(hào)為 “星際之門” 的巨型數(shù)據(jù)中心項(xiàng)目。這個(gè)項(xiàng)目預(yù)計(jì)成本超過(guò) 1150 億美元,旨在容納一臺(tái)面向 AI 的配備數(shù)百萬(wàn)塊 GPU 的超級(jí)計(jì)算機(jī)。據(jù)報(bào)道,微軟計(jì)劃到明年年底向 OpenAI 提供約 30 萬(wàn)個(gè)英偉達(dá)最新的 GB200 圖形處理器。然而面對(duì)步步緊逼的對(duì)手,阿爾特曼似乎對(duì)微軟的速度不滿意。完成66億美元融資后,OpenAI開(kāi)始尋求更加獨(dú)立的數(shù)據(jù)中心和云服務(wù)方式并與甲骨文達(dá)成了協(xié)議,將在德克薩斯州的一個(gè)新數(shù)據(jù)中心租用服務(wù)器。該數(shù)據(jù)中心被譽(yù)為世界上最大的數(shù)據(jù)中心之一,未來(lái)可能容納數(shù)十萬(wàn)個(gè)英偉達(dá) AI 芯片。
王雁鵬表示,從美國(guó)科技企業(yè)的瘋狂布局10萬(wàn)卡可以看得出,Scaling Law定律目前看仍然有效。公開(kāi)數(shù)據(jù)顯示,GPT-3的訓(xùn)練數(shù)據(jù)集包含3000億個(gè)token。而GPT-4的訓(xùn)練數(shù)據(jù)集包含約13萬(wàn)億個(gè)token。模型的持續(xù)升級(jí),意味著數(shù)據(jù)量的指數(shù)級(jí)增長(zhǎng)。而訓(xùn)練數(shù)據(jù)量的升級(jí)對(duì)計(jì)算集群也提出了挑戰(zhàn)。10萬(wàn)卡的訓(xùn)練集群正是為了滿足模型參數(shù)增長(zhǎng)所帶來(lái)的高算力需求。
10萬(wàn)卡集群難在哪?
跨地域部署、多芯混訓(xùn)、集群穩(wěn)定性是最大挑戰(zhàn)
10萬(wàn)卡雖好,但部署如此大規(guī)模的算力集群會(huì)面臨很大挑戰(zhàn)。
例如,美國(guó)老舊的電網(wǎng)就無(wú)法跟上大模型的步伐。由于集群耗電量巨大,美國(guó)的眾多數(shù)據(jù)中心都遭遇了電網(wǎng)崩潰。一位微軟工程師曾表示,為GPT-6搭建10萬(wàn)個(gè)H100訓(xùn)練集群時(shí),整個(gè)電網(wǎng)發(fā)生了崩潰。據(jù)估算,一個(gè)10萬(wàn)卡集群每天的耗電量達(dá)到300萬(wàn)度,相當(dāng)于北京市東城區(qū)一天的居民用電量。此外,10萬(wàn)卡集群需要大約 10 萬(wàn)平方米,相當(dāng)于 14 個(gè)標(biāo)準(zhǔn)足球場(chǎng)的面積。如果想在單一建筑中部署這么大的集群,將面臨選址困難和法規(guī)限制等挑戰(zhàn)。
出于上述原因,美國(guó)科技公司的超大集群大多選擇跨地域部署。為了突破單一數(shù)據(jù)中心的規(guī)模限制,谷歌和微軟已著手將大規(guī)模模型訓(xùn)練擴(kuò)展至多個(gè)數(shù)據(jù)中心園區(qū)。其中,谷歌的Gemini 1 Ultra模型已率先實(shí)現(xiàn)多數(shù)據(jù)中心訓(xùn)練。微軟計(jì)劃將其在鳳凰城的AI訓(xùn)練基地?cái)U(kuò)展至10座建筑,自建24個(gè)數(shù)據(jù)中心,在多個(gè)超大規(guī)模園區(qū)互聯(lián),實(shí)施覆蓋全美的大規(guī)模分布式訓(xùn)練。
王雁鵬介紹,由于電網(wǎng)配電限制、占地空間大等原因,十萬(wàn)卡集群需要跨樓、跨園區(qū),甚至跨城部署。而這種跨地域部署勢(shì)必會(huì)增加網(wǎng)絡(luò)通信的復(fù)雜性??绲赜蛲ㄐ判枰鉀Q長(zhǎng)距離通信延遲、擁塞控制等技術(shù)問(wèn)題。
國(guó)內(nèi)企業(yè)構(gòu)建10萬(wàn)卡集群還面臨著一個(gè)現(xiàn)實(shí)的困難:芯片。國(guó)內(nèi)企業(yè)面臨算力供應(yīng)不穩(wěn)定的挑戰(zhàn),較難構(gòu)建單一大規(guī)模訓(xùn)練集群?,F(xiàn)實(shí)情況是,企業(yè)內(nèi)部會(huì)出現(xiàn)同一廠商不同代際芯片,或者不同廠商芯片共存的情況。這些芯片如何進(jìn)行混部訓(xùn)練,同時(shí)保證混部訓(xùn)練的效率也是難題。
此外,隨著芯片集成度的不斷提高,芯片的故障率也會(huì)相應(yīng)上升,英偉達(dá)H系列芯片的故障率比A系列高3-4倍。并且算力集群規(guī)模越大,其故障率就越高。按照H系列芯片的故障率水平,十萬(wàn)卡集群每20分鐘就會(huì)出現(xiàn)故障。較高的故障率對(duì)穩(wěn)定性訓(xùn)練保障提出了更高的要求。
如何破局?
如何解決跨地域部署、多芯混訓(xùn)、集群穩(wěn)定性是國(guó)內(nèi)10萬(wàn)卡部署的三大難題?王雁鵬介紹,以百度為代表的廠商正在破解這些難題。
在跨地域方面,針對(duì)由于傳輸距離變長(zhǎng)所產(chǎn)生的高延遲,百舸4.0已經(jīng)構(gòu)建了十萬(wàn)卡級(jí)別的超大規(guī)模HPN高性能網(wǎng)絡(luò),通過(guò)提供更高效的拓?fù)浣Y(jié)構(gòu)、更優(yōu)的多路徑負(fù)載均衡策略及通信策略,能夠?qū)崿F(xiàn)幾十公里的跨地域通信。同時(shí),在通信效率上,通過(guò)優(yōu)化的擁塞控制算法、集合通信算法策略,將帶寬有效率提升至95%,實(shí)現(xiàn)了完全無(wú)阻塞。最后,通過(guò)10ms級(jí)別超高精度網(wǎng)絡(luò)監(jiān)控,保障了網(wǎng)絡(luò)穩(wěn)定性。
在多芯混訓(xùn)方面,百舸能夠?qū)⒉煌攸c(diǎn)、不同規(guī)模的異構(gòu)算力進(jìn)行統(tǒng)一管理,構(gòu)建起多芯資源池。當(dāng)業(yè)務(wù)提交工作負(fù)載時(shí),可自動(dòng)進(jìn)行芯片選型,依據(jù)集群剩余的芯片資源,選擇性價(jià)比最高的芯片來(lái)運(yùn)行任務(wù),從而最大化地利用集群的剩余資源。最終,可實(shí)現(xiàn)高達(dá)95%的萬(wàn)卡多芯混合訓(xùn)練效能。
在集群穩(wěn)定性方面,百舸提供全面的故障診斷手段,可以快速自動(dòng)偵測(cè)到導(dǎo)致訓(xùn)練任務(wù)異常的節(jié)點(diǎn)故障。同時(shí),百度自研的BCCL(百度集合通信庫(kù)),能夠快速定位故障同時(shí)提供自動(dòng)化的容錯(cuò)能力,重新調(diào)度任務(wù)到健康節(jié)點(diǎn),繼續(xù)完成訓(xùn)練,目前已經(jīng)將故障恢復(fù)時(shí)間從小時(shí)級(jí)降低到分鐘級(jí)。
王雁鵬表示,公有云是企業(yè)進(jìn)行大模型訓(xùn)練的主流方式。在10萬(wàn)卡集群出現(xiàn)之前,為滿足企業(yè)大模型的訓(xùn)練需求,云廠商常常采用服務(wù)一個(gè)企業(yè),搭建一個(gè)集群的方式。然而,這種方式存在明顯劣勢(shì),即每個(gè)集群都是為特定企業(yè)服務(wù),在企業(yè)的訓(xùn)練任務(wù)不處于高峰期時(shí),集群中的計(jì)算資源可能會(huì)處于閑置狀態(tài),造成資源的浪費(fèi)。而當(dāng)10萬(wàn)卡集群出現(xiàn)后,云廠商就可以依靠這個(gè)大型集群為眾多企業(yè)提供服務(wù),根據(jù)不同企業(yè)的需求動(dòng)態(tài)分配計(jì)算資源,這樣不僅提高了資源利用率,也降低了企業(yè)使用云服務(wù)的成本,極大地增強(qiáng)了云廠商在市場(chǎng)中的競(jìng)爭(zhēng)優(yōu)勢(shì)。
“通過(guò)跨地域部署、多芯混訓(xùn)等技術(shù),云廠商可以有效降低運(yùn)營(yíng)及算力成本,從而為企業(yè)客戶帶來(lái)更加實(shí)惠的云服務(wù)。”王雁鵬說(shuō)。