首頁(yè) > 科技要聞 > 科技> 正文

英偉達(dá)競(jìng)品AI芯片來(lái)了?AMD三箭齊發(fā),全線圍攻AI服務(wù)器市場(chǎng)

騰訊科技 整合編輯:太平洋科技 發(fā)布于:2024-10-13 00:15

美國(guó)時(shí)間10月10日,AMD在舊金山召開(kāi)了Advancing AI發(fā)布會(huì)。這是老對(duì)手英偉達(dá)2024 AI Summit 結(jié)束后的第三天。

與英偉達(dá)大會(huì)的不同之處在于,英偉達(dá)專注于軟件方面的更新,而AMD主打“硬”牌。

這一次,他們帶來(lái)了三款核心硬件產(chǎn)品:新版Instinct MI325X 、第五代EPYC 服務(wù)器和最新的第三代 DPU Pensando系列。

一天之內(nèi),服務(wù)器GPU、CPU、DPU三箭齊發(fā)。AMD董事會(huì)主席及首席執(zhí)行官蘇姿豐似乎決心重現(xiàn)她在AMD的前十年里,以EPYC服務(wù)器為基石,帶領(lǐng)AMD反超Intel的奇跡。

在開(kāi)場(chǎng)詞中,蘇姿豐表示預(yù)計(jì)到2028年,AI加速器市場(chǎng)規(guī)模將達(dá)到5000億美元。

這一次,我們認(rèn)為她的目標(biāo)更為宏大:通過(guò)打通服務(wù)器的各個(gè)節(jié)點(diǎn),瞄準(zhǔn)規(guī)模數(shù)千億美元的AI服務(wù)器市場(chǎng),成為領(lǐng)頭羊。

蘇姿豐還表示:對(duì)于AMD來(lái)講,AI平臺(tái)意味著四件核心事項(xiàng):作為訓(xùn)練和推理的最強(qiáng)計(jì)算引擎、開(kāi)放的軟件解決方案、建立深度共同創(chuàng)新的AI生態(tài)系統(tǒng)以及在集群水平上的系統(tǒng)設(shè)計(jì)。

本次發(fā)布會(huì)的三支箭正落在集群水平上的系統(tǒng)設(shè)計(jì)這一靶心。

野心已有,但最終還是要看三支箭是否足夠“鋒利”,能刺破英偉達(dá)構(gòu)筑的AI服務(wù)器鐵桶陣。

第一支箭:

新一代EPYC服務(wù)器發(fā)布,CPU也要助力AI

蘇姿豐執(zhí)掌AMD,十年磨兩劍:一是Ryzen芯片,另一個(gè)就是EPYC CPU服務(wù)器。

從2018年開(kāi)始,EPYC服務(wù)器從市占率接近0%,經(jīng)過(guò)四代升級(jí)達(dá)到了2024年H1的34%。生生從英特爾手里奪走了CPU服務(wù)器市場(chǎng)的1/3份額。這也是蘇姿豐最得意的一場(chǎng)仗。

為了形成一體化的AI服務(wù)器陣列,今年,EPYC迎來(lái)了它的第五代升級(jí)——EPYC 9005系列。

AMD 第五代 EPYC 處理器(代號(hào)"Turin")采用了 臺(tái)積電 3/4nm 制程和 Zen 5 架構(gòu),最高配置擁有16個(gè) Zen5的 CCD核心,內(nèi)含 192 核心和 384 線程。時(shí)鐘頻率可達(dá) 5GHz。這款處理器支持 AVX512 指令集,提供完整的 512 位數(shù)據(jù)路徑,并實(shí)現(xiàn)了 17% 的 IPC 性能提升。它使用 SP5 平臺(tái),兼容前代"Genoa"處理器。內(nèi)存方面,它引入了DDR5支持,帶寬提升至6400 MT/s;I/O能力上,它支持PCIe Gen5和更多的PCIe通道;安全性方面增加了硬件級(jí)別的根信任和可信I/O功能。

Turin處理器的性能領(lǐng)先相當(dāng)明顯,相比于上一代英特爾Xeon服務(wù)器,Turin在SPEC CPU測(cè)試中性能提升2.7倍,企業(yè)性能最高提升4.0倍,HPC(高性能計(jì)算)性能最高提升3.9倍。在不同的工作中雖然表現(xiàn)不一,但整體相較上一代EPYC服務(wù)器,Turin的提升也很大。

特別值得注意的是Turin在AI方面的能力提升和對(duì)GPU節(jié)點(diǎn)控制的優(yōu)化:它基于CPU的AI性能最高提升3.8倍,作為GPU主機(jī)節(jié)點(diǎn)時(shí)性能最高提升1.2倍。

對(duì)于這些提升,AMD做了一個(gè)形象的展示。如果你用Turin服務(wù)器替代上一代Xeon服務(wù)器的話,131個(gè)Turin就足夠達(dá)成1000個(gè)Xeon服務(wù)器的效果。

AMD還對(duì)Turin的AI適用性加強(qiáng)做了更深入的闡述。因?yàn)樵贏I時(shí)代,越來(lái)越少的人會(huì)把服務(wù)器專用于一般用途,多少都得和AI結(jié)合上,而在這種情況下,對(duì)AI有更好支持的Turin就是最好的選擇。

AMD也非常在意Turin作為GPU主機(jī)節(jié)點(diǎn)帶來(lái)的GPU算力提升。AMD優(yōu)化了CPU在AI工作流程中的關(guān)鍵動(dòng)作,包括數(shù)據(jù)預(yù)處理、內(nèi)存復(fù)制、內(nèi)核啟動(dòng)和任務(wù)協(xié)調(diào)等。這些優(yōu)化使得CPU在處理GPU協(xié)調(diào)任務(wù)時(shí)更高效,比前代產(chǎn)品快28%。

AMD和Xeon 8592做了一下對(duì)比,Turin讓MI300X的推理性能提升了8%,訓(xùn)練性能提升了20%。

針對(duì)英偉達(dá)H100,Turin更是使GPU集群的推理性能提升了高達(dá)20%,訓(xùn)練提升了15%。比自家的MI300X都強(qiáng)。

第五代EPYC的表現(xiàn)和側(cè)重,一方面顯示了AI戰(zhàn)略在AMD當(dāng)下戰(zhàn)略中的重要性。另一方面也是對(duì)英特爾近兩代Xeon服務(wù)器都大力強(qiáng)調(diào)AI能力的回應(yīng)——就算上了AI,AMD的CPU服務(wù)器還是遙遙領(lǐng)先。

第二支箭:

MI325X登場(chǎng),下一代GPU劍指B200

發(fā)布會(huì)上,蘇姿豐放出的第二支箭是MI300系列的第二代產(chǎn)品MI325X。它曾在2024 ComputerX上被簡(jiǎn)短介紹過(guò),但其技術(shù)細(xì)節(jié)從未被公布。作為目前最有望打破英偉達(dá)壟斷的GPU加速器產(chǎn)品,MI300系列的下一代產(chǎn)品備受關(guān)注。

此刻,答案終于揭曉:MI325X性能上超越了H200。

MI325X加速器采用了 AMD CDNA 3 GPU 架構(gòu),配備 256GB 下一代 HBM3E 高帶寬內(nèi)存。內(nèi)置 1530 億個(gè)晶體管。它提供了 6TB/s 的內(nèi)存帶寬,在 FP8 和 FP16 精度下分別達(dá)到 2.6 PF 和 1.3 PF 的峰值理論性能。

與英偉達(dá)上一代的旗艦GPU 加速器H200相比,MI325X的內(nèi)存容量更大(256Gvs141G),內(nèi)存帶寬也更高(6TB/s vs 4.8TB/s)。在算力方面,雖然英偉達(dá)官方宣稱H200的FP16 算力可達(dá)1.9 PF,但經(jīng)semianalysis實(shí)測(cè),其實(shí)際算力約為1 PF,與H100持平,比MI325X低了30%。

因此AMD MI325X在推理方面的表現(xiàn)平均超越H200 30%,與其算力比提升相符。保持了上一代的領(lǐng)先優(yōu)勢(shì)。

由MI325X核心集成的GPU平臺(tái)包含 8 個(gè) MI325X。該平臺(tái)總共提供 2TB HBM3E 高帶寬內(nèi)存,F(xiàn)P8 精度下的理論峰值性能達(dá)到 20.8 PF,F(xiàn)P16 精度下達(dá)到 10.4 PF。系統(tǒng)配備 AMD Infinity Fabric 互連技術(shù),帶寬高達(dá) 896 GB/s,總內(nèi)存帶寬達(dá)到了 48 TB/s。

相比于H200的集成平臺(tái)H200 HGX,MI325X平臺(tái)提供1.8倍的內(nèi)存量,1.3倍的內(nèi)存帶寬和1.3倍的算力水平。

在推理方面能相較H200 HGX提升至多1.4倍的表現(xiàn)水平。

AMD版GPU軟件系統(tǒng)ROCm在過(guò)去一年內(nèi)和主流AI開(kāi)發(fā)平臺(tái)的適配性一直在磨合期,這導(dǎo)致其訓(xùn)練效果有待提升。但這一年來(lái)AMD一方面加強(qiáng)升級(jí)ROCm,一方面與AI開(kāi)發(fā)平臺(tái)深度合作,總算是讓它有了一倍左右的提升。

這一提升的結(jié)果是,針對(duì)Meta Llama-2這種主流模型,MI325X的單GPU訓(xùn)練效率終于超越了H200。而在集群中,其訓(xùn)練效率仍和H200 HGX相當(dāng)。

MI325X預(yù)計(jì)將于 2024 年第四季度開(kāi)始出貨,與H200的大規(guī)模交付相差僅一個(gè)季度。鑒于目前英偉達(dá)遇到了B200和B100的封裝瓶頸,規(guī)模發(fā)貨被延遲,交付給OpenAI的也僅僅是工程樣機(jī)。如果MI325X的發(fā)貨規(guī)模能快速爬升,那理論上的代差就會(huì)被實(shí)際的出貨情況抹平,MI325X在市場(chǎng)上的實(shí)際對(duì)手就是H200,而它還比H200性能稍高。

現(xiàn)在就看AMD能否抓住這個(gè)窗口期,保證供應(yīng)鏈,趁機(jī)擴(kuò)大市場(chǎng)了。

除了MI325X外,AMD還詳細(xì)介紹了更下一代MI300系列的GPU加速器MI350系列。

它采用了 AMD 的 CDNA 4 架構(gòu),使用先進(jìn)的 3nm 制程工藝,配備高達(dá) 288GB 的 HBM3E 高帶寬內(nèi)存。MI350 系列的一個(gè)重要?jiǎng)?chuàng)新是新增了 FP4 和 FP6 數(shù)據(jù)類型支持,這可能會(huì)在保持計(jì)算精度的同時(shí)進(jìn)一步提高 AI 訓(xùn)練和推理性能。

據(jù)AMD表示,MI355X的在FP16數(shù)據(jù)格式下的算力可達(dá)到2.3PF,比MI325X提升1.8倍,與B200的算力持平。而在FP6和FP4格式下,其算力可達(dá)9.2PF,比B200在FP6格式下算力提升近一倍,而與其在FP4格式下算力持平。

因此MI355X可以被視為AMD真正劍指B200的GPU芯片。

而MI355X的集成平臺(tái)則配備了 2.3TB HBM3E 高帶寬內(nèi)存,內(nèi)存帶寬高達(dá) 64 TB/s。在計(jì)算性能方面,MI355X 在 FP16 精度下可達(dá) 18.5 PF,F(xiàn)P8 精度下達(dá)到 37 PF。在新增的 FP6 和 FP4 數(shù)據(jù)類型下,它能達(dá)到 74 PF 的理論峰值性能。

不過(guò)這一產(chǎn)品需要等到2025年下半年才能發(fā)售。

AMD還在發(fā)布會(huì)上公布了其路線圖,除了以上的產(chǎn)品外,2026年AMD預(yù)計(jì)會(huì)發(fā)售基于新架構(gòu)的MI400系列GPU芯片。

除了硬件,AMD也提了一下自己在軟件棧上的進(jìn)展。近一年來(lái),AMD打通了所有主要AI開(kāi)發(fā)平臺(tái)。獲取了PyTorch的零日更新(可以在軟件升級(jí)當(dāng)天使用其新功能)支持及Triton的AMD 硬件兼容。

在模型層面,AMD加強(qiáng)了與Huggingface和Meta的合作,對(duì)于超過(guò)100萬(wàn)種主流模型都能做到開(kāi)箱即用。Meta的Llama模型還能做到零日支持(可以在模型升級(jí)當(dāng)天使用其新功能)。

在這一系列合作的加持下,ROCm 的最新版本6.2,相較于舊版在推理和訓(xùn)練上都有了超過(guò)2倍的提升。

在2024年第二季度的財(cái)報(bào)中,MI300在單季度內(nèi)就實(shí)現(xiàn)了超過(guò)10億美元的銷售額,這一成績(jī)遠(yuǎn)超市場(chǎng)預(yù)期。雖然服務(wù)器業(yè)務(wù)綜合銷售額僅為英偉達(dá)同期的13%。但就目前的形勢(shì)來(lái)看,MI325X很有可能擴(kuò)大MI300帶來(lái)的市場(chǎng)占有率。

至于價(jià)格,AMD表示從性價(jià)比上講,MI325X將相對(duì)競(jìng)爭(zhēng)對(duì)手保持優(yōu)勢(shì)。

第三支箭:

用新DPU解決AI數(shù)據(jù)傳輸瓶頸

對(duì)于大多數(shù)公司來(lái)講,數(shù)據(jù)傳輸可能才是他們模型訓(xùn)練中最大的攔路虎。

想要構(gòu)建一個(gè)好的數(shù)據(jù)服務(wù)器集群,除了算力扎實(shí)以外,核心任務(wù)是實(shí)現(xiàn)高效的數(shù)據(jù)傳輸,確保能夠快速處理和分發(fā)海量的訓(xùn)練數(shù)據(jù),從而最大化GPU利用率。

與此同時(shí),支持大規(guī)模GPU并行計(jì)算也成為了一項(xiàng)關(guān)鍵能力,服務(wù)器需要能夠協(xié)調(diào)大量GPU的同時(shí)運(yùn)作,并在擴(kuò)展過(guò)程中保持近乎線性的性能提升。

很多基礎(chǔ)模型公司甚至將它作為AI工程的核心。Meta在訓(xùn)練Llama 3.1時(shí)就專門搭建了一個(gè)相當(dāng)復(fù)雜的集群,力圖增加并聯(lián)GPU數(shù)量和數(shù)據(jù)效率,并選擇了RoCE v2傳輸協(xié)議解決網(wǎng)絡(luò)問(wèn)題。經(jīng)過(guò)多次分路和調(diào)整數(shù)據(jù)包的大小實(shí)驗(yàn),Meta的工程團(tuán)隊(duì)才成功達(dá)成了一個(gè)相對(duì)高效的數(shù)據(jù)傳輸水平和穩(wěn)定性。

(Meta的相關(guān)論文)

但這種工程能力并非所有開(kāi)發(fā)模型的公司都有,數(shù)據(jù)傳輸往往會(huì)成為計(jì)算集群的核心卡點(diǎn),使得GPU的算力無(wú)法得到滿載發(fā)揮。

AMD這次推出的第三代可編程 P4引擎就旨在解決這一問(wèn)題。它的傳輸速度可以達(dá)到400GB/s,與英偉達(dá)最新的DPU BlueField-3持平。而且它支持120M每秒的可編程數(shù)據(jù)包,和5M每秒的并發(fā)服務(wù)速度。

這一芯片的核心特性就是在處理并聯(lián)GPU的后端網(wǎng)絡(luò)優(yōu)化,它能針對(duì)高負(fù)載數(shù)據(jù)進(jìn)行負(fù)載均衡和擁塞管理,可以避免同一數(shù)據(jù)通路上產(chǎn)生數(shù)據(jù)包阻塞,還能在丟包時(shí)僅重發(fā)丟失的包,而非一口氣把所有數(shù)據(jù)重發(fā)一遍;它還支持快速故障恢復(fù),可以繞過(guò)出現(xiàn)錯(cuò)誤的GPU所在的數(shù)據(jù)通路,避免整個(gè)集群直接癱瘓,并試圖自動(dòng)修復(fù)該處的數(shù)據(jù)包故障。

AMD為前端網(wǎng)絡(luò)提供的解決方案是Pensando Salina 400 DPU,它采用 400G PCIe Gen 5 接口,配備 232 P4 多服務(wù)MPU,雙通道 DDR5 內(nèi)存(帶寬高達(dá) 102GB/s,最大容量 128GB),以及 16 個(gè) N1 ARM 核心。該產(chǎn)品支持軟件定義網(wǎng)絡(luò)、有狀態(tài)防火墻、加密、負(fù)載均衡、網(wǎng)絡(luò)地址轉(zhuǎn)換和存儲(chǔ)卸載等功能。其核心數(shù)量與BlueField-3持平,但內(nèi)存和帶寬都有提升(BlueField-3僅有32G DDR5內(nèi)存)。

簡(jiǎn)單來(lái)說(shuō),這一DPU從硬件基礎(chǔ)上比英偉達(dá)的同類產(chǎn)品BlueField-3擁有更多的吞吐內(nèi)存,在網(wǎng)絡(luò)調(diào)節(jié)中也更自由。

而后端網(wǎng)絡(luò)的網(wǎng)卡則為Pensando Pollara 400,這是業(yè)界首款支持 Ultra Ethernet Consortium 標(biāo)準(zhǔn)的 AI 網(wǎng)絡(luò)接口卡(NIC)。該產(chǎn)品具有可編程硬件管道,性能提升最高達(dá) 6 倍,支持 400Gbps 的網(wǎng)絡(luò)速度。它采用開(kāi)放生態(tài)系統(tǒng)設(shè)計(jì),支持 UEC Ready RDMA 技術(shù),可縮短作業(yè)完成時(shí)間,并提供高可用性。Pollara 400 的主要特性包括可編程 RDMA 傳輸、可編程擁塞控制和通信庫(kù)加速。

因此,通過(guò)AMD的DPU產(chǎn)品,其對(duì)于AI服務(wù)器網(wǎng)絡(luò)的利用率可以達(dá)到95%,而一般未優(yōu)化數(shù)據(jù)網(wǎng)絡(luò)僅能做到不到50%。

這些提升背后的秘密武器是UEC(超級(jí)以太網(wǎng)聯(lián)盟)協(xié)議,據(jù)AMD宣稱,其相比于Meta訓(xùn)練時(shí)使用的傳統(tǒng)的RoCE v2協(xié)議,服務(wù)器中信息傳輸速度能提高 6 倍,集群間信息傳輸速度提高了5倍。而且之前的智能分路等多種功能也都是內(nèi)嵌于UEC協(xié)議之中的。

目前AMD的新款DPU是唯一支持UEC協(xié)議的數(shù)據(jù)網(wǎng)絡(luò)傳輸產(chǎn)品。英偉達(dá)的BlueField-3目前僅支持EoCE v2協(xié)議,而且它想要轉(zhuǎn)換協(xié)議并非易事,除了需要面對(duì)AMD的專利瓶頸外,硬件兼容性也需要一個(gè)較長(zhǎng)的過(guò)程才能完成。

雖然AMD在2022年就收購(gòu)了Pansando公司,并推出了兩代DPU產(chǎn)品。但它都沒(méi)能打破英偉達(dá)由BlueField系列構(gòu)建的DPU霸權(quán)。畢竟據(jù)英偉達(dá)官方介紹,搭配BlueField,英偉達(dá)的GPU集群表現(xiàn)可以提升1.7倍。

但如果UEC被實(shí)際證明確實(shí)高效,AMD就至少成功搶占了在DPU上的先發(fā)優(yōu)勢(shì)。

結(jié) 語(yǔ)

在蘇姿豐的帶領(lǐng)下,AMD花了十年時(shí)間重新回到了芯片的核心賽圈。

而下一個(gè)十年,也是AI蓬勃發(fā)展的黃金十年。蘇姿豐瞄準(zhǔn)這一方向沖刺,她在采訪中曾說(shuō):“AI正在推動(dòng)一場(chǎng)革命,并迅速重塑科技行業(yè)的方方面面,從數(shù)據(jù)中心到AI PC和邊緣計(jì)算!

在新的十年的開(kāi)始之際,AMD通過(guò)這次發(fā)布會(huì)準(zhǔn)備在AI領(lǐng)域進(jìn)行全線布局,讓服務(wù)器的三大支柱都ALL IN AI。

不過(guò),AMD是否還能繼續(xù)攻城略地,成功逆襲,目前尚未可知。這次蘇姿豐面對(duì)對(duì)手畢竟與當(dāng)初不同。

本文來(lái)源:騰訊科技

網(wǎng)友評(píng)論

聚超值•精選

推薦 手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來(lái)
  • 二維碼 回到頂部