首款大模型推理專用ASIC芯片問世,一上來就要挑戰(zhàn)英偉達(dá)—— 一張頂20張H100 700億參數(shù)Llama 3吞吐量達(dá)到每秒500000(五十萬)tokens 比英偉達(dá)下一代芯片GB200快一個(gè)數(shù)量級(jí),還更便宜 Sohu芯片,來自初創(chuàng)公司Etched,一經(jīng)推出就引起業(yè)界墻裂關(guān)注。 作為專用集成電路ASIC,與通用計(jì)算的GPU不同,它只支持Transformer一種算法,無法運(yùn)行同為神經(jīng)網(wǎng)絡(luò)的CNN、LSTM、以及Mamba等狀態(tài)空間模型。 Etched公司也剛剛完成1.2億美元A輪融資(約8.7億元人民幣),Peter Thiel、GitHub現(xiàn)任CEO Thomas Dohmke等重量級(jí)天使投資人參與。公司還透露,已有某客戶預(yù)定了價(jià)值數(shù)千萬美元的硬件產(chǎn)品。
對(duì)此,Mamba作者Tri Dao也感嘆:
有網(wǎng)友一算,人平均每天說1.8萬個(gè)單詞,那Sohu芯片一秒內(nèi)就能生成21個(gè)人一天說的所有話,感覺太虛幻了。 (但實(shí)際上每秒500000tokens吞吐量包含輸入和輸出,不是純生成這么多) 那么Sohu能威脅到英偉達(dá)的地位么? 考慮到Sohu更適合推理而不是訓(xùn)練,對(duì)于其他注重AI推理的芯片如和更是一種挑戰(zhàn),而不是威脅英偉達(dá)。 實(shí)在不行,老黃也可以使用鈔能力把整個(gè)Etched買下來嘛(手動(dòng)狗頭)。 把Transformer燒錄到芯片里 ASIC全稱是應(yīng)用專用集成電路(Application-Specific Integrated Circuit),相當(dāng)于把某種特定的程序“硬件化”。并且只為一種任務(wù)優(yōu)化,去掉不必要的功能,以達(dá)到比通用芯片更快并且功耗更低的目的。 如比特幣后期,礦工們就拋棄了GPU,使用挖礦專用ASIC芯片能帶來更多的利潤。又或者手機(jī)里的視頻解碼芯片,通常也是一種ASIC。 具體到Sohu,就相當(dāng)于把Transformer網(wǎng)絡(luò)架構(gòu)“燒錄”到芯片里,公司名稱Etched也是取自“蝕刻”的意思。 Sohu由臺(tái)積電4nm工藝制造,只有1個(gè)核心,每張芯片配有144GB HBM3E高帶寬內(nèi)存。 一張芯片最高能支持100萬億參數(shù)大模型(現(xiàn)在根本還沒有這么大的),支持MoE架構(gòu)和各種Transformer變體,支持束搜索和蒙特卡洛樹搜索解碼。 基本上今天主流大模型需要的支持都考慮到了。 在Etched自己給出的測(cè)試結(jié)果中,Sohu比推理Llama-3 70B比H100快20倍以上, 具體設(shè)置如下: FP8精度的Llama-3 70B,無稀疏性,8倍模型并行,2048輸入長度/128輸出長度 使用TensorRT-LLM 0.10.08(最新版本)評(píng)估H100性能,B200的數(shù)字是估計(jì)的 Etched團(tuán)隊(duì)表示,H100有800億個(gè)晶體管,卻只有3.3%用于矩陣乘法,這種大模型推理時(shí)最常見的運(yùn)算。 只支持Tranformer的Sohu芯片F(xiàn)LOPS有效利用率超過90%(GPU大約是30%),無需用低精度量化或稀疏性等降低推理成本,同時(shí)也在一定程度上削弱模型能力的方法了。 讓AI模型快了20倍、同時(shí)更便宜,能帶來哪些改變? Etched團(tuán)隊(duì)列舉了今天SOTA模型的幾個(gè)痛點(diǎn): Gemini需要60秒才能回答與視頻有關(guān)的問題 編程智能體的成本還高于人類軟件工程師 視頻生成模型每秒約生成一幀 同時(shí)它們也給出了3個(gè)應(yīng)用場(chǎng)景參考: 實(shí)時(shí)語音客服,幾毫秒理解幾千字并給出回復(fù)。 具體場(chǎng)景是飯店顧客問還需要等多長時(shí)間才有座位,AI查詢系統(tǒng)中每桌預(yù)定情況數(shù)據(jù)后,計(jì)算出還要等45分鐘,并引導(dǎo)用戶預(yù)定位置。 代碼場(chǎng)景,使用樹搜索算法并行比較幾百個(gè)方案,選擇最好的。 文本生成,也能更好地利用投機(jī)解碼提高生成的質(zhì)量和速度。 目前Sohu開發(fā)者云已開啟搶先體驗(yàn)申請(qǐng),在實(shí)際場(chǎng)景中能取得什么樣的效果,量子位將持續(xù)關(guān)注。 兩哈佛輟學(xué)生創(chuàng)辦 Etched公司成立僅兩年,由兩位哈佛輟學(xué)生Gavin Uberti和Chris Zhu創(chuàng)辦。 兩人聲稱在2022年就賭Transformer將改變世界。領(lǐng)英資料也顯示公司創(chuàng)立時(shí)間在2022年10月,比ChatGPT問世還早一個(gè)月。 Etched剛剛完成1.2億美元的A輪融資,由Primary Venture Partners和Positive Sum Ventures共同領(lǐng)投,主要投資人還包括Peter Thiel、GitHub首席執(zhí)行官Thomas Dohmke、Cruise聯(lián)合創(chuàng)始人Kyle Vogt和Quora聯(lián)合創(chuàng)始人Charlie Cheever。 除了這些大咖之外,我們發(fā)現(xiàn)也有不少AI初創(chuàng)公司創(chuàng)始人投資了Etched后激情“曬單”。 投資者中的不少人都認(rèn)同Transformer專用芯片是不可避免的新趨勢(shì)。 四年間,GPU并沒有變得更好 Etched提出,GPU在過去四年間效率并沒有變得更好,只是變得更大了:芯片每平方毫米的的TFLOPS幾乎持平。 事實(shí)上老黃本人也在今年GTC大會(huì)上提出: 在Etched看來,隨著摩爾定律放緩,同時(shí)在性能和效率上取得突破的方法只剩下專用化。 不過對(duì)Etched和Sohu芯片,業(yè)界也有人提出質(zhì)疑。 曾撰寫爆火教程的華盛頓大學(xué)博士生Tim Dettmers指出,Etched官方的測(cè)試數(shù)據(jù)中GPU的性能可能并不是當(dāng)前SOTA方法。 創(chuàng)始人Uberti解釋H100的數(shù)據(jù)取自英偉達(dá)官方測(cè)試。 也有人不看好的原因是,Transformer之后還是會(huì)有下一個(gè)重大架構(gòu)突破。 曾有投資人透露,至少有6家公司正在秘密開發(fā)Transformer專用ASIC芯片,現(xiàn)在看來Etched只是浮出水面的第一家。 你看好Transformer專用芯片嗎?歡迎在評(píng)論區(qū)留下你的看法。 參考鏈接: 本文來源:量子位 |
原創(chuàng)欄目
IT百科
網(wǎng)友評(píng)論
聚超值•精選