首頁 > 科技要聞 > 科技> 正文

零一萬物發(fā)布旗艦預訓練模型,李開復回應AI六小虎困境傳言:融資、芯片都不是問題

騰訊科技 整合編輯:太平洋科技 發(fā)布于:2024-10-17 17:03

最近,自媒體關于國內的“AI六小虎”有一些負面?zhèn)餮浴硯准曳艞夘A訓練,并指出零一萬物就是其中一家,對此,零一萬物創(chuàng)始人李開復曾在上周親自發(fā)聲辟謠。

10月16日,零一萬物正式發(fā)布了新的預訓練模型 Yi-Lightning。

在 Yi-Lightning的發(fā)布會上,李開復提到:“據(jù)我了解,目前“AI六小虎”在融資方面都有足夠的資金支持,可以承擔起預訓練模型的運行成本。因此,只要這些公司能夠吸引到足夠的優(yōu)秀人才,并有決心進行預訓練模型的開發(fā),資金和芯片資源都不會成為障礙。盡管這樣的公司可能會越來越少,但只要他們能夠持續(xù)投入,中國大模型公司就有可能在全球范圍內取得領先地位!

零一萬物發(fā)布的最新旗艦模型 Yi-Lightning,與零一萬物上半年發(fā)布的千億參數(shù)模型 Yi-Large 相比,在性能更進一步的前提下,推理速度方面有著極大提升。根據(jù)官方發(fā)布的評測數(shù)據(jù)顯示,在 8xH100 算力基礎下,以同樣的任務規(guī)模進行測試,Yi-Lightning 的首包時間(從接收到任務請求到系統(tǒng)開始輸出響應結果之間的時間)僅為 Yi-Large 的一半,最高生成速度也提升了近四成,實現(xiàn)了旗艦模型的性能升級。

在國際權威盲測榜單 LMSYS 上,Yi-Lightning 排名第六,暫時位列GPT-4o-2024-05-13、Anthropic Claude 3.5 Sonnet之前。

圖注:國際權威盲測榜單LMSYS 中,大語言模型綜合能力排名

根據(jù)李開復介紹,模型性能與推理速度的提升,一方面因為零一萬物重視AI Infra能力的提升,2024年以來,中國大模型行業(yè)從狂奔進入到了“長跑階段”,而大模型公司的核心競爭力模型+AI 基礎設施+應用,缺一不可。

另外一方面,Yi-Lightning更新了模型架構,不再應用稠密模型架構,而是采用了 Mixture of Experts(MoE)混合專家模型架構,并在模型訓練過程中做了新的嘗試:

1、混合注意力機制:為了處理長序列數(shù)據(jù),Yi-Lightning 采用了混合注意力機制,這種機制結合了全注意力和滑動窗口注意力,以平衡性能和計算資源消耗。此外,引入了跨層注意力(CLA),允許模型在不同層次間共享鍵和值,減少存儲需求,提高推理效率。

2、動態(tài) Top-P 路由:Yi-Lightning 采用了動態(tài) Top-P 路由機制,這種機制可以根據(jù)任務難度自動選擇最合適的專家網絡組合,與傳統(tǒng)的 Top-K 路由相比,它更靈活,能夠平衡推理成本和模型性能。

3、多階段訓練:Yi-Lightning 的訓練過程采用了多階段訓練模式,前期注重數(shù)據(jù)多樣性,后期側重于更豐富、知識性更強的數(shù)據(jù)。這種訓練方法有助于模型吸收不同階段的知識,并通過調整 batch size 和學習率(LR)來保證訓練速度和穩(wěn)定性。

在發(fā)布新模型的同時,零一萬物同時也發(fā)布了面向ToB市場的首款產品——AI 2.0數(shù)字人,為零售和電商場景設計,利用最新的Yi Lightning旗艦模型提供行業(yè)解決方案;赮i Lightning,構建了一套包括角色、聲音和電商話術的完整模型體系。

針對于行業(yè)長期熱議的大模型公司并沒有建立起真正的PMF問題,李開復進一步強調,核心在于基礎模型能力需要真正強大及大模型成本還不足夠低。

“我們認為,人工智能(AI)時代的到來也將使現(xiàn)有的應用再次經歷變革,轉變?yōu)榛贏I的新形態(tài)應用。然而,盡管我們已經討論了一年,這些應用的普及似乎還遠未到來。目前,最賺錢的實際上是像英偉達這樣的芯片公司,而非應用公司!

此外,李開復強調,要激活一個健康的生態(tài)系統(tǒng),關鍵在于擁有頂級的模型,并且這些模型的價格要足夠低,以促進應用的發(fā)展。如果模型太貴,可能會導致應用開發(fā)公司破產。

關鍵在于,如果好的模型價格過高,應用就無法迅速普及,也就無法實現(xiàn)普惠。我們今天發(fā)布的模型,希望能夠讓我們更接近這一愿景!

李開復所提到的大模型成本問題,確實大模型邁向下一步需要解決的最重要問題之一,這里包含兩個方面:首先,對于大模型企業(yè)來說,需要不斷迭代更優(yōu)質的模型,提高核心競爭力,模型迭代速度很快,每個模型能夠給企業(yè)創(chuàng)造營收的時間窗口可能只有一年左右,甚至更短。這對模型創(chuàng)業(yè)企業(yè)的商業(yè)模式挑戰(zhàn)很大;

另外一方面,對于使用大模型的企業(yè)來說,如果采用性能最強大的基座模型,推理成本居高不下,這也是需要解決的巨大問題。

只有模型能力和成本問題能夠被逐步解決,基于AI的商業(yè)生態(tài)才能真正健康地發(fā)展。

在發(fā)布會上,李開復也與包括騰訊科技在內的媒體進行了深度溝通,并正面回復了關于大模型領域的成本 、競爭等重要問題,以下為內容實錄:

Q:此前有消息稱AI方面的六小虎,某幾家放棄了預訓練,開復博士已辟謠了,但站在行業(yè)的角度請評估逐步放棄預訓練模型將是行業(yè)整個趨勢嗎?

李開復:我覺得做好預訓練模型是一個技術活,而且是要非常多有才華的人在一起工作,慢工出細活,需要有懂芯片的人,懂推理的人,懂基礎架構的人,懂模型的人,有很好的算法同學,一起做出來。

如果一個公司能有幸擁有這么多優(yōu)秀的人才,能夠跨領域的合作,那我相信中國是絕對可以做出世界排名前十的預訓練的通用模型,但不是每家公司都可以做這件事情,做這件事情的成本也比較高,以后有可能會越來越少的大模型公司訓練做預訓練。不過據(jù)我所知,這六家公司融資額度都是夠的,我們做預訓練的production run,訓練一次三四百萬美金,這個錢也是頭部公司都付得起,我覺得中國的六家大模型公司只要有夠好的人才,想做預訓練的決心,融資額跟芯片都不會是問題的。

Q:OpenAI的o1發(fā)布后,很多人認為,從技術上會帶來新的范式。這對初創(chuàng)公司來說會有哪些影響?

李開復:我剛從美國回來,跟OpenAI的人員也有溝通,他們跟我分享的是公司內部還有一些好東西,但是他們不急拿出來,因為他們領先行業(yè)足夠多,到了一定的業(yè)務節(jié)點才釋放出來,這是他們能做而別人不能做。OpenAI o1 雖然隱藏了所有中間的思考狀態(tài),但是很多人還是在網上開始猜它怎么做,我們認為有一些揣測還是比較靠譜,我覺得五個月以后應該也有不少類似o1 模型的能力出現(xiàn)在各個模型公司,包括零一萬物。

o1的思考模式是把之前只在預訓練中 scaling (規(guī)模定律)的趨勢擴展到了推理的時候,這件事情對行業(yè)是最大的認知改變。過去大家覺得誰預訓練做好就夠了,慢慢大家發(fā)現(xiàn)后訓練SFT和強化訓練都是非常重要。

所以零一萬物的團隊剛開始做的主要是專注預訓練,之后又有很多很厲害的人加入,幫我們把Posttrain(后訓練)也做出來,現(xiàn)在看來推理也很重要,一年半以前大家覺得大模型最厲害的地方就是預訓練,一年以后發(fā)現(xiàn)后訓練也是同樣重要,這感謝OpenAI點醒我們這一點,現(xiàn)在我相信很多中美公司都在往o1 方向狂奔。

Q:李開復博士之前曾表示不會從事虧損的To B業(yè)務。然而,在最近的發(fā)布會上,他首次公布了相關的產品矩陣,這似乎表明公司正在嘗試更深入地探索To B市場。這是否意味著零一萬物已經找到了解決AI 1.0時代SaaS行業(yè)普遍面臨的低利潤和虧損問題的方法?

李開復:我們特別重視給每一個用戶提供價值,所以我們不會去說有模型,你要拿來做什么,我賣給你,你先給錢,這樣對用戶是不會滿足的。另外一種常見的做法,就是到企業(yè)里,企業(yè)說我要做客服,模型賣給我,怎么做客服我不會做,你幫我做,這就成為和AI1.0時代一樣的可以稱為系統(tǒng)集成型的AI,也就是說賣模型給你,先幫你把客服應用做好,這樣的情況下很難有利潤,之前我說如果做一單賠一單的to B,零一萬物寧可不做,這句話我們并沒有改變。

我們剛剛發(fā)布的AI 2.0數(shù)字人解決方案不會做一單賠一單,因為它是專注到用戶重大的痛點需求和盈利點,也就是說一個店長或KOL平時做一次直播浪費最重要的資源,就是他的時間,而且這個時間就算做一小時的直播能賺到一千塊錢,也就是一千塊錢,但如果用數(shù)字人直播就不是一小時了,可能可以做一千個小時,哪怕每一個小時只能賺一半的錢,一千個小時還是可以賺五百倍的錢,這樣的賬就很好算了。如果真的能把數(shù)字人做到端到端,只要輸入公司內部的東西,這次減價的,選一個形象、聲音按一個鈕就開始百錄甚至千錄的直播,等于你是賣給這個企業(yè)一個印鈔機,印鈔機要收租賃費就是可行的了。除了直播以外,我們的AI 2.0數(shù)字人解決方案已經跑通了更多業(yè)務場景,比如AI伴侶、IP形象、辦公會議等等。

我們繼續(xù)執(zhí)行模應一體戰(zhàn)略,將Yi-Lightning模型能力與數(shù)字人解決方案結合,不斷迭代產品,后續(xù)會解鎖更多業(yè)務場景。

回到國內的SaaS的問題,國內現(xiàn)在很難說到SaaS,整個收費模式和商業(yè)模式在美國走通了,但國內還是一直有很大的問題。但也有一些行業(yè)可以走通SaaS,SaaS按使用收費,也可以訂閱,按照每個月收費,也可以用分成,這些模式都可以綜合稱為比較好的商業(yè)模式,因為它不是一次性賣掉,像一個項目制的公司幫你做一個客服賣給你,你付錢就走了,以后沒有錢可以收了,而是可以持續(xù)收費。剛才講的模式,無論分成、訂閱的SaaS模式才是可持續(xù)的商業(yè)模式,今天我們并沒有看到一個普遍被接受的SaaS模式的存在。所以在國內,我們大模型to B相對于AI 1.0時代有不同的打法,首要任務就是要尋找少數(shù)能夠按使用情況收費的方法,而不是項目定制的方法,能得到比較高利潤率的訂單再去做。

整體來看,零一萬物 ToB 整體解決方案會采取“一橫一縱”的打法。和Yi-Large相比,Yi-lightning的模型性能又有大幅提升,作為國際 SOTA 的基座模型,他們本身就具備著出色的泛化性,再加上零一萬物自身擁有很強大的SFT(監(jiān)督學習)能力。這些技術能力使得我們的團隊能夠先將單個行業(yè)做深做透,進而以自身技術能力和行業(yè)積累為基礎,凝練出標準化的ToB解決方案,為各行各業(yè)的企業(yè)客戶降本提效,將世界第一梯隊的大模型用到實處,真正為企業(yè)帶來業(yè)務增長和新競爭力。

Q:從國際權威盲測榜單 LMSYS 結果來看,Yi-Large已經將中美頂級模型之間的時間差距縮短至六個月,而最新模型更是超越了GPT-4o,進一步將這一時間差距縮短至五個月。對于中國的大模型初創(chuàng)公司而言,為了持續(xù)縮小與國際領先水平的時間差距,預訓練模型需要具備哪些獨特的特性和優(yōu)勢?

李開復:縮短時間差非常困難,我不預測我們可以縮短這個時間差。因為畢竟人家是用十萬張GPU訓練出來,我們用的是兩千張GPU訓練出來,我們時間差能達到只是因為我們模型、AI Infra等團隊都熱心聰明,去使用和理解對方做出來的東西,再加上我們自己每家的研發(fā)有特色,比如數(shù)據(jù)處理、訓推優(yōu)化等等,現(xiàn)在這一套方法論在零一萬物已經成熟了,我們有信心把自己的創(chuàng)新加上我們的一些特長,在關注OpenAI和其他公司發(fā)布的新技術,盡快地去能夠了解這些技術的核心重要性,然后把它的能力在我們自己的產品里面發(fā)揮出來,我覺得這套方法保持在六個月左右,就已經是很好的結果了。

如果期待破局,可能需要一個前所未有的算法才有機會。我們千萬不要認為落后六個月是一個很羞恥的事情,或者一定是要追趕的事情。因為我很多美國朋友都認為中國會遠遠落后,也有美國朋友包括一些中國朋友按照這個打法,人家十萬張GPU等,我們要被甩掉三年、五年甚至十年都有可能。

現(xiàn)在從零一萬物證明了不會落后這么多,而且這次LMSYS的榜單上也有兩家其他中國公司表現(xiàn)也不錯,也不是只有我們一家在做。所以對于奮力圖強、勤奮努力、聰明多元化的團隊,在國內擁有這樣團隊的公司,要用類似零一萬物的打法,去貼近美國最頂尖的公司,不落后超過六個月,我覺得是可能,而且不只是我們一家可能,但難度是高的,希望再往下減非常困難,除非真的有一個發(fā)明和科技上的突破。

Q:零一萬物在海外市場推出了面向消費者(To C)的產品,同時在國內也逐步推出了面向企業(yè)(To B)的產品。在這種背景下,如何看待To B和To C產品之間的界限?

李開復:對,我覺得一個大模型公司同時做to B和to C也是很辛苦的,也是需要多元化的管理方式,因為兩個團隊的基因不一樣,做事的方法和衡量KPI的方法都不太一樣,我自己在這兩個領域有經驗,也在試著做,但是也絕對不能什么都做,所以to B選擇做國內因為我們找到了一些破局的空間,比如用數(shù)字人來做零售,來做餐飲等等,這能做一個完整的解決方案,另外還有兩三個領域開始在做,現(xiàn)在還不方便披露。

我們覺得這樣的to B工作只能在中國做,因為要觸達美國的用戶或國外的用戶不太可能,所以全世界的范疇來說,to B供應商基本都是當?shù)氐?/strong>,即便在中國要買SAP的產品也是SAP中國賣給你,所以跨國的設立分公司做to B絕對不是我們或其他的創(chuàng)業(yè)公司能做的,所以to B的國外就放棄了,做to B就做國內,做to B就做有利潤的解決方案,而不只是賣模型,不只是做項目制,這是我們to B的做法。

to C我們主要布局海外,有好幾個理由。第一個理由,當我們開始做零一萬物時國內還沒有合適的中文模型,我們只有在國外先嘗試,嘗試了一段就有了心得,就迭代了一個、兩個、三個產品,這些產品現(xiàn)在表現(xiàn)有些很好,有些沒有那么好,我們也在不斷地調整中。

我們在國內也在觀察什么時候適合在國內做什么樣的產品,to C的產品在中國國內走流量有一個很大的問題,就是流量的成本越來越高,我們也看到了有些友商的單用戶成本從十幾塊人民幣加到三十多塊人民幣,近來還有相當?shù)牧魇?/strong>,在這樣一個挑戰(zhàn)環(huán)境里我們會非常謹慎,先不推出中國本土新的to C的應用,我們已有的產品還會繼續(xù)維護,但更多的精力會在國外的土壤用更低廉的錢買到非常高質量的用戶,或者能直接把App賣出去,讓用戶來訂閱收費,這個訂閱的習慣在國外也是比較良好,主要是這幾個理由。

現(xiàn)在當下最大的理由還是說國外做to C的產品,我們變現(xiàn)能力和消耗用戶增長的成本算賬可以算得過來,以后再關注國內有什么機會可以推出。

有關這兩者有沒有相似的地方?相似挺多。首先兩邊都需要非常高質量、快速的模型,我們有。另外我們會需要用到各種預訓練和后訓練的技術,這兩邊都會用上,一個to C的應用,調一個數(shù)字人的應用方法都需要類似的技術,我們有技術累積。當我們最終做出產品,比如to B的產品里面需要的各種功能,還有to C需要的功能也有很多可以共用,比如AI閱讀、AI撰寫、AI PPT、AI搜索是很多to B、to C應用需要的模塊,今天看傳統(tǒng)的軟件底層還有很多是相似的,就是Windows里面提供平臺的API都是to B、to C共用,我們也在累積這些共用的地方

Q:零一的新模型居然拿出如此低的價格,是否有比較大的成本壓力?

李開復:零一萬物在Yi-Lightning的定價上并沒有虧本。從成立的第一天起,零一萬物就同時啟動了模型訓練、AI Infra、AI 應用三大團隊。當三個團隊都成熟了以后,再對接到一起。零一萬物這一模式總結為;步、模應一體兩大戰(zhàn)略——AI Infra能力助力模型訓練和推理,以更低的訓練成本訓練出性能領先的模型,以更低的推理成本支撐應用層的探索。出色的模型性能與低廉的推理成本不僅能支撐零一萬物開拓絕佳的ToB應用場景,還能讓零一萬物推出的大模型ToB解決方案更具性價比,進而與企業(yè)合作伙伴一起探尋大模型時代的TC-PMF。

之前回應行業(yè)價格戰(zhàn)時,我的回答就是零一萬物不參與價格戰(zhàn)。另外,我當時也提到,不能只看模型價格,還要看模型性能是否足夠好。當時有很多性能較差的模型價格降到非常低,甚至是免費,我相信當時選擇接入這類模型API的企業(yè)與個人,收獲都不達預期。要接入API,足夠好的模型性能很重要,不然產品無法達到PMF。

另外很重要的一點就是把高性能模型的價格降到白菜價,0.99元人民幣/百萬 token 的價格很便宜,但如果一個應用里每個用戶每天調用十幾次,累積下來每年的成本還是不容忽視的。

零一萬物也在做App,我們知道做App需要控制成本,所以我們不會賠錢賣模型,但也不會賺很多錢,而是在成本線上加一點點小小的利潤,就得到了今天0.99元/百萬token的價格。歡迎大家試用,一定物超所值。挑選模型API最重要的一點,就是模型性能一定要優(yōu)秀,在這個前提之下才能去挑最便宜的,實際算一算用戶調用量會是多少,賬算不算得過來。我相信,綜合Yi-Lightning的模型質量和價格來看,Yi-Lightning很可能是很多開發(fā)者最認可、最高性價比的模型了。

Q:此次公布的 ToB 解決方案矩陣是完整的嗎?近期是否還會公布其他 ToB 解決方案?

李開復:除了我們已經發(fā)布的AI 2.0數(shù)字人、API之外,零一萬物目前還有 AI Infra 解決方案、私有化定制模型等其他 ToB 業(yè)務,我們會在近期正式對外發(fā)布,敬請期待。

本文來源:騰訊科技

網友評論

聚超值•精選

推薦 手機 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
二維碼 回到頂部