首頁(yè) > 科技要聞 > 科技> 正文

AI劉強(qiáng)東007帶貨,背后大模型也就10億參數(shù),京東:我家數(shù)字人平均水平

量子位 整合編輯:龔震 發(fā)布于:2024-04-25 21:01

23日,京東創(chuàng)始人劉強(qiáng)東又“加班”了。

準(zhǔn)確來說,是他的AI數(shù)字人形象“采銷東哥”,23日晚開啟了自己生涯第四場(chǎng)直播。

這次東哥干的是圖書采銷工作。

與上兩次直播不同,這一回直播間不僅有了數(shù)字人助理,還有多機(jī)位切換等展現(xiàn)方式。與此同時(shí),和留言區(qū)及屏幕前觀眾的互動(dòng)方式也有所增強(qiáng)。

量子位就此事詢問了京東云言犀算法總監(jiān),得到答案是:

每一場(chǎng)想側(cè)重表示的不一樣。技術(shù)的手段比較豐富,很難一場(chǎng)里面都推出來。

不得不說,京東這回拿自家的京東云言犀數(shù)字人擠牙膏,還挺有自己的節(jié)奏(doge)。

一周時(shí)間里,四場(chǎng)劉強(qiáng)東數(shù)字人連播,可謂出師大捷——

據(jù)公開的“戰(zhàn)報(bào)”,其首秀不到1小時(shí),直播間觀看量超2000萬(wàn),帶貨GMV超5000萬(wàn)。

難怪網(wǎng)上沖浪的時(shí)候,有人評(píng)價(jià)道,AI東哥真的是“數(shù)字人帶貨的天花板”了。

而且京東自己放話,這就是京東云言犀數(shù)字人的平均技術(shù)水平,且成本不到真人直播的1/10。

“自己的狗糧自己先吃”

劉強(qiáng)東AI數(shù)字人“采銷東哥”上播第一天起,就有許多質(zhì)疑。

質(zhì)疑一,真的是數(shù)字人嗎?真的不是讓劉強(qiáng)東提前坐那兒,錄好視頻然后再播嗎?

且看采銷東哥的表現(xiàn):

形象和真人劉強(qiáng)東幾乎一毛一樣,寸頭、西裝、左手腕帶表,肉眼難辨真?zhèn)巍?/p>

口音能較好貼合唇部動(dòng)作,語(yǔ)速快、連音多,一般語(yǔ)句吐字較輕,一些重點(diǎn)會(huì)重音表強(qiáng)調(diào),尋求認(rèn)同時(shí)用“啊”來銜接;耳朵尖的朋友可能還能聽出他的宿遷口音。

動(dòng)作姿態(tài)不算僵硬,能有頭部、手部的動(dòng)態(tài)動(dòng)作,且動(dòng)起來后整個(gè)人也受光均勻。

但隨著直播場(chǎng)數(shù)的增加,這種疑惑聲漸漸下去了。

可能大家都覺得,是在沒什么可能讓劉強(qiáng)東忙中撥冗,每天坐在那兒提前錄播吧。

質(zhì)疑二,如果真的是數(shù)字人劉強(qiáng)東,那大伙兒看到的效果,會(huì)不會(huì)是面對(duì)自家一號(hào)位做的“特供版”?

換言之,其他公司如果同樣想用京東云言犀數(shù)字人來做主播,是不是根本達(dá)不到這個(gè)效果?

就這個(gè)問題,京東云言犀負(fù)責(zé)人是站出來給了解釋的:“劉總數(shù)字人技術(shù),代表了我們現(xiàn)在的通用技術(shù)。”

大白話就是說,用了京東云言犀數(shù)字人,所有的大V/CEO主播都能有同樣的這個(gè)效果,至少在120秒之內(nèi)“惟妙惟肖”。

如果不信,可以親自驗(yàn)證——前段時(shí)間京東618招商,給所有品牌商家免費(fèi)開放了數(shù)字人基礎(chǔ)版使用30天權(quán)益,都能用上。

京東云言犀負(fù)責(zé)人笑著表示,去年京東云就已經(jīng)基于言犀大模型升級(jí)了數(shù)字人技術(shù)。

用句軟件公司的梗,“Eat your own dog food”,自己的狗糧自己先吃,最開始團(tuán)隊(duì)內(nèi)部先給京東云言犀負(fù)責(zé)人做了個(gè)AI數(shù)字人出來,但回頭看和現(xiàn)在劉強(qiáng)東的數(shù)字人沒法比。

2022年開始,京東云言犀數(shù)字人就已經(jīng)開始商業(yè)化,目前有4000多家品牌使用。

去年雙十一后,京東云言犀團(tuán)隊(duì)開始制作采銷AI數(shù)字人,首先是在大時(shí)尚事業(yè)部測(cè)試,包括公眾接受程度,停留時(shí)長(zhǎng),用戶轉(zhuǎn)換率,交互程度等。

團(tuán)隊(duì)心想,既然要追求刺激,那就把“Eat your own dog food”貫徹到底,干脆給公司老大也搞一個(gè)吧!

劉強(qiáng)東AI數(shù)字人“采銷東哥”就這么誕生了。

10億參數(shù)數(shù)字人大模型輕量上陣

采銷東哥身后,是京東云言犀大模型團(tuán)隊(duì),及其大模型做小后打造的10億參數(shù)數(shù)字人大模型。

總的技術(shù)來看,言犀2年多前就選擇了端到端的方式,即建模——驅(qū)動(dòng)——渲染的一體化。以至于Sora出來后,團(tuán)隊(duì)驚喜發(fā)現(xiàn)端到端的技術(shù)方向是可取、可喜的。

不過,雖然和Sora是同一條路子,但最后應(yīng)用的場(chǎng)景不太一樣,言犀大模型數(shù)字人的賽道更聚焦,專注人物生成(原因是團(tuán)隊(duì)評(píng)估人物視頻生成商業(yè)價(jià)值和社會(huì)影響力可能都更大)。

而關(guān)于端到端的路線,這里展開說兩句。

現(xiàn)在基本分為兩大類,一類是完全端到端,中間不對(duì)任何環(huán)節(jié)進(jìn)行顯示的建模,完全是隱性的,都在一個(gè)空間里面做;另一類是對(duì)簡(jiǎn)單基本素材的人臉建3萬(wàn)多個(gè)點(diǎn)Mesh模型,再去控制人物的表情、唇型,然后做紋理的渲染。

京東云言犀說得很明白,2種方案會(huì)根據(jù)場(chǎng)景需求做不同使用。

京東云言犀負(fù)責(zé)人表示,其間比較得意的是人物大姿態(tài)的動(dòng)作。

“早期真人數(shù)字人,動(dòng)作幅度比較小;旧夏槻坎粫(huì)怎么動(dòng),因?yàn)橐坏╊^動(dòng)了,可能就剩半個(gè)嘴唇了。”他透露,在大姿態(tài)方面做了較多技術(shù)投入,才有了現(xiàn)在AI劉強(qiáng)東的活動(dòng)自如。

此外,身為主播,語(yǔ)音表達(dá)無疑也十分重要。

既要復(fù)現(xiàn)真人主播的語(yǔ)音、語(yǔ)調(diào),又要學(xué)習(xí)真人說話的習(xí)慣,如語(yǔ)速、語(yǔ)調(diào)、重音、倒吸氣。

就拿劉強(qiáng)東本人來說,他講話很少有輔助詞,也較少清晰讀出連接詞,如“跟著”的“著”字經(jīng)常被一筆帶過。

因?yàn)槌錾K宿遷,他的話語(yǔ)里還是會(huì)“露餡”,冒出宿遷口音來。比如“時(shí)間”中的“sh”會(huì)有更重的鼻音;后鼻音有時(shí)會(huì)被吞掉,變成前鼻音。

就,還挺有特色的。

原本呢,京東云言犀技術(shù)團(tuán)隊(duì)的計(jì)劃是用劉強(qiáng)東2017年的一段演講音頻作學(xué)習(xí)素材,但測(cè)試發(fā)現(xiàn),演講時(shí)劉強(qiáng)東的語(yǔ)氣太過正式了,和直播帶貨有點(diǎn)畫風(fēng)不搭。

團(tuán)隊(duì)無奈把劉強(qiáng)東“抓”到鏡頭前,錄了30分鐘的音視頻,讓他閑聊自己的經(jīng)歷什么的。

用這段音頻為底提取出聲學(xué)特征,就能通過已經(jīng)被喂了5萬(wàn)小時(shí)語(yǔ)音數(shù)據(jù)訓(xùn)練的言犀語(yǔ)音大模型合成出人工語(yǔ)音。

不過據(jù)量子位了解,京東云言犀大模型團(tuán)隊(duì)的最新戰(zhàn)績(jī),是使用6秒素材復(fù)現(xiàn)具體某個(gè)人的聲音

團(tuán)隊(duì)成員還分享了其他一些關(guān)于AI數(shù)字人背后的事:

訓(xùn)練過程中,主賽道錨定人物向,因此不管是從數(shù)據(jù)的采集、清洗和各方面都做了精細(xì)化聚焦。

推理實(shí)現(xiàn)方面,除了模型代碼壓縮、量化等常規(guī)操作,還對(duì)INT4和INT8進(jìn)行了精度調(diào)改。

團(tuán)隊(duì)下一步計(jì)劃,是把語(yǔ)音、視頻生成兩塊綜合到一起。

當(dāng)然,另一部分挑戰(zhàn)是嘗試用非常小樣本或零樣本學(xué)習(xí)的方式就能抓住真人本尊的特點(diǎn),繼而生成惟妙惟肖的數(shù)字人。

“采銷東哥是京東數(shù)字人平均水平”

京東云言犀負(fù)責(zé)人表示,其實(shí)京東內(nèi)部對(duì)數(shù)字人有一個(gè)分級(jí)。

第一級(jí)的數(shù)字人效果,可以做真人的補(bǔ)充工作,處于向真人看齊階段。

第二級(jí)數(shù)字人可以媲美真人,真人不在,也可以承擔(dān)重要場(chǎng)合、重要時(shí)間的主播工作。

并且播出后,會(huì)有人分不清主播是真是假——從這個(gè)角度來說,圖靈測(cè)試應(yīng)該算是通過了。

不過,雖然在形象、表情、語(yǔ)音、動(dòng)作復(fù)刻尚佳,但是本尊的深度思想,大模型數(shù)字人還沒有辦法1:1同步。

到了第三階段,本尊和數(shù)字人之間不是替代關(guān)系,更像是真人有了個(gè)數(shù)字分身,能夠真正深度抓住本尊的思想、文化、知識(shí)背景、一些理念。

而且,京東自家直播間有一個(gè)120s戰(zhàn)斗。

簡(jiǎn)單說就是直播時(shí),如果用戶在120s之內(nèi)都不覺得眼前的數(shù)字人讓自己別扭,就會(huì)跨過恐怖谷效應(yīng),接受這個(gè)數(shù)字人,看他的展示、聽他的解說。

而且看到120s,因?yàn)閷?duì)主播產(chǎn)生了信任,往往很大概率會(huì)下單。

“目前來看,數(shù)字人直播帶貨有很大機(jī)會(huì)會(huì)成為一個(gè)大的爆點(diǎn)。”京東云言犀負(fù)責(zé)人解釋道,“主要是內(nèi)容層次達(dá)到了新的水準(zhǔn),大家的接受度和信任度已經(jīng)過了關(guān)鍵點(diǎn)了。”

說回“采銷東哥”,他現(xiàn)在幾乎能很完美地被生成120s以上的形象,并且足以以假亂真。

也就是說,“采銷東哥”現(xiàn)在處于京東數(shù)字人分級(jí)里的第二階段,這也是京東云言犀數(shù)字人的平均水平。

團(tuán)隊(duì)還提到,其實(shí)目前AI大模型數(shù)字人大規(guī)模商用,技術(shù)已經(jīng)不是難點(diǎn)了。

難點(diǎn)是什么呢?是主播個(gè)人的形象要跟整體調(diào)性相匹配,在選品、互動(dòng)方面還需要下很多功夫。

One More Thing

聊著聊著,一個(gè)有趣的問題被拋出來。

問,未來在京東直播間,有沒有可能誕生一個(gè)類似于董宇輝的AI數(shù)字人超級(jí)主播?

京東云言犀負(fù)責(zé)人和算法總監(jiān)相視一笑,說:

(這件事)技術(shù)上是有可能的,但在倫理和感情上不一定能成立。比如很多丈母娘喜歡董宇輝,是因?yàn)檫@個(gè)人有很實(shí)在的特質(zhì),很文雅,有知識(shí)。我不知道在倫理上到底之后會(huì)怎么解決……

文章來源:量子位

 

 

網(wǎng)友評(píng)論

聚超值•精選

推薦 手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
二維碼 回到頂部