首頁 > 科技要聞 > 科技> 正文

國產(chǎn)3D虛擬人版《Her》「殺向」迪拜

量子位 整合編輯:太平洋科技 發(fā)布于:2024-10-21 17:33

好久沒出門,AI產(chǎn)品的世界已經(jīng)快進(jìn)到這個(gè)樣子了?

在全球三大IT展之一的GITEX GLOBAL上,量子位在某個(gè)展臺(tái),先后體驗(yàn)了和Chatbot聊天、用AI創(chuàng)建屬于自己的3D數(shù)字人形象、和3D形象實(shí)時(shí)語言、肢體互動(dòng)。

也就是說,《Her》有了3D虛擬人版。

旁邊的展商過來神神秘秘說了句:

看上去是三個(gè)功能體驗(yàn),但以后,這三個(gè)功能在產(chǎn)品里是要合并到一起的。

量子位還沒反應(yīng)過來,展商又補(bǔ)了一句:

創(chuàng)立這些數(shù)字形象,是希望以后用戶下線后,ta們的數(shù)字形象還能接著在社區(qū)里幫ta們聊天,減少自己聊聊到不合適的好友浪費(fèi)時(shí)間的情況。

啊……這……我……行吧,有了AI,和人聊天都有預(yù)制版了。

如果我說這家展商是個(gè)中國公司,也許不少朋友立馬能猜出來。

沒錯(cuò),它就是Soul。

量子位在現(xiàn)場拉著Soul的工作人員大聊特聊了一番,其中不僅僅有Soul AI某子板塊負(fù)責(zé)人和他的組員,還被量子位捉到了這家公司的CTO陶明。

Soul CTO陶明

這么好的機(jī)會(huì),那還等什么?體驗(yàn)完展臺(tái)互動(dòng),直接再安排庫庫一頓聊。

Gitex展會(huì),Soul它Show了啥?

整個(gè)Soul的展位上,主要互動(dòng)區(qū)擺著三塊體驗(yàn)屏幕。

面向展位從左至右,分別可以體驗(yàn):

左邊屏幕:與自己創(chuàng)建的3D數(shù)字人流暢互動(dòng)

中間屏幕:創(chuàng)建能語音文本對話、多語言交流的逼真3D數(shù)字人形象

右邊屏幕:和聊天機(jī)器人語音或文本聊天

量子位在這個(gè)展臺(tái)前站了很久,發(fā)現(xiàn)在此駐足的人,更喜歡體驗(yàn)左邊和中間的兩個(gè)功能。

而且大家去Soul展臺(tái)體驗(yàn),仿佛有一個(gè)無形的規(guī)則,那就是選擇先在中間的屏幕前探索Soul的實(shí)時(shí)3D建模功能。

掰開了講,那就是現(xiàn)場拍一張?bào)w驗(yàn)者的照片,在幾秒鐘的時(shí)間內(nèi),通過分析90多個(gè)面部形狀參數(shù)和6個(gè)屬性參數(shù),快速重建虛擬的面部特征,完成虛擬3D形象的生成。

然后,體驗(yàn)者就可以與3D形象對話了。

但光有語言的交流還不夠——

到這個(gè)時(shí)候,大家就會(huì)(不自覺地)挪到左邊那塊屏幕前面。

屏幕上也是自己創(chuàng)造出的虛擬3D形象。基于實(shí)時(shí)的人體動(dòng)作識(shí)別、數(shù)字還原以及多模態(tài)對話交互能力,現(xiàn)場可以實(shí)現(xiàn)3D虛擬人與真人的沉浸式互動(dòng)。

多沉浸呢?由于配備了實(shí)時(shí)運(yùn)動(dòng)跟蹤,你可以說一些話or擺動(dòng)身體、四肢,來與屏幕那頭的ta低延遲交互。

值得多提一嘴,得益于Soul自家多模態(tài)AI模型在背后的支持,這兩個(gè)屏幕承載的AI體驗(yàn),允許語音、文本和物理交互同時(shí)進(jìn)行。

AI社交,場景、模型的認(rèn)知與感知都很重要

盡管這家公司已經(jīng)推出了Soul海外版,但參加本次Gitex,其實(shí)是Soul在海外展會(huì)上的第一次亮相,

“從體驗(yàn)層面來說,海外產(chǎn)品希望給用戶端創(chuàng)造更好的粘性!盨oul CTO陶明解釋道,“主要還是以Soul這個(gè)主平臺(tái),來傳遞我們關(guān)于AIGC+社交的概念!

陶明表示,以他所見,AI+社交這條賽道,無論國內(nèi)外市場,都要有兩個(gè)必要條件。

一,是要持續(xù)地繼續(xù)往前發(fā)展。

二,是探索的場景和業(yè)務(wù),其實(shí)現(xiàn)在還不是很明朗。

而Soul擁有的,是「人機(jī)對話」這個(gè)基礎(chǔ)點(diǎn)(或者稱為原子能力) 。

在Soul的理念中,因?yàn)橛脩艉蜆I(yè)務(wù)之間其實(shí)存在鴻溝,所以要做的事不是把原子能力直接推向用戶,而是要建一個(gè)AI being和Human being共存的社區(qū)。

單點(diǎn)的聊天會(huì)在這個(gè)社區(qū)發(fā)生,但是社區(qū)無法靠單點(diǎn)聊天維持,“大模型六小強(qiáng)做的一些AI聊天產(chǎn)品,都有支持單點(diǎn)聊天的能力,但持續(xù)的聊天難以為繼,這就是因?yàn)槿魏蜛I不在場景里,人機(jī)單點(diǎn)聊天其實(shí)門檻很高!

Soul更希望打造不同的場景(比如語聊房),利用一些規(guī)則和策略,讓人和AI在一起社交,過程難辨真人還是AI。

這里的社交不會(huì)局限在聊天這一件事情上,AI NPC和真人用戶共同做同一件事,也很容易構(gòu)建彼此之間的鏈接。

如陶明所說,Soul的AI+社交理念,最基礎(chǔ)的一點(diǎn)是“必須要保證人和AI在同一時(shí)空下”。類似于現(xiàn)實(shí)世界和現(xiàn)實(shí)世界的仿真,人和人的仿真對AI和人建立聯(lián)系非常重要。

“如果只是單純聊天這件事,不太成立……一定要要發(fā)現(xiàn)場景,才能夠說能讓用戶有更好的體驗(yàn)!

這一方面,Soul是怎么基于理念來設(shè)計(jì)產(chǎn)品的呢?

舉幾個(gè)例子。

,在人和人、人和AI的交互過程當(dāng)中去打造更多的場景。

比如用戶和AI聊天,你發(fā)一張照片讓它知道你感冒了,然后就能圍繞感冒這個(gè)話題繼續(xù)對話,而不是非要硬找話題。

,和AI語音通話時(shí),它聽到你周圍的環(huán)境音,判斷你在咖啡館或者音樂派對上,話題也能自然而然地展開了。

這就不難理解為什么Soul在大模型方面堅(jiān)持GPT-4o的方向,因?yàn)閳F(tuán)隊(duì)認(rèn)為一個(gè)AI,應(yīng)當(dāng)具有統(tǒng)一的感知能力和認(rèn)知能力。

純有認(rèn)知能力,并不能給用戶帶來價(jià)值,因?yàn)橛脩羰窍M桓兄降摹?/p>

而o1的方向同樣重要,因?yàn)閛1加強(qiáng)了大模型的認(rèn)知能力,其實(shí)就能給用戶帶來很好的體驗(yàn)。

社交平臺(tái)做AI《Her》會(huì)有什么不一樣嗎?

在社交平臺(tái)這條賽道上,Soul是絕對的頭部梯隊(duì)玩家。很多人不知道的是,它也是國內(nèi)最早將AI融入社交互動(dòng)的平臺(tái)之一。

App上線之初,Soul就開始搭建一些AI能力的基礎(chǔ)建設(shè),兩個(gè)基于AI的引擎。

一個(gè)是靈犀引擎,基于Soul用戶站內(nèi)全場景畫像的智能推薦系統(tǒng),通過AI技術(shù),持續(xù)挖掘有效特征,通過算法方式提高用戶在內(nèi)容方向的消費(fèi)和互動(dòng)體驗(yàn),提高用戶建立關(guān)系的效率和質(zhì)量。

另一個(gè)是NAWA引擎,為集AI、渲染與圖像處理于一體的集成化SDK,提供AR視頻技術(shù)、基于多模態(tài)感知與驅(qū)動(dòng)的交互技術(shù)和基于重建的虛擬形象技術(shù),能夠輸出包含Avatar表情驅(qū)動(dòng)、美顏美妝、卡通化等數(shù)十種圖像處理與2D/3D渲染能力的引擎。用它創(chuàng)建的個(gè)性化3D頭像表現(xiàn)力更強(qiáng),還能動(dòng)起來。

2020年(ChatGPT掀起大浪之前),Soul就開始啟動(dòng)對AIGC相關(guān)的算法研發(fā)工作,并在智能對話、圖像生成、語音&音樂生成等方面有了能力積累。

Soul在多模態(tài)領(lǐng)域發(fā)力很早,2023年Soul就推出自研垂類語言大模型Soul X,垂直應(yīng)用于平臺(tái)上多元社交互動(dòng)場景。

例如智能對話機(jī)器人“AI茍蛋”、AI輔助聊天、虛擬陪伴等諸多工具和功能什么的。

在Soul上開啟AI輔助聊天

當(dāng)時(shí)的Soul是這么說的:

AIGC帶給社交的不僅僅是交互效率、交互質(zhì)量和交互體驗(yàn)的提升,同時(shí)以智能體和虛擬人為代表的交互對象也在發(fā)生變革,這意味著社交出現(xiàn)代際的迭代,社交的范圍也會(huì)被重新定義,社交產(chǎn)品的形態(tài)也在發(fā)生改變。

今年,Soul持續(xù)開搞“AIGC+社交”。

目標(biāo)很明確:

在有技術(shù)能力基礎(chǔ)、有用戶實(shí)際需求、認(rèn)準(zhǔn)“模應(yīng)一體”方向的情況下,推動(dòng)AIGC和社交場景的深度融合。

Soul推出了最新的端到端多模態(tài)AI模型,該模型集成了文本、語音和視覺交互,具備超低延遲、聲音擬真、情緒感知等特點(diǎn)。

端到端尤其顯著地降低了聊天的延遲。

陶明披露,Soul現(xiàn)在的語音對話延遲不到200毫秒,“這不再像以前那樣是一個(gè)連續(xù)的過程,我們首先生成文本和圖像,然后將它們轉(zhuǎn)換為語音,F(xiàn)在,我們將語音和 NLP 統(tǒng)一到一個(gè)集成流程中,從而消除了滯后問題。”

而同時(shí)期的“數(shù)字孿生”功能,則允許用戶根據(jù)過去的交互或自定義設(shè)置,創(chuàng)建自己的個(gè)性化虛擬版本。

現(xiàn)在,剛剛在Gitex上秀了一把的Soul,又快宣布自己的新進(jìn)展了。

陶明表示,預(yù)計(jì)到了11月,平臺(tái)將推出全雙工視頻通話能力, Soul的AI NPC就能“看得見了”。

也就是說,下個(gè)月,用戶們就能在Soul里實(shí)時(shí)和AI的視頻聊天了,對方還是有形象、有表情、有記憶,會(huì)對前幾天不經(jīng)意咳嗽過一句的你,說感冒好了沒有的那種。

這就很《Her》!

之前國內(nèi)外很多團(tuán)隊(duì)都發(fā)過各種版本的《Her》,但這次的期待有所不同——

不是在期待語音是否最逼真、延遲是否最低,口型是否對得最好,而是期待,加入AI元素的社交平臺(tái)公司,熟諳搞社交那一套,在這個(gè)人機(jī)交互的產(chǎn)品/功能上,會(huì)不會(huì)有特別的設(shè)計(jì)。

不過時(shí)間還沒到,只有先期待一波咯~

關(guān)于Gitex

Soul參加的這個(gè)海外展會(huì),GITEX GLOBAL全球三大IT展之一,本周五在阿聯(lián)酋迪拜落下帷幕。

這是第44屆GITEX GLOBAL,不出意外創(chuàng)下新高,規(guī)模迄今為止最大:

吸引了超過6500家參展商、1800家初創(chuàng)企業(yè)、1200名投資者以及來自180多個(gè)國家的政府參與。

連迪拜王室也組團(tuán)蒞臨現(xiàn)場視察……

這陣仗,讓本來就肩膀挨著肩膀的場館現(xiàn)場更是水泄不通了。

盡管如此,量子位還是拿出go shopping的激情,在二十幾個(gè)展館里一個(gè)挨一個(gè)地認(rèn)真逛。

終于,不僅打卡了很多中國企業(yè)出海來參展的展臺(tái),比如阿里、華為、騰訊、涂鴉智能、普渡機(jī)器人等等;

也看到了全球范圍內(nèi)很多AI公司的身影出現(xiàn)在現(xiàn)場,比如英國AI獨(dú)角獸Builder.ai(對沒錯(cuò),背后微軟支持,但創(chuàng)始人一直官司不斷的那家)、中國的智譜華章等。

當(dāng)然,如果對電子方面感興趣的朋友們,一定會(huì)逛得更快樂,現(xiàn)場連表情最豐富的機(jī)器人阿美卡和小鵬的飛行汽車都有,還有很多沒太看明白設(shè)計(jì)(但中東土豪們肯定喜歡)的飛行器。

不簡單啊不簡單。

本文來源:量子位

量子位

網(wǎng)友評論

聚超值•精選

推薦 手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
二維碼 回到頂部