太平洋科技要聞

國產(chǎn)3D虛擬人版《Her》「殺向」迪拜

量子位整合編輯：太平洋科技發(fā)布于：2024-10-21 17:33

好久沒出門，AI產(chǎn)品的世界已經(jīng)快進(jìn)到這個(gè)樣子了？

在全球三大IT展之一的GITEX GLOBAL上，量子位在某個(gè)展臺(tái)，先后體驗(yàn)了和Chatbot聊天、用AI創(chuàng)建屬于自己的3D數(shù)字人形象、和3D形象實(shí)時(shí)語言、肢體互動(dòng)。

也就是說，《Her》有了3D虛擬人版。

旁邊的展商過來神神秘秘說了句：

看上去是三個(gè)功能體驗(yàn)，但以后，這三個(gè)功能在產(chǎn)品里是要合并到一起的。

量子位還沒反應(yīng)過來，展商又補(bǔ)了一句：

創(chuàng)立這些數(shù)字形象，是希望以后用戶下線后，ta們的數(shù)字形象還能接著在社區(qū)里幫ta們聊天，減少自己聊聊到不合適的好友浪費(fèi)時(shí)間的情況。

啊……這……我……行吧，有了AI，和人聊天都有預(yù)制版了。

如果我說這家展商是個(gè)中國公司，也許不少朋友立馬能猜出來。

沒錯(cuò)，它就是Soul。

量子位在現(xiàn)場拉著Soul的工作人員大聊特聊了一番，其中不僅僅有Soul AI某子板塊負(fù)責(zé)人和他的組員，還被量子位捉到了這家公司的CTO陶明。

△Soul CTO陶明

這么好的機(jī)會(huì)，那還等什么？體驗(yàn)完展臺(tái)互動(dòng)，直接再安排庫庫一頓聊。

Gitex展會(huì)，Soul它Show了啥？

整個(gè)Soul的展位上，主要互動(dòng)區(qū)擺著三塊體驗(yàn)屏幕。

面向展位從左至右，分別可以體驗(yàn)：

左邊屏幕：與自己創(chuàng)建的3D數(shù)字人流暢互動(dòng)

中間屏幕：創(chuàng)建能語音文本對話、多語言交流的逼真3D數(shù)字人形象

右邊屏幕：和聊天機(jī)器人語音或文本聊天

量子位在這個(gè)展臺(tái)前站了很久，發(fā)現(xiàn)在此駐足的人，更喜歡體驗(yàn)左邊和中間的兩個(gè)功能。

而且大家去Soul展臺(tái)體驗(yàn)，仿佛有一個(gè)無形的規(guī)則，那就是選擇先在中間的屏幕前探索Soul的實(shí)時(shí)3D建模功能。

掰開了講，那就是現(xiàn)場拍一張?bào)w驗(yàn)者的照片，在幾秒鐘的時(shí)間內(nèi)，通過分析90多個(gè)面部形狀參數(shù)和6個(gè)屬性參數(shù)，快速重建虛擬的面部特征，完成虛擬3D形象的生成。

然后，體驗(yàn)者就可以與3D形象對話了。

但光有語言的交流還不夠——

到這個(gè)時(shí)候，大家就會(huì)（不自覺地）挪到左邊那塊屏幕前面。

屏幕上也是自己創(chuàng)造出的虛擬3D形象。基于實(shí)時(shí)的人體動(dòng)作識(shí)別、數(shù)字還原以及多模態(tài)對話交互能力，現(xiàn)場可以實(shí)現(xiàn)3D虛擬人與真人的沉浸式互動(dòng)。

多沉浸呢？由于配備了實(shí)時(shí)運(yùn)動(dòng)跟蹤，你可以說一些話or擺動(dòng)身體、四肢，來與屏幕那頭的ta低延遲交互。

值得多提一嘴，得益于Soul自家多模態(tài)AI模型在背后的支持，這兩個(gè)屏幕承載的AI體驗(yàn)，允許語音、文本和物理交互同時(shí)進(jìn)行。

AI社交，場景、模型的認(rèn)知與感知都很重要

盡管這家公司已經(jīng)推出了Soul海外版，但參加本次Gitex，其實(shí)是Soul在海外展會(huì)上的第一次亮相，

“從體驗(yàn)層面來說，海外產(chǎn)品希望給用戶端創(chuàng)造更好的粘性�！盨oul CTO陶明解釋道，“主要還是以Soul這個(gè)主平臺(tái)，來傳遞我們關(guān)于AIGC+社交的概念�！�

陶明表示，以他所見，AI+社交這條賽道，無論國內(nèi)外市場，都要有兩個(gè)必要條件。

一，是要持續(xù)地繼續(xù)往前發(fā)展。

二，是探索的場景和業(yè)務(wù)，其實(shí)現(xiàn)在還不是很明朗。

而Soul擁有的，是「人機(jī)對話」這個(gè)基礎(chǔ)點(diǎn)（或者稱為原子能力）。

在Soul的理念中，因?yàn)橛脩艉蜆I(yè)務(wù)之間其實(shí)存在鴻溝，所以要做的事不是把原子能力直接推向用戶，而是要建一個(gè)AI being和Human being共存的社區(qū)。

單點(diǎn)的聊天會(huì)在這個(gè)社區(qū)發(fā)生，但是社區(qū)無法靠單點(diǎn)聊天維持，“大模型六小強(qiáng)做的一些AI聊天產(chǎn)品，都有支持單點(diǎn)聊天的能力，但持續(xù)的聊天難以為繼，這就是因?yàn)槿魏蜛I不在場景里，人機(jī)單點(diǎn)聊天其實(shí)門檻很高�！�

Soul更希望打造不同的場景（比如語聊房），利用一些規(guī)則和策略，讓人和AI在一起社交，過程難辨真人還是AI。

這里的社交不會(huì)局限在聊天這一件事情上，AI NPC和真人用戶共同做同一件事，也很容易構(gòu)建彼此之間的鏈接。

如陶明所說，Soul的AI+社交理念，最基礎(chǔ)的一點(diǎn)是“必須要保證人和AI在同一時(shí)空下”。類似于現(xiàn)實(shí)世界和現(xiàn)實(shí)世界的仿真，人和人的仿真對AI和人建立聯(lián)系非常重要。

“如果只是單純聊天這件事，不太成立……一定要要發(fā)現(xiàn)場景，才能夠說能讓用戶有更好的體驗(yàn)�！�

這一方面，Soul是怎么基于理念來設(shè)計(jì)產(chǎn)品的呢？

舉幾個(gè)例子。

，在人和人、人和AI的交互過程當(dāng)中去打造更多的場景。

比如用戶和AI聊天，你發(fā)一張照片讓它知道你感冒了，然后就能圍繞感冒這個(gè)話題繼續(xù)對話，而不是非要硬找話題。

，和AI語音通話時(shí)，它聽到你周圍的環(huán)境音，判斷你在咖啡館或者音樂派對上，話題也能自然而然地展開了。

這就不難理解為什么Soul在大模型方面堅(jiān)持GPT-4o的方向，因?yàn)閳F(tuán)隊(duì)認(rèn)為一個(gè)AI，應(yīng)當(dāng)具有統(tǒng)一的感知能力和認(rèn)知能力。

純有認(rèn)知能力，并不能給用戶帶來價(jià)值，因?yàn)橛脩羰窍Ｍ桓兄降摹?/p>

而o1的方向同樣重要，因?yàn)閛1加強(qiáng)了大模型的認(rèn)知能力，其實(shí)就能給用戶帶來很好的體驗(yàn)。

社交平臺(tái)做AI《Her》會(huì)有什么不一樣嗎？

在社交平臺(tái)這條賽道上，Soul是絕對的頭部梯隊(duì)玩家。很多人不知道的是，它也是國內(nèi)最早將AI融入社交互動(dòng)的平臺(tái)之一。

App上線之初，Soul就開始搭建一些AI能力的基礎(chǔ)建設(shè)，兩個(gè)基于AI的引擎。

一個(gè)是靈犀引擎，基于Soul用戶站內(nèi)全場景畫像的智能推薦系統(tǒng)，通過AI技術(shù)，持續(xù)挖掘有效特征，通過算法方式提高用戶在內(nèi)容方向的消費(fèi)和互動(dòng)體驗(yàn)，提高用戶建立關(guān)系的效率和質(zhì)量。

另一個(gè)是NAWA引擎，為集AI、渲染與圖像處理于一體的集成化SDK，提供AR視頻技術(shù)、基于多模態(tài)感知與驅(qū)動(dòng)的交互技術(shù)和基于重建的虛擬形象技術(shù)，能夠輸出包含Avatar表情驅(qū)動(dòng)、美顏美妝、卡通化等數(shù)十種圖像處理與2D/3D渲染能力的引擎。用它創(chuàng)建的個(gè)性化3D頭像表現(xiàn)力更強(qiáng)，還能動(dòng)起來。

2020年（ChatGPT掀起大浪之前），Soul就開始啟動(dòng)對AIGC相關(guān)的算法研發(fā)工作，并在智能對話、圖像生成、語音&音樂生成等方面有了能力積累。

Soul在多模態(tài)領(lǐng)域發(fā)力很早，2023年Soul就推出自研垂類語言大模型Soul X，垂直應(yīng)用于平臺(tái)上多元社交互動(dòng)場景。

例如智能對話機(jī)器人“AI茍蛋”、AI輔助聊天、虛擬陪伴等諸多工具和功能什么的。