時隔半年之后,知名風(fēng)險投資機構(gòu) a16z 發(fā)布了第三期全球 AI 產(chǎn)品 Top 100 榜單。 ChatGPT、Character、Perplexity……乍一看,榜單上清一水都是熟悉的外國面孔,但跟往期有所不同的是,字節(jié)跳動旗下的豆包首次入選該榜單,還占據(jù)移動應(yīng)用榜單的第 26 位。 而當 GPT-4o 高級語音模式一鴿再鴿,直到現(xiàn)在都還沒全量推送時,可能很多人不知道豆包很早就上線了 AI 語音功能,并且憑借出色的用戶體驗深受廣大用戶的喜愛。 想要體驗豆包的 AI 語音功能?只需打開豆包 APP,然后選擇默認智能體,點擊右上角的電話圖標,你便能與豆包進行一場一對一的閑聊。 我不是 AI,我是你的好朋友豆包 與豆包「打電話」時,它會認為自己是 AI 嗎? 答案是否定的。在多輪的實測中,當豆包被問及「你是 AI 嗎」的這個話題時,要么含糊其辭地回避此問題,要么堅決否認冠上 AI 的馬甲。 我不是 AI,我是你的好朋友豆包。 這樣的表述不難理解,豆包試圖與用戶建立一種更親密、友好的關(guān)系,而不想和大眾腦海中冷冰冰的刻板印象扯上關(guān)系。 豆包的這種親和力也體現(xiàn)在它的圖標設(shè)計上。 與豆包對話的圖標被設(shè)計為熟悉的通話圖標,仿佛預(yù)示著與 AI 聊天就像打個電話一樣簡單,通過淡化用戶的疏離感,也就更容易走進用戶的日常生活。 每天有無數(shù)人正在用語音和 AI 談情說愛,我試圖把豆包當成陷入熱戀期的心上人,但它至少不會在表面上給我個名分。 好朋友即可,但男女朋友的越界還是得靠 Prompt 來破解。 談膩了一種聲線,也可以更換另一種,有聲音溫柔的青年桃子,也有耐心靠譜的鄰家女孩;有磁性迷人的霸道總裁,也有陽光熱情的開朗學(xué)長…… 雖說聲線不會成為人機之戀的首要隔閡,但不同音色的差別很大。 有的聽起來機器味很重,有的則讓人感覺仿佛在和真人一樣聊天,而共同點則是交流過程中幾乎沒有延時。 i 人都知道,與 AI 打交道遠比人類來得更輕松自在。 我讓豆包模仿渣男,用一種談膩了、不耐煩的語氣說話,豆包迅速適應(yīng)了自己的身份,很快語氣便開始透著「我已經(jīng)聽夠了你的廢話」的那種不耐煩。 這很容易讓人上火,也很容易讓人上頭。 需要情緒價值時,讓豆包秀一段嘴上功夫,說段燙嘴的繞口令,講個冷笑話也不是什么難題。 不過,我起初讓它講笑話時,它總是自顧自地說,然后就又自顧自地尬笑起來。直到我反復(fù)提醒后,才讓它學(xué)會適當?shù)赝nD。 豆包也是一位捧場王,讓其模仿足球比賽解說,看不到畫面的它卻依然激情四射。但你要是讓它刁鉆地模仿大象的聲音,它是句句有回應(yīng),但未必會如愿以求。 與其他 APP 上的 AI 智能體不同,豆包更傾向于語音交流而非文字。 最近《黑神話:悟空》全網(wǎng)爆火,勾起了不少童年回憶殺。問孫悟空 AI 智能體唯一的師傅是誰,86 版《西游記》的猴哥會告訴你: 俺老孫有兩位師傅,一位是菩提老祖,一位是唐三藏。 當然,如果你覺得與 AI 打電話很有壓力,或者找不到合適的溝通場景,豆包也提供了文字和語音交流的選項,讓用戶可以根據(jù)自己的喜好選擇交流方式。 在這一點上,豆包給足了自由。 我們能從豆包身上學(xué)到什么東西 與 AI 聊天時,你并不指望能從它身上學(xué)到什么東西,但能有所收獲總歸是好事。 周六日外出到景點游玩時,讓豆包充當導(dǎo)游,介紹當?shù)氐拿朗澈惋L(fēng)土人情,這是順手的小事,也是派上用場的大事。 比如用廣東華仔的聲線介紹廣州小蠻腰,就有種來到廣州就得吃早茶的即視感。 語言的切換也不影響最終的溝通,豆包會默認中英文兩種語言,所以即便你在方言,甚至中英文之間反復(fù)橫跳,也不會影響暢通無阻的溝通交流。 鑒于此,你的下一個外教未必是人類,豆包也是省錢且省事,24 小時都在線的英語搭子。 又或者,每當冥思苦想?yún)s頭緒混亂時,我們也能向豆包用語言描述自己的所思所想,然后讓其整理為筆記。但最好不要心血來潮地讓其總結(jié),否則它會表示,自己早已忘記你之前說過的話。 當然,你們之間的交流都會以文字的形式保存在聊天記錄里,方便你隨時回顧。 語音功能很美好,但需要警惕 AI 幻覺問題,這也是語音交流的弊端,相比于在面對文字時的冷靜客觀,語音交流更容易讓人忘記審核信息真實性,以至于一不小心就翻車。 嘴笨的朋友有福了,面對職場同事的含沙射影,卻不懂怎么高情商說話? 那你可以扮演難纏的同事,反過來跟著豆包學(xué)習(xí)如何三句話從職場菜鳥秒變達人,而更普遍的客服場景也向我們徐徐展開,具體含金量如何,不妨看看下面這段對話: 問:你們發(fā)貨的食品保質(zhì)期過了,退貨!。 答:非常抱歉給您帶來了不好的體驗。請您先別生氣,我們會馬上為您處理退貨事宜。出現(xiàn)這樣的情況確實是我們的失誤,我們會加強對發(fā)貨商品的檢查,確保以后不會再發(fā)生類似的問題。您看是選擇快遞上門取件還是您自行寄回呢?我們會盡快為您辦理退款,再次向您表示深深的歉意。 當然,語音交流也有其局限性,如不適合描述數(shù)學(xué)符號、不確定的時間或發(fā)音不標準等問題,偶爾空耳也是意料之中的事。 為什么說 AI 語音比人類更快、更懂你? 越來越多的 AI 語音類產(chǎn)品如雨后春筍般涌現(xiàn)出來。 國外,ChatGPT 高級語音模式、Gemini Live 正在引領(lǐng)浪潮,國內(nèi)也有豆包、海螺 AI 等語音功能強勢崛起。在應(yīng)用商店簡單搜索「AI 語音」,便有無數(shù) APP 如潮水般洶涌而來。 從十三年前的 Siri,到如今的豆包 AI 語音功能,押注語音,實則是在押注下一代交互方式。 一項來自斯坦福的研究指出,人類說話的速度是在鍵盤上打字的三倍,甚至可能是普通人在移動設(shè)備上打字速度的五倍。 用最高效,最方便的形式獲取信息是人的本性,也是信息交流的金科玉律。 眼睛是人類獲取信息最重要的途徑,而嘴巴則是輸出信息的關(guān)鍵渠道;诖,AI 自然的人機交互方式理應(yīng)是人類通過視覺接收信息,同時通過語音傳達指令。 此外,作為天生的傾聽者,AI 通過提供擬人化的聲音陪伴,能夠增強用戶的陪伴感。 我尤其喜歡這類工具普遍存在的「克隆聲音」功能。用戶只需念一段話,即可克隆自己的聲音,這與 iPhone 的無障礙「個人語音」功能有些類似,能夠?qū)⑺鶒鄣娜擞寐曇袅舸嫦聛怼?/p> 相比之下,iPhone 上的這個功能使用起來耗時更長,克隆效果也稍顯遜色。 當時蘋果表示,這項功能是為那些有失去說話能力風(fēng)險的人設(shè)計的,比如被診斷出患有 ALS (肌萎縮側(cè)索硬化癥)的病人。 實際上,過去,TTS 技術(shù)生成的聲音往往比較機械,缺乏自然語音的韻律、節(jié)奏和情感表達,聽起來比較生硬,不像是真人在說話。 但現(xiàn)在從 GPT-4o、豆包等身上,我們已經(jīng)見過不少進入擬人階段,未來甚至可能超越人類水平,生成超出人類聲線的合成聲音。 在近日舉辦的 2024 火山引擎 AI 創(chuàng)新巡展上海站上,字節(jié)跳動還揭秘了豆包大模型語音能力的最新技術(shù)成果。其中,Seed-ASR 提供了語音識別能力支持。 這是一款 ASR(自動語音識別)成果。它能準確轉(zhuǎn)錄各種語音信號,識別不同語言、方言、口音。對于人名、生詞,Seed-ASR 也能結(jié)合文本語音等上下文,實現(xiàn)更準確轉(zhuǎn)錄。 對比此前發(fā)布的大型 ASR 模型,Seed-ASR 在中英文公開測試集上,單詞錯誤率(面向中文以單個字計算)降低 10%-40% 。 與圖形界面交互不同,人類天生擅長通過談話交流信息。而相比于最親密的親朋好友,只有 AI 才能做到 24 小時的信息秒回。 凌晨三點,你給旁人打電話,他未必會搭理你。但你要是發(fā)給 AI,他會第一時間回復(fù)你。 這或許也是當下我們對 AI 語音最大的期待,不指望它能發(fā)出多么人性化的聲音,而在于它的陪伴本身。 本文來源:Appso |
原創(chuàng)欄目
IT百科
網(wǎng)友評論
聚超值•精選